<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Text-Mining on rizkidoank</title>
    <link>https://rizkidoank.com/tags/text-mining/</link>
    <description>Recent content in Text-Mining on rizkidoank</description>
    <generator>Hugo -- 0.140.0</generator>
    <language>en-US</language>
    <lastBuildDate>Mon, 13 Jun 2016 07:01:36 +0000</lastBuildDate>
    <atom:link href="https://rizkidoank.com/tags/text-mining/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Twitter Mining with R : Tweet Analysis, Bagian 3</title>
      <link>https://rizkidoank.com/2016/06/13/twitter-mining-with-r-tweet-analysis-bagian-3/</link>
      <pubDate>Mon, 13 Jun 2016 07:01:36 +0000</pubDate>
      <guid>https://rizkidoank.com/2016/06/13/twitter-mining-with-r-tweet-analysis-bagian-3/</guid>
      <description>&lt;p&gt;Pada post sebelumnya di &lt;a href=&#34;https://rizkidoank.com/2016/06/12/twitter-mining-with-r-tweet-analysis-bagian-2/&#34;&gt;Twitter Mining with R : Tweet Analysis, Bagian 2&lt;/a&gt;, saya sudah mencoba untuk melakukan Text Cleaning untuk dataset yang ada. Selanjutnya, pada bagian ini saya akan mencoba membuat statistik term frequency dan juga membuat wordcloud dari term document frequency.&lt;/p&gt;
&lt;h2 id=&#34;statistik-terms-frequency&#34;&gt;Statistik Terms Frequency&lt;/h2&gt;
&lt;p&gt;Sebelumnya, saya memiliki variabel &lt;code&gt;tdm&lt;/code&gt; yang merupakan term document frequency. &lt;em&gt;Nah&lt;/em&gt;, untuk membuat plot statistik frekuensi term saya menggunakan &lt;code&gt;ggplot2&lt;/code&gt;, terlebih dahulu install paket &lt;code&gt;ggplot2&lt;/code&gt; dengan perintah &lt;code&gt;install.package(&amp;quot;ggplot2&amp;quot;)&lt;/code&gt; di RStudio. Kemudian, setelah terpasang saya membuat grafik dengan kode seperti berikut :&lt;/p&gt;</description>
    </item>
    <item>
      <title>Twitter Mining with R : Tweet Analysis, Bagian 2</title>
      <link>https://rizkidoank.com/2016/06/12/twitter-mining-with-r-tweet-analysis-bagian-2/</link>
      <pubDate>Sun, 12 Jun 2016 16:54:57 +0000</pubDate>
      <guid>https://rizkidoank.com/2016/06/12/twitter-mining-with-r-tweet-analysis-bagian-2/</guid>
      <description>&lt;h2 id=&#34;pengantar&#34;&gt;Pengantar&lt;/h2&gt;
&lt;p&gt;Pada tulisan ini akan melanjutkan proses selanjutnya setelah mendapatkan data dengan Twitter API. Jika ingin mengunduh dataset tanpa mengambil online dari twitter, silakan unduh melalui link berikut :&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a href=&#34;https://rizkidoank.com/static/elshinta.RData&#34;&gt;Tweet @RadioElshinta&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a href=&#34;https://rizkidoank.com/static/stopwords.txt&#34;&gt;Stopwords Indonesia&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;text-cleaning&#34;&gt;Text Cleaning&lt;/h2&gt;
&lt;p&gt;Setelah akuisisi data, langkah selanjutnya adalah &lt;em&gt;Text Cleaning&lt;/em&gt; . Tahapan ini meliputi sub-proses antara lain stopwords removal, whitespaces stripping, dan stemming.&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;library(tm)
library(SnowballC)
load(file = &amp;quot;elshinta.RData&amp;quot;)
tweets.df &amp;lt;- twListToDF(tweets_data)

corpus &amp;lt;- Corpus(VectorSource(tweets.df$text))

# lowercase konten
corpus &amp;lt;- tm_map(corpus,content_transformer(tolower))

# hapus url, dan tanda baca
removeURL &amp;lt;- function(x) gsub(&amp;quot;http[^[:space:]]*&amp;quot;, &amp;quot;&amp;quot;, x)
corpus &amp;lt;- tm_map(corpus, content_transformer(removeURL))
corpus &amp;lt;- tm_map(corpus, removePunctuation)

# buat stopwords Indonesia
file_stop &amp;lt;- file(&amp;quot;stopwords.txt&amp;quot;,open = &amp;quot;r&amp;quot;)
id_stopwords &amp;lt;- readLines(file_stop)
close(file_stop)
id_stopwords = c(id_stopwords, &amp;quot;amp&amp;quot;)

# hapus stopwords, angka, whitespace
corpus &amp;lt;- tm_map(corpus, removeWords, id_stopwords)
corpus &amp;lt;- tm_map(corpus, removeNumbers)
corpus &amp;lt;- tm_map(corpus, stripWhitespace)
corpus &amp;lt;- tm_map(corpus, PlainTextDocument)

# tampilkan konten tweet ke 125
writeLines(strwrap(corpus[[125]]$content))

# TDF dan DTF untuk corpus dataset elshinta
dtm = DocumentTermMatrix(corpus)
tdm = TermDocumentMatrix(corpus)
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Untuk kasus ini, bahasa yang digunakan adalah bahasa Indonesia. Sedangkan pada R tidak tersedia untuk bahasa Indonesia. Sehingga, perlu membuat sendiri stopwords custom.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Twitter Mining with R : Tweet Analysis, Bagian 1</title>
      <link>https://rizkidoank.com/2016/06/11/twitter-mining-with-r-tweet-analysis-bagian-1/</link>
      <pubDate>Sat, 11 Jun 2016 17:41:08 +0000</pubDate>
      <guid>https://rizkidoank.com/2016/06/11/twitter-mining-with-r-tweet-analysis-bagian-1/</guid>
      <description>&lt;h2 id=&#34;pengantar&#34;&gt;Pengantar&lt;/h2&gt;
&lt;p&gt;Pada tulisan sebelumnya, &lt;a href=&#34;https://rizkidoank.com/2016/06/11/introduction-to-twitter-mining-with-r/&#34;&gt;&lt;strong&gt;Introduction to Twitter Mining with R&lt;/strong&gt;&lt;/a&gt; telah dipaparkan pengantar tentang Text Mining pada Twitter dengan R. Pada tulisan ini akan dibahas tentang &lt;strong&gt;Tweet Analysis&lt;/strong&gt;. Secara utuh, yang akan saya lakukan adalah :&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Mengambil data tweet dengan R menggunakan paket &lt;em&gt;twitteR&lt;/em&gt;.&lt;/li&gt;
&lt;li&gt;&lt;em&gt;Text cleaning&lt;/em&gt; dengan paket &lt;em&gt;tm&lt;/em&gt; pada R.&lt;/li&gt;
&lt;li&gt;Menampilkan &lt;em&gt;Terms Frequency&lt;/em&gt;&lt;/li&gt;
&lt;li&gt;Membuat wordcloud berdasar term yang didapat.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;mengambil-data-tweets&#34;&gt;Mengambil Data Tweets&lt;/h2&gt;
&lt;p&gt;Sebelumnya, pastikan telah membuat Twitter App seperti pada tulisan &lt;a href=&#34;https://rizkidoank.com/2016/06/11/introduction-to-twitter-mining-with-r/&#34;&gt;sebelumnya&lt;/a&gt;. Kemudian, pada tulisan ini saya menggunakan RStudio.&lt;/p&gt;</description>
    </item>
    <item>
      <title>Introduction to Twitter Mining with R</title>
      <link>https://rizkidoank.com/2016/06/11/introduction-to-twitter-mining-with-r/</link>
      <pubDate>Sat, 11 Jun 2016 16:20:01 +0000</pubDate>
      <guid>https://rizkidoank.com/2016/06/11/introduction-to-twitter-mining-with-r/</guid>
      <description>&lt;h2 id=&#34;pengantar&#34;&gt;Pengantar&lt;/h2&gt;
&lt;h3 id=&#34;twitter-dan-twitter-apps&#34;&gt;Twitter dan Twitter Apps&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;Twitter&lt;/strong&gt; adalah media sosial berbasis teks dengan maksimal huruf sebanyak 140 dalam satu tulisan (disebut &lt;em&gt;tweet&lt;/em&gt;). Twitter kerapkali digunakan sebagai sumber data untuk diolah karena akuisisi data tidak terlalu kompleks jika dibandingkan media sosial lain. Untuk mengambil data pada twitter, kita dapat memanfaatkan &lt;a href=&#34;https://apps.twitter.com&#34;&gt;Twitter Application&lt;/a&gt;. Ikuti langkah berikut:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Buka &lt;a href=&#34;https://apps.twitter.com&#34;&gt;&lt;strong&gt;Twitter Apps&lt;/strong&gt;&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;Buat app baru dengan klik &lt;em&gt;create new app&lt;/em&gt;.&lt;/li&gt;
&lt;li&gt;Isi detail app, lanjutkan.&lt;/li&gt;
&lt;li&gt;App baru akan dibuat.&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;outline-tutorial&#34;&gt;Outline Tutorial&lt;/h2&gt;
&lt;p&gt;Pada tulisan ini, saya akan mencoba untuk melakukan analisis data dengan dataset yang diperoleh dari twitter menggunakan R. Sebelumnya, berikut adalah kakas yang saya gunakan :&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
