Text-Mining on rizkidoank

Twitter Mining with R : Tweet Analysis, Bagian 3

Mon, 13 Jun 2016 07:01:36 +0000

Pada post sebelumnya di Twitter Mining with R : Tweet Analysis, Bagian 2, saya sudah mencoba untuk melakukan Text Cleaning untuk dataset yang ada. Selanjutnya, pada bagian ini saya akan mencoba membuat statistik term frequency dan juga membuat wordcloud dari term document frequency.

Statistik Terms Frequency

Sebelumnya, saya memiliki variabel tdm yang merupakan term document frequency. Nah, untuk membuat plot statistik frekuensi term saya menggunakan ggplot2, terlebih dahulu install paket ggplot2 dengan perintah install.package("ggplot2") di RStudio. Kemudian, setelah terpasang saya membuat grafik dengan kode seperti berikut :

Twitter Mining with R : Tweet Analysis, Bagian 2

Sun, 12 Jun 2016 16:54:57 +0000

Pengantar

Pada tulisan ini akan melanjutkan proses selanjutnya setelah mendapatkan data dengan Twitter API. Jika ingin mengunduh dataset tanpa mengambil online dari twitter, silakan unduh melalui link berikut :

Text Cleaning

Setelah akuisisi data, langkah selanjutnya adalah Text Cleaning . Tahapan ini meliputi sub-proses antara lain stopwords removal, whitespaces stripping, dan stemming.

library(tm)
library(SnowballC)
load(file = "elshinta.RData")
tweets.df <- twListToDF(tweets_data)

corpus <- Corpus(VectorSource(tweets.df$text))

# lowercase konten
corpus <- tm_map(corpus,content_transformer(tolower))

# hapus url, dan tanda baca
removeURL <- function(x) gsub("http[^[:space:]]*", "", x)
corpus <- tm_map(corpus, content_transformer(removeURL))
corpus <- tm_map(corpus, removePunctuation)

# buat stopwords Indonesia
file_stop <- file("stopwords.txt",open = "r")
id_stopwords <- readLines(file_stop)
close(file_stop)
id_stopwords = c(id_stopwords, "amp")

# hapus stopwords, angka, whitespace
corpus <- tm_map(corpus, removeWords, id_stopwords)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, PlainTextDocument)

# tampilkan konten tweet ke 125
writeLines(strwrap(corpus[[125]]$content))

# TDF dan DTF untuk corpus dataset elshinta
dtm = DocumentTermMatrix(corpus)
tdm = TermDocumentMatrix(corpus)

Untuk kasus ini, bahasa yang digunakan adalah bahasa Indonesia. Sedangkan pada R tidak tersedia untuk bahasa Indonesia. Sehingga, perlu membuat sendiri stopwords custom.

Twitter Mining with R : Tweet Analysis, Bagian 1

Sat, 11 Jun 2016 17:41:08 +0000

Pengantar

Pada tulisan sebelumnya, Introduction to Twitter Mining with R telah dipaparkan pengantar tentang Text Mining pada Twitter dengan R. Pada tulisan ini akan dibahas tentang Tweet Analysis. Secara utuh, yang akan saya lakukan adalah :

Mengambil data tweet dengan R menggunakan paket twitteR.
Text cleaning dengan paket tm pada R.
Menampilkan Terms Frequency
Membuat wordcloud berdasar term yang didapat.

Mengambil Data Tweets

Sebelumnya, pastikan telah membuat Twitter App seperti pada tulisan sebelumnya. Kemudian, pada tulisan ini saya menggunakan RStudio.

Introduction to Twitter Mining with R

Sat, 11 Jun 2016 16:20:01 +0000

Pengantar

Twitter dan Twitter Apps

Twitter adalah media sosial berbasis teks dengan maksimal huruf sebanyak 140 dalam satu tulisan (disebut tweet). Twitter kerapkali digunakan sebagai sumber data untuk diolah karena akuisisi data tidak terlalu kompleks jika dibandingkan media sosial lain. Untuk mengambil data pada twitter, kita dapat memanfaatkan Twitter Application. Ikuti langkah berikut:

Buka Twitter Apps.
Buat app baru dengan klik create new app.
Isi detail app, lanjutkan.
App baru akan dibuat.

Outline Tutorial

Pada tulisan ini, saya akan mencoba untuk melakukan analisis data dengan dataset yang diperoleh dari twitter menggunakan R. Sebelumnya, berikut adalah kakas yang saya gunakan :