Posts
Stream Twitter Statuses with Tweepy
Flashback to several years ago when I was using Twitter and learn text mining. At that time, I used python to collects twitter statuses with specific keywords / terms defined and then stored all of those statuses to csv as dataset for text mining learning. In this article, I will share how to stream twitter statuses with python using tweepy module but in this article, I only print the status without store it to a file or database.
Posts
Test Your Ansible Role with Test Kitchen
Its been a while I am using Ansible as a tool for configuration management. There was some conditions where I created a roles with multiple dependencies, or I have to revisit an ancient roles created by someone else in the past. It doesn’t matter if the roles are well tested, how if its untested or doesn’t have tests at all?
In the past, I test ansible role by creating a vagrant box and run ansible playbook in it.
Posts
Immutable Infrastructure using Terraform
What is Terraform? Terraform is a tool for building, changing, and versioning infrastructure safely and efficiently.
OK, that’s the first answer when you questioning about “what is Terraform”. Terraform is a tool built by Hashicorp for infrastructure management. It’s based on Go, so you can easily install it by downloading the binary into your machine.
Why Using Terraform? This is a good question, we know that there are some tools besides Terraform for infrastructure management that commonly used out there like Ansible, Chef, or CloudFormation (if you use AWS).
Posts
Eksplorasi Data dengan R
Dalam data science sebelum dilakukan analisis data lebih lanjut, ada baiknya dilakukan dahulu eksplorasi data. Eksplorasi data juga disarankan untuk yang baru memasuki data science. Dengan eksplorasi data, dapat diketahui apa saja atribut pada dataset, bagaimana nilai-nilai yang ada dalam dataset, distribusi data, atau keterhubungan suatu atribut dengan atribut lainnya.
Pada tulisan ini saya mencoba untuk eksplorasi data dan beberapa visualisasinya untuk dataset Iris dari UCI Machine Learning Repository. Berikut adalah ekplorasi data yang saya lakukan untuk dataset iris.
Posts
SparkR Installation and Setup on RStudio
Apache Spark adalah mesin pemrosesan data yang cepat yang saat ini umum digunakan pada big data environment dan untuk pembelajarn mesin. Spark mendukung beberapa bahasa seperti Java, Scala, Python dan saat ini hadir untuk bahasa R.
Spark dapat dipasang pada mode lokal maupun mode cluster. Dalam tulisan ini akan dipaparkan pemasangan SparkR pada mode lokal. Berikut adalah langkah pemasangan SparkR + RStudio.
Pastikan RStudio, R, dan Java JDK telah terpasang.
Posts
Pengalaman Membuat E-Commerce Scraper dengan Scrapy
Beberapa bulan ini saya mengembangkan proyek berupa dasbor untuk monitoring toko online dari beberapa e-commerce. Salah satu bagian penting yang ada di proyek ini yaitu crawler / scraper. Crawler digunakan untuk akuisisi data yang selanjutnya akan diolah menjadi data penjualan terintegrasi untuk pemilik toko.
Saat ini ada beberapa framework crawler yang banyak digunakan misal saja Apache Nutch yang memiliki keunggulan untuk dapat bekerja pada Hadoop Cluster (versi 2), dan Scrapy yang berbasis Python dan mendukung mode terdistribusi dengan frontera (HBase).
Posts
Ekosistem Hadoop pada Big Data
Big Data, Hadoop? Kata Big Data sempat menjadi hype di kalangan scientist dan IT enthusiast. Adapun salah satu yang banyak dibicarakan dan didiskusikan salah satunya terkait dengan infrastruktur Big Data. Bagi yang pernah mencoba belajar infrastruktur Big Data, setidaknya akan terdengar kata seperti Hadoop, Cluster, NoSQL, dan Distributed System (setidaknya itu yang pertama kali terdengar oleh saya saat akan belajar infrastruktur Big Data :D).
Ekosistem Hadoop Hadoop salah satu proyek yang dikembangkan oleh Apache Foundation.
Posts
Deploy Ghost Blog di CPanel
Ghost adalah blogging platform berbasis nodejs. Blog rizkidoank.com menggunakan Ghost, dan jujur saja saya sangat menikmati blogging dengan platform ini.
Biasanya Ghost dipasang di VPS atau PaaS seperti Heroku misalnya. Di Indonesia, harga sewa VPS masih cukup tinggi, selain itu performa yang diberikan juga masih lebih lambat dari VPS di provider luar. Oleh karena itu, masih banyak yang memanfaatkan hosting dikarenakan harga yang lebih terjangkau dan pengguna tidak perlu pusing dalam konfigurasi server.
Posts
Double Linked List
Pengenalan Double Linked List Pengertian Double Linked List adalah sekumpulan node data yang terurut linear atau sekuensial dengan dua buah pointer yaitu prev dan next. Double Linked List adalah linked list dengan node yang memiliki data dan dua buah reference link (biasanya disebut next dan prev) yang menunjuk ke node sebelum dan node sesudahnya. Pada implementasinya, terdapat dua variasi double linked list yaitu circular dan non-circular layaknya pada single linked list.
Posts
Remote Desktop Real Display dengan VNC
Beberapa minggu lalu sempat ramai berita tentang videotron di Jakarta Selatan yang di “retas” oleh seseorang. Berdasarkan dari berita-berita terakhir, pelaku melakukan aksinya dikarenakan tahu akses ke videotron tersebut karena saat ia melintas, username dan password terlihat di videotron tersebut.
Sebenarnya, kejadian tersebut cukup menggelitik bagi saya. Nah, pada tulisan ini saya akan berbagi salah satu solusi yang mungkin bisa diterapkan pada videotron tersebut tanpa khawatir akses terlihat.
VNC (Virtual Network Computing) adalah sistem desktop sharing yang memanfaatkan protokol Remote Frame Buffer.