Friday, September 27, 2013

R: bahasa/tool terbaik untuk belajar/praktek analisis data

Tidak dapat dipungkiri bahwa dunia digital semakin membutuhkan aspek analisis pada data. Kita mengenal fenomena "ledakan informasi", tetapi sesungguhnya yang terjadi adalah "ledakan data". Mendapatkan data telah menjadi proses yang mudah. Mengolah data untuk menjadi informasi dan mengolah informasi itu sendiri menjadi proses yang semakin rumit. Kerumitannya terletak pada semakin besarnya data. Sehingga wajar kalau akhir-akhir ini perburuan pengetahuan analisa "big data" semakin marak.

Sebagai analis data, kita tidak hanya memerlukan ketrampilan dan pengetahuan yang memadai dalam statistik, database, data warehouse (ETL), data mining, interpretasi data/informasi dan juga visualisasi informasi. Beragam ketrampilan tersebut memerlukan tools yang tepat, yaitu tools yang dapat membantu pekerjaan kita lebih efisiean dan efektif. Memilih tools yang tepat adalah tugas kedua kita setelah mendalami pengetahuan dan ketrampilan tsb di atas. Atau bahkan dalam mempelajari ketrampilan dan pengetahuan tsb justru kita memerlukan tools terlebih dahulu. Problem ini memang akhirnya menjadi seperti ayam dan telur, mana duluan? Paling tidak menurut saya, pengetahuan dasar stastistik dan database perlu terlebih dahulu kita miliki, baru kemudian memanfaatkan tools yang tepat, kita mengembangkan pengetahuan dan ketrampilan analisis data. Pengetahuan dasar statistik kita dapatkan di bangku sekolah (menengah/tinggi). Sekarang tinggal database, kita memang perlu mengambil mata kuliah database (khususnya relasional) atau kursus atau otodidak.

Nah, sekarang permasalahan utama kita adalah memilih tools. Banyak faktor yang perlu kita perhatikan dalam memilih tools Alhamdulillah kita berada dalam dunia informasi dan internet, sehingga untuk keperluan ini kita dapat melakukannya dengan search di internet atau melihat rekomendasi/artikel dari komunitas-komunitas atau website analis data.

Berdasarkan polling komunitas data-mining kdnuggets.com, tools tertinggi penggunanya adalah R. Selama tiga tahun (2011-2013) R menduduki peringkat teratas, dan tetap tumbuh besar [1].



Referensi:
1. Top languages for analytics, data mining, data science 
2. Poll: R top language for data science three years running