Cara Install PySpark di Windows dan Menjalankannya Via Jupyter Notebook

Untuk keperluan Big Data Analytics, dan juga Machine Learning, dibutuhkan sebuah engine tangguh yang mampu mengolah data yang sangat besar. Salah satu engine yang saat ini cukup tangguh terhadap penanganan data yang sangat besar (big data) adalah Apache Spark.

Apache Spark adalah engine analitik yang bekerja berdasarkan parallel computation framework sehingga mampu melakukan komputasi dengan sangat cepat. Basis dari Apache Spark menggunakan Hadoop MapReduce namun telah dilakukan pengembangan. Selain itu, Apache Spark dapat dideploy ke dalam beberapa bahasa pemrograman, yaituL Java, Scala, Python, dan R

Dalam artikel kali ini, saya akan paparkan bagaimana melakukan instalasi PySpark (Apache Spark deployment untuk Python) di sistem operasi Windows (khususnya Windows 10), serta bagaimana menjalankan PySpark melalui Jupyter Notebook.

view post

Untuk keperluan big data analytics, memang paling enak menggunakan Jupyter Notebook untuk menganalisis data. Jupyter Notebook merupakan aplikasi opensource berbasis web yang bisa digunakan untuk membuat dan berbagi dokumen yang berisi live code, equations, visualisasi, dan teks naratif sehingga cocok buat presentasi dan ngajar kuliah 😀 .

Dalam artikel kali ini, saya akan mencoba memaparkan bagaimana cara setup Jupyter Notebook yang terintegrasi dengan Python di Amazon EC2, sebuah cloud service di AWS yang memberikan fitur kemudahan dalam scaling terhadap spesifikasi kebutuhan big data. Melalui artikel sebelumnya tentang cara setup Amazon EC2 sudah saya paparkan panjang lebar, nah sekarang akan dibahas bagaimana memanfaatkan EC2 untuk keperluan komputasinya.

view post