Untuk keperluan Big Data Analytics, dan juga Machine Learning, dibutuhkan sebuah engine tangguh yang mampu mengolah data yang sangat besar. Salah satu engine yang saat ini cukup tangguh terhadap penanganan data yang sangat besar (big data) adalah Apache Spark.
Apache Spark adalah engine analitik yang bekerja berdasarkan parallel computation framework sehingga mampu melakukan komputasi dengan sangat cepat. Basis dari Apache Spark menggunakan Hadoop MapReduce namun telah dilakukan pengembangan. Selain itu, Apache Spark dapat dideploy ke dalam beberapa bahasa pemrograman, yaituL Java, Scala, Python, dan R
Dalam artikel kali ini, saya akan paparkan bagaimana melakukan instalasi PySpark (Apache Spark deployment untuk Python) di sistem operasi Windows (khususnya Windows 10), serta bagaimana menjalankan PySpark melalui Jupyter Notebook.