About Me

Hai, saya Rosihan Ari Yuana. Saya sehari-hari adalah mengajar di Universitas Sebelas Maret.

Bidang riset saya tentang adaptive learning, computer aided learning, dan datascience

Selain itu, saya juga seorang penulis buku dan blogger.

More about me...

  • Home
  • /
  • Big Data
  • /
  • Cara Install PySpark di Windows dan Menjalankannya Via Jupyter Notebook

Cara Install PySpark di Windows dan Menjalankannya Via Jupyter Notebook

Untuk keperluan Big Data Analytics, dan juga Machine Learning, dibutuhkan sebuah engine tangguh yang mampu mengolah data yang sangat besar. Salah satu engine yang saat ini cukup tangguh terhadap penanganan data yang sangat besar (big data) adalah Apache Spark.

Apache Spark adalah engine analitik yang bekerja berdasarkan parallel computation framework sehingga mampu melakukan komputasi dengan sangat cepat. Basis dari Apache Spark menggunakan Hadoop MapReduce namun telah dilakukan pengembangan. Selain itu, Apache Spark dapat dideploy ke dalam beberapa bahasa pemrograman, yaituL Java, Scala, Python, dan R

Dalam artikel kali ini, saya akan paparkan bagaimana melakukan instalasi PySpark (Apache Spark deployment untuk Python) di sistem operasi Windows (khususnya Windows 10), serta bagaimana menjalankan PySpark melalui Jupyter Notebook.

Membutuhkan Java Virtual Machine

Untuk bisa menggunakan PySpark, dibutuhkan Java Virtual Machine (JVM) atau Java Runtime Environment (JRE) di server/komputer. Sehingga, sebelum mulai menginstall PySpark, pastikan JVM/JRE sudah terinstall di komputer Anda.

JVM/JRE dapat diunduh di https://www.java.com/en/download/

Untuk memastikan JVM/JRE sudah terinstall dengan baik di komputer Anda, coba ketikkan perintah berikut ini di command prompt

java -version

Apabila instalasi JVM/JRE sukses, maka akan muncul informasi versinya seperti pada tampilan berikut ini.

Mengunduh PySpark

Setelah JVM/JRE sudah terinstall, selanjutnya kita bisa mulai menginstall PySpark. Terlebih dahulu kita unduh file master PySpark yang bisa didapatkan secara gratis di http://spark.apache.org/downloads.html

Dalam tutorial ini, saya menggunakan Spark versi 2.4.6, dan tipe package nya adalah Pre-built for Apache Hadoop 2.6.

Setelah itu klik Download Spark.

Mengapa saya memilih Spark versi 2.4.6? hal ini dikarenakan untuk versi 3.0.0 (terbaru) ada sedikit warning yang muncul paska instalasi, yang sampai dengan saat ini belum ketemu solusinya 😀

Selain mengunduhnya secara manual, PySpark juga bisa diinstall menggunakan PyPi dengan menggunakan perintah berikut ini di Anaconda Prompt.

pip install pyspark

Namun, secara otomatis PySpark akan terinstall yang versi terbaru 3.0.0 yang ada sedikit kendala seperti di atas tadi (muncul Warning).

Mengunduh Winutils

Selanjutnya, dikarenakan Apache Spark basisnya adalah menggunakan Hadoop MapReduce, maka dalam implementasinya di Windows dibutuhkan file winutils.exe yang nantinya akan digunakan Hadoop untuk mengakses filesystem dari Windows melalui Windows API.

Untuk mengunduh file winutils.exe ini, silakan kunjungi situs https://github.com/steveloughran/winutils

Dalam hal ini, sesuaikan versi dari Hadoop yang telah dipilih sebelumnya. Pada contoh ini tadi, saya memilih Hadoop versi 2.6, maka pilih winutils.exe yang ada di folder ‘hadoop-2.6.0/bin

Selanjutnya letakkan file winutils.exe di c:/winutils/bin (terlebih dahulu harus dibuat direktorinya secara manual)

Langkah berikutnya adalah membuat variabel ‘HADOOP_HOME‘ di Environment Variables yang ada di Windows. Isikan nilainya dengan path direktori c:/winutils .

Menginstall PySpark

Setelah file master Spark didapatkan, selanjutnya kita install di komputer. Cara instalasinya cukup mudah, yaitu hanya dengan mengekstraknya saja dengan software 7Zip atau yang lainnya.

Dalam contoh ini, saya mengekstraknya di direktori C:\spark\spark-2.4.6-bin-hadoop2.6

Berikutnya kembali kita buat System Variables dengan nama ‘SPARK_HOME‘ dengan valuenya ‘C:\spark\spark-2.4.6-bin-hadoop2.6

Restart Komputer

Setelah melakukan instalasi dan setup winutils.exe serta PySpark, selanjutnya lakukan restart komputer.

Mengetes PySpark

Untuk mengetahui apakah PySpark benar-benar sudah terinstall dengan baik, kita dapat mengetesnya dengan memberikan perintah:

pyspark

melalui command prompt, dengan terlebih dahulu masuk ke direktori tempat kita meletakkan sparknya tadi, yaitu di C:\spark\spark-2.4.6-bin-hadoop2.6/bin

Adapun tampilan jika PySpark sudah berhasil diinstall adalah sebagai berikut.

Selain itu, kita bisa mencoba mengetes komputasinya dengan memberikan perintah berikut ini di shell nya

>>> nums = sc.parallelize([1,2,3,4])
>>> nums.map(lambda x: x*x).collect()

Perintah di atas digunakan untuk mendapatkan nilai kuadrat dari data list [1, 2, 3, 4]. Apabila tidak ada masalah, maka akan muncul output

[1, 4, 9, 16]

Penting: Dikarenakan PySpark adalah Apache Spark yang dideploy di Python, maka sebelum menjalankan PySpark pastikan Python sudah terinstall di komputer Anda. Dalam hal ini, saya menggunakan Anaconda yang di dalamnya selain sudah terdapat Python, juga sudah tersedia Jupyter Notebook.

Menjalankan PySpark via Jupyter Notebook

Sebenarnya selesainya langkah di atas, PySpark sudah dapat digunakan melalui CLI (command line interpreter). Namun, kita juga bisa menjalankannya di Jupyter Notebook supaya lebih user friendly dan elegan untuk keperluan presentasi data analytics.

Supaya PySpark dapat dijalankan via Jupyter Notebook, terlebih dahulu kita menginstall library findspark di Python. Library ini digunakan untuk mencari direktori di mana PySpark terinstall di komputer kita. Sehingga nantinya library PySpark dapat diimport ke dalam Jupyter Notebook.

Untuk instalasi findspark, cukup memberikan perintah ini melalui Anaconda Prompt:

pip install findspark

Selanjutnya, setelah library findspark berhasil diinstall, berikan perintah di bawah ini di Jupyter Notebook setiap kali akan menjalankan PySpark.

import findspark
findspark.init()

Perintah findspark.init() digunakan untuk menentukan lokasi PySpark yang sudah terinstall. Dalam hal ini, perintah findspark.init() memanfaatkan letak direktori di System Variables ‘SPARK_HOME’ yang telah dibuat sebelumnya.

Setelah itu, barulah kita bisa menjalankan PySpark melalui Jupyter Notebook seperti pada contoh berikut ini.

Demikian tutorial cara install PySpark di Windows, serta cara menjalankannya via Jupyter Notebook. Semoga tutorial ini dapat bermanfaat, dan… selamat mencoba.

Saya seorang dosen dan peneliti di Universitas Sebelas Maret. Bidang penelitian saya tentang: adaptive learning, datascience, dan computer aided learning. Selain itu saya juga seorang blogger, serta penulis buku tentang pemrograman, dan matematika.

Leave a Reply