pysparkをライトに使用するため、JupyterLabでのpyspark環境構築方法を記載する。
1. JupyterLabを起動する
2. 以下のコマンドでpysparkとJDKをインストールする
!pip install --upgrade pip
!pip install pyspark
!conda install openjdk
3. pyspark.sqlのSparkSessionをインストールし、以降でデータを扱うためのエントリポイントであるSparkセッションを作成する
spark = SparkSession.builder.master("local[1]").appName("test").getCreate()
※local[1]は1個のワーカースレッドでSparkをローカル実行することを意味する
※appNameは任意の値を設定する