一般社団法人 全国個人事業主支援協会

COLUMN コラム

pysparkをライトに使用するため、JupyterLabでのpyspark環境構築方法を記載する。

1. JupyterLabを起動する

2. 以下のコマンドでpysparkとJDKをインストールする

!pip install --upgrade pip
!pip install pyspark
!conda install openjdk

3. pyspark.sqlのSparkSessionをインストールし、以降でデータを扱うためのエントリポイントであるSparkセッションを作成する

spark = SparkSession.builder.master("local[1]").appName("test").getCreate()
※local[1]は1個のワーカースレッドでSparkをローカル実行することを意味する
※appNameは任意の値を設定する

The following two tabs change content below.

Kyota

最新記事 by Kyota (全て見る)

この記事をシェアする

  • Twitterでシェア
  • Facebookでシェア
  • LINEでシェア