JupyterLab上でのpyspark環境構築方法 | 全国個人事業主支援協会

COLUMN コラム

システムエンジニア

JupyterLab上でのpyspark環境構築方法

2024年10月04日
JupyterLab上でのpyspark環境構築方法
- システムエンジニア

pysparkをライトに使用するため、JupyterLabでのpyspark環境構築方法を記載する。

1. JupyterLabを起動する

2. 以下のコマンドでpysparkとJDKをインストールする

!pip install --upgrade pip
!pip install pyspark
!conda install openjdk

3. pyspark.sqlのSparkSessionをインストールし、以降でデータを扱うためのエントリポイントであるSparkセッションを作成する

spark = SparkSession.builder.master("local[1]").appName("test").getCreate()
※local[1]は1個のワーカースレッドでSparkをローカル実行することを意味する
※appNameは任意の値を設定する

この記事を書いた人
最新の記事

Kyota

最新記事 by Kyota (全て見る)

この記事をシェアする

前の記事へ記事一覧次の記事へ

関連記事

: SQLという言語について②

: せっかく貯めたお金をどう扱うか

: [JavaScript] arguments オブジェクト