業務でpysparkを使う機会があり、自宅の環境でも使えるように環境構築した際の手順を備忘録として記載する。
※OSはMac
- JAVAのインストール(sparkはJVM上で動作するため)
$ brew search openjdk
condaをインストールしていれば以下でも可能
$ conda install openjdk
- pysparkをインストール
$ pip install pyspark
condaをインストールしてれば以下でも可能
$ conda install pyspark
- findsparkライブラリのインストール(SPARK_HOMEの環境変数を読み込んですぐにsparkを使えるようにしてくれるライブラリ)
$ pip install findspark
condaをインストールしていれば以下でも可能
$ conda install -c conda-forge findspark
- Jupyter-labを起動
- 以下を実行し、pysparkが動くことを確認する
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.master("local[1]") \
.appName("app") \
.getOrCreate()
spark
The following two tabs change content below.