一般社団法人 全国個人事業主支援協会

COLUMN コラム

業務でpysparkを使う機会があり、自宅の環境でも使えるように環境構築した際の手順を備忘録として記載する。
※OSはMac

  1. JAVAのインストール(sparkはJVM上で動作するため)
    $ brew search openjdk
    condaをインストールしていれば以下でも可能
    $ conda install openjdk
  2. pysparkをインストール
    $ pip install pyspark
    condaをインストールしてれば以下でも可能
    $ conda install pyspark
  3. findsparkライブラリのインストール(SPARK_HOMEの環境変数を読み込んですぐにsparkを使えるようにしてくれるライブラリ)
    $ pip install findspark
    condaをインストールしていれば以下でも可能
    $ conda install -c conda-forge findspark
  4. Jupyter-labを起動
  5. 以下を実行し、pysparkが動くことを確認するfrom pyspark.sql import SparkSession
    spark = SparkSession.builder \
    .master("local[1]") \
    .appName("app") \
    .getOrCreate()

    spark

The following two tabs change content below.

Kyota

最新記事 by Kyota (全て見る)

この記事をシェアする

  • Twitterでシェア
  • Facebookでシェア
  • LINEでシェア