一般社団法人 全国個人事業主支援協会

COLUMN コラム

  • pyspark、pandasの相互変換

pythonを使っているとpysparkとpandasで処理上便利な方に変換して処理することが度々あるので備忘録として残しておく。

pandas→pyspark

pandasをpysparkに変換するには以下の方法で実施する。

pdf = df.toPandas()

pyspark→pandas

pysparkをpandasに変換するには以下の方法で実施する。

df = spark.createDataFrame()pdf

ただし、pandasのindex情報が失われる

indexを保持するには以下のようにreset_indexのオプションを指定する

df = pdf.reset_index(drop=False)

The following two tabs change content below.

Kyota

この記事をシェアする

  • Twitterでシェア
  • Facebookでシェア
  • LINEでシェア