pyspark、pandasの相互変換 | 全国個人事業主支援協会

COLUMN コラム

pyspark、pandasの相互変換

2025年05月10日
pyspark、pandasの相互変換
- 未分類

pythonを使っているとpysparkとpandasで処理上便利な方に変換して処理することが度々あるので備忘録として残しておく。

pandas→pyspark

pandasをpysparkに変換するには以下の方法で実施する。

pdf = df.toPandas()

pyspark→pandas

pysparkをpandasに変換するには以下の方法で実施する。

df = spark.createDataFrame()pdf

ただし、pandasのindex情報が失われる

indexを保持するには以下のようにreset_indexのオプションを指定する

df = pdf.reset_index(drop=False)

この記事を書いた人
最新の記事

Kyota

最新記事 by Kyota (全て見る)

この記事をシェアする

前の記事へ記事一覧次の記事へ

関連記事

: 【7つの習慣】パラダイムと原則

: 2023年の振り返り