pythonを使っているとpysparkとpandasで処理上便利な方に変換して処理することが度々あるので備忘録として残しておく。
pandasをpysparkに変換するには以下の方法で実施する。
pdf = df.toPandas()
pysparkをpandasに変換するには以下の方法で実施する。
df = spark.createDataFrame()pdf
ただし、pandasのindex情報が失われる
indexを保持するには以下のようにreset_indexのオプションを指定する
df = pdf.reset_index(drop=False)