タイトル:分散学習の設計ミスから得た“同期コスト最適化”の知見
大規模モデルの分散学習を初めて導入した際、データ並列を安易に採用し、同期コストが爆発してスループットが半減するという失敗を経験した。
GPUは増やしたのに学習速度が上がらず、ノード間帯域だけが飽和していたのである。
原因は、勾配同期が逐次実行され、通信と計算が重ならない設計になっていた点にあった。
そこで ZeRO-Offload と Overlap Communication/Computation を導入し、勾配計算とAll-Reduceを非同期化した。
さらに、勾配圧縮を適用し通信量を40%削減した結果、スループットは理論値の約85%まで回復した。
分散学習の本質は、GPU台数の増加ではなく“通信をボトルネックにしない計算グラフ設計”であると深く理解したのである。