Y.S wrote a new post, 分散学習の設計ミスから得た“同期コスト最適化”の知見 1時間 18分前
タイトル:分散学習の設計ミスから得た“同期コスト最適化”の知見
大規模モデルの分散学習を初めて導入した際、データ並列を安易に採用し、同期コストが爆発してスループットが半減するという失敗を経験した。GPUは増やしたのに学習速度が上がらず、ノード間帯域だけが飽和していたのである。
原因は、勾配同期が逐次実行され、通信と計算が重ならない設計になっていた点にあった。そこで ZeRO-Offload と Overlap Commun[…]
Y.S wrote a new post, PythonとAI最適化技術が再定義するモデル開発パイプライン 1時間 18分前
Pythonは近年、AIモデルの最適化パイプラインそのものを記述する“オーケストレーション言語”として進化している。特に PyTorch 2.x のtorch.compileやCUDA Graphs最適化は、従来の eager モードでは得られなかった実行経路の固定化と高速化を実現している。
さらに、推論基盤では ONNX Runtime や TensorRT-LLM によるカーネル融合が一般化[…]
Y.S wrote a new post, claude 4.5がリリースされた 2か月前
こんにちは。フリーランスエンジニアの佐々木です。
最近、Anthropicが発表した Claude Sonnet 4.5 という新モデルが話題らしい。
従来モデルと比べてコーディング能力や数学・推論力が大きく向上し、長時間のタスクを自律的にこ[…]