フロンティアLLMの動向 | 全国個人事業主支援協会

COLUMN コラム

フロンティアLLMの動向

GPT-5.1 系列
- GPT-5.1 / 5.1 Thinking 系が「汎用＋長期推論」枠として標準化しつつある。
- ベンチマークでは、長文読解・WebDev系・エージェント系で依然トップクラス。
Claude Opus / Sonnet 4.5
- Anthropic が Claude Opus 4.5 を発表。SWE-Bench Verified で GPT-5.1 系を上回り、「コード特化 & エージェント用途」でかなり強い位置。
- 「effort」パラメータで、品質・時間・コストを切り替えられるなど、エージェント前提設計が進んでいる。
Gemini 3 Pro
- マルチモーダル推論（MMMU-Pro, ARC-AGI-2 など）では GPT-5.1 / Claude 4.5 より上という結果も出ており、画像＋テキスト＋コード混在タスクでかなり優位。
- 専用TPUベースで推論コストも意識されているので、マルチモーダル大量処理の文脈で外せない。
その他（Grok, DeepSeek など）
- xAI の Grok シリーズや、中国勢 DeepSeek 系（特に reasoning 特化モデル）は、コスパ重視の選択肢として台頭。ベンチマークでも中～上位に必ず顔を出す状態。