GPT-5.1 系列
GPT-5.1 / 5.1 Thinking 系が「汎用+長期推論」枠として標準化しつつある。
ベンチマークでは、長文読解・WebDev系・エージェント系で依然トップクラス。
Claude Opus / Sonnet 4.5
Anthropic が Claude Opus 4.5 を発表。SWE-Bench Verified で GPT-5.1 系を上回り、「コード特化 & エージェント用途」でかなり強い位置。
「effort」パラメータで、品質・時間・コストを切り替えられるなど、エージェント前提設計が進んでいる。
Gemini 3 Pro
マルチモーダル推論(MMMU-Pro, ARC-AGI-2 など)では GPT-5.1 / Claude 4.5 より上という結果も出ており、画像+テキスト+コード混在タスクでかなり優位。
専用TPUベースで推論コストも意識されているので、マルチモーダル大量処理の文脈で外せない。
その他(Grok, DeepSeek など)
xAI の Grok シリーズや、中国勢 DeepSeek 系(特に reasoning 特化モデル)は、コスパ重視の選択肢として台頭。ベンチマークでも中~上位に必ず顔を出す状態。