一般社団法人 全国個人事業主支援協会

COLUMN コラム

  • フロンティアLLMの動向

フロンティアLLMの動向(GPT-5.1 / Claude 4.5 / Gemini 3 など)

  • GPT-5.1 系列

    • GPT-5.1 / 5.1 Thinking 系が「汎用+長期推論」枠として標準化しつつある。

    • ベンチマークでは、長文読解・WebDev系・エージェント系で依然トップクラス。

  • Claude Opus / Sonnet 4.5

    • Anthropic が Claude Opus 4.5 を発表。SWE-Bench Verified で GPT-5.1 系を上回り、「コード特化 & エージェント用途」でかなり強い位置。

    • 「effort」パラメータで、品質・時間・コストを切り替えられるなど、エージェント前提設計が進んでいる。

  • Gemini 3 Pro

    • マルチモーダル推論(MMMU-Pro, ARC-AGI-2 など)では GPT-5.1 / Claude 4.5 より上という結果も出ており、画像+テキスト+コード混在タスクでかなり優位。

    • 専用TPUベースで推論コストも意識されているので、マルチモーダル大量処理の文脈で外せない。

  • その他(Grok, DeepSeek など)

    • xAI の Grok シリーズや、中国勢 DeepSeek 系(特に reasoning 特化モデル)は、コスパ重視の選択肢として台頭。ベンチマークでも中~上位に必ず顔を出す状態。

The following two tabs change content below.

WATANABE REN

千葉県在住のエンジニアです。最近はPythonやってます。

最新記事 by WATANABE REN (全て見る)

この記事をシェアする

  • Twitterでシェア
  • Facebookでシェア
  • LINEでシェア