← Back to News
Claude API

Sonnet 4.6がGDPval-AA(オフィスタスク)で初めてOpusを上回る — 「Workhorse that ate the flagship」

元記事を読む →

Summary

2026年4月公開の比較ベンチマークで、Claude Sonnet 4.6がOpus 4.6と極めて接近、一部ベンチマークで初めてOpusを上回った。SWE-bench Verified: Sonnet 79.6% vs Opus 80.8%(差1.2ポイント)、OSWorld(エージェンティックコンピュータ使用): Sonnet 72.5% vs Opus 72.7%(ほぼ同等)、GDPval-AA(オフィスタスク): Sonnet Elo 1633 vs Opus 1606 — Sonnet版がOpus版を上回ったのは史上初。Sonnetはコーディング性能でOpusの98%を実現しつつ、価格は約1/5($3/MTok vs $15/MTok)。多くの本番システムでSonnet 4.6がデフォルト選択肢となる根拠が強化された。一方GPQA Diamond(高度科学推論)はOpusが17.2ポイント優位を維持。

Key Takeaways

  • SWE-bench Verified: Sonnet 4.6 79.6% / Opus 4.6 80.8%(差1.2pt)
  • OSWorld: Sonnet 72.5% / Opus 72.7%(事実上同等)
  • GDPval-AA: Sonnet Elo 1633 > Opus 1606(Sonnet系が初めてOpus系を上回る)
  • コーディング性能はOpusの98%、価格は約1/5
  • GPQA Diamondは依然Opusが17.2pt優位(高度科学推論では差が残る)
  • 「The workhorse that ate the flagship」とAwesomeAgentsが評論
  • 70%の開発者がSonnet 4.5よりSonnet 4.6を好むと報告

Best Practice Updates

  • 新規プロジェクトのデフォルトモデルはSonnet 4.6を第一選択肢に、Opusは科学推論・高度数学のみ用途限定
  • Advisor Tool(Sonnet executor + Opus advisor)構成で品質とコストのバランスをさらに最適化
  • コーディング・エージェンティック・オフィスタスクはSonnet 4.6で十分、Opus指名は5倍コストに見合うケースを明示基準化
  • ベンチマークの定期ウォッチリストにGDPval-AA・OSWorld・SWE-bench Verifiedを加え、Sonnet vs Opus差分トレンドを追跡

元記事の著作権は各著作者に帰属します。