Claude API
Sonnet 4.6がGDPval-AA(オフィスタスク)で初めてOpusを上回る — 「Workhorse that ate the flagship」
元記事を読む →Summary
2026年4月公開の比較ベンチマークで、Claude Sonnet 4.6がOpus 4.6と極めて接近、一部ベンチマークで初めてOpusを上回った。SWE-bench Verified: Sonnet 79.6% vs Opus 80.8%(差1.2ポイント)、OSWorld(エージェンティックコンピュータ使用): Sonnet 72.5% vs Opus 72.7%(ほぼ同等)、GDPval-AA(オフィスタスク): Sonnet Elo 1633 vs Opus 1606 — Sonnet版がOpus版を上回ったのは史上初。Sonnetはコーディング性能でOpusの98%を実現しつつ、価格は約1/5($3/MTok vs $15/MTok)。多くの本番システムでSonnet 4.6がデフォルト選択肢となる根拠が強化された。一方GPQA Diamond(高度科学推論)はOpusが17.2ポイント優位を維持。
Key Takeaways
- SWE-bench Verified: Sonnet 4.6 79.6% / Opus 4.6 80.8%(差1.2pt)
- OSWorld: Sonnet 72.5% / Opus 72.7%(事実上同等)
- GDPval-AA: Sonnet Elo 1633 > Opus 1606(Sonnet系が初めてOpus系を上回る)
- コーディング性能はOpusの98%、価格は約1/5
- GPQA Diamondは依然Opusが17.2pt優位(高度科学推論では差が残る)
- 「The workhorse that ate the flagship」とAwesomeAgentsが評論
- 70%の開発者がSonnet 4.5よりSonnet 4.6を好むと報告
Best Practice Updates
- 新規プロジェクトのデフォルトモデルはSonnet 4.6を第一選択肢に、Opusは科学推論・高度数学のみ用途限定
- Advisor Tool(Sonnet executor + Opus advisor)構成で品質とコストのバランスをさらに最適化
- コーディング・エージェンティック・オフィスタスクはSonnet 4.6で十分、Opus指名は5倍コストに見合うケースを明示基準化
- ベンチマークの定期ウォッチリストにGDPval-AA・OSWorld・SWE-bench Verifiedを加え、Sonnet vs Opus差分トレンドを追跡
元記事の著作権は各著作者に帰属します。