2026年4月14日（火） Claude API

Sonnet 4.6がGDPval-AA（オフィスタスク）で初めてOpusを上回る — 「Workhorse that ate the flagship」

Summary

2026年4月公開の比較ベンチマークで、Claude Sonnet 4.6がOpus 4.6と極めて接近、一部ベンチマークで初めてOpusを上回った。SWE-bench Verified: Sonnet 79.6% vs Opus 80.8%（差1.2ポイント）、OSWorld（エージェンティックコンピュータ使用）: Sonnet 72.5% vs Opus 72.7%（ほぼ同等）、GDPval-AA（オフィスタスク）: Sonnet Elo 1633 vs Opus 1606 — Sonnet版がOpus版を上回ったのは史上初。Sonnetはコーディング性能でOpusの98%を実現しつつ、価格は約1/5（$3/MTok vs $15/MTok）。多くの本番システムでSonnet 4.6がデフォルト選択肢となる根拠が強化された。一方GPQA Diamond（高度科学推論）はOpusが17.2ポイント優位を維持。

Key Takeaways

▸ SWE-bench Verified: Sonnet 4.6 79.6% / Opus 4.6 80.8%（差1.2pt）
▸ OSWorld: Sonnet 72.5% / Opus 72.7%（事実上同等）
▸ GDPval-AA: Sonnet Elo 1633 > Opus 1606（Sonnet系が初めてOpus系を上回る）
▸ コーディング性能はOpusの98%、価格は約1/5
▸ GPQA Diamondは依然Opusが17.2pt優位（高度科学推論では差が残る）
▸ 「The workhorse that ate the flagship」とAwesomeAgentsが評論
▸ 70%の開発者がSonnet 4.5よりSonnet 4.6を好むと報告

Best Practice Updates

✓ 新規プロジェクトのデフォルトモデルはSonnet 4.6を第一選択肢に、Opusは科学推論・高度数学のみ用途限定
✓ Advisor Tool（Sonnet executor + Opus advisor）構成で品質とコストのバランスをさらに最適化
✓ コーディング・エージェンティック・オフィスタスクはSonnet 4.6で十分、Opus指名は5倍コストに見合うケースを明示基準化
✓ ベンチマークの定期ウォッチリストにGDPval-AA・OSWorld・SWE-bench Verifiedを加え、Sonnet vs Opus差分トレンドを追跡

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。