Claude API
Sonnet 4.6がGDPval-AA(オフィスタスク)で初めてOpusを上回る — 「Workhorse that ate the flagship」
元記事を読む(nxcode.io) ↗Summary
2026年4月公開の比較ベンチマークで、Claude Sonnet 4.6がOpus 4.6と極めて接近、一部ベンチマークで初めてOpusを上回った。SWE-bench Verified: Sonnet 79.6% vs Opus 80.8%(差1.2ポイント)、OSWorld(エージェンティックコンピュータ使用): Sonnet 72.5% vs Opus 72.7%(ほぼ同等)、GDPval-AA(オフィスタスク): Sonnet Elo 1633 vs Opus 1606 — Sonnet版がOpus版を上回ったのは史上初。Sonnetはコーディング性能でOpusの98%を実現しつつ、価格は約1/5($3/MTok vs $15/MTok)。多くの本番システムでSonnet 4.6がデフォルト選択肢となる根拠が強化された。一方GPQA Diamond(高度科学推論)はOpusが17.2ポイント優位を維持。
Key Takeaways
- ▸ SWE-bench Verified: Sonnet 4.6 79.6% / Opus 4.6 80.8%(差1.2pt)
- ▸ OSWorld: Sonnet 72.5% / Opus 72.7%(事実上同等)
- ▸ GDPval-AA: Sonnet Elo 1633 > Opus 1606(Sonnet系が初めてOpus系を上回る)
- ▸ コーディング性能はOpusの98%、価格は約1/5
- ▸ GPQA Diamondは依然Opusが17.2pt優位(高度科学推論では差が残る)
- ▸ 「The workhorse that ate the flagship」とAwesomeAgentsが評論
- ▸ 70%の開発者がSonnet 4.5よりSonnet 4.6を好むと報告
Best Practice Updates
- ✓ 新規プロジェクトのデフォルトモデルはSonnet 4.6を第一選択肢に、Opusは科学推論・高度数学のみ用途限定
- ✓ Advisor Tool(Sonnet executor + Opus advisor)構成で品質とコストのバランスをさらに最適化
- ✓ コーディング・エージェンティック・オフィスタスクはSonnet 4.6で十分、Opus指名は5倍コストに見合うケースを明示基準化
- ✓ ベンチマークの定期ウォッチリストにGDPval-AA・OSWorld・SWE-bench Verifiedを加え、Sonnet vs Opus差分トレンドを追跡
Same Day Signals
すべて見る →- Claude Code Claude Code v2.1.105リリース — PreCompactフック・プラグインmonitors・EnterWorktree `path`対応
- Claude Code Anthropicが「Claude Code品質低下はキャッシュTTL変更が原因ではない」と公式見解 — 5分TTLはコスト増加なし
- Anthropic Claude Mythos Preview Early Bird申込期限が4月14日 — Project Glasswing参加組織向け
- Claude Code Claude Code Computer Use機能がCLI版に到達 — `/mcp`で有効化、ネイティブアプリ操作対応
元記事の著作権は各著作者に帰属します。