Claude API
Claude Opus 4.8リリース — エージェントコーディング・誠実性・知識作業でOpus 4.7とGPT-5.5を上回るフラグシップモデル
元記事を読む →Summary
Anthropicが5月28日にClaude Opus 4.8をリリース。Claude API・Amazon Bedrock・Google Cloud Vertex AI・Microsoft Foundryで即座に利用可能。1Mトークンコンテキストウィンドウをデフォルトでサポートし、最大出力128kトークン。Opus 4.7と同一価格で提供。SWE-bench Pro(エージェントコーディング)69.2%(Opus 4.7: 64.3%、GPT-5.5: 58.6%)、SWE-bench Verified 88.6%、Terminal-Bench 2.1 74.6%と主要ベンチマークでトップ性能。ツール利用多分野推論54.7%→57.9%、知識作業スコア1753→1890に向上。誠実性面では欠陥コードを無批判に報告する率が初めて0%を達成し、過信度はOpus 4.7比10倍以上低減、コード欠陥を見逃す確率は4分の1に改善。Anthropicは「控えめだが実質的な改善(modest but tangible improvement)」と位置付けつつ、GPT-5.5を多くのベンチマークで上回る。同時にFast Modeの3倍値下げ($10/$50 per MTok)、claude.ai・CoworkでのEffort Control(Low〜Max、Opus 4.8はHighがデフォルト)、Messages APIでの会話中システムメッセージ(mid-conversation system messages)もリリース。
Key Takeaways
- SWE-bench Pro 69.2%でエージェントコーディング最高性能 — Opus 4.7比+4.9pt、GPT-5.5比+10.6pt
- 欠陥報告率0%・過信度10倍低減・コード欠陥見逃し4分の1 — 誠実性が大幅向上
- Fast Mode 3倍値下げ($10/$50)で高速推論のコスト効率が劇的改善
- mid-conversation system messagesでタスク中の指示動的更新が可能に
- Opus 4.7と同一価格で性能向上 — 移行のコスト障壁なし
Best Practice Updates
- Opus 4.8のmid-conversation system messagesを活用しエージェントループ内でのコンテキスト動的切り替えを設計可能に
- Fast Mode 3倍値下げにより高速推論の利用コスト閾値が大幅低下 — バッチ処理・並列エージェントでのFast Mode活用を再検討すべき
元記事の著作権は各著作者に帰属します。