2026年5月30日（土） Claude API

Opus 4.8ベンチマーク・開発者レビュー総合分析 — Harvey Legal Benchmark初の10%超え・Online-Mind2Web 84%で実用評価が拡大

Summary

Claude Opus 4.8リリース（5月28日）後の開発者・アナリストレビューが5月29-30日にかけてTokenMix・the-decoder・Vellum・Digital Applied・9to5Mac等から公開された。主要ベンチマーク分析: (1)SWE-bench Pro 69.2%でOpus 4.7（64.3%）・GPT-5.5（58.6%）・Gemini 3.1 Pro（54.2%）を大差リード。(2)Humanity's Last Exam 49.8%（ツールなし）でGPT-5.5（41.4%）を8.4pt上回る。(3)Online-Mind2Web 84%でWebエージェントタスクの「意味のある跳躍」と評価。(4)Harvey Legal Agent Benchmark（all-pass基準）で初めて10%を超えた最初のモデルとなり法務エージェント実用化の閾値に到達。(5)GDPval-AA Elo 1890（Opus 4.7比+137）で知識作業能力が大幅向上。開発者向け推奨: Opus 4.7からの移行はモデルID変更のみで同一価格のため即時推奨。the-decoderはAnthropicの「控えめだが実質的な改善」という位置づけを引用しつつ、複数ベンチマークでのトップ性能を強調。

Key Takeaways

▸ Harvey Legal Agent Benchmark初の10%超え — 法務エージェントの実用化閾値に到達
▸ Online-Mind2Web 84% — Webエージェントタスクで「意味のある跳躍」
▸ Humanity's Last Exam 49.8% — 汎用知識でGPT-5.5を8pt以上リード
▸ Opus 4.7と同一価格で性能向上 — モデルID変更のみで即時移行推奨

Best Practice Updates

✓ 法務・コンプライアンスエージェント設計でOpus 4.8の採用を推奨 — Harvey Legal Benchmark初の10%超えで法務ドメインの実用品質が実証
✓ WebエージェントタスクにはOpus 4.8を優先選択 — Online-Mind2Web 84%で複雑なWeb操作の信頼性が向上

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。