← Back to News
Claude API

Opus 4.8ベンチマーク・開発者レビュー総合分析 — Harvey Legal Benchmark初の10%超え・Online-Mind2Web 84%で実用評価が拡大

元記事を読む →

Summary

Claude Opus 4.8リリース(5月28日)後の開発者・アナリストレビューが5月29-30日にかけてTokenMix・the-decoder・Vellum・Digital Applied・9to5Mac等から公開された。主要ベンチマーク分析: (1)SWE-bench Pro 69.2%でOpus 4.7(64.3%)・GPT-5.5(58.6%)・Gemini 3.1 Pro(54.2%)を大差リード。(2)Humanity's Last Exam 49.8%(ツールなし)でGPT-5.5(41.4%)を8.4pt上回る。(3)Online-Mind2Web 84%でWebエージェントタスクの「意味のある跳躍」と評価。(4)Harvey Legal Agent Benchmark(all-pass基準)で初めて10%を超えた最初のモデルとなり法務エージェント実用化の閾値に到達。(5)GDPval-AA Elo 1890(Opus 4.7比+137)で知識作業能力が大幅向上。開発者向け推奨: Opus 4.7からの移行はモデルID変更のみで同一価格のため即時推奨。the-decoderはAnthropicの「控えめだが実質的な改善」という位置づけを引用しつつ、複数ベンチマークでのトップ性能を強調。

Key Takeaways

  • Harvey Legal Agent Benchmark初の10%超え — 法務エージェントの実用化閾値に到達
  • Online-Mind2Web 84% — Webエージェントタスクで「意味のある跳躍」
  • Humanity's Last Exam 49.8% — 汎用知識でGPT-5.5を8pt以上リード
  • Opus 4.7と同一価格で性能向上 — モデルID変更のみで即時移行推奨

Best Practice Updates

  • 法務・コンプライアンスエージェント設計でOpus 4.8の採用を推奨 — Harvey Legal Benchmark初の10%超えで法務ドメインの実用品質が実証
  • WebエージェントタスクにはOpus 4.8を優先選択 — Online-Mind2Web 84%で複雑なWeb操作の信頼性が向上

元記事の著作権は各著作者に帰属します。