← Back to News
Claude API

Anthropic、MRCR非推奨を示唆しGraphwalksを後継指標として公式推奨 — Opus 4.7評価基準の転換

元記事を読む →

Summary

Opus 4.7のMRCR(Multi-Round Context Recall)長文脈ベンチマーク大幅退行(78.3%→32.2%)に対し、AnthropicのBoris Cherny氏がMRCRを非推奨とし、Graphwalks(グラフ構造のマルチホップ推論ベンチマーク)を後継指標として推奨する公式見解を示した。Graphwalksでは38.7%→58.6%とOpus 4.6から大幅改善。Cherny氏は「MRCRはdistractor-stacking(妨害情報の積み上げ)トリックに過度に重み付けしており、実際の利用パターンを反映していない」と主張。一方でAnthropicはMRCRのスコアを「科学的誠実性のため」Opus 4.7システムカードに残しており、ベンチマーク移行を段階的に進める姿勢を示す。法律文書レビュー・金融分析・研究論文統合等の長文脈ユースケースユーザーにとって、評価基準の変更がモデル選択に直接影響する。

Key Takeaways

  • Boris Cherny氏がMRCRの非推奨を示唆 — Graphwalksが後継長文脈ベンチマークに
  • Graphwalks: Opus 4.6 38.7% → Opus 4.7 58.6%(51%改善)
  • MRCRは「distractor-stackingに過度に重み付け」との批判 — 実利用パターンを反映しないと主張
  • MRCRスコアはシステムカードに「科学的誠実性」として残存 — 段階的移行
  • 長文脈ユースケースの評価基準が変わるため、モデル選択の再評価が必要

Best Practice Updates

  • Opus 4.7の長文脈評価にはGraphwalksを主指標として採用し、MRCRは参考指標に格下げ
  • 長文脈ユースケースではMRCRとGraphwalksの両方でテストし、自社タスクへの適合性を実測で判断

元記事の著作権は各著作者に帰属します。