2026年4月20日（月） Claude API

Anthropic、MRCR非推奨を示唆しGraphwalksを後継指標として公式推奨 — Opus 4.7評価基準の転換

Summary

Opus 4.7のMRCR（Multi-Round Context Recall）長文脈ベンチマーク大幅退行（78.3%→32.2%）に対し、AnthropicのBoris Cherny氏がMRCRを非推奨とし、Graphwalks（グラフ構造のマルチホップ推論ベンチマーク）を後継指標として推奨する公式見解を示した。Graphwalksでは38.7%→58.6%とOpus 4.6から大幅改善。Cherny氏は「MRCRはdistractor-stacking（妨害情報の積み上げ）トリックに過度に重み付けしており、実際の利用パターンを反映していない」と主張。一方でAnthropicはMRCRのスコアを「科学的誠実性のため」Opus 4.7システムカードに残しており、ベンチマーク移行を段階的に進める姿勢を示す。法律文書レビュー・金融分析・研究論文統合等の長文脈ユースケースユーザーにとって、評価基準の変更がモデル選択に直接影響する。

Key Takeaways

▸ Boris Cherny氏がMRCRの非推奨を示唆 — Graphwalksが後継長文脈ベンチマークに
▸ Graphwalks: Opus 4.6 38.7% → Opus 4.7 58.6%（51%改善）
▸ MRCRは「distractor-stackingに過度に重み付け」との批判 — 実利用パターンを反映しないと主張
▸ MRCRスコアはシステムカードに「科学的誠実性」として残存 — 段階的移行
▸ 長文脈ユースケースの評価基準が変わるため、モデル選択の再評価が必要

Best Practice Updates

✓ Opus 4.7の長文脈評価にはGraphwalksを主指標として採用し、MRCRは参考指標に格下げ
✓ 長文脈ユースケースではMRCRとGraphwalksの両方でテストし、自社タスクへの適合性を実測で判断

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。