2026年4月18日（土） Claude API

Opus 4.7 MRCR長文脈ベンチマークで78.3%→32.2%に急落 — Claude Codeでのマルウェア誤検出も報告

Summary

Startup Fortuneの詳細分析により、Opus 4.7の長文脈処理能力の大幅な退行が明らかになった。MRCRベンチマーク（長文書内の情報検索・推論能力の標準指標）でOpus 4.7は32.2%を記録し、Opus 4.6の78.3%から59%の低下。法律文書レビュー・金融分析・研究論文統合など長文脈ユースケースへの影響が懸念される。さらにClaude Codeにおいて、複数のエンジニアがOpus 4.7が「通常の無害なコードをマルウェアとしてフラグ付けし、基本的な編集の完了を拒否する」事例を報告。記事は「Opus 4.7はOpus 4.6のnerf前ビルドにトークナイザー変更を加えたステルス値上げ」との批判的見解を紹介し、Anthropicがこれらの問題に直接対処していないことも指摘。

Key Takeaways

▸ MRCRベンチマーク: Opus 4.7は32.2%、Opus 4.6は78.3%（59%低下）
▸ 長文脈処理の大幅退行が法律・金融・研究用途に深刻な影響
▸ Claude Codeで通常コードをマルウェアと誤検出し編集を拒否する事例が複数報告
▸ 「Opus 4.6のnerf前ビルド＋トークナイザー変更＝ステルス値上げ」との批判
▸ Anthropicはこれらの問題に直接的な公式コメントを出していない
▸ 短文脈タスク（コーディング等）では性能向上が確認されるも、長文脈で大幅退行

Best Practice Updates

✓ Opus 4.7への移行は長文脈ユースケースで事前にMRCRベンチマーク相当のテストを実施
✓ 長文脈タスクはOpus 4.6を維持し、短文脈コーディングタスクのみOpus 4.7を選択的に採用
✓ Claude Codeでマルウェア誤検出が発生する場合はOpus 4.6にフォールバック

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。