Claude API
Opus 4.7 MRCR長文脈ベンチマークで78.3%→32.2%に急落 — Claude Codeでのマルウェア誤検出も報告
元記事を読む →Summary
Startup Fortuneの詳細分析により、Opus 4.7の長文脈処理能力の大幅な退行が明らかになった。MRCRベンチマーク(長文書内の情報検索・推論能力の標準指標)でOpus 4.7は32.2%を記録し、Opus 4.6の78.3%から59%の低下。法律文書レビュー・金融分析・研究論文統合など長文脈ユースケースへの影響が懸念される。さらにClaude Codeにおいて、複数のエンジニアがOpus 4.7が「通常の無害なコードをマルウェアとしてフラグ付けし、基本的な編集の完了を拒否する」事例を報告。記事は「Opus 4.7はOpus 4.6のnerf前ビルドにトークナイザー変更を加えたステルス値上げ」との批判的見解を紹介し、Anthropicがこれらの問題に直接対処していないことも指摘。
Key Takeaways
- MRCRベンチマーク: Opus 4.7は32.2%、Opus 4.6は78.3%(59%低下)
- 長文脈処理の大幅退行が法律・金融・研究用途に深刻な影響
- Claude Codeで通常コードをマルウェアと誤検出し編集を拒否する事例が複数報告
- 「Opus 4.6のnerf前ビルド+トークナイザー変更=ステルス値上げ」との批判
- Anthropicはこれらの問題に直接的な公式コメントを出していない
- 短文脈タスク(コーディング等)では性能向上が確認されるも、長文脈で大幅退行
Best Practice Updates
- Opus 4.7への移行は長文脈ユースケースで事前にMRCRベンチマーク相当のテストを実施
- 長文脈タスクはOpus 4.6を維持し、短文脈コーディングタスクのみOpus 4.7を選択的に採用
- Claude Codeでマルウェア誤検出が発生する場合はOpus 4.6にフォールバック
元記事の著作権は各著作者に帰属します。