2026年6月12日（金） Claude API

Fable 5コードレビュー精度分析: コーディングベンチマーク首位だがレビュー精度ではOpus 4.8に劣後 — タスク特性に応じたモデル選択が重要

Summary

CodeRabbitが105件のEngineering Problem（EP）でFable 5のコードレビュー性能を詳細分析。Fable 5はSWE-bench Pro 80.3%・SWE-bench Verified 95.0%でコーディングベンチマーク首位だが、コードレビュータスクではactionable precision 32.8%（Opus 4.8: 35.5%）、full precision 19.4%（Opus 4.8: 26.5%）とOpus 4.8に劣後。EP finding coverage（発見カバレッジ）は65/105件でOpus 4.8の66/105件と同等。Fable 5は750K行規模のBunリライトやマルチファイルリファクタリング等の「コード生成・変更」タスクで圧倒的だが、「コードレビュー・品質検証」タスクではOpus 4.8のほうが精度が高い。この結果はFable 5の設計思想（長時間自律コーディングに最適化）とコードレビュータスクの性質（既存コードの微妙な問題を検出する精密作業）の違いを反映。

Key Takeaways

▸ Fable 5はコーディング性能で圧倒的首位だがコードレビュー精度ではOpus 4.8に劣後 — タスク特性でモデルを使い分けるべき
▸ Actionable precision 32.8% vs 35.5%、Full precision 19.4% vs 26.5%でOpus 4.8が優位
▸ Finding coverage 65/105 vs 66/105でほぼ同等 — Fable 5は発見数は同等だが精度（偽陽性率）で劣る
▸ コード生成→Fable 5、コードレビュー→Opus 4.8のタスク別モデルルーティングが最適

Best Practice Updates

✓ `/code-review`・Ultrareview等のコードレビュータスクではOpus 4.8をデフォルトに設定し、大規模コード変更・リファクタリングタスクのみFable 5を適用するモデルルーティングを設計すべき

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。