← Back to News
Claude API

Fable 5コードレビュー精度分析: コーディングベンチマーク首位だがレビュー精度ではOpus 4.8に劣後 — タスク特性に応じたモデル選択が重要

元記事を読む →

Summary

CodeRabbitが105件のEngineering Problem(EP)でFable 5のコードレビュー性能を詳細分析。Fable 5はSWE-bench Pro 80.3%・SWE-bench Verified 95.0%でコーディングベンチマーク首位だが、コードレビュータスクではactionable precision 32.8%(Opus 4.8: 35.5%)、full precision 19.4%(Opus 4.8: 26.5%)とOpus 4.8に劣後。EP finding coverage(発見カバレッジ)は65/105件でOpus 4.8の66/105件と同等。Fable 5は750K行規模のBunリライトやマルチファイルリファクタリング等の「コード生成・変更」タスクで圧倒的だが、「コードレビュー・品質検証」タスクではOpus 4.8のほうが精度が高い。この結果はFable 5の設計思想(長時間自律コーディングに最適化)とコードレビュータスクの性質(既存コードの微妙な問題を検出する精密作業)の違いを反映。

Key Takeaways

  • Fable 5はコーディング性能で圧倒的首位だがコードレビュー精度ではOpus 4.8に劣後 — タスク特性でモデルを使い分けるべき
  • Actionable precision 32.8% vs 35.5%、Full precision 19.4% vs 26.5%でOpus 4.8が優位
  • Finding coverage 65/105 vs 66/105でほぼ同等 — Fable 5は発見数は同等だが精度(偽陽性率)で劣る
  • コード生成→Fable 5、コードレビュー→Opus 4.8のタスク別モデルルーティングが最適

Best Practice Updates

  • `/code-review`・Ultrareview等のコードレビュータスクではOpus 4.8をデフォルトに設定し、大規模コード変更・リファクタリングタスクのみFable 5を適用するモデルルーティングを設計すべき

元記事の著作権は各著作者に帰属します。