← Back to News
Claude API

Fable 5開発者コミュニティ初日反応: Karpathy「メジャーバージョンアップ相当の飛躍」、安全性分類器は初期設定で過剰拒否との指摘

元記事を読む →

Summary

Claude Fable 5のリリース翌日、開発者コミュニティから活発な反応。Andrej Karpathyは「ベンチマーク上のSOTAだけでなく、定性的にもClaude 4.5(2025年11月)と同レベルのメジャーバージョンアップに値する飛躍」と評価し、特に長時間の困難な問題解決セッションでのピーク性能を強調。一方で安全性分類器については「ローンチ時は少し過剰に反応する設定になっている」と指摘し、Anthropicも時間をかけてチューニングすると認めている。Anthropicによると安全性分類器は平均5%未満のセッションでトリガーされるが、ローンチ初期は意図的に広めに設定されており無害なクエリも誤検出する。Nathan Lambert(Interconnects)は「安全性分類器は新しいアプローチだがフロンティアAIの根本的リスクを解消するものではない」と分析。FrontierCode Diamondベンチマークでは29.3%(Opus 4.8: 13.4%)と相対的差が最大級。

Key Takeaways

  • Karpathy: 「qualitativelyにもmajor-version-bump-deserving step change forward」 — Claude 4.5以来の大幅飛躍
  • 安全性分類器は平均5%未満のセッションでトリガー — ローンチ初期は意図的に広めに設定
  • FrontierCode Diamond 29.3% vs Opus 4.8 13.4% — 難易度の高いコーディングベンチマークで相対差が顕著
  • Nathan Lambert: 安全性分類器は「新しいアプローチ」だが根本的リスク解消ではないとの慎重な評価

Best Practice Updates

  • Fable 5の安全性分類器refusal率は今後チューニングで低下が見込まれるため、初期の過剰refusalをベースラインとせず定期的にモニタリングを継続すべき

元記事の著作権は各著作者に帰属します。