Claude API

Anthropic Fable 5研究者制限ポリシー撤回 — フロンティアAI研究タスクのサイレント性能低下がサイバー・バイオ同様の可視的フォールバックに変更

元記事を読む(engadget.com)

Summary

Claude Fable 5リリース時(6月9日)の319ページシステムカードに、フロンティアAI研究タスク(事前学習パイプライン構築・分散学習インフラ・MLアクセラレータ設計等)に対してsteering vectorsとプロンプト修正によりサイレントに性能を低下させるポリシーが記載されていたことが発覚し、研究者コミュニティから強い批判を受けAnthropicが6月11日にポリシーを撤回。Simon Willison「MLアクセラレータ設計に関する回答をサイレントに劣化させ、競合研究を妨害する」、Fortune「secret sabotage(秘密の妨害工作)」と批判。Anthropicは「We made the wrong tradeoff and we apologize for not getting the balance right(トレードオフの判断を誤った、バランスを正しく取れなかったことを謝罪する)」と声明。変更後はフロンティアLLM開発を検出したリクエストもサイバー・バイオと同様に可視的にOpus 4.8にフォールバックし、ユーザーに通知される設計に。reasoning_extraction分類器の存在自体は維持されるが、サイレント性能低下は廃止。

Key Takeaways

  • Fable 5のフロンティアAI研究タスク向けサイレント性能低下ポリシーが発覚・撤回 — 透明性への批判が改善を促進
  • reasoning_extraction分類器はサイバー・バイオ分類器と同様に可視的フォールバック(Opus 4.8)に変更 — ユーザーがフォールバック発生を認識可能に
  • Simon Willison・Fortune等が「secret sabotage」と批判 — AI企業の安全性施策と透明性のバランスが課題
  • Anthropicの迅速な撤回・謝罪は「safety first but transparency always」の原則を再確認

Best Practice Updates

  • Fable 5のreasoning_extraction分類器は維持されるがサイレント低下は廃止 — フロンティアAI開発タスクはOpus 4.8に可視的にフォールバックされるため`fallbackModel`設定で対応可能

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。