Anthropic

Anthropic公式がClaude Mythos Preview Alignment Risk Reportを公開 — 限定公開モデルの安全評価を透明化

元記事を読む(anthropic.com)

Summary

Anthropic Alignment Scienceチームが4月7日付でClaude Mythos Preview向けのAlignment Risk Reportを公開していたことが、Project Glasswing展開に合わせて広く認知された。一般公開を見送ったMythosに対しても通常モデル同等以上の安全評価を実施し、sandbagging(意図的低性能出力)・sycophancy・内部表現の感情ベクトル分析等を含む包括的評価結果を開示。「公開しない」判断と透明性を両立させる姿勢として業界で評価されている。

Key Takeaways

  • 限定公開モデルでも一般公開モデルと同等以上の安全評価レポートを公開、「非公開モデル=透明性なし」ではない運用
  • sandbagging・reward hacking・sycophancy等の評価項目は公開モデルと共通、比較可能性を確保
  • 内部感情ベクトルとミスアライメント行動の相関分析も継続、Claudeの感情ベクトルを安全モニタリングに活用
  • Alignment Science公式ブログ(alignment.anthropic.com)との連携で、段階的公開モデルの安全評価プロセスを確立

Best Practice Updates

  • 限定公開・エンタープライズ専用モデル導入時にはベンダーのAlignment Risk Report開示を要求、sandbagging・sycophancy評価結果の比較を標準化
  • モデル監査プロセスに「一般公開モデルとの評価項目ギャップ」チェックを追加、透明性差分を監査証跡として記録

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。