2026年4月14日（火） Anthropic

Anthropic公式がClaude Mythos Preview Alignment Risk Reportを公開 — 限定公開モデルの安全評価を透明化

Summary

Anthropic Alignment Scienceチームが4月7日付でClaude Mythos Preview向けのAlignment Risk Reportを公開していたことが、Project Glasswing展開に合わせて広く認知された。一般公開を見送ったMythosに対しても通常モデル同等以上の安全評価を実施し、sandbagging（意図的低性能出力）・sycophancy・内部表現の感情ベクトル分析等を含む包括的評価結果を開示。「公開しない」判断と透明性を両立させる姿勢として業界で評価されている。

Key Takeaways

▸ 限定公開モデルでも一般公開モデルと同等以上の安全評価レポートを公開、「非公開モデル＝透明性なし」ではない運用
▸ sandbagging・reward hacking・sycophancy等の評価項目は公開モデルと共通、比較可能性を確保
▸ 内部感情ベクトルとミスアライメント行動の相関分析も継続、Claudeの感情ベクトルを安全モニタリングに活用
▸ Alignment Science公式ブログ（alignment.anthropic.com）との連携で、段階的公開モデルの安全評価プロセスを確立

Best Practice Updates

✓ 限定公開・エンタープライズ専用モデル導入時にはベンダーのAlignment Risk Report開示を要求、sandbagging・sycophancy評価結果の比較を標準化
✓ モデル監査プロセスに「一般公開モデルとの評価項目ギャップ」チェックを追加、透明性差分を監査証跡として記録

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。