Anthropic
Anthropic公式がClaude Mythos Preview Alignment Risk Reportを公開 — 限定公開モデルの安全評価を透明化
元記事を読む(anthropic.com) ↗Summary
Anthropic Alignment Scienceチームが4月7日付でClaude Mythos Preview向けのAlignment Risk Reportを公開していたことが、Project Glasswing展開に合わせて広く認知された。一般公開を見送ったMythosに対しても通常モデル同等以上の安全評価を実施し、sandbagging(意図的低性能出力)・sycophancy・内部表現の感情ベクトル分析等を含む包括的評価結果を開示。「公開しない」判断と透明性を両立させる姿勢として業界で評価されている。
Key Takeaways
- ▸ 限定公開モデルでも一般公開モデルと同等以上の安全評価レポートを公開、「非公開モデル=透明性なし」ではない運用
- ▸ sandbagging・reward hacking・sycophancy等の評価項目は公開モデルと共通、比較可能性を確保
- ▸ 内部感情ベクトルとミスアライメント行動の相関分析も継続、Claudeの感情ベクトルを安全モニタリングに活用
- ▸ Alignment Science公式ブログ(alignment.anthropic.com)との連携で、段階的公開モデルの安全評価プロセスを確立
Best Practice Updates
- ✓ 限定公開・エンタープライズ専用モデル導入時にはベンダーのAlignment Risk Report開示を要求、sandbagging・sycophancy評価結果の比較を標準化
- ✓ モデル監査プロセスに「一般公開モデルとの評価項目ギャップ」チェックを追加、透明性差分を監査証跡として記録
Same Day Signals
すべて見る →- Claude Code Claude Code v2.1.105リリース — PreCompactフック・プラグインmonitors・EnterWorktree `path`対応
- Claude Code Anthropicが「Claude Code品質低下はキャッシュTTL変更が原因ではない」と公式見解 — 5分TTLはコスト増加なし
- Anthropic Claude Mythos Preview Early Bird申込期限が4月14日 — Project Glasswing参加組織向け
- Claude Code Claude Code Computer Use機能がCLI版に到達 — `/mcp`で有効化、ネイティブアプリ操作対応
元記事の著作権は各著作者に帰属します。