2026年3月31日（火） Anthropic

Anthropic Alignment Science — AuditBenchベンチマーク公開

元記事を読む(alignment.anthropic.com) ↗

Summary

隠れた振る舞いが埋め込まれた56のLLMで構成されるアラインメント監査ベンチマーク「AuditBench」を公開。14カテゴリの隠れた振る舞い（迎合、AI規制への反対、隠れた忠誠等）を含み、直接質問では告白しないよう設計されている。

Key Takeaways

▸ アラインメント監査技術の標準的な評価手段を提供
▸ 自律的に対象モデルを監査する調査エージェントも開発
▸ ブラックボックスツールベースのスキャフォールディングが最も効果的と判明

Best Practice Updates

✓ LLMの安全性評価ではAuditBenchのような多角的な監査アプローチを検討

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。