2026-04-22 Anthropic

Anthropic Alignment Science: 自律AIリサーチエージェントがWeak-to-Strong Supervision問題で人間研究者を凌駕 — PGR 97% vs 23%

Summary

Anthropic Alignment Scienceが、9つのClaude Opus 4.6エージェントを並列実行するAutomated Alignment Researcher（AAR）を構築し、weak-to-strong supervision問題（弱い監督者から強いモデルの本来の性能を回復する課題）で人間研究者を大幅に上回る成果を達成。人間7日間でPGR 23%に対し、AARは5日間で97%を記録。計算コスト約$18,000。

Key Takeaways

9つのClaude Opus 4.6エージェントが独立サンドボックスで並列作業し、共有フォーラムで知見を交換
人間研究者: 7日間でPGR 23% → AAR: 5日間でPGR 97%（約4倍の性能差）
累計800研究時間・約$18,000の計算コストで達成
Weak-to-strong supervision（弱い監督者→強いモデルの性能回復）はAIアライメントの中核課題
一部Anthropic Fellowsプログラムの一環として実施、コードはGitHub公開

Best Practice Updates

並列AIエージェントによる自律研究が人間を上回る初の実証事例、エージェント設計パターンの参考に

元記事の著作権は各著作者に帰属します。