Anthropic
Anthropic Alignment Science: 自律AIリサーチエージェントがWeak-to-Strong Supervision問題で人間研究者を凌駕 — PGR 97% vs 23%
元記事を読む →Summary
Anthropic Alignment Scienceが、9つのClaude Opus 4.6エージェントを並列実行するAutomated Alignment Researcher(AAR)を構築し、weak-to-strong supervision問題(弱い監督者から強いモデルの本来の性能を回復する課題)で人間研究者を大幅に上回る成果を達成。人間7日間でPGR 23%に対し、AARは5日間で97%を記録。計算コスト約$18,000。
Key Takeaways
- 9つのClaude Opus 4.6エージェントが独立サンドボックスで並列作業し、共有フォーラムで知見を交換
- 人間研究者: 7日間でPGR 23% → AAR: 5日間でPGR 97%(約4倍の性能差)
- 累計800研究時間・約$18,000の計算コストで達成
- Weak-to-strong supervision(弱い監督者→強いモデルの性能回復)はAIアライメントの中核課題
- 一部Anthropic Fellowsプログラムの一環として実施、コードはGitHub公開
Best Practice Updates
- 並列AIエージェントによる自律研究が人間を上回る初の実証事例、エージェント設計パターンの参考に
元記事の著作権は各著作者に帰属します。