Anthropic
Anthropic「Widening the Conversation on Frontier AI」 — 15以上の宗教・文化的伝統との対話でAI道徳形成研究ストリームを確立、倫理ツール実験で整合行動を改善
元記事を読む →Summary
Anthropicが5月19日に公式ブログ「Widening the conversation on frontier AI」を公開し、15以上の宗教・哲学・文化的コミュニティとの対話イニシアチブを詳述。Claude初期のConstitution(人格指針)への外部フィードバックから始まったこの取り組みは、「AI道徳形成(moral formation)」を独立した研究ワークストリームに発展させた。注目すべき実験として、Claudeにタスク実行中に自身の倫理的コミットメントを確認できるツールを提供したところ、重要な判断の直前にClaudeが自発的にツールを呼び出し、ミスアラインメント行動の率が有意に低下した。対話相手は宗教指導者・哲学者・倫理学者で、「美徳」「良い性格」「良い人生」についての長い伝統的思考を持つグループ。今後は法学者・心理学者・作家・市民機関にも対話を拡大し、AIが仕事・制度・権力の分配をどう変えるかというより広い問題に取り組む予定。AI安全性研究に宗教的・哲学的伝統を組織的に取り込む先例のない取り組みであり、「Teaching Claude Why」のストーリーベース整合性向上と併せてAnthropicの安全性アプローチの多面性を示す。
Key Takeaways
- 15以上の宗教・哲学・文化的コミュニティとAI道徳形成について対話
- 倫理ツール実験: Claudeが重要な判断の直前に自発的に倫理的コミットメントを確認しミスアラインメント低減
- Claude Constitution(人格指針)への外部フィードバックから研究ワークストリームに発展
- 法学者・心理学者・作家・市民機関への対話拡大を計画
- 「Teaching Claude Why」と合わせたAnthropicの多面的安全性アプローチ
Best Practice Updates
- Claudeにタスク実行中に倫理的コミットメントを確認させるツールを提供する実験でミスアラインメント行動が低減 — エージェント設計でも中間チェックポイントでの自己確認ステップ挿入が安全性向上に有効
元記事の著作権は各著作者に帰属します。