Anthropic
Anthropicが2026年米国中間選挙に向けた選挙セーフガードを更新 — Opus 4.7で100%適切応答率
元記事を読む →Summary
Anthropicが4月24日に2026年米国中間選挙に向けたClaudeの選挙セーフガード更新を発表し、評価方法論とデータセットを公開。600件の有害・正当選挙関連プロンプトでテストし、Opus 4.7は100%、Sonnet 4.6は99.8%の適切応答率を記録。マルチターン影響操作シミュレーションではSonnet 4.6が90%、Opus 4.7が94%の適切応答率。自律的な影響操作のエンドツーエンド実行テストではセーフガード適用後のモデルがほぼ全てのタスクを拒否。
Key Takeaways
- Opus 4.7が600件の選挙関連プロンプトに対し100%適切に応答、Sonnet 4.6は99.8%
- マルチターン影響操作シナリオ(段階的操作手法を模倣)でOps 4.7が94%、Sonnet 4.6が90%適切応答
- 自律的な影響操作実行テスト(計画→実行の多段階キャンペーン)ではセーフガード適用モデルがほぼ全タスクを拒否
- 禁止事項: 欺瞞的政治キャンペーン運営、偽デジタルコンテンツ作成、有権者詐欺、投票システム妨害、投票プロセスに関する誤情報拡散
- 自動分類器で潜在的違反を検出、専任脅威インテリジェンスチームが組織的悪用を調査・阻止
- claude.aiでの選挙情報質問時には信頼できるソースへの選挙バナーを表示
- 中立性スコアはOpus 4.7が95%、Sonnet 4.6が96%
- 評価方法論とデータセットを公開し透明性を担保
Best Practice Updates
- 選挙関連コンテンツを扱うClaude API利用では自動分類器によるブロックの可能性を考慮したエラーハンドリング設計が必要
元記事の著作権は各著作者に帰属します。