← Back to News
Anthropic

Anthropicが2026年米国中間選挙に向けた選挙セーフガードを更新 — Opus 4.7で100%適切応答率

元記事を読む →

Summary

Anthropicが4月24日に2026年米国中間選挙に向けたClaudeの選挙セーフガード更新を発表し、評価方法論とデータセットを公開。600件の有害・正当選挙関連プロンプトでテストし、Opus 4.7は100%、Sonnet 4.6は99.8%の適切応答率を記録。マルチターン影響操作シミュレーションではSonnet 4.6が90%、Opus 4.7が94%の適切応答率。自律的な影響操作のエンドツーエンド実行テストではセーフガード適用後のモデルがほぼ全てのタスクを拒否。

Key Takeaways

  • Opus 4.7が600件の選挙関連プロンプトに対し100%適切に応答、Sonnet 4.6は99.8%
  • マルチターン影響操作シナリオ(段階的操作手法を模倣)でOps 4.7が94%、Sonnet 4.6が90%適切応答
  • 自律的な影響操作実行テスト(計画→実行の多段階キャンペーン)ではセーフガード適用モデルがほぼ全タスクを拒否
  • 禁止事項: 欺瞞的政治キャンペーン運営、偽デジタルコンテンツ作成、有権者詐欺、投票システム妨害、投票プロセスに関する誤情報拡散
  • 自動分類器で潜在的違反を検出、専任脅威インテリジェンスチームが組織的悪用を調査・阻止
  • claude.aiでの選挙情報質問時には信頼できるソースへの選挙バナーを表示
  • 中立性スコアはOpus 4.7が95%、Sonnet 4.6が96%
  • 評価方法論とデータセットを公開し透明性を担保

Best Practice Updates

  • 選挙関連コンテンツを扱うClaude API利用では自動分類器によるブロックの可能性を考慮したエラーハンドリング設計が必要

元記事の著作権は各著作者に帰属します。