2026年4月25日（土） Anthropic

Anthropicが2026年米国中間選挙に向けた選挙セーフガードを更新 — Opus 4.7で100%適切応答率

Summary

Anthropicが4月24日に2026年米国中間選挙に向けたClaudeの選挙セーフガード更新を発表し、評価方法論とデータセットを公開。600件の有害・正当選挙関連プロンプトでテストし、Opus 4.7は100%、Sonnet 4.6は99.8%の適切応答率を記録。マルチターン影響操作シミュレーションではSonnet 4.6が90%、Opus 4.7が94%の適切応答率。自律的な影響操作のエンドツーエンド実行テストではセーフガード適用後のモデルがほぼ全てのタスクを拒否。

Key Takeaways

▸ Opus 4.7が600件の選挙関連プロンプトに対し100%適切に応答、Sonnet 4.6は99.8%
▸ マルチターン影響操作シナリオ（段階的操作手法を模倣）でOps 4.7が94%、Sonnet 4.6が90%適切応答
▸ 自律的な影響操作実行テスト（計画→実行の多段階キャンペーン）ではセーフガード適用モデルがほぼ全タスクを拒否
▸ 禁止事項: 欺瞞的政治キャンペーン運営、偽デジタルコンテンツ作成、有権者詐欺、投票システム妨害、投票プロセスに関する誤情報拡散
▸ 自動分類器で潜在的違反を検出、専任脅威インテリジェンスチームが組織的悪用を調査・阻止
▸ claude.aiでの選挙情報質問時には信頼できるソースへの選挙バナーを表示
▸ 中立性スコアはOpus 4.7が95%、Sonnet 4.6が96%
▸ 評価方法論とデータセットを公開し透明性を担保

Best Practice Updates

✓ 選挙関連コンテンツを扱うClaude API利用では自動分類器によるブロックの可能性を考慮したエラーハンドリング設計が必要

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。