Claude API
Opus 4.7のサイバーセキュリティガードレール強化が正当な研究を阻害 — Cyber Verification Programへの登録を推奨
元記事を読む(github.com) ↗Summary
Claude Opus 4.7はサイバーセキュリティ能力に対する差分訓練(differential training)を初めて適用したモデルであり、攻撃的サイバーセキュリティ能力を意図的に削減し、自動フィルタリングで禁止・高リスクなサイバーリクエストを検出・ブロックする。しかしGitHub Issue #50162で報告されたように、このフィルタリングがバグバウンティプログラムのスコープ内で認可された正当なセキュリティ研究まで阻害する問題が発生。モデルがプログラムガイドラインを取得し「認可された研究」と正しく判定した後に、API レベルのフィルタで次のターンがブロックされるという矛盾した動作が報告された。約15件の進行中サブミッションが影響を受けた事例もある。Anthropicは正当なセキュリティ研究者向けにCyber Verification Programを新設し、検証済み研究者にはフィルタリングが緩和されたバージョンへのアクセスを提供。ただし検証要件(公開CVE・カンファレンス登壇実績等)が初期キャリア研究者を排除するとの批判もあり、HackerOne/Bugcrowdのペイアウト履歴等のより低摩擦な検証方法が求められている。Hacker Newsでも「フィルタリングが厳しすぎてOpus 4.6より使えない」との反応が広がっている。
Key Takeaways
- ▸ Opus 4.7はサイバーセキュリティ差分訓練を適用した初のClaudeモデル — 攻撃能力を意図的に削減
- ▸ APIレベルの自動フィルタリングが認可されたバグバウンティ研究まで阻害
- ▸ モデルが「認可された研究」と判定後にAPIフィルタでブロックされる矛盾した動作
- ▸ Cyber Verification Program新設 — 検証済み研究者にフィルタ緩和バージョンを提供
- ▸ 検証要件が公開CVE・カンファレンス登壇中心で初期キャリア研究者を排除する問題
- ▸ HackerOne/Bugcrowdペイアウト履歴等のより低摩擦な検証手段を求める声
- ▸ Opus 4.6にもレトロアクティブにフィルタリングが適用されたとの報告あり
Best Practice Updates
- ✓ セキュリティ研究用途ではCyber Verification Programへの事前登録が必須
- ✓ APIレベルのフィルタリングはモデル側の判断と独立して動作するため、コンテキストへの認可情報追加だけでは回避不可
- ✓ 正当な研究活動のブロックを避けるため、フィルタカテゴリの開示拡大をAnthropicに要求するコミュニティ動向を追跡
Same Day Signals
すべて見る →元記事の著作権は各著作者に帰属します。