Anthropic
Microsoft MDASHマルチエージェントAIがCyberGymベンチマークでMythosを上回る — 88.45% vs 83.1%でマルチモデル構成の優位性を実証
元記事を読む(geekwire.com) ↗Summary
Microsoftが「MDASH」(Multi-Model Agentic Scanning Harness)を公開。100以上の専門AIエージェントが複数のフロンティアモデルを横断して協調動作し、CyberGymベンチマーク(UC Berkeley開発、1,507タスク・188 OSSプロジェクト)で88.45%を記録。Anthropic Mythos Preview(83.1%)およびOpenAI GPT-5.5(81.8%)を上回った。MDASHはWindowsネットワーキング・認証スタックで16の新規脆弱性(うち4件がcritical RCE)を発見し今月のPatch Tuesdayで修正済み。ただしスコアはすべて各社の自己申告であり独立検証は未実施。MDASHは現在Microsoft内部利用+限定プライベートプレビューのみ。
Key Takeaways
- ▸ MDASH: CyberGymベンチマーク 88.45%(Mythos 83.1%・GPT-5.5 81.8%を上回る)
- ▸ 100以上の専門エージェントがコードスキャン→脆弱性議論→検証の多段階パイプラインで協調
- ▸ Windows 16新規脆弱性発見(4件critical RCE)— 今月Patch Tuesdayで修正済み
- ▸ スコアは自己申告・独立検証なし — ベンチマーク結果の信頼性に留意
- ▸ マルチモデル・マルチエージェント構成が単一モデルを上回る初の定量的実証
Best Practice Updates
- ✓ サイバーセキュリティAIではマルチモデル・マルチエージェント構成が単一モデルアプローチを上回ることが定量実証 — Advisor Toolやマルチモデルルーティングと同様の設計思想がセキュリティ領域でも有効
Same Day Signals
すべて見る →- Anthropic 日本省庁横断対策会議本日開催 — Mythos対応を15重要インフラ部門に拡大・持続的防御フレームワーク構築へ
- Anthropic VentureBeat分析: Anthropicエンタープライズ首位に3大脅威 — オープンソース・Codex・トークン課金モデルの構造的脆弱性
- Claude Code Code with Claude London明日開催 — Research・Platform・Code 3トラック並行構成でエージェント実践ハンズオン
- Claude Code OpenAI vs Anthropicコーディングツール価格戦争 — Altman「Codex 2ヶ月無料」vsAnthropicの週次制限50%増の直接対決
元記事の著作権は各著作者に帰属します。