2026年5月18日（月） Anthropic

Microsoft MDASHマルチエージェントAIがCyberGymベンチマークでMythosを上回る — 88.45% vs 83.1%でマルチモデル構成の優位性を実証

Summary

Microsoftが「MDASH」（Multi-Model Agentic Scanning Harness）を公開。100以上の専門AIエージェントが複数のフロンティアモデルを横断して協調動作し、CyberGymベンチマーク（UC Berkeley開発、1,507タスク・188 OSSプロジェクト）で88.45%を記録。Anthropic Mythos Preview（83.1%）およびOpenAI GPT-5.5（81.8%）を上回った。MDASHはWindowsネットワーキング・認証スタックで16の新規脆弱性（うち4件がcritical RCE）を発見し今月のPatch Tuesdayで修正済み。ただしスコアはすべて各社の自己申告であり独立検証は未実施。MDASHは現在Microsoft内部利用＋限定プライベートプレビューのみ。

Key Takeaways

▸ MDASH: CyberGymベンチマーク 88.45%（Mythos 83.1%・GPT-5.5 81.8%を上回る）
▸ 100以上の専門エージェントがコードスキャン→脆弱性議論→検証の多段階パイプラインで協調
▸ Windows 16新規脆弱性発見（4件critical RCE）— 今月Patch Tuesdayで修正済み
▸ スコアは自己申告・独立検証なし — ベンチマーク結果の信頼性に留意
▸ マルチモデル・マルチエージェント構成が単一モデルを上回る初の定量的実証

Best Practice Updates

✓ サイバーセキュリティAIではマルチモデル・マルチエージェント構成が単一モデルアプローチを上回ることが定量実証 — Advisor Toolやマルチモデルルーティングと同様の設計思想がセキュリティ領域でも有効

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。