Anthropic

Microsoft MDASHマルチエージェントAIがCyberGymベンチマークでMythosを上回る — 88.45% vs 83.1%でマルチモデル構成の優位性を実証

元記事を読む(geekwire.com)

Summary

Microsoftが「MDASH」(Multi-Model Agentic Scanning Harness)を公開。100以上の専門AIエージェントが複数のフロンティアモデルを横断して協調動作し、CyberGymベンチマーク(UC Berkeley開発、1,507タスク・188 OSSプロジェクト)で88.45%を記録。Anthropic Mythos Preview(83.1%)およびOpenAI GPT-5.5(81.8%)を上回った。MDASHはWindowsネットワーキング・認証スタックで16の新規脆弱性(うち4件がcritical RCE)を発見し今月のPatch Tuesdayで修正済み。ただしスコアはすべて各社の自己申告であり独立検証は未実施。MDASHは現在Microsoft内部利用+限定プライベートプレビューのみ。

Key Takeaways

  • MDASH: CyberGymベンチマーク 88.45%(Mythos 83.1%・GPT-5.5 81.8%を上回る)
  • 100以上の専門エージェントがコードスキャン→脆弱性議論→検証の多段階パイプラインで協調
  • Windows 16新規脆弱性発見(4件critical RCE)— 今月Patch Tuesdayで修正済み
  • スコアは自己申告・独立検証なし — ベンチマーク結果の信頼性に留意
  • マルチモデル・マルチエージェント構成が単一モデルを上回る初の定量的実証

Best Practice Updates

  • サイバーセキュリティAIではマルチモデル・マルチエージェント構成が単一モデルアプローチを上回ることが定量実証 — Advisor Toolやマルチモデルルーティングと同様の設計思想がセキュリティ領域でも有効

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。