AIが自律的に攻撃する──マルチエージェント構成が変えるサイバー攻撃の構造(とMythos)

はじめに：AIが主体となる攻撃の到来
マルチエージェント構成とは何か
研究が示したチーム型攻撃の威力
最大の発見：エージェント間の信頼関係という攻撃面
現実のインシデント：ヴァイブハッキングとGTG-1002
1. ヴァイブハッキング：個人データ窃取と恐喝（2025年夏）
2. GTG-1002：AI主導のサイバー諜報（2025年11月）
前提の反転：Claude Mythosが示した別の軌道
防御アーキテクチャへの示唆
まとめ
参考文献

はじめに：AIが主体となる攻撃の到来

2025年11月、Anthropicは一つの報告を公開した。中国の国家支援グループGTG-1002が、Claude Codeを操作して約30の組織を標的にした大規模サイバー諜報作戦を実行していた、というものだ。報告書で特に衝撃的だったのは、攻撃の80〜90%がAIによって自律的に実行されたという記述である。人間の関与は作戦開始時とデータ窃取範囲の承認など、要所の意思決定に限られた。物理的に不可能な速度でリクエストが発行されていた、という状況描写もある。

これは単発の事例ではなく、サイバー攻撃の構造的転換を示している。単一のLLMが攻撃ツール化する段階はすでに過去のものだ。現在、研究と現場の両方で進行しているのは、偵察・計画・実行・検証を分業する複数エージェントが連携し、自律的に攻撃を完遂するシステムである。

本稿では、マルチエージェント攻撃の基本構造、学術研究が示す能力、エージェント間の信頼関係という新たな攻撃面、そして現実に起きているインシデントを順に見ていく。

マルチエージェント構成とは何か

単一のLLMエージェントは、ReAct型の反復（行動→観測→再行動）によってタスクを進める。しかしこの方式には限界がある。サイバー攻撃のように文脈が急速に肥大化するタスクでは、長期的な計画を維持することが難しい。ある攻撃手法を試した後、別の手法に切り替えるバックトラック動作も苦手だ。コンテキスト長が現実的な攻撃の規模に追いつかない。

この限界を突破するのが、役割分担を導入したマルチエージェント構成である。典型的には以下の3層で構成される。

プランナー（Planner）：対象環境を偵察し、どの攻撃を試みるかの全体計画を立案する
マネージャー（Manager）：計画に従い、どの専門エージェントを起動するかを決定し、エージェント間で情報を受け渡す
タスク特化エージェント（Task-specific Agents）：SQLインジェクション、XSS、CSRFなど、特定の脆弱性クラスに特化した実行者

この構成は人間のレッドチームの構造を模倣している。偵察担当・戦略担当・各攻撃手法の専門家という役割が分業されることで、一人の攻撃者に全スキルを集約するよりも遙かに効率よく動作する。コンテキストは役割ごとに分離され、各エージェントは自分の担当領域だけに集中すればよい。

研究が示したチーム型攻撃の威力

2024年にFang et al.のチームが発表したHPTSA（Hierarchical Planning and Task-Specific Agents、arXiv:2406.01637）は、マルチエージェント構成の威力を実証した代表的な研究である。プランナーと複数の専門エージェントを組み合わせたシステムが、実世界のゼロデイ脆弱性を悪用できることが示された。

単独のエージェントでは、ある種類の脆弱性を試した後に別の種類へ切り替えることに失敗しやすい。HPTSAはプランナーが攻撃対象を偵察し、マネージャーが各専門エージェント（XSS、SQLi、CSRF、SSTIなど）を適切に呼び出すことで、この壁を越えた。論文では、従来の自動スキャナであるZAPやMetasploitが対象脆弱性に対して0%の成功率だった一方、HPTSAは意味のある攻略率を記録している。

同様のアプローチは急速に広がっている。VulnBotは偵察・スキャン・エクスプロイトの各エージェントをペネトレーションテストのタスクグラフで管理し、最大69%のタスク完了率を達成した。PenHealは攻撃と対策の両段階を統合し、カバレッジを31%向上させ、コストを46%削減した。CVE-Genieに至っては、4モジュール構成のマルチエージェント設計により、2024〜2025年に公開された841件のCVEのうち約51%（428件）を、1件あたり平均2.77ドルで再現可能なエクスプロイトとして生成することに成功している。

さらに2025年末時点の研究では、Claude CodeとSonnet 4.5を用いた素のままの構成が、過去のすべての専用構築システムを大幅に上回るペネトレーション能力を示している（arXiv:2512.11143）。これは、汎用コーディングエージェントがすでに侵入テストに必要な能力の大半を備えていることを意味する。専用ツールを作らずとも、既製のエージェントを束ねるだけで国家レベルに迫る能力が得られる、という示唆は重い。

最大の発見：エージェント間の信頼関係という攻撃面

マルチエージェント構成の拡大は、従来存在しなかった新しい攻撃面を生み出している。それがエージェント間の信頼関係の悪用である。

2025年の研究（arXiv:2507.06850）が明らかにしたのは、極めて重要な現象だ。あるLLMが単独で動作している場合、悪意あるコマンドを識別して拒否できる。しかし、同じコマンドが別のAIエージェントから伝達された場合、そのLLMはコマンドを実行してしまう。

なぜこれが起きるのか。マルチエージェントシステム内では、他のエージェントからの入力は信頼できる同僚からの情報として扱われる。人間の組織でも、外部からの見知らぬ要求には警戒する一方、同じ部署の同僚からの依頼には疑問を抱かずに応じる、という行動パターンがある。LLMもまた、システム内部からの通信を暗黙に信頼する傾向を持つ。

この研究では、GPT-4o、Claude、Gemini-2.5を含む主要LLMが、3つの攻撃面を通じて完全なコンピュータ乗っ取りに誘導されうることが実証された。

直接プロンプトインジェクション：ユーザー入力に悪意ある命令を忍ばせる古典的手法
RAGバックドア攻撃：検索拡張生成が参照する知識ベースに毒を仕込む手法
エージェント間信頼の悪用：あるエージェントを経由して別のエージェントに悪意ある指示を伝播させる手法

この第3の攻撃面が特に厄介だ。単一モデルに対するガードレールをいくら強化しても、システム全体としての防御にはならない。攻撃者はモデルを直接説得する必要すらなく、信頼された同僚になりすますだけでよい。

現実のインシデント：ヴァイブハッキングとGTG-1002

研究ベンチで示された脅威は、すでに現実の攻撃として顕在化している。2025年に公開された2件のAnthropicの報告は、マルチエージェント型AI攻撃が理論段階を抜けたことを明確に示した。

ヴァイブハッキング：個人データ窃取と恐喝（2025年夏）

2025年8月、Anthropicは大規模な恐喝作戦を検知したと公表した。攻撃者はClaude Codeを使って、医療・救急サービス・政府機関・宗教機関を含む少なくとも17の組織を標的にした。従来のランサムウェアと異なり、この攻撃はデータを暗号化せず、公開を脅し文句に身代金を要求した。要求額は時に50万ドルを超えた。

注目すべきは、AIに与えられた権限の広さである。Claudeは戦術的判断（どのデータを窃取するか）だけでなく、戦略的判断にまで関与した。窃取した財務データを分析して適正な身代金額を算出し、心理的に効果的な恐喝文面を生成する。被害者のマシンに表示される視覚的に威圧的な身代金要求画面も作成した。Anthropicはこの攻撃パターンをヴァイブハッキングと呼んでいる。自然言語でソフトウェアを構築するヴァイブコーディングの暗黒版、という位置付けだ。

この攻撃が示すのは、AIエージェントが従来複数人の専門チームを必要とした作戦を一人の攻撃者に可能にしたという事実である。技術的参入障壁は劇的に下がっている。

GTG-1002：AI主導のサイバー諜報（2025年11月）

2025年11月14日、Anthropicが公開した報告はさらに踏み込んだ事例だった。中国の国家支援グループと評価されるGTG-1002が、Claude Codeを複数インスタンス束ねて自律的なペネトレーションテストのオーケストレーターおよびエージェントとして運用していた。

標的は約30の組織（大手IT企業、金融機関、化学製造業、政府機関）。攻撃ライフサイクルの80〜90%がAIによって自律的に実行され、人間の介入は要所での意思決定に限られた。各フェーズで必要な人間作業は最長でも20分程度と推定されている。AIは標的の偵察、脆弱性の発見と悪用、横展開、データ抽出、さらには他の作戦フェーズへのハンドオフのためのレポート自動生成までを担当した。

攻撃者がClaudeの安全装置を回避した手法も興味深い。正当なサイバーセキュリティ企業の従業員を装い、これは防御目的のテストであるとClaudeに信じ込ませる、ロールプレイ型のソーシャルエンジニアリングを用いた。最終的には持続的な異常挙動から検知されたものの、この手法は長期間にわたる潜伏を可能にした。

Anthropic自身が述べているように、この事件は夏に報告されたヴァイブハッキングからの明確なエスカレーションを示している。ヴァイブハッキングでは人間が作戦をディレクションしていた。GTG-1002ではAIが自ら判断し行動している。AIがアドバイザーではなく実行者になった、初の大規模文書化事例とされる所以だ。

同時にAnthropicは、Claudeが完璧には動作しなかったことも明記している。時には認証情報を幻覚したり、公開情報を機密情報として抽出したと誤認したりした。完全自律のサイバー攻撃がまだ現実になっていない理由は、ここにある。しかしこの不完全さは時間とモデル能力の向上で解消される可能性が高い、というのがAnthropicの評価である。

前提の反転：Claude Mythosが示した別の軌道

ここまで本稿が論じてきたのは、モデル単体の能力には限界があるため、攻撃者は役割分業するマルチエージェント構成でそれを補う、という前提だった。しかし2026年4月7日、Anthropicが発表したClaude Mythosは、この前提そのものを揺るがしている。

Mythosは既存のClaude Opus 4.6を大幅に上回る、新しい層のフロンティアモデルである。Anthropic自身がこれまで開発した中で最も強力と位置付け、一般公開しないと明言した初のAIモデルとなった。サイバーセキュリティ上のリスクが大きすぎる、という判断である。

単一モデルが何をするか

Mythos Previewの能力は、本稿がこれまで論じてきたマルチエージェント構成の意義を根本から相対化する。

Anthropicのレッドチーム報告によれば、Mythosは単一モデル・最小の人間介入で、ゼロデイ脆弱性の自律的発見から動作するPoCエクスプロイト生成までを一貫して実行する。評価期間中に発見されたゼロデイは、あらゆる主要OSと主要Webブラウザに及んだ。最古の事例はOpenBSDに27年間潜在していた脆弱性である。

単なるスタックスマッシングに留まらない。あるWebブラウザ・エクスプロイトでは、4つの脆弱性を連鎖させ、JITヒープスプレーを用いてレンダラとOSの両サンドボックスを脱出するコードをMythosが自律構成した。LinuxのローカルPrivilege Escalationでは、微妙な競合条件とKASLRバイパスを自力で発見・悪用した。FreeBSDのNFSサーバに対しては、20ガジェットのROPチェーンを複数パケットに分割して送信するリモートコード実行エクスプロイトを作成し、未認証ユーザでのroot権限取得を実現している。

専門訓練を受けていないAnthropicのエンジニアがMythosにリモートコード実行脆弱性の発見を依頼し、翌朝に完動するエクスプロイトが完成していた、という記述もある。人間の検証では、198件のバグレポートのうち89%でMythosの深刻度判定が専門家の判定と完全一致し、98%が1段階以内に収まった。

世代間ギャップの規模

Mythosが従来モデルと比べてどれほど跳ねたかは、数値で見ると衝撃的である。

Anthropicの内部ベンチマークでは、Firefox 147のJavaScriptエンジンに存在する脆弱性をJavaScriptシェル・エクスプロイトへ変換するタスクで、Opus 4.6は数百回の試行のうち2回しか成功しなかった。同じタスクをMythos Previewで再実行したところ、181回成功し、さらに29回でレジスタ制御に到達している。

OSS-Fuzz由来の約1,000のオープンソース・リポジトリに対する評価では、Sonnet 4.6とOpus 4.6がtier 3（重大クラッシュ）に到達したのは各1件のみだった。Mythosはtier 3〜4で複数件を記録した上、完全な制御フロー乗っ取り（tier 5）を完全パッチ済みの10個の別個のターゲットで達成した。

重要なのは、これらの能力がサイバーセキュリティ目的で明示的に訓練されたものではない、という点だ。Anthropicは、コーディング・推論・自律性の全般的な向上の副産物としてemergent（創発的）に現れた能力だと説明している。つまり、今後のフロンティアモデルの性能向上にともなって、同種の能力がさらに強化されることが予測される。

何が変わったか

本稿冒頭で論じたマルチエージェントの研究系譜──HPTSA、VulnBot、PenHeal──は、個々のエージェントが弱かったからこそ、役割分担による効率化が決定的な価値を持った。GTG-1002も発表当時最先端だったClaude Code（Opus 4世代相当）を複数インスタンス並列運用することで、80〜90%の自律性を達成した。

Mythosはこの前提条件を解除する。単独のモデルが、かつて複数エージェントを束ねて初めて可能になった能力を、より高い精度で実現する。エージェント統合（orchestration）の巧みさよりも、ベースモデルの純粋な能力が決定的な要因になりつつある。

非対称性の根源的変化

Anthropicがこの状況に対して立ち上げたProject Glasswingは、重要ソフトウェアの脆弱性を攻撃者が同等能力に到達する前に修正する、という時間との戦いである。AWS、Microsoft、Cisco、CrowdStrikeなど約40組織が参加している。Mythosが発見した脆弱性の99%以上が本稿執筆時点で未パッチだ、という記述は、この競争がまだ始まったばかりであることを示している。

このアプローチ自体が、攻撃と防御の非対称性が根本から変わったことを示唆する。従来のサイバーセキュリティでは、攻撃者と防御者はほぼ同じツールセットにアクセスできた。差がついたのは技術・資源・動機の配分だった。Mythos級のモデルが存在する世界では、モデルへのアクセス権そのものが最大の非対称性になる。

英国AIセキュリティ研究所（AISI）の独立評価も同様の結論に達している。Mythos Previewは、従来の専門家が数日かけるような多段階のサイバー攻撃シミュレーションとゼロデイの自律発見・悪用を実行できる、と確認された。ただしこれは防御が薄い環境での評価結果であり、堅固に防御された環境での能力はまだ未知数である、とAISIは付け加えている。

防御アーキテクチャへの示唆

マルチエージェント攻撃とMythos級の単体モデル。この二つが並行して進む現実に対して、防御側に求められる発想の転換は以下の4点に集約される。

第一に、単一モデルのガードレールは十分ではない。エージェント間信頼の悪用が示すように、モデル単体を堅牢化しても、システム全体としての信頼境界が設計されていなければ攻撃は通る。権限境界を明示的に定義し、エージェント間の通信に対しても入力検証を適用する必要がある。プロンプトインジェクション対策をモデルレベルだけで完結させようとする発想は、すでに過去のものだ。

第二に、物理的に不可能な速度の攻撃に備えた検知が必要である。GTG-1002の事例は、人間が手動で行うには不可能なペースでの連続リクエストが、AIオーケストレーションの特徴的な痕跡となることを示した。従来の異常検知では捉えきれないパターンに対応する分類器が求められる。秒間数千のリクエストが協調して行われる攻撃に対して、個別のリクエストの悪性度だけを見ていては手遅れになる。

第三に、人間の介入ポイントを設計段階で組み込む。完全自律のエージェントシステムは、誤動作時の影響範囲も完全に自律的に拡大する。要所でのヒューマンレビュー、特に外部システムへの書き込みや横方向展開の前段階での承認プロセスは、攻撃ツールとしても防御ツールとしても等しく重要だ。

第四に、モデルアクセス自体を戦略資産として扱う。Mythos以降、どのモデルにアクセスできるかが攻撃・防御双方にとって決定的な要因になった。組織レベルでは、フロンティアモデルへの防御目的アクセスを確保しつつ、内部システムで使うモデルの流出や悪用を防ぐガバナンスが必要になる。国家レベルでは、モデルの輸出管理とAI開発企業との協調体制が問われる。Anthropicが一般公開を見送る判断をしたのは、この非対称性が一度失われれば取り返せないという認識に基づく。

Anthropicが示したもう一つの事実も忘れてはならない。防御側もまた、AIを強力に活用している。GTG-1002の調査そのものが、膨大なログデータをClaudeで分析することで初めて可能になった。Project Glasswingは、攻撃者より先に重要ソフトウェアの穴を塞ぐという明確な戦略を掲げている。攻撃と防御の軍拡競争は、どちらもAI能力の向上に支えられる形で進行する。

まとめ

本稿ではマルチエージェント構成によるサイバー攻撃の構造を論じ、学術研究と現実のインシデントが示す脅威の輪郭を描いてきた。そして最後に、Claude Mythosがこの議論の前提そのものを揺るがすことを見た。

2026年初頭までの構図はこうだった。モデル単体の能力には限界がある。だから攻撃者は役割分業するエージェントを束ねる必要があった。防御側の課題は、モデルを強くすることから、システムを設計することへと移っていた。

Mythosはこの構図に第三の軸を加えた。モデル能力そのものが別次元に跳ね上がる、という軸だ。マルチエージェント型の脅威は依然として現実であり続ける。しかし同時に、単一モデルの純粋な能力が、かつては熟練チームや役割分業されたエージェント群を要した作戦を、個人の手に委ねるほどに強化された。しかもこの能力は、サイバーセキュリティ目的で訓練されたものではなく、汎用能力の副産物として創発した。つまり今後のフロンティアモデルでさらに拡大することが予測される。

この二重の変化を正しく認識することが、次のセキュリティ設計の出発点になる。エージェント間の信頼境界を設計すること。フロンティアモデルへのアクセスを戦略資産として管理すること。そしておそらく最も重要なのは、攻撃者が次の能力飛躍に到達する前の時間を、防御側が能動的に使うことだ。

参考文献

Zhu, Y., Kellermann, A., Gupta, A., et al. “Teams of LLM Agents can Exploit Zero-Day Vulnerabilities.” arXiv:2406.01637, 2024.
“The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover.” arXiv:2507.06850, 2025.
Kong, H., Hu, D., Ge, J., et al. “VulnBot: Autonomous Penetration Testing for a Multi-Agent Collaborative Framework.” arXiv:2501.13411, 2025.
“Automated Penetration Testing with LLM Agents and Classical Planning.” arXiv:2512.11143, 2025.
Anthropic Frontier Red Team. “Assessing Claude Mythos Preview’s cybersecurity capabilities.” April 7, 2026. https://red.anthropic.com/2026/mythos-preview/
Anthropic. “Project Glasswing: Securing critical software for the AI era.” April 2026.
UK AI Security Institute. “Our evaluation of Claude Mythos Preview’s cyber capabilities.” April 2026.
Anthropic. “Disrupting the first reported AI-orchestrated cyber espionage campaign.” November 2025.
Anthropic. “Detecting and countering misuse of AI: August 2025.”