「マイクロソフトのAIレッドチームは既に自身の存在価値を証明している」
Microsoft's AI Red Team has already proven its value.
ほとんどの人にとって、人工知能ツールを日常生活で使用するという考えは、最近数か月間においてのみ一般的になりました。OpenAIのChatGPTやGoogleのBardなど、多くの大手テック企業やスタートアップから新しい生成型AIツールのリリースがありました。しかし、その裏では、この技術は数年間にわたって広まってきており、これらの新しいAIシステムを評価し、安全に保護する最良の方法についての問題も増えてきています。マイクロソフトは、2018年以来AIプラットフォームを攻撃し、その弱点を明らかにする方法を見つけるために責任を負っているチームの詳細を明らかにしています。
創設から5年間で、マイクロソフトのAIレッドチームは、本質的には実験であったものから、機械学習の専門家、サイバーセキュリティ研究者、さらにはソーシャルエンジニアまで、多岐にわたる専門分野のチームに成長しました。このグループは、デジタルセキュリティの伝統的な専門用語を使用して、マイクロソフト内およびテック業界全体でその調査結果を伝えるために働いています。これにより、専門のAI知識をまだ持っていない多くの人々や組織にとってもアクセス可能なアイデアとなります。しかし、実際には、チームはAIセキュリティが従来のデジタル防御とは重要な概念的な違いを持つことを結論付け、AIレッドチームがその仕事に取り組む方法に違いをもたらす必要があると結論付けました。
マイクロソフトのAIレッドチームの創設者であるRam Shankar Siva Kumar氏は、「私たちが始めた当初の質問は、「何を根本的に異なることをするのか?なぜAIレッドチームが必要なのか?」というものでした。しかし、AIレッドチーミングを単に従来のレッドチーミングとして見て、セキュリティのマインドセットだけを持つと、それだけでは十分ではないかもしれません。私たちは今、責任あるAIの側面を認識する必要があります。それはAIシステムの失敗の責任です。つまり、攻撃的なコンテンツの生成、根拠のないコンテンツの生成です。それがAIレッドチーミングの聖杯です。セキュリティの失敗だけでなく、責任あるAIの失敗も見ていかなければなりません。」と述べています。
Shankar Siva Kumar氏は、この違いを明確にするために時間がかかり、AIレッドチームのミッションがこの二重の焦点を本当に持つことの価値を証明する必要がありました。初期の作業の多くは、2020年のAdversarial Machine Learning Threat Matrixなど、より伝統的なセキュリティツールのリリースに関連しており、これはマイクロソフトと非営利のR&DグループであるMITRE、および他の研究者との共同作業でした。その年、グループはAIセキュリティテストのためのオープンソースの自動化ツールであるMicrosoft Counterfitもリリースしました。そして、2021年には、レッドチームが追加のAIセキュリティリスク評価フレームワークを公開しました。
しかし、時間の経過とともに、AIレッドチームは機械学習の欠陥や失敗に対処する緊急性がますます明らかになるにつれて、進化と拡大を遂げることができました。
初期のオペレーションの1つでは、レッドチームは機械学習の要素を持つMicrosoftのクラウド展開サービスを評価しました。チームは、悪用可能なリクエストを作成して機械学習コンポーネントを濫用し、クラウド内で仮想マシンを作成する欠陥を利用して、クラウドサービスの他のユーザーに対してサービス拒否攻撃を行う方法を考案しました。レッドチームは、仮想マシンを重要な位置に配置することで、他のクラウドユーザーに対して「ノイジーネイバー」攻撃を実行することができました。ここで、「ノイジーネイバー」とは、1つの顧客の活動が別の顧客のパフォーマンスに悪影響を与える状況のことを指します。
レッドチームは最終的に、実際のマイクロソフトの顧客に影響を与えるリスクを冒さずに、システムのオフラインバージョンを構築し攻撃しました。しかし、Shankar Siva Kumar氏は、これらの初期の調査結果によって、AIレッドチームの有用性に関する疑問や質問はすべて取り除かれたと述べています。「それが人々の目を覚まさせたところです。『まったく、もしこれができるのなら、それはビジネスにとって良くない』と彼らは言ったのです。」
重要なのは、ダイナミックかつ多様なAIシステムの性質から、マイクロソフトは最もリソースが豊富な攻撃者だけでなく、AIプラットフォームを標的にした攻撃も見ているということです。「私たちが大規模言語モデルに対して見ているいくつかの新しい攻撃は、実際にはただの口汚い十代の若者、ブラウザを使った一般ユーザーによって行われています。このことを軽視するわけにはいきません。」とShankar Siva Kumar氏は言います。「APTも存在しますが、LLMを打ち倒し、それをエミュレートすることができる新しいタイプの人々もいることを認識しています。」
ただし、マイクロソフトのAIレッドチームは、どのレッドチームでもそうであるように、現在野生で使用されている攻撃を研究するだけではありません。Shankar Siva Kumar氏によれば、グループは攻撃のトレンドが次にどこに向かうかを予測することに焦点を当てています。そして、その場合、レッドチームのミッションの新しいAIの責任の要素に重点を置くことがしばしば含まれます。アプリケーションやソフトウェアシステムの従来の脆弱性を見つけた場合、彼らはそれを修正するために他のグループと協力することが多く、自分たちだけで修正を完全に開発し提案する時間をかけることはありません。
「マイクロソフト内には他のレッドチームやWindowsインフラストラクチャの専門家など、私たちが必要とする他のグループが存在します」とShankar Siva Kumar氏は語ります。「私の洞察は、AIレッドチーミングがセキュリティの失敗だけでなく、責任あるAIの失敗も含んでいるということです。」