「オープンソースAIの神話」

Open Source AI Myth

ChatGPTは、誰でも強力な人工知能と遊ぶことができるようになったが、世界的に有名なチャットボットの内部構造は厳重に秘密にされている。

しかし、最近、AIをより「オープン」にする取り組みが勢いを増しているようだ。5月には、MetaからLlamaと呼ばれるモデルが漏洩し、外部の人々がその基本コードや挙動を決定する「ウェイト」にアクセスできるようになった。そして、7月にはMetaがさらにパワフルなLlama 2というモデルを誰でもダウンロード、修正、再利用できるように提供することを選んだ。Metaのモデルは、ChatGPTのような機能を持つツールやアプリケーションを構築する多くの企業、研究者、趣味のある人々にとって、非常に人気のある基盤となっている。

MetaはLlama 2を発表する際、「当社の現代のAIに対するオープンなアプローチを支持する世界中の多様なサポーターがいます… モデルを使用して研究を行う研究者、Llamaとオープンなプラットフォームの利点を私たちと同じように見る技術、学術、政策の各分野の人々」と述べた。Metaは今朝、コーディング向けに特化した別のモデル、Llama 2 Codeをリリースした。

ソフトウェアへのアクセスを民主化し、透明性を確保し、セキュリティを向上させてきたオープンソースのアプローチが、AIにも同様の影響を与える可能性があるように思える。

しかし、Carnegie Mellon大学、AI Now Institute、Signal Foundationの研究者たちが執筆した研究論文によれば、「オープン」とされるモデルには注意が必要だという。Llama 2は無料でダウンロード、修正、展開できるが、従来のオープンソースライセンスにはカバーされていない。Metaのライセンスでは、Llama 2を他の言語モデルのトレーニングに使用することを禁止し、デイリーユーザーが7億人を超えるアプリやサービスに開発者が展開する場合には特別なライセンスが必要となる。

このような制御レベルは、MetaにとってLlama 2が重要な技術的および戦略的なメリットを提供する可能性を意味する。たとえば、Metaが自社のアプリでモデルを使用する際に外部の開発者によって行われた有用な調整を利用できる。

研究者たちは、非営利団体EleutherAIのGPT Neoのような通常のオープンソースライセンスでリリースされたモデルの方が完全にオープンであると述べている。しかし、そのようなプロジェクトが同等の立場になることは困難である。

まず、高度なモデルをトレーニングするために必要なデータは通常秘密にされている。次に、そのようなモデルを構築するために必要なソフトウェアフレームワークは、大企業によって制御されていることが多い。最も人気のあるフレームワークであるTensorFlowとPyTorchは、それぞれGoogleとMetaによって維持管理されている。さらに、大規模なモデルをトレーニングするために必要なコンピュータパワーは、通常、数億または数十億ドルの費用がかかるため、通常の開発者や企業では手の届かないものである。そして最後に、これらのモデルを洗練させ改善するために必要な人的労力も、ほとんどが深いポケットを持つ大企業にしか利用できないリソースである。

現状では、数十年にわたり最も重要な技術の一つになる可能性があるAIが、OpenAI、Microsoft、Meta、Googleなどの一握りの企業だけを豊かにし、権限を与える可能性がある。もしAIが本当に世界を変える技術であるならば、最も大きな利益は、より広く利用可能でアクセス可能になった場合に享受されるかもしれない。

「私たちの分析が示すのは、オープンさがAIを「民主化する」ために役立たないということです」と、Signalの社長で論文の執筆者の一人でもあるMeredith Whittakerは語る。「実際には、私たちは「オープン」とされる技術を利用して、大企業の集権化を固定化し拡大することができることを示しています。」

Whittakerは、オープンさの神話が必要なAIの規制の要素であると付け加える。「特に、AIシステムが健康、金融、教育、職場などの高度に敏感な領域に統合される中で、大きな独占的企業によって定義され支配される技術には、意味のある代替手段が非常に必要です」と彼女は言う。「そのような代替手段を可能にするための条件を作り出すことは、反トラスト改革などの規制運動と並行して存在するプロジェクトです。」

大企業の権力をチェックするだけでなく、AIをよりオープンにすることは、その最高のポテンシャルを引き出し、最悪の傾向を避けるためにも重要であるかもしれない。

最先端のAIモデルの能力を理解し、展開や進歩に伴うリスクを緩和するためには、それらを世界の科学者に公開する方が良いかもしれない。

セキュリティを確保するための曖昧さは、コードが安全に実行されることを保証するわけではありませんが、強力なAIモデルの動作を守ることも、最も賢い方法ではないかもしれません。