AIのマルチビューの波が来ており、それは強力になるでしょう
AIのマルチビューの波が来ており、強力になります

いわゆるマルチビューは、異なるシグナルをリンクさせる方法であり、異なる点にもかかわらず、同じオブジェクトについて共有する情報を考慮します。マルチビューは、世界の構造に対するより豊かな感覚を持つことができる機械への道を開くかもしれず、将来的には「推論」と「計画」を行うことができる機械の目標に貢献するかもしれません。
人工知能の最も成功した形態であるChatGPTやDeepMindのAlphaFoldなどは、明らかに狭い次元に閉じ込められています。AIは一度に1つの側面から物事を見ます。単語、画像、空間の座標など、あらゆるタイプのデータとしてのみです。
非常に短期間で、ニューラルネットワークはデータ形式の融合によって劇的に拡大し、多面的に人生を見ることになります。これは重要な発展であり、世界が一貫して結びつく方法、物事が一緒に保持される方法においてニューラルネットワークにより強い基盤を与えるかもしれません。これは将来的には世界について「推論」と「計画」を行うプログラムへの移行において重要な段階となるかもしれません。
また:Metaが「シームレス」音声対音声翻訳を発表
マルチビューの到来は、機械学習の研究者による数年にわたる研究に基づいており、一般的には「マルチビュー」と呼ばれるか、またはデータフュージョンとも呼ばれます。このトピックには、学術出版社のElsevierが発行する「Information Fusion」という専門の学術雑誌さえあります。
- 12か国がソーシャルメディア巨大企業に違法データスクレイピングへの...
- 「ENBLEの読者で、無料のRoadmaster Bluetoothハンズフリーカーキットを...
- 「Googleは、EUの新しい規則が発効するに伴い、広告、コンテンツ、ポリ...
データフュージョンの重要なアイデアは、調査しようとしている世界の何かには同時に多くの側面があるということです。たとえば、ウェブページには、肉眼で見えるテキストと、そのページにリンクするアンカーテキスト、またはさらに第三のものであるページの構造であるHTMLとCSSコードの両方があります。
人の画像には、人の名前のラベルと画像のピクセルの両方があります。ビデオにはビデオのフレームとそのフレームに付随するオーディオクリップの両方があります。
現在のAIプログラムは、このような異なるデータを世界に関する別々の情報として扱い、それらの間にほとんどまたはまったく接続を持たせません。テキストと音声など、複数の種類のデータをニューラルネットが処理する場合でも、最大のことはそれらのデータセットを同時に処理するだけであり、それらが同じオブジェクトの視点であるという理解とは明示的にリンクしていません。
たとえば、Facebook、Instagram、WhatsAppのオーナーであるMeta Propertiesは、機械翻訳の最新の取り組みであるSeamlessM4Tを火曜日に発表しました。このプログラムは、音声データとテキストデータの両方を同時にトレーニングし、任意のタスクのテキストと音声の両方を生成することができます。
しかし、SeamlessM4Tは、各信号の各ユニットを同じオブジェクトの側面として認識していません。
また:MetaのAI画像生成器は、言語が必要なすべてであるかもしれないと述べています
物事のこの断片化された見方は変わりつつあります。ニューヨーク大学の助教授であり、Metaの主任AI科学者であるRavid Shwartz-ZivとYann LeCunは、最近発表された論文で、マルチビューを使用してオブジェクトを複数の視点から表現することによって、深層学習ニューラルネットワークを豊かにすることを目指していると述べています。
現在の深層ニューラルネットワークでは、オブジェクトは関連のない信号に分割されています。画像に加えて音声、テキスト、ポイントクラウド、グラフネットワークなど、多くの種類の信号を組み合わせたマルチモダリティの到来により、物事の構造のより豊かなモデルを作り始めるかもしれません。
4月にarXivのプレプリントサーバーに投稿された、非常に技術的でかなり理論的な論文では、Shwartz-ZivとLeCunは、「さまざまなアプリケーション領域での深層学習の成功は、深層マルチビューメソッドへの関心の高まりをもたらし、有望な結果を示している」と書いています。
マルチビューは、今日のますます大きなニューラルネットワーク(SeamlessM4Tなど)が「マルチモーダル」AIとしてより多くのモダリティを取り入れるにつれて、運命の瞬間に向かっています。
また、2023年の最高のAIチャットボット:ChatGPTと代替案
ChatGPTやStable Diffusionなどのプログラムを含む、いわゆる生成型AIの未来は、テキストや画像、ビデオだけでなく、ポイントクラウドや知識グラフ、さらにはバイオインフォマティクスデータなど、さまざまなモダリティを単一のプログラムに組み合わせることです。
さまざまなモダリティは、物事の「視点」を潜在的に何千も提供し、相互情報を含む可能性があります。これは世界を理解するための非常に豊かな手法となりますが、同時に課題も生じます。
深層ニューラルネットワークにおけるマルチビューの鍵は、「情報のボトルネック」として知られるShwartz-Zivらが仮説化した概念です。モダリティの数が増えると、情報のボトルネックは問題となります。
情報のボトルネックは、機械学習における重要な概念です。深層ネットワークの隠れ層では、ネットワークの入力は、入力の再構築に最も必要な要素に簡略化されます。
情報のボトルネックでは、複数の入力が「表現」として組み合わされ、同じオブジェクトの異なる視点として共有される重要な詳細が抽出されます。2番目のステージでは、その表現は圧縮され、そのオブジェクトに対応する出力を予測するために必要な入力の基本要素だけを含む形式に簡略化されます。相互情報を集め、必要な要素以外を削除または圧縮するプロセスが情報のボトルネックです。
大規模なマルチモーダルネットワークにおけるマルチビューの課題は、さまざまな視点からの情報が、どのモダリティにおいても多くのタスクに対して本質的なものであるかをどのように知るかです。
また、このドラッグアンドドロップツールで独自のAIチャットボットを構築できます
例えば、ChatGPTのようなテキストベースのタスクを実行するニューラルネットワークは、テキスト文を生成するときに、後者のタスクに関連する詳細が圧縮段階で破棄されてしまうため、問題が発生する可能性があります。
Shwartz-ZivとLeCunは、「情報を関連性のある部分と関連性のない部分に分けることは困難であり、しばしば最適な性能を発揮しない」と述べています。
この問題にはまだ明確な答えがありません。さらなる研究が必要です。特に、オブジェクトの2つの異なる視点だけでなく、多くの視点を含むマルチビューを再定義する必要があります。
彼らは書いています。「この目的の最適性を確保するために、マルチビューの仮定を2つ以上のビューに拡大する必要があります。」特に、マルチビューへの伝統的なアプローチは、「関連情報がすべての異なるビューとタスクで共有される」という仮定であり、これは過度に制約的な場合があると彼らは付け加えています。一部の文脈では、ビューが一部の情報のみを共有する可能性があるかもしれません。
また、生成型AIがギグエコノミーをより良く変革する方法
彼らは結論づけています。「その結果、この素朴な解決策のより洗練されたバージョンを定義し、分析することが不可欠です。」
確かに、マルチモダリティの台頭により、マルチビューの科学は新しい解決策を考案する必要があります。実践におけるマルチモダリティの爆発は、AIのための新しい理論的な突破口につながるでしょう。