メタのData2vec 2.0 2回目はより速い
Meta Data2vec 2.0 2nd time is faster

Meta’s Data2vecは、さまざまなモダリティのデータの例を処理するために同じコードを使用できる汎用的なニューラルネットワークの例です。この場合、音声、テキスト、および画像のデータについて予測を行います。
ニューラルネットワークで自分の主張を証明した場合、どうしますか?
もっと速くやるというのは一つの答えです。
火曜日、Facebook、Instagram、およびWhatsAppのオーナーであるMetaは、今年初めに導入されたニューラルネットワークの改良版であるData2vec 2.0を発表しました。このニューラルネットワークは、テキスト、画像、音声データを含むタスクで、すべて同じ基本的なアプローチを使用して処理する汎用的な動作をします。
2回目の試みでは、Metaの科学者たちはプログラムをより高速化し、いくつかのベンチマークテストでより正確になるようにしました。
「Data2vec 2.0は、自己教師あり学習のトレーニング速度を大幅に向上させ、下流のタスクの正確性を損なうことなく示しています」と、元のData2vec論文の著者であるAlexei Baevski、Arun Babu、Wei-Ning Hsu、Michael Auliの4人がarXivに掲載した、この新しい論文「Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language」で述べています。
また、ChatGPTとは何か、なぜ重要なのかについても説明します。
この2回目のData2vecの特筆すべき成果は、Data2vecのトレーニングにかかる時間を短縮することです。ニューラルネットワークのトレーニングは通常、「エポック」という単位で測定されます。つまり、ニューラルネットワークにトレーニング例が与えられる回数です。また、壁時計の時間、つまり開始から終了までの実際の時間も測定することができます。
彼らは「実験では、Data2vec 2.0は、多くの人気のある既存のアルゴリズムと同じ精度を、トレーニング速度の2〜16倍で達成できることを示しています」と述べています。
Data2vecという名前は、2013年にGoogleで開発された言語の「埋め込み」プログラムであるWord2vecの名前をもじったものです。Word2vecは単語がどのようにクラスター化されるかを予測し、それによって特定のデータタイプに設計されたニューラルネットワークを代表しています。
Data2vecの場合、Baevskiと同僚は、GoogleのAshish Vaswaniと同僚が2017年に開発したTransformerと呼ばれるニューラルネットワークを拡張し、複数のデータタイプに使用するようにしています。ニューラルネットワークの構造は、画像、音声、テキストのすべてのトレーニングに役立ち、これらの特異性に合わせて変更する必要はありません。
Baevskiと同僚は、Transformerを「自己教師あり」学習に拡張しています。自己教師ありの環境では、ニューラルネットワークは、その結果が互いに比較される複数のステージを通過することでトレーニングされます。
まず、ネットワークはデータのサンプルを圧縮し、入力データの表現を構築します。次に、ネットワークの2番目のバージョンでは、いくつかの入力データが「マスクされ」、公開されません。2番目のネットワークは、最初のバージョンのネットワークが構築した表現を再構築しなければならず、欠落部分を補完することで、データがどのようにフィットするかについてより良いモデルを構築する必要があります。
圧縮された表現を持つ完全な、マスクされていない入力データのネットワークと、補完しようとしている不完全なバージョンのネットワークは、それぞれ適切にTeacherとStudentと呼ばれます。マスキングにもかかわらず、StudentネットワークはTeacherが既に達成したことを再構築することで、データの感覚を開発しようとします。
特集
- Apple Mac Studio M2 Ultraレビュー:これが新しいフラッグシップMacデスクトップです
- Claude AIがChatGPTではできない4つのこと
- 私は何百ものスマートウォッチをテストしていますが、今年はこれを手首にしています
- 最高の電動ドライバー:DIYと修理作業を半分の時間で完了
このたび、著者たちはData2vecをより高速にするために2つの重要な変更を加えました。1つは「畳み込み(convolutions)」の使用であり、もう1つは「教師ネットワークの圧縮表現の分割払い(amortizing)」です。
まず、教師の表現を予測するために使用される学習ネットワークは、もはやTransformerの一部であるデコーダを使用していません。
それは、教師ネットワークの圧縮表現をある意味で解凍するための標準的なアプローチです。代わりに、著者たちは畳み込みニューラルネットワークと呼ばれるものを使用しています。これは、圧縮形式でデータサンプルを表現するためのニューラルネットワークの基本的なツールであり、Transformerよりも古い技術です。これは、古い技術がプログラミングで使われ続ける例です。
彼らは次のように述べています。「Transformerベースのデコーダの代わりに、より小さな畳み込みデコーダを使用しました。この方がトレーニングが容易で高速です」と。
2つ目の変更として、新しいData2vecでは教師ネットワークで圧縮表現を繰り返し作成する代わりに、表現を1回だけ作成し、その表現をマスクされたデータポイントの各々のターゲットとして再利用します。
著者たちは次のように述べています。「教師モデルの計算コストを分割払いするために、トレーニングサンプルのM個の異なるマスクバージョンを考慮し、同じターゲット表現に対する損失を計算します」と。
Data2vec 2.0のアーキテクチャ。今回、Metaはプログラムの2番目の部分、Transformerベースのデコーダを、畳み込みニューラルネットワークベースのデコーダに置き換えました。彼らはまた、「教師」ネットワークの圧縮表現を「学習ネットワーク」の複数のマスクされたインスタンスの単一のターゲットとして再利用しました。
論文の結果セクションでは、Baevski氏らはトレーニング時間の短縮と画像認識、音声認識、自然言語処理の3つの領域での精度向上について述べています。
画像処理では、著者たちはData2vecを「ViT」と呼ばれる「ビジョンTransformer」という、昨年GoogleのAlexey Dosovitskiy氏らによって導入されたビジョンタスクのために特別に設計されたニューラルネットワークのファインチューニングの基礎として使用しました。Data2vecプログラムは事前学習された基盤であり、その上にViTが文献の用語でファインチューニングされます。
1月の結果と比較して、Data2vecをバックエンドに使用したViTは再びImageNetでの精度において他のニューラルネットワークを上回り、Data2vecの以前のバージョンも上回りました。
ただし、精度だけでなく、新しいData2vecははるかに少ないトレーニングエポックで済みます。以前のData2vecは800エポックかかりましたが、今回は150エポックに短縮されました。また、競合する自己教師付きネットワークであるマスクされた自己エンコーダ(MAE)と比較すると、トレーニングは1,600エポックから100エポックに削減され、新しいData2vecの精度はMAEを上回ります。より速いトレーニングスケジュールにより、Data2vec 2.0のトレーニング時間は113.6時間から66時間に大幅に短縮されます。
さらに:人工知能:すべてを変える可能性のある5つの革新的な応用
音声認識では、音声断片の欠損部分を埋めるという課題があります。新しいData2vecは、元のData2vecやWav2vec、HuBERT、WavLMといった音声の競合する複数のニューラルネットワークに対して試されました。Data2vec 2.0はこれらのネットワークを上回ることはありませんでしたが、「より短いトレーニング時間でより高い精度を達成します」。たとえば、Data2vec 2.0のトレーニングには43時間かかり、元のData2vecでは57時間が必要です。
3番目の領域である自然言語処理では、Data2vec 2.0は2019年にNYUのCourant数理科学研究所によって開発されたGeneral Language Understanding Evaluation(GLUE)フレームワークに基づいてさまざまな課題にテストされました。
テストの1つでは、ネットワークは文が他の文から導かれるかどうかを予測しなければなりません。別のタスクでは、ネットワークはフレーズが文法的に正しいかどうかをラベル付けする必要があります。
オリジナルのData2vec、GoogleのBERT、およびPaul Allen School of Computer ScienceのUniversity of WashingtonとMetaによって2019年に導入された改訂版のRoBERTaと対戦した結果、Data2vec 2.0はGLUEの結果で優れたスコアを獲得し、トレーニングも速くなりました。
この新しいバージョンのGLUEタスク全体の平均精度スコアは82.6で、元のData2vecの82.7にわずかに劣るものの、BERTの81.2よりも高く、RoBERTaの82.5よりも高いです。ただし、Data2vec 2.0ではそのレベルに達するのに28.2時間しかかかりません。元のData2vecにかかった69時間の半分以下であり、RoBERTaにかかる50.5時間よりもはるかに短いです。
さらに: 人工知能を構築している人々こそが最もAIを必要としている
Baevskiとチームは、将来的にData2vecを音声、画像、テキスト以外のデータの形式にも拡張すると述べており、さらに汎用性を持たせる可能性があるとしています。
ただし、1つの制限は引き続き存在するようです。Data2vec 2.0も元のData2vecと同様に、トレーニング中に最初にネットワークに入力される各データタイプを異なる方法で処理しています。つまり、Data2vecはまだデータタイプを完全に汎用的に処理する方法を開発していません。
画像、音声、テキストはすべてデータの前処理によって準備されます。そのため、ネットワークのマルチモーダルな側面は、データに関する手がかりに依存しています。チームはこれを「小さなモダリティ固有の入力エンコーダー」と呼んでいます。
さらに、教師ネットワークからの各圧縮エンコーディングは、3つのデータタイプごとに別々に作成されます。一度にすべてのデータタイプを一つの表現に組み合わせる「スーパーエンコーディング」を作成する能力はまだありません。
したがって、Data2vec 1.0と同様に、すべてを統括する可能性のあるニューラルネットワークは未来の技術となります。
Metaは元のData2vecと同様に、コードをGitHubに投稿しています。