メタが「シームレス」な音声から音声への翻訳を発表
Meta announces seamless translation from voice to voice.

Metaは、Facebook、Instagram、およびWhatsAppのオーナーであるが、火曜日に音声翻訳に特化した最新の機械翻訳技術を発表しました。
SeamlessM4Tというプログラムは、言語間の音声対音声の翻訳に特化した既存のモデルを超えるものであり、さらに複数の言語ペアで音声とテキストを変換するモデルを凌駕します。したがって、SeamlessM4Tは、単なる汎用性だけでなく、マルチモダリティと呼ばれるものの例です。マルチモダリティとは、1つのプログラムが複数のデータタイプ、つまり音声データとテキストデータの両方で動作する能力を指します。
また、MetaはOpenAIやGoogleに対抗するためにオープンソースの商用AIモデルをリリースする予定です。
以前、Metaは200以上の異なる言語間でテキストを翻訳できる大規模な言語モデルに焦点を当てていました。しかし、リードオーサーのLoïc Barrault氏とMetaおよびUC California at Berkeleyの同僚は、テキストに焦点を当てることが問題だと述べています。
「No Language Left Behind(NLLB)などの単一のモノモダルモデルは、テキストからテキストへの翻訳(T2TT)のカバレッジを200以上の言語に拡大していますが、統合されたS2ST(音声対音声対テキスト)モデルは同等の範囲や性能には程遠い」と、Barrault氏とチームは述べています。
- これは、あなたが必要とする最後の照明スタンドです
- 「YouTubeの新機能は、あなたのハミングの音だけで曲を特定します」とい...
- メタは2023年末までに、Messengerのエンドツーエンドの暗号化を展開する...
この形式的な論文「SeamlessM4T — Massively Multilingual & Multimodal Machine Translation」は、Metaのプロジェクト「Seamless Communication」の専用サイトに掲載されています。また、関連するGitHubサイトもあります。
著者らは、公共ドメインで利用可能な音声データが少ないため、音声は部分的に取り残されていると述べています。しかし、さらに重要な点があります。音声データは、ニューラルネットワークにとっては信号として基本的に豊かです。
著者らは次のように述べています。「音声は機械翻訳の観点から扱いにくいという課題のために、より多くの情報と表現要素がエンコードされるため、意図を伝える能力が優れ、対話者間のより強い社会的な結びつきを形成するのにも優れています」と。
SeamlessM4Tの目標は、音声データとテキストデータの両方を同時に訓練するプログラムを作成することです。「M4T」とは、「Massively Multilingual & Multimodal Machine Translation」の略です。マルチモダリティは、このプログラムの明示的な一部です。
また、Metaの最新のAIモデルにより、数百の言語でコンテンツが利用可能になります。
このようなプログラムは、テキストに関する部分と音声に関する部分を別々の機能に分割しないため、「エンド・トゥ・エンド」プログラムと呼ばれることがあります。これは、「カスケードモデル」とは異なります。カスケードモデルでは、プログラムはまず音声からテキストへの変換など、1つのことについて訓練され、次に音声から音声への変換など、別のことについて訓練されます。
著者らは次のように述べています。「現在のほとんどのS2ST(音声対音声翻訳)システムは、進行的に翻訳を行う複数のサブシステムから成るカスケードシステムに大きく依存しています。たとえば、自動音声認識(ASR)からテキストからテキスト翻訳(T2TT)へ、そしてその後のテキストから音声(TTS)合成へと、3段階のシステムがあります」と。
その代わりに、著者らは既存の複数のパーツを組み合わせて一緒に訓練するプログラムを構築しました。それには、「SeamlessM4T-NLLB」という大規模な多言語T2TTモデル、「w2v-BERT 2.0」という「未ラベルの音声オーディオデータを活用する音声表現学習モデル」、「T2U」という「テキストからユニットのシーケンスへのシーケンスモデル」、そしてマルチリンガルHiFi-GANという「ユニットボコーダーによるユニットから音声の合成」が含まれています。
また、Metaの「data2vec」は、One Neural Network to Rule Them Allに向けた一歩です。
これらの4つのコンポーネントは、単一のプログラムにレゴブロックのように組み合わされます。このプログラムは、Metaが今年に導入したUnitYと呼ばれるもので、「テキストを生成し、その後、離散的な音声ユニットを予測する2パスのモデリングフレームワーク」と説明されます。
以下の図に、全体の構成が示されています。
著者らは、既存の複数のパーツを組み合わせて一緒に訓練するプログラムを構築しました。これらのパーツは、まるでレゴブロックのように1つのプログラムに組み込まれています。
著者によると、このプログラムは音声認識、音声翻訳、音声からテキストへの変換のテストで、他の多くのプログラムよりも優れた結果を出しています。これには、エンドツーエンドのタイプのプログラムや音声専用のプログラムを上回るものも含まれます。
私たちがリリースする2つのモデルのうち、より大きなモデルであるSeamlessM4T-Largeは、先行研究の最新技術(SOTA)であるエンドツーエンドのS2TTモデル(AudioPaLM-2-8B-AST [Rubenstein et al., 2023])に比べて、Fleurs [Conneau et al., 2022] で英語への翻訳において4.2 BLEUポイント(20%の改善)を上回るパフォーマンスを発揮しています。カスケードモデルと比較して、SeamlessM4T-Largeは2 BLEUポイント以上の翻訳精度の向上を実現しています。英語からの翻訳では、SeamlessM4T-LargeはCoVoST 2 [Wang et al., 2021c] で先行研究のSOTA(XLS-R-2B-S2T [Babu et al., 2022])に比べて2.8 BLEUポイント向上し、Fleursではカスケードシステムと同等の性能を発揮しています。S2STタスクでは、SeamlessM4T-LargeはFleursで3段階のカスケードモデル(ASR、T2TT、TTS)に対して2.6 ASR-BLEUポイントの優位性を示しています。CVSSでは、SeamlessM4T-Largeは2段階のカスケードモデル(Whisper-Large-v2 + YourTTS [Casanova et al., 2022])に対して8.5 ASR-BLEUポイントの大幅な改善(50%の改善)を実現しています。S2TTの出力に関する予備的な人間の評価でも同様に素晴らしい結果が示されています。英語からの翻訳では、24言語に対するXSTSスコアは一貫して5点満点中4点以上であり、英語への翻訳では、Whisper-Large-v2のベースラインに比べて24言語中7言語で大幅な改善が見られます。
さらに:Googleの「翻訳メガネ」は実際にはI/O 2023であり、私たちの目の前にありました
関連するGitHubのサイトでは、プログラムコードだけでなく、マルチモーダルデータを「埋め込む」ための新しい技術であるSONARと、マルチモーダルタスクを自動的に評価するためのメトリックの新バージョンであるBLASAR 2.0も提供されています。