「まもなくスマートフォンでAIタスクを実行できるようになるかもしれませんMediaTekはそう言っています」

MediaTek says smartphones may soon be able to execute AI tasks.

ジェネレーティブAIは、OpenAIのChatGPTやGoogle Bardなどのチャット用途、およびStable DiffusionやDALL-Eなどの画像生成システムによって使用される、急成長している最新のテクノロジーの一つです。しかし、これらのツールはクエリごとに必要な計算処理を行うために数百のGPUを搭載したクラウドベースのデータセンターの使用を必要とするため、特定の制限があります。

しかし、将来的にはジェネレーティブAIタスクを直接モバイルデバイスや接続された車、またはAmazon Echo、Google Home、Apple HomePodなどのスマートスピーカーのようなリビングルーム、寝室、キッチンでも実行できるようになるかもしれません。

また: 次の携帯電話はジェネレーティブAIツールを実行できるようになります(飛行機モードでも)

MediaTekは、この未来が私たちが思っているよりも近いと考えています。台湾の半導体企業であるMediaTekは、Metaと協力して、最新世代のAPUとNeuroPilotソフトウェア開発プラットフォームと組み合わせて、外部処理に頼らずにデバイス上でジェネレーティブAIタスクを実行するために、Lllama 2 LLMを移植する作業に取り組んでいることを発表しました。

もちろん、注意点があります。データセンターを完全に排除するわけではありません。LLMデータセットのサイズ(含まれるパラメータの数)とストレージシステムの要求される性能により、依然としてデータセンターが必要ですが、はるかに小さなものです。

たとえば、Llama 2の「小」データセットは70億のパラメータ、つまり約13GBであり、いくつかの基本的なジェネレーティブAI機能に適しています。しかし、より大きなバージョンである720億のパラメータを持つ場合、データの保存にははるかに多くのストレージが必要であり、高度なデータ圧縮を使用しても、現在のスマートフォンの実用的な能力を超えています。開発中のLLMは、今後数年間でLlama 2やGPT-4の10倍から100倍のサイズになり、ストレージ要件は数百GB以上になるでしょう。

これはスマートフォンには難しいですが、高速フラッシュストレージとテラバイトのRAMを備えた特別に設計されたキャッシュアプライアンスでは問題ありません。したがって、Llama 2では、すべての重い計算を行わずに、モバイルデバイスに最適化されたデバイスを単一のラックユニットにホストすることができます。それは携帯電話ではありませんが、それでも非常に印象的です!

また: 2023年のベストAIチャットボット:ChatGPTとその他の代替案

MediaTekは、最新世代のフラッグシップSoCを搭載したスマートフォン向けに、Llama 2ベースのAIアプリケーションが年末までに市場に登場すると予想しています。

デバイス上でのジェネレーティブAIがこれらのデータセットにアクセスするためには、モバイルキャリアは低遅延のエッジネットワークに頼る必要があります。これは、5Gタワーに高速接続を持つ小さなデータセンター/装置室です。これらのデータセンターはキャリアのネットワーク上に直接存在し、スマートフォンで実行されるLLMは、パラメータデータにアクセスする前に多くのネットワークホップを経る必要がありません。

MediaTekのような専用プロセッサを使用してデバイス上でAIワークロードを実行するだけでなく、特定のドメインに特化したLLMは、これらのキャッシュアプライアンスとハイブリッド方式で実行することによって、アプリケーションワークロードに近づけることができます。これは「制約されたデバイスエッジ」シナリオです。

また: 仕事でおすすめのAIツール5選

では、デバイス上でのジェネレーティブAIの利点は何でしょうか?

  • 低遅延:データがデバイス自体で処理されるため、応答時間が大幅に短縮されます。特にパラメータデータセットの頻繁にアクセスされる部分において、ローカライズされたキャッシュの手法が使用される場合は、さらに効果的です。
  • データプライバシーの向上:データをデバイス上に保持することにより、ユーザーが送信したチャットの会話やトレーニングなどのデータはデータセンターを経由せずに送信されず、モデルデータのみが送信されます。
  • 帯域幅効率の向上:現在、ジェネレーティブAIタスクでは、ユーザーの会話からのすべてのデータがデータセンターに行き来する必要があります。ローカライズされた処理により、このうちの大部分はデバイス上で行われます。
  • 運用の強靭性の向上:デバイス上での生成により、ネットワークが中断されてもシステムは動作を続けることができます。特にデバイスに十分なパラメータキャッシュがある場合は特にそうです。
  • エネルギー効率:データセンターでの計算には必要なリソースやデータをデバイスからデータセンターに送信するためのエネルギーが少なくて済みます。

ただし、これらの利点を実現するには、ワークロードの分割や他の負荷分散技術を使用して、集中型データセンターのコンピュートコストとネットワークオーバーヘッドを軽減する必要があります。

高速接続のエッジデータセンター(ただし、計算およびエネルギー要件が大幅に削減されたもの)の需要は続きますが、別の問題もあります。現在のハードウェアでどれだけ強力なLLMを実行できるのか、ということです。また、デバイス上のデータがネットワーク上で傍受される心配は少なくなりましたが、ローカルデバイス上での機密データの侵害リスクが増えています。適切に管理されていない場合、また、大量の分散エッジキャッシングデバイス上でモデルデータの更新とデータの一貫性を維持するという課題もあります。

また、エッジからクラウドへの移行がデジタルトランスフォーメーションの次の段階を推進しています

最後に、コストの問題があります。これらのミニエッジデータセンターの費用は誰が負担するのでしょうか?エッジネットワーキングは、エッジサービスプロバイダー(Equinixなど)が提供しており、これはNetflixやAppleのiTunesなどのサービスに必要ですが、従来はAT&T、T-Mobile、Verizonなどのモバイルネットワークオペレーターが提供しているものではありません。OpenAI/Microsoft、Google、Metaなどの生成AIサービスプロバイダーも同様の取り決めを行う必要があります。

デバイス上の生成AIには多くの考慮事項がありますが、テック企業がそのことを考えていることは明らかです。5年以内には、デバイス上のインテリジェントアシスタントが自分自身で考えることができるようになるかもしれません。ポケットにAIを収める準備はできていますか?それはやってきます – そして、多くの人々が予想していたよりもはるかに早くやってきます。