「まもなくiPhoneでAIタスクを実行できるようになるかもしれませんMediaTekはそう言っています」
MediaTek says that soon you may be able to perform AI tasks on your iPhone.

ジェネレーティブAIは、OpenAIのChatGPTやGoogle Bardなどのチャット、およびStable DiffusionやDALL-Eなどの画像生成システムで使用される、最も急成長している技術の一つです。しかし、これらのツールは、クエリごとに必要な計算処理を行うために、数百のGPUを備えたクラウドベースのデータセンターの利用を必要とするため、ある一定の制約があります。
しかし、将来的には、モバイルデバイス上で直接ジェネレーティブAIのタスクを実行することができるようになるかもしれません。または、接続された車の中で。または、Amazon Echo、Google Home、またはApple HomePodなどのスマートスピーカーでリビングルーム、ベッドルーム、キッチンで。
また:次の電話機にはジェネレーティブAIツールが実行できるようになります(飛行機モードでも)
MediaTekは、この未来が私たちが思っているよりも近いと考えています。台湾の半導体企業であるMediaTekは、今日、社交巨人Metaと協力して、最新世代のAPUとNeuroPilotソフトウェア開発プラットフォームと組み合わせた社交巨人のLllama 2 LLMを移植し、外部処理に頼らずにデバイス上でジェネレーティブAIのタスクを実行することを発表しました。
もちろん、これには注意点があります。LLMデータセットのサイズ(含まれるパラメータの数)とストレージシステムの必要なパフォーマンスにより、データセンターは完全に排除されません。たとえば、Llama 2の「小規模」なデータセットは70億のパラメータ、つまり約13GBであり、いくつかの基本的なジェネレーティブAIの機能に適しています。しかし、72億のパラメータを含むより大きなバージョンは、高度なデータ圧縮を使用しても、現在のスマートフォンの実用的な能力を超えるほどのストレージを必要とします。開発中のLLMは、次数年間でLlama 2やGPT-4の10倍から100倍の大きさになり、ストレージ要件は数百ギガバイト以上になるでしょう。
それはスマートフォンにとってはストレージが難しく、データベースのパフォーマンスに十分なIOPSがある必要がありますが、高速フラッシュストレージとテラバイトのRAMを備えた特別に設計されたキャッシュアプライアンスでは問題ありません。したがって、Llama 2の場合、重い計算処理を行わずにモバイルデバイスを提供するために最適化されたデバイスを単一のラックユニットでホストすることができます。それは電話ではありませんが、それでもかなり素晴らしいです!
また:2023年のベストAIチャットボット:ChatGPTおよび代替製品
MediaTekは、Llama 2ベースのAIアプリケーションが、今年の終わりまでに市場に投入される予定の次世代フラッグシップSoCを搭載したスマートフォン向けに利用可能になると予想しています。
デバイス上のジェネレーティブAIがこれらのデータセットにアクセスするためには、モバイルキャリアは低遅延エッジネットワークに依存する必要があります。これは、5Gタワーに高速接続を持つ小規模なデータセンター/装置クローゼットです。これらのデータセンターは、キャリアのネットワーク上に直接存在するため、スマートフォン上で実行されるLLMは、パラメータデータにアクセスする前に多くのネットワークホップを経る必要はありません。
MediaTekのような特殊なプロセッサを使用してデバイス上でAIワークロードを実行するだけでなく、ドメイン固有のLLMは、これらのキャッシュアプライアンスとミニチュアデータセンター内でハイブリッドな方法で実行することにより、アプリケーションワークロードに近づけることもできます。
また:仕事で使える私の5つのお気に入りのAIツール
では、デバイス上でのジェネレーティブAIの利点は何でしょうか?
- レイテンシーの低減:データがデバイス自体で処理されるため、応答時間が著しく低減されます。特にパラメータデータセットの頻繁にアクセスされる部分で局所的なキャッシュ手法が使用される場合は、さらに効果があります。
- データプライバシーの向上:データをデバイスに保持することで、そのデータ(チャットの会話やユーザーが提出したトレーニングなど)はデータセンターを介して送信されず、モデルデータのみが送信されます。
- 帯域幅の効率化:現在、ジェネレーティブAIのタスクでは、ユーザーの会話からのすべてのデータがデータセンターに行き来する必要があります。局所的な処理により、この大量のデータの多くがデバイス上で行われます。
- 運用の回復力の向上:デバイス上での生成により、ネットワークが中断されてもシステムは続行できます。特にデバイスに十分なパラメータキャッシュがある場合です。
- エネルギー効率:データセンターでの多くの計算資源やデバイスからデータセンターへのデータの送信に比べて、それほど多くのエネルギーが必要ありません。
しかし、これらの利点を実現するには、ワークロードの分割や他の負荷分散技術を使用して、集中型データセンターの計算コストとネットワークのオーバーヘッドを軽減する必要があります。
高速接続されたエッジデータセンター(計算およびエネルギー要件が大幅に削減されたもの)の需要は続いていますが、別の問題もあります。今日のハードウェアで本当に強力なLLMを実行できるのでしょうか?また、デバイス上のデータがネットワーク上で傍受される心配は少なくなっていますが、ローカルデバイス上での機密データの侵害リスクや、大量の分散エッジキャッシングデバイス上でモデルデータの更新とデータの一貫性を維持するという課題もあります。
さらに:エッジからクラウドへの移行がデジタルトランスフォーメーションの次の段階を推進している
そして最後に、費用の問題です。これらのミニエッジデータセンターの費用は誰が負担するのでしょうか?エッジネットワーキングは、エッジサービスプロバイダー(Equinixなど)によって現在利用されており、これはNetflixやAppleのiTunesなどのサービスに必要ですが、通常はAT&T、T-Mobile、Verizonなどのモバイルネットワークオペレーターではありません。OpenAI/Microsoft、Google、Metaなどの生成AIサービスプロバイダーも同様の取り決めを行う必要があります。
デバイス上の生成AIには多くの考慮事項がありますが、技術企業はそれについて考えていることが明確です。5年以内には、デバイス上の知的アシスタントが自己思考する可能性があります。ポケットの中にAIを準備しましたか?それが訪れます-そして、多くの人々が予想していたよりもはるかに早く訪れます。