ディープマインドの新しいAIは、特定のトレーニングなしでロボットタスクを制御します

DeepMindの新しいAIは、トレーニングなしでロボットタスクを制御する

Google DeepMindは、訓練されていないロボットタスクを指示できる新しいAIモデルを持っています。

このモデルはRT-2と名付けられ、ウェブデータとロボットデータから学習します。そして、この情報を単純な機械への指示に変換します。

テストでは、モデルにはロボットデータには存在しないオレンジをマッチングボウルに置くなど、見たことのないアクションを取るように求められました。これらのコマンドに従うために、システムはウェブベースのデータから知識を翻訳する必要がありました。DeepMindによれば、このモデルはこれらの操作に対して62%の成功率を示しました-これは前任のRT-1の2倍です。

「言語モデルがウェブのテキストから一般的なアイデアや概念を学ぶために訓練されるのと同様に、RT-2はウェブデータから知識をロボットの行動に反映させるために訓練されます」とDeepMindのロボティクス責任者であるVincent Vanhouckeは述べています。「言い換えれば、RT-2はロボットが話すことができます」。

RT-2は、ロボットデータには存在しなかったさまざまなロボットスキルでテストされました。 クレジット:Google DeepMind

テストでは、RT-2は印象的な一般化能力を持っていることが示されました。また、以前に遭遇していなかったロボットデータの意味的および視覚的な理解も向上しています。

特筆すべきは、このモデルが新しいユーザーのコマンドに従うために初歩的な推論を使用できることです。さらに、マルチステージの意味的推論も実行できます。例えば、ハンマーとして使用できるオブジェクトを指示された場合、RT-2は正しく岩を最適な選択肢として特定しました。

あるテストでは、RT-2は即席のハンマーとして拾うのに最適なオブジェクトとして岩を見つけました。 クレジット:Google DeepMind

別の評価では、モデルにはシーン内にいくつかのアイテムがありましたが、トレーニングデータセットにはキューブだけが含まれていました。それにもかかわらず、RT-2は指定された目的地にケチャップを成功裏に押しました。

RT-2は実世界のタスクで優れたパフォーマンスを発揮しました。 クレジット:Google DeepMind

DeepMindはRT-2を人工知能の大きな進展として称賛しています。このロンドンのラボは、このモデルが助けになるロボットの将来により近づいていると述べています。

「RT-2は、AIの進歩が迅速にロボティクスに波及しているだけでなく、より汎用性のあるロボットに非常に大きな約束を示しています」とVanhouckeは述べています。「人間中心の環境で助けになるロボットを実現するためにはまだ非常に多くの作業が必要ですが、RT-2は私たちに手の届く範囲でロボティクスのエキサイティングな未来を示してくれます」。

RT-2の研究論文はこちらで読むことができます。