Google の RT-2 モデルは、ロボットが新しい状況でより簡単にアクションを実行できるように支援します
Google は、 Robotics Transformer 2 (RT-2) と呼ばれる新しいビジョン・ランゲージ・アクション (VLA) モデルを発表しました。これを「この種では初」と説明しています。Google によると、RT-2 はテキストまたは画像を入力し、ロボット動作を出力することができます。
同社は、ロボットのトレーニングは世界の各物体、環境、タスク、状況ごとに数十億点のデータに基づいてトレーニングする必要があるため、「大変な作業」になる可能性があると述べた。しかし、RT-2 には、より汎用的なロボットの可能性が大いに期待できると Google は述べています。
同社はRT-2が何を解き放つかに興奮している一方で、人間中心の環境で役に立つロボットを実現するには多くの作業を行う必要があると述べた。DeepMind によると、最終的には、VLA モデルから汎用の物理ロボットが作成され、現実世界のタスクを実行するための情報を推論、問題解決、解釈できるようになる可能性があります。
名前が示すように、これは Robotics Transformer VLA モデルの最初の反復ではありません。DeepMind 社によると、RT-2 は RT-1 の機能を基にして構築されており、以前のモデルと比較して汎化機能が向上しており、新たな未知のタスクでのパフォーマンスが向上しているとのことです。
RT-2 が前任者に比べて可能になったもう 1 つの新しいスキルは、抽象的な概念を理解し、論理的に操作できることを意味する象徴的推論です。この一例としては、抽象的な数学や記号操作を行うように明示的に訓練されていないにもかかわらず、ロボットがバナを 2 プラス 1 の合計に移動するように要求され、タスクを正しく実行した場合が挙げられます。
RT-2 はロボット工学にとって大きな前進ですが、ターミネーター ロボットが登場したと宣言するのは公平ではありません。このモデルには依然として人間の入力と監視が必要であり、現実世界のロボット操作では重大な技術的制限が発生します。
そうは言っても、これまでは不可能だった、あるいは簡単に実行できなかったタスクを実行できる興味深いロボットが誕生することが期待されます。
コメントを残す