-
業種・地域から探す
続きの記事
11月29日開幕 2023国際ロボット展(2023年11月)
ロボット知能化のカギ 基盤モデルの利用と可能性
機械学習では基盤モデルという考え方が台頭している。基盤モデルはロボットをどのように発展させる可能性を秘めているのか。現状のいくつかの取り組みを紹介するとともに、今後の展望も含め概観する。果たしてロボット基盤モデルは実現し、我々の目指す知能ロボットは現実のものになるだろうか。
台頭する「基盤モデル」/多様なタスクに適用
最近の機械学習における重要なトピックは、基盤モデルである。基盤モデルとは、大量かつ多様なデータで訓練され、所望の下流タスクに対し、ファインチューニングなどによって簡単に適応できるモデルである。
大規模(パラメーター数の膨大)なモデルが幅広いデータで訓練されているが故に、多様な下流タスクへ適応できる(図1)。
もちろん、基盤モデル自体の構築は難しいため、学習済みの基盤モデルを下流タスクにそのまま適用するか、少量の学習データでファインチューニングすることで利用する。
基盤モデルの登場は我々をモデル開発の困難から解放し、大規模な高性能モデルをローカルにアップデートすることで使いまわすという考え方を押し広めた。
ロボットへの応用/大規模言語モデルの発展が発端
基盤モデルのロボット応用として、画像・音声認識などロボットの知覚処理に使うことが考えられる。実際、家庭用サービスロボットの開発において、画像認識は基盤モデルを使えば事足りてしまうことが多い。ロボットの制御についてはどうか。ここでは、大規模言語モデルを用いたロボットの行動決定手法を紹介する。
大規模言語モデルとは言語に特化した基盤モデルであるが、そもそも基盤モデルの躍進は自然言語処理における大規模言語モデルの発展に端を発している。オープンAIが開発したチャットGPTやGPT4が代表的な大規模言語モデルである。
文章の次に来る単語を予測するように学習されたモデルであり、仕組みとしては単純であるがその能力は驚異的である。大量の言語データによる大規模モデルの学習は言語に埋め込まれた論理や常識を捉え、これを言語による推論を通して利用する。ロボットの常識欠如を解消し、汎用的な振る舞いを可能にする。
グーグルが開発したSayCanは、その先駆的なロボットシステムである(図2)。SayCanが対象とするのは「飲み物をこぼしてしまったので何とかしてほしい」といった、ロボットに対する曖昧な言語指示である。
SayCanは大規模言語モデルを常識として参照し、今ロボットが何をすべきかを計算する(言語スコア)。しかし、実際にはその行動を物理的に実行できる必要があるため、ロボットが事前にもつ行動セットを参照することで、その行動が現在の状況でどれほど実行可能かを同時に計算する(行動スコア)。最終的に、言語スコアと行動スコアを掛け合わせることで最も可能性の高い行動を実行する。実際にグーグルのロボットは、机の上の缶を片付け、机の上を拭くためのスポンジを持ってくることができた。
これに対してRT―1やRT―2と呼ばれるモデルは、ロボットの制御コマンドまでを含めた視覚・言語・動作のロボット基盤モデルを作るチャレンジである。RT―1では13台のロボットを13カ月間かけて使用することでデータ収集を行い、モデルを学習した。
RT―2はRT―1の性能を大幅に向上させた。エンドユーザーがこれほど大規模なロボットのデータを集めることは現実的ではないが、基盤モデルの考え方に従えば、学習されたロボット基盤モデルをそれぞれのロボットに適用し、言語命令によってコントロールできればよい。RT―2の論文では、実際に異なるロボットへの適用を通してその可能性を示している。しかし、RT―2を使ってすぐに任意のロボットを、任意のタスクや環境で制御するのは現状困難であると思われる。
今後の展望/制御のカギー言語の利用
ロボットでどのように基盤モデルを使うか。答えは、これまでの内容を踏まえ次のようになる。
①ロボットの知覚処理に利用=これは既に進んでいる方向性であるが、ロボットのコントローラーは既存のものを使うため、ロボットの運動という意味で根本的な性能向上を図るのは難しい。
②大規模言語モデルを知識として利用=ロボットの行動決定に柔軟さを与えることができるが、ロボットの運動は強化学習などで事前に準備する必要があり、それ以上の行動はできない。
③ロボット基盤モデルの利用=そもそもRT―1やRT―2のようなロボット基盤モデルを誰がどの規模で作るのか。それをすぐに自分のロボットや環境・タスクで使えるかは未知である。しかし、柔軟かつ事前の想定を超えた行動を創発する可能性があり、実現すれば汎用的な知能ロボットの理想形に大きく近づく。
こうして考えてみると、③が多くの研究者が目指す知能ロボットに近づく道筋のように見える。結局のところ、異なるロボットの身体構造を超えてどのように制御するかという古くからの問題が根底にある。最近ではRT―Xという取り組みもあり、多くの研究者が協力してさまざまなロボットの多様なデータを集め、ロボット基盤モデルを作ることを目指している。
基盤モデルによる取り組みがこの問題を解決するカギは、言語の利用にある。言語レベルの運動の記述を学習した基盤モデルが異なる身体を超えて制御コマンドを推論し、状況に合わせて適切にロボットを操るのである。
このようにロボットの自律性や学習能力が向上するに伴い、筆者はロボットの説明性が重要になると考えている(図3)。ロボットは人と共有した環境の中で、柔軟にさまざまな活動を行う。この際、人は必ずしもロボットの中身を理解できるわけではない。ロボットは何を何のためにどのように行うのかといったことを納得できるように説明する必要がある。
これは人とロボットのコミュニケーションに関連した問題であり、大規模言語モデルが解決のカギになる。この問題を解決することは、人と共生するロボット実用化のための社会的課題解決の一助になるであろう。
研究者としての探究は、単に便利なロボットを作ることだけではない。こうした取り組みは「知能とは何か」という問いに直結しており、やがてはそのメカニズムが作られることで解明していくと信じてやまない。
【執筆】
大阪大学 基礎工学研究科
教授 長井 隆行