ロボティクス最前線:AI融合がもたらす新時代の到来

オープンソースAIがロボティクスの世界に革命を起こす

人工知能(AI)とロボティクスの融合が加速している中、オープンソースAIの先駆者として知られるHugging Face(ハギング・フェイス)が、フランスのロボット開発企業Pollen Robotics(ポレン・ロボティクス)を買収し、ロボティクス分野への本格的な参入を果たしました。この動きはロボティクスの民主化を目指す重要な一歩と位置づけられており、技術の壁を低くしてより多くの人々がロボット開発に参加できる環境を整えることを目的としています。

Hugging Faceの最高経営責任者(CEO)クレマン・ドランジュ氏は「ロボティクスは可能な限りオープンソースにすることが非常に重要」と強調し、「物理的な存在が物理的な作業をすることを考えると、ノートPCでチャットするものとは比較にならないほどの信頼性と透明性が求められる」と述べています。

Reachy 2:オープンソースの人型ロボット

買収によってHugging Faceの傘下となったPollen Roboticsが開発した人型ロボット「Reachy 2」は、研究、教育、実験的なAI実装のために設計されたオープンソースの人型ロボットです。現在、この製品は7万ドル(約1,000万円)で購入可能となっています。

このロボットは現時点では歩行機能を持たず、車輪付きの移動ベースを装着するか固定された状態で使用する初歩的なモデルですが、複雑な物体を操作できる7自由度のロボットアームを備えています。

世界的なオープンソースロボティクスの潮流

Hugging Faceが推進するオープンソースのロボティクス開発は、テスラやFigure、Agility Roboticsといった資金力のある限られた企業だけでなく、より広いコミュニティに技術へのアクセスを提供することを目指しています。Pollen Roboticsの共同創業者でCEOのマチュー・ラピエール氏は、「Hugging Faceとともにこの状況を変え、技術の民主化を進めていきたい」と述べています。

この動きの背景には、最新のAIモデルがハードウェアの性能向上を後押ししているという現実があります。一部の著名な研究者たちは、AIが人間の知能に匹敵または超えるためには、物理的な実体が必要だと主張しています。そうした進化には、物理世界を直接的に理解することが重要になるかもしれないからです。

Figure AIとBMWの提携:産業用ロボットの実用化へ

人型ロボット開発の分野では、Figure AI(フィギュアAI)が急速に台頭しています。2024年1月、Figure AIはドイツの自動車メーカーBMWと提携し、サウスカロライナ州スパルタンバーグの製造工場で同社のロボットを使用する契約を結びました。

さらに最近では、Figure AIが「米国で最大の企業のひとつ」と新たな契約を締結したことを発表しました。同社のCEOであるブレット・アドコック氏によれば、今後4年間で10万台のヒューマノイドロボットを出荷する可能性があるとのことです。

Figure AIの技術革新

2025年2月、Figure AIは「Helix」というVLAモデル(視覚-言語-動作モデル)を公開しました。これは自然言語からヒューマノイドの上半身全体を直接制御するシステムです。Figure AIのデモビデオでは、2体のロボット「Figure 02」が人の指示に従って、初見(未学習)の物体を所定の場所にしまうといった作業を行っています。

注目すべきは、タスクに特化した手動プログラミングやロボット固有の学習を行わずに、「非構造化環境」で言語による指示でロボットが動作している点です。Figure AIはこの技術を「ヒューマノイドロボットの行動をスケーリングする方法において、革新的な一歩」と位置づけています。

巨額の資金調達

Figure AIは2024年2月29日、マイクロソフト、OpenAI Startup Fund、NVIDIA、ジェフ・ベゾス氏(Bezos Expeditions経由)、Parkway Venture Capital、Intel Capital、Align Ventures、ARK Investなどのテック企業や投資家から総額6億7,500万ドル(約1,000億円)もの資金を調達しました。これによりFigure AIの評価額は一気に26億ドルに拡大しました。

また、同社はOpenAIとの提携合意に達し、OpenAIのAI技術を活用してロボットの頭脳となる新しいAIモデルを共同開発することも発表しています。

マルチモーダルAIがロボット技術を変革

最新のロボティクス技術の進展において、マルチモーダルAIの統合が大きな役割を果たしています。生成AIの進化において重要なのは、テキストだけでなく視覚情報も処理できるマルチモーダルな認識能力です。LLM(大規模言語モデル)にネットから広範囲に取り込んだ映像による学習を加えることで、「言語+視覚モデル」が実現し、ロボットは周囲の環境を理解して言語化できるようになりました。

AIとロボティクスの融合がもたらす進化

こうした技術進化により、例えばFigure AIのロボットは環境内の物体を認識し、「なぜリンゴを選んだのか」という質問に対して「テーブルの上で食べられるものはリンゴだけだからです」といったロジカルな応答ができるようになりました。また、強化学習とジェネレーティブAIの融合により、ロボットの運動制御能力も大幅に向上しています。

ロボティクス分野では、言語モデルのGPTに相当する基盤モデルの構築も進んでいます。Googleのロボット研究者たちが一斉に退職して立ち上げたPhysical Intelligenceでは、「ロボットが動作する1万時間以上の画像などで構築した基盤モデル」を活用することで、「ゼロから構築するよりもはるかに少ない労力でロボットのアプリケーション(動作)をつくり出せる」としています。

また、NVIDIAも2024年3月に開発者会議「GTC 2024」でヒューマノイドロボット用の基盤モデル「Project GR00T」を公開し、ロボット業界にChatGPTのような基盤技術を提供する取り組みを加速させています。

現実的な応用:産業現場におけるロボットの活用

Amazonは2023年10月、物流拠点に人型ロボット「Digit」を試験導入すると発表しました。このロボットは同社が投資するスタートアップAgility Roboticsが開発したもので、二足歩行し、両腕を使って物を持ち上げたり移動させたりすることができます。

Amazonは人型ロボットを試験する理由について、「サイズと形状が人間向けに設計された建物によく適している」「作業員との協業型ロボットであるDigitのようなソリューションを拡張する大きなチャンスがある」と説明しています。

現実的な課題と未来の展望

米国商工会議所のデータによれば、2023年8月時点で未埋めの製造業の求人数は61万6,000件あります。人型ロボットの市場はまだ黎明期ですが、ゴールドマン・サックスのリポートによれば、ヒューマノイドロボットは2030年には25万台以上が出荷され、市場規模は2035年までに378億ドルに達すると予測されています。

テスラのイーロン・マスクは、より大胆な予測を立てており、2040年代には地球上に10億台の人型ロボットが存在すると述べています。人型ロボットには高価な部品が必要ですが、ゴールドマンのリサーチャーによれば、これらのコストは急速に低下しており、昨年は1台あたり5万ドルから25万ドル程度だったコストが、現在はすでに3万ドルから15万ドル程度に下がっています。

解説:ロボティクスとAIの技術融合

AIがロボットに与える「知能」とは?

現代のロボティクスで革命的な変化をもたらしているのは、大規模言語モデル(LLM)の統合です。従来のロボットは予めプログラムされた動作しか行えませんでしたが、最新のAIを搭載したロボットは環境を「理解」し、状況に応じて判断できるようになっています。

例えば、「そのリンゴを取って」と指示されたとき、従来のロボットはプログラムされた「リンゴを取る」という動作を実行するだけでしたが、AI搭載ロボットは「どのリンゴを取るべきか」を判断し、複数のリンゴがあれば「どのリンゴですか?」と質問したり、リンゴがない場合は「リンゴが見当たりません」と報告したりすることができます。

マルチモーダル認識とは?

マルチモーダル認識とは、異なる種類の情報(テキスト、画像、音声など)を組み合わせて理解する能力です。人間は常にこれらの情報を統合して世界を認識していますが、AIシステムでは長らく困難とされていました。

最新のAIモデルはこの壁を越え、例えば目の前の状況を画像として認識し、その内容を言語で理解し、さらに適切な動作を生成するという一連の処理を一気通貫で行えるようになっています。これによりロボットは「見て」「考えて」「行動する」という人間に近い情報処理が可能になっています。

ロボティクスの基盤モデルとは?

自然言語処理の分野でGPTやLlamaのような基盤モデルが登場したように、ロボティクスの分野でも基盤モデルの開発が進んでいます。これはロボットの動作に関する膨大なデータを学習したモデルで、個別のタスクごとにゼロからプログラミングするのではなく、基盤モデルを微調整するだけで様々な動作を実現できるようになります。

NVIDIAの「Project GR00T」はそうした取り組みの一例で、ロボットの基本動作を学習した基盤モデルをベースに、特定のタスクにチューニングすることで開発効率を大幅に向上させることを目指しています。

日本のロボティクス産業の現状と課題

日本は従来からロボティクス技術で強みを持っており、特に産業用ロボットについては世界市場シェアの46%を占めています。労働人口減少が続く日本においては、ロボティクス活用による生産性の向上、不足する労働力への対応、新たな産業創出などへの期待も大きくなっています。

日本では2015年度に「ロボット新戦略」を策定し、これまで30以上の官民連携による技術開発プロジェクトを実施してきました。ロボット自体やそれを支える個々の技術は進化してきている一方、ロボット導入現場のニーズとの間のギャップにより社会実装が進んでいないという実態もあります。

こうした状況を受け、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)は2023年4月、ロボット活用が期待される8分野(ものづくり、食品製造、施設管理、小売・飲食、物流倉庫、農業、インフラ維持管理、建築)を取り上げ、あるべき姿の実現に向けた「ロボット分野における研究開発と社会実装の大局的なアクションプラン」を公表しました。

ヒューマノイドロボットの未来

人型ロボット(ヒューマノイド)の開発は世界的に加速しており、多くの企業や研究機関が競うように参入しています。米国の調査サービス「CB Insights」によれば、2024年1〜3月期のヒューマノイドロボット関連の資金調達額は通年ベースで過去最高を記録しているといいます。

人型ロボットを「人型」にする理由

人型ロボットが「人型」をしている主な理由は、人間が働いている場所での協業や代用を想定しているためです。人間向けに設計された環境に適応しやすく、特別な改修を必要としないという大きな利点があります。

技術的課題と今後の発展

過去10年間の機械学習の発展によりコンピュータビジョンの技術が進化し、ロボットは複雑な環境の中でも移動したり、階段を登ったり、物をつかんだりできるようになりました。加えて、電気自動車(EV)の開発に伴いエネルギー密度の高いバッテリーが登場したことで、より多くの電力を詰め込めるようになり、二足歩行ロボットが体のバランスをとる際に脚を素早く動かせるようになりました。

Figure AIの元CTOであるジェリー・プラットによれば、大量生産できるほどの需要があれば、いずれは自動車を製造するのと同程度のコストで人型ロボットを製造できるようになるとのことです。

解説:人型ロボットの基本構造と技術要素

アクチュエーターと人工筋肉

人型ロボットの動きを実現するために必要なのがアクチュエーターです。モーターやギアによる従来の方式に加え、最新のロボットでは「人工筋肉」と呼ばれる新しい技術も採用されています。これは人間の筋肉のように収縮・伸展によって動きを生み出す仕組みで、より滑らかで自然な動きを実現できます。

センサー技術

ロボットが環境を認識するために不可欠なのが各種センサーです。カメラ(視覚)、マイク(聴覚)、タッチセンサー(触覚)、加速度センサーや姿勢センサーなどが組み合わさることで、ロボットは周囲の状況を把握できます。特に最新の深度センサーやLiDARによって、立体的な空間認識が可能になっています。

電源とバッテリー技術

人型ロボットの活動時間と性能を左右する重要な要素がバッテリーです。電気自動車の普及に伴い、高エネルギー密度のバッテリー技術が大きく進歩し、ロボットの稼働時間も大幅に向上しています。Figure 01などの最新ロボットでは5時間程度の連続稼働が可能になっています。

ロボティクス革命がもたらす社会変化

ロボット技術とAIの急速な発展により、近い将来、多くの仕事が機械に取って代わられる可能性があります。野村総合研究所と英国の研究者の調査によると、今後10〜20年で人間の仕事の一部がロボットに置き換えられると予測されています。これは人口減少による人手不足解消につながる一方で、今まで人がやっていた仕事がロボットに奪われ、職業の選択肢が狭くなる可能性も示唆しています。

労働市場への影響

ロボティクス技術の進展により、特に単純作業や繰り返し作業が多い職種から自動化が進むと予想されています。一方で、ロボットの開発・保守・運用など新たな職種も生まれています。重要なのは、人間にしかできない創造的な仕事や感情的なコミュニケーションを必要とする仕事の価値が相対的に高まる点です。

社会インフラとしてのロボット

高齢化社会において、介護用ロボットなどの需要は今後さらに高まると予測されています。NTTが開発した「雑談で空気を読むロボット」は機械学習により人に限りなく近い会話を行うことが可能で、高齢者との会話に活用されることが期待されています。近い将来、介護施設でこうしたロボットが当たり前のように活用されるようになるでしょう。

まとめ:進化を続けるロボティクスの未来

オープンソースAIとロボティクスの融合、マルチモーダルAIの実装、産業分野での実用化など、ロボティクス技術は新たな段階に入りつつあります。特にHugging FaceによるPollen Roboticsの買収やFigure AIの大型契約に見られるように、研究段階から実用段階への移行が始まっています。

日本は産業用ロボットで世界をリードしてきた経験を活かし、AIとの融合による次世代ロボティクスの開発でもイニシアチブを発揮することが期待されます。NEDOのアクションプランに見られるように、社会実装を見据えた取り組みも進んでいます。

ロボティクス技術は単なる自動化ツールではなく、人間の能力を拡張し、より創造的で充実した社会を実現するための重要な技術となるでしょう。技術進化と社会実装のバランスを取りながら、人間とロボットが共存する未来に向けた取り組みが今後一層重要になっていきます。