疑問
ロボットを開発しようとしている、もしくは開発初期段階なのだが、基盤モデルの導入を検討するべきか?
回答
シンプルな回答
開発フェーズと要件次第だ。他社が開発した基盤モデル(または無償公開版)が利用可能で、迅速な開発が競争優位になる試作段階なら検討すべきだ。量産段階では、外部安全機構や安全監視の仕組みで対応できる場合は基盤モデルも選択肢となるが、そうでない場合は従来方式1の方が扱いやすい。
シンプルな理由
基盤モデルは新しい作業への対応に必要な動作データが従来方式と比べて激減する。だが、メリットを享受できるのは他社や無償公開版の基盤モデルを活用し、自社用途への最終調整だけを少データで行うときだけだ。自社構築なら総コストは極めて高い。さらに、End-to-End方式では処理の途中結果が見えなくなるため、製品品質・安全認証が必須の量産段階では課題がある。
詳細な回答
具体的には、以下の意思決定フレームワークに従って判断する。
意思決定のフレームワーク
自社のロボット開発で基盤モデルを採用すべきか判断するには、以下を評価する:
- 利用可能な基盤モデルの有無(学習に必要なデータの総量を自社で負担するか?)
- 開発フェーズ(試作段階か、量産段階か?)
- 開発スピード vs 製品品質のトレードオフ(どちらを優先するか?)
- 安全・検証要件(規制対応が必要か?外部安全機構で担保できるか?)
具体的な判断基準は以下のフローチャートに示す。また、フローチャートに沿った簡易診断もあるので、試してほしい。
図1: ロボット開発における基盤モデル vs 従来方式の意思決定フローチャート
このフローチャートが示すように、選択は開発フェーズと要件の組み合わせで決まる。詳細な根拠は後述のエビデンスセクションで説明する。
意思決定の見直しタイミング
この判断は技術進化により変わる可能性がある。以下の条件に該当する進歩があった場合、意思決定を再検討すべきだ:
-
少量データでの事前学習技術の進歩
-
End-to-End方式の安全認証手法の確立
-
ゼロから学習する方式の効率化
エビデンス
主要な論点は2つある:基盤モデルで学習データ数が激減することと、認証が難しいこと。それぞれの根拠を以下に示す。
「新しい作業への対応に必要な学習データが激減する」の根拠
従来方式の課題:
従来、ロボットに新しい作業を教えるには、その作業専用に数千〜数万回の動作データ2が必要だった。例えば、物を掴んで移動させる作業を70%以上の成功率で実行させるには、数千回の動作を記録する必要があった。
基盤モデルによる革命的な改善:
基盤モデルを使うと、新しい作業を覚えるために必要な動作データが約100件まで激減する。これはUC BerkeleyなどによるOcto(2024)3やGoogleのRT-1-X(2023)4がOpen X-Embodiment5というデータセットで実証している。
具体的な実証データ:
Octoでは、新しい作業・環境に対して約100件の動作データだけで新しい作業を覚えさせると、次善の手法と比べて平均52%の性能向上を達成した6。少量データでの学習において、基盤モデルは従来方式(ゼロから学習、または画像認識のみを流用)を大きく上回る性能を示している。
同じOpen X-Embodimentデータセットを使った他の研究でも同様の傾向が確認されている。RT-1-Xでは各ロボット専用のデータだけで学習した従来方式と比較して平均50%の性能向上を実証7。RT-2-X8では新しい状況への対応力が約3倍向上した。
図2: 約100件の動作データで新しい作業を覚えさせた場合の性能比較──基盤モデルの優位性
最近の進展:さらなる少量化
2024年以降、必要な動作データはさらに減少している。複数の独立した研究機関が、10件から150件、場合によっては10件以下で新しい作業を覚えられることを実証した。
例えば、UC BerkeleyとスタンフォードのOpenVLA(2024)9では、10〜150件の動作データで新しいロボット(Franka等)への対応に成功している10。注目すべきは、効率的な学習手法を使うと、学習する設定値は全体の1.4%で済み、A100 GPUという100万円台のGPU 1台で10〜15時間で学習が完了する点だ。モデル全体を学習する方法と同等の性能を、8分の1の計算資源で達成できる。
さらに高精度が要求される作業でも少量データで対応できるようになってきた。NVIDIAのRVT-2(2024)11は、プラグ挿入のような精密な操作を約10件の動作データで学習できることを示した12。両手操作に特化したRDT-1B(2024)13では、わずか1〜5件の動作データで新しい技能を実機で習得できる14。
この傾向から、基盤モデルのデータ効率は年々向上しており、試作段階での迅速な立ち上げがますます容易になっている。ただし、新しいロボット機体への転用時には、その機体固有の少量の動作データを追加して新しい作業を覚えさせることがほぼ必須だ。動作データなしでの転用は、現状では多くの場合失敗する。これは、ロボットの身体構造が機体ごとに異なるため、ある程度は避けられない。動作データなしで転用できる(ゼロショット転用)ようになるには時間がかかると予想されるが、必要な動作データ量の減少傾向は今後も続くだろう。
図3: 新規作業を覚えるために必要な動作データ数の推移──基盤モデルの進化により激減
なぜこのような改善が可能なのか?
この劇的な性能差が生まれる理由は主に以下の3つとされている:
①End-to-End方式:
従来方式では「物を見る機能」「動きを計画する機能」「実際に動かす機能」を個別に作り、それらを接続していた。各機能間の接続部分で情報が失われるため、全体を調整するのが困難だった。
基盤モデルでは、画像を見てからロボットが動くまでをEnd-to-End方式で学習する15。少数の動作データを見せるだけで、「何に注目すべきか」から「どう動くべきか」まで全体を同時に調整できる。これにより、各機能を個別に調整する従来方式より効率的に学習が進む。
②大量の経験データを事前に学習:
Open X-Embodimentのように、22種類の異なるロボットで527種類の作業(100万以上のエピソード)を事前に学習済みの基盤モデルは、新しいロボットや新しい作業にも応用しやすい。異なるカメラの角度や、異なる種類のセンサー、様々な環境での経験が蓄積されているため、少ないデータでも新しい状況に対応できる。
③Web上の知識を活用:
RT-2やOpenVLAのような基盤モデルは、ロボットデータだけでなく、Web上の大量の画像と言語データで学習している。そのため、学習時に見ていない物体や指示でも、言語の知識から推測して適切に行動できる。例えば「リンゴを掴む」を学習していれば、「果物を掴む」という指示にも対応しやすい。このようにWeb上の知識をロボット制御に活かすことで、様々な状況への対応力が大幅に向上する。
「安全規格に基づく認証・検証が困難になる」の根拠
End-to-End方式にすると、製品に求められる安全基準を達成するための総工数が増える可能性がある。以下、量産時に規制対応が必要となる代表例としてサービスロボットを取り上げ、具体的な課題を説明する。
継続学習やEnd-to-End方式の基盤モデルを用いるサービスロボットは、日本での実装において、製品安全(JIS B 8445/JIS B 8446)16、機械安全(JIS B 9700、JIS B 9705-1/-2、JIS B 9961)17、運用安全マネジメント(JIS Y 1001)18の複合適合が前提となる。
ところが、AIは以下の特性を持つ:
①同じ入力でも結果が変わることがある:
同じ入力でも出力が変動する可能性があり、テストの再現性が保証できない。米国NIST19は、事前に学習したモデルを使うと統計的な不確実性と再現可能性の課題が増えると指摘している20。
この特性は、検証・妥当性確認(JIS B 8445)、試験による妥当性確認(JIS B 9705-2)、リスクアセスメント(JIS B 9700)の各義務に影響する。統計的ばらつきにより試験回数や条件の組合せが増え、残留リスク評価の裏付けが難しくなる。
②なぜその判断をしたのか説明が難しい:
「なぜその判断をしたのか」を完全に説明することが困難だ。欧州EASA21は、中身が見えない(ブラックボックス)性質のため、検証が従来の方式より困難と明示している22。
この特性は、SRS(ソフトウェア安全要求仕様)の作成(JIS B 9961)と安全関連部の設計(JIS B 9705-1)の各義務に影響する。安全機能の仕様・制約を検証可能な形で記述し、PL達成の根拠を示すことが困難になる。
③データの質に強く依存する:
学習データの質が直接性能に影響する。国際標準化文書は、AI機能は設計仕様ではなくデータに依存するため、継続学習は既にテスト済みの動作から変化してしまい、安全性の確認を難しくすると説明している23。
この特性は、使用上の情報の提供(JIS B 8445)、運用の監視・改善(JIS Y 1001)、変更と構成管理(JIS B 9961)の各義務に影響する。学習更新で有効範囲が変わると情報の改訂が必要になり、データドリフトの検知と継続学習の変更評価(再妥当性確認の要否判断)が運用義務となる。
従来方式との比較:
従来の機能分割方式(知覚・計画・制御を個別に作る)に比べ、End-to-End方式の基盤モデルでは要求から設計、検証までの追跡が難しくなりがちだ。そのため、以下が重い負担となる:
- リスクアセスメント(JIS B 9700)における想定誤使用や運用条件を網羅したことの証明
- 安全性能レベル設計24への対応
- 運用マネジメント(JIS Y 1001)での継続的監視・改善の安全証明25構築
具体例:屋内配膳ロボット
例えば屋内配膳ロボット(JIS B 8446-1の移動作業型ロボット)では、人混み・障害物・レイアウト変更など非定常環境での誤検知・誤判断リスクを、製品側の保護方策(速度制限・協調停止など)と運用側のPDCA(動線設計、教育、ヒヤリハット記録)で多層に低減する必要がある。
End-to-End方式を採用する場合は、安全監視の仕組み26で危険な動作を防ぎつつ、学習更新の範囲・条件・証拠を文書化し、変更時の再評価が必要かを判断する(EU AI ActのArt.43(4)では、技術文書に事前記載された継続学習による変更は実質的変更に該当しないとされる)27。
工数面での注意点:
以上より、End-to-End方式は従来方式より検証・認証工数が大きくなりやすい。規格対応の工数増大が、開発工数の削減を上回らないかを慎重に検討する必要がある。試作段階での迅速な立ち上げというメリットが、量産段階での認証負荷で相殺される可能性を考慮すべきだ。
-
従来方式:「物を見る」「動きを計画する」「実際に動かす」といった機能を個別に作って組み合わせる方式 ↩
-
動作データ:ロボットを実際に動かして記録したデータ。人間が遠隔操作したり、既存のプログラムで動かしたりして集める ↩
-
Octo:UC Berkeleyなどによるオープンソースのロボット基盤モデル(2024年公開)。論文:"Octo: An Open-Source Generalist Robot Policy" ↩
-
RT-1-X:GoogleのRT-1モデルをOpen X-Embodimentデータで拡張したもの ↩
-
Open X-Embodiment:22種類の異なるロボット、527種類の作業スキルを含む大規模データセット(100万以上のエピソード)。論文:"Open X-Embodiment: Robotic Learning Datasets and RT-X Models" ↩
-
タスクあたり約100件の少量適応で次善手法比+52%の相対改善を報告 ↩
-
RT-1-Xは平均50%向上、RT-2-Xは約3倍の汎化性能を実証 ↩
-
RT-2-X:言語モデルと統合したRT-2をOpen X-Embodimentデータで拡張したもの ↩
-
OpenVLA:UC BerkeleyとスタンフォードによるオープンソースのVision-Language-Action Model(2024年公開)。論文:"OpenVLA: An Open-Source Vision-Language-Action Model" ↩
-
10〜150件の少量デモ適応、LoRAで1.4%のみ更新、A100で10〜15時間・8分の1の計算削減を実証 ↩
-
RVT-2:NVIDIAが開発した、少量動作データで高精度操作を学習できるロボット操作モデル。論文:"RVT-2: Learning Precise Manipulation from Few Examples" ↩
-
プラグ挿入など精密操作を約10件のデモで学習 ↩
-
RDT-1B:Robotics Diffusion Transformerの略。両手操作に特化した12億個の設定値を持つ基盤モデル。論文:"RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation" ↩
-
1.2Bパラメータ、1〜5件のFew-shot実証 ↩
-
RT-2:Googleが開発した、大規模言語モデルの知識をロボット制御に統合した基盤モデル。画像・言語・動作を統合的に扱う。論文:"RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control" ↩
-
JIS B 8445/JIS B 8446:生活支援ロボットの安全要求事項を定める規格。JIS B 8445はリスクアセスメント、検証・妥当性確認、使用上の情報を要求。JIS B 8446-1は移動作業型向けにPL要求などを追加 ↩
-
JIS B 9700、JIS B 9705-1/-2、JIS B 9961:機械安全の規格群。JIS B 9700は危険源同定・リスク評価を要求。JIS B 9705-1/-2はPLの設定・達成と妥当性確認を要求。JIS B 9961(IEC 62061対応)はSIL割付・SRS作成・変更手順と構成管理を要求 ↩
-
JIS Y 1001:サービスロボットの運用安全マネジメントシステム。運用時の監視・内部監査・継続的改善・文書化を要求 ↩
-
NIST(National Institute of Standards and Technology):米国国立標準技術研究所。AIリスク管理フレームワーク(AI RMF)を公開し、不確実性・再現性・データ品質を主要リスクとして指摘。文書:"Artificial Intelligence Risk Management Framework (AI RMF 1.0)" ↩
-
大規模事前学習モデルに伴う統計的不確実性・再現性の課題を明示 ↩
-
EASA(European Union Aviation Safety Agency):欧州航空安全機関。AIシステムの認証において、ブラックボックス性が検証を困難にすると指摘。文書:"EASA Artificial Intelligence Concept Paper - Issue 2" ↩
-
学習アシュアランス(W形プロセス)と検証の難しさへの具体的枠組みを提示 ↩
-
ISO/IEC 23894(Artificial intelligence — Guidance on risk management)、TR 24028等。AIリスク管理・トラストワースネスにおけるデータ依存性と継続学習の課題を分析 ↩
-
安全性能レベル(PL/SIL):安全関連制御システムにどの程度の安全性が求められるかを示すレベル。JIS B 9705-1(PL)/JIS B 9961(SIL)で規定 ↩
-
安全証明:システムが安全目標を達成し、リスクが許容範囲内であることを体系的に証明する文書 ↩
-
安全監視の仕組み:AIの動作を常に監視し、危険な動作を検出した場合に安全な状態へ切り替える仕組み。Runtime Assurance(Simplexアーキテクチャ等)やUL 4600の安全ケース手法が該当 ↩
-
EU AI Act Article 43(4)。技術文書に事前記載された継続学習による変更は実質的変更に該当しない旨を規定 ↩