ローカルAIモデルによるロボット自律走行論文調査報告

2026年5月30日2026年5月31日

ローカルAIモデルによるロボット自律走行論文調査報告

Executive Summary

ローカル推論での自律走行という観点では、現時点で最も実装確度が高いのは SLAM + Nav2 + VPR監視 のハイブリッド構成であり、厳密なオンボード運用・安全停止・レイテンシ管理まで含めて最も成熟しています。これに対し、RT-2 / NaVILA / OmniVLA のような大規模VLA系は研究的価値が高い一方、公開情報から見る限り、推論要件はまだ重く、Jetson単体での完全オンボード運用は容易ではありません。

一方で、OpenVLA は「公開・再現可能・量子化/LoRAで軽量化しやすい」点で、実装研究の基盤として非常に重要です。また SmolVLA は 450M 規模で、単一GPU・消費者向けハードウェア・CPUまで視野に入るため、低コストでのローカル運用研究に最も近いVLA系の出発点です。

研究ロードマップとしては、まず 古典スタックで安全なベースライン を作り、その上に VPR整合性監視 を載せ、最後に 小規模VLAまたは言語フロントエンド を「経路・サブゴール提案」に限定して追加するのが妥当です。低レベル速度制御までをいきなりVLAへ委譲する設計は、現状では安全性・遅延・発熱の観点から推奨しにくい、というのが本調査の結論です。

主要論文比較

本レポートでは、ユーザー指定どおり屋内・屋外の双方を視野に入れ、車輪型UGV、四足、固定/移動マニピュレータを分けて整理しました。なお、「ローカル運用可否」 は、論文の公開推論条件に基づく事実と、そこからの工学的推定を分けて評価しています。数値が公開されていないものは、その旨を明記しました。

論文名	年	手法概要	モデルサイズ/推論要件	実験環境	主要結果	ローカル運用可否
LM-Nav	2023	GPT-3で指示文からランドマーク列を抽出し、CLIPで画像接地、ViNGでトポロジカルグラフ探索と走行を実行する分解型ナビゲーション。言語注釈付きロボットデータや微調整を使わない点が特徴。	単一モデルではなく GPT-3 + CLIP ViT-L + ViNG の組合せ。原著は GPT-3 依存で、厳密にはクラウド/外部LLM前提。総パラメータ数やJetson条件は非公開。	屋外、Clearpath Jackal。高レベル自然言語指示に従う長距離走行。	20指示で成功率 85%、平均 1回の介入/6.4km。到達距離は最大 800m。	部分的に可能。CLIP/ViNGはローカル置換しやすいが、原著構成のままではGPT-3依存がボトルネック。ローカル化には小型LLM置換が必須。
RT-1	2022	実世界ロボット制御用Transformer。画像と自然言語から離散化アクションを生成する、RT系列の出発点。	35M、3Hz の閉ループ制御。RT系列としては異例に軽量。	主にマニピュレーション。実世界データによる多タスク制御。	大規模多タスク・多環境での汎化を示し、後続RT-2の基盤になった。	高い。ただしナビゲーション専用ではない。ローカル制御の成立例としては重要。
RT-2	2023	画像・言語・行動を同一トークン空間で扱う代表的VLA。Web知識をロボット制御へ転移し、意味推論能力を獲得。	公開評価では PaLM-E 12B / PaLI-X 55B 系を使用し、別途 5B vs 55B の比較も報告。55Bは1–3Hz、5Bは5Hz、最大モデルは multi-TPU 級。	主に実世界マニピュレーション。6,000試行で評価。	学習済みタスクでは RT-1 同等、未学習シナリオでは 62% vs 32% へ改善。記号理解・推論など emergent skill を示した。	低い。研究室/クラウド級。Jetson単体・厳密オンボードを狙う候補ではない。
OpenVLA	2024	Open-sourceな 7B VLA。Llama 2 7B と DINOv2/SigLIP を融合し、Open X-Embodiment 由来の 970k エピソードで学習。	7B。学習は 64×A100を15日。LoRA で 1.4% のパラメータのみ微調整可能、量子化配備も想定。消費者向けGPUでの微調整を明示。	主にマニピュレーション。WidowX、Google Robot、Franka。5Hz/15Hz条件の微調整検証あり。	29タスクで RT-2-X (55B) を 16.5% 絶対成功率上回り、7倍少ないパラメータ。多様な言語条件タスクで強い。	中程度。7B級のためJetson単体は重いが、量子化/LoRAで「ローカル研究基盤」としては最有力。
NaVILA	2024	四足ロボット向けVLAナビゲーション。VLAが「前進75cm」のような中位言語アクションを生成し、下位の視覚RL歩容ポリシーが実行する2層構成。	8B。学習最終段は 4 A100ノードで18時間。推論は単一RTX 4090で約1 FPS。AWQ量子化も検討。歩容学習は RTX 4090 で 60K FPS。	主に四足。Isaac Labベンチマーク＋実機。 cluttered / realistic scene に対応。	古典的VLNベンチマークで 17%改善、新設 IsaacLab ベンチマークと実機でも優位。	低〜中。RTX 4090級なら研究可能だが、Jetson単体運用は現状厳しい。四足では低レベル歩容分離が有効。
OmniVLA	2025	自然言語・2D座標・目標画像を統一的に扱う「オムニモーダル」ナビゲーションVLA。OpenVLAをベースにモダリティドロップアウト/マスキングで学習。	ベースは OpenVLA 7B。公開情報上、エッジ実時間の推論条件は未公表。	屋内/屋外、FrodoBots、ERZ、GO1、Vizbot。2D pose 条件では 25–100m、画像条件では主に屋内最大3m をトップメモリで接続。	9,500時間・10プラットフォームで学習し、専門特化ベースラインを各モダリティで上回ると報告。見知らぬ言語指示やクロスエンボディメントに強い。	中程度。発想は強いが、公開情報ではエッジ実装指標が不足。現時点では研究用ワークステーション向き。
SmolVLA	2025	低コスト・コミュニティデータ主導の小型VLA。視覚・言語・状態から行動チャンクを生成し、非同期推論で応答性を改善。	450M。単一GPU で学習、consumer GPU / CPU / MacBook 配備を想定。20k step の微調整は単一A100で約4時間。	主にシミュレーションと実機マニピュレーション（SO100/SO101 等）。ナビ専用論文ではない。	10倍大きいVLAに匹敵する性能を掲げ、30%高速応答・2倍のタスクスループットを報告。	高い。ただしナビ用追加学習が必要。ローカルVLA研究の出発点として最も実用的。
Improving Visual Place Recognition Based Robot Navigation By Verifying Localization Estimates	2024	VPRの照合結果に対し、MLP integrity monitor で「この自己位置推定は信頼できるか」を判定し、棄却または履歴補正する。	VPR + MLP。正確なパラメータ数は要旨未記載だが、real-time 実験を行っている。VLAより軽量。	実世界VPRナビゲーション。屋外長距離ローカライゼーションに近い設定。	実験1で along-track goal error 9.8m→3.1m、完走率 41%→55%。実験2で along-track localization error 2.0m→0.5m、precision 97%→99%。	非常に高い。ローカル安全監視に直結し、VLAより先に実装価値がある。
RTAB-Map / SLAM Toolbox + Nav2	2024–2026	2D/3D SLAMで地図と `map->odom` を供給し、Nav2 が計画・制御・BT実行を担う標準ROS 2スタック。Collision Monitor を安全レイヤとして重ねられる。	主に CPU中心。LiDAR/RGB-D/ステレオで運用可能。Nav2 は SLAM Toolbox との併用手順を公式に用意。	屋内中心だが、RTAB-Map 自体は RGB-D・Stereo・LiDAR をサポートし、多様なロボットに展開。	Nav2 は運用実績の高いナビフレームワークで、Collision Monitor はコストマップやプランナを迂回して緊急停止レベルで介入できる。	最も高い。現在の「厳密ローカル自律走行」の実用本命。

この比較表から見える重要な点は、論文としての先進性 と ローカル実装の容易さ がきれいに一致しないことです。RT-2、NaVILA、OmniVLAは研究的には魅力的ですが、厳密なオンボード実装という観点ではまだ重く、現時点で実装しやすいのは RT-1級の軽量モデル、SmolVLA級の小型VLA、そしてVPR/SLAM/Nav2の堅牢系 です。

技術潮流の分析

大きな流れとしては、ロボット自律走行の研究はおおむね三つの系統に分かれます。第一に、LM-Nav のような「LLM/VLM/ナビモデルの分解統合型」。第二に、RT-2、OpenVLA、NaVILA、OmniVLA、SmolVLA のような end-to-end あるいは近い形の VLA 系。第三に、VPR・SLAM・Nav2 を中心にした古典系だが実運用に強いスタック です。実務的にはこの三者は競合ではなく、むしろ相補関係にあります。LM-Nav は意味理解、VLA は行動表現の一般性、VPR/SLAM/Nav2 は位相的整合性と安全性に強い、という分担です。

とくにナビゲーション研究では、GNM が多数ロボット・多数環境の視覚ナビモデルを示し、NoMaD が探索とゴール到達を一つの拡散ポリシーへ統合し、LeLaN が未ラベル・アクションなしの egocentric 動画から言語条件ナビを学ぶ方向を切り開きました。OmniVLA はその延長で、言語・目標画像・2D pose をまとめて扱う「基盤ナビゲーションモデル」へ進んでいます。つまり、トレンドは「言語を理解するロボット」から「複数モダリティで目標を与えられるロボット」へ進んでいます。

以下のタイムラインは、今回の調査対象を「ローカル運用への近さ」という観点で並べた概念図です。年次と位置づけは各論文・プロジェクトページに基づきます。

コードを表示する

ただし、「大きいモデルほどローカル運用に不利」 という単純なまとめも不十分です。たとえば RT-1 は 35M で 3Hz、SmolVLA は 450M で consumer hardware を志向し、OpenVLA は 7B でも LoRA と量子化で現実的な研究基盤になっています。また 2025年以降は FAST、OpenVLA-OFT、Running VLAs at Real-time Speed のように、アクショントークン化、並列デコード、action chunking、continuous action 表現によって 大きいVLAを「使える速度」に寄せる研究 が急速に増えています。

実装論点

実装面では、「車体制御」「自己位置推定」「意味理解」「危険監視」 を一つの巨大モデルでまとめるより、ROS 2 でレイヤ分離する方が現実的です。AgileX の SCOUT ROS2 パッケージ は scout_base、scout_description、scout_msgs を提供し、ugv_sdk を通じて CAN 接続のベース制御を担います。一方の Nav2 は、SLAM から map->odom と /map を受け、計画・BT・制御・リカバリを引き受けます。これは 「ローカルAIモデルは高レベル判断、低レベル走行はNav2」 という構成に非常に相性が良いです。

以下は、SCOUT / ROS 2 / Nav2 をベースにした、今回の調査から導く推奨ハイブリッド構成です。これは単一論文の再掲ではなく、LM-Nav、OmniVLA、VPR integrity monitor、Nav2 collision monitor の知見を実装へ落とした統合案です。

ローカルAIモデルによるロボット自律走行論文調査報告

ローカルAIモデルによるロボット自律走行論文調査報告

Executive Summary

主要論文比較

技術潮流の分析

実装論点

安全性と異常検出

推奨構成と実験計画

参考文献

あわせて読みたい

この記事を書いた人

コメント

コメントするコメントをキャンセル

ローカルAIモデルによるロボット自律走行論文調査報告

ローカルAIモデルによるロボット自律走行論文調査報告

Executive Summary

主要論文比較

技術潮流の分析

実装論点

安全性と異常検出

推奨構成と実験計画

参考文献

あわせて読みたい

この記事を書いた人

関連記事

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル