ローカルAIモデルによるロボット自律走行論文調査報告
Executive Summary
ローカル推論での自律走行という観点では、現時点で最も実装確度が高いのは SLAM + Nav2 + VPR監視 のハイブリッド構成であり、厳密なオンボード運用・安全停止・レイテンシ管理まで含めて最も成熟しています。これに対し、RT-2 / NaVILA / OmniVLA のような大規模VLA系は研究的価値が高い一方、公開情報から見る限り、推論要件はまだ重く、Jetson単体での完全オンボード運用は容易ではありません。
一方で、OpenVLA は「公開・再現可能・量子化/LoRAで軽量化しやすい」点で、実装研究の基盤として非常に重要です。また SmolVLA は 450M 規模で、単一GPU・消費者向けハードウェア・CPUまで視野に入るため、低コストでのローカル運用研究に最も近いVLA系の出発点です。
研究ロードマップとしては、まず 古典スタックで安全なベースライン を作り、その上に VPR整合性監視 を載せ、最後に 小規模VLAまたは言語フロントエンド を「経路・サブゴール提案」に限定して追加するのが妥当です。低レベル速度制御までをいきなりVLAへ委譲する設計は、現状では安全性・遅延・発熱の観点から推奨しにくい、というのが本調査の結論です。
主要論文比較
本レポートでは、ユーザー指定どおり屋内・屋外の双方を視野に入れ、車輪型UGV、四足、固定/移動マニピュレータを分けて整理しました。なお、「ローカル運用可否」 は、論文の公開推論条件に基づく事実と、そこからの工学的推定を分けて評価しています。数値が公開されていないものは、その旨を明記しました。
| 論文名 | 年 | 手法概要 | モデルサイズ/推論要件 | 実験環境 | 主要結果 | ローカル運用可否 |
|---|---|---|---|---|---|---|
| LM-Nav | 2023 | GPT-3で指示文からランドマーク列を抽出し、CLIPで画像接地、ViNGでトポロジカルグラフ探索と走行を実行する分解型ナビゲーション。言語注釈付きロボットデータや微調整を使わない点が特徴。 | 単一モデルではなく GPT-3 + CLIP ViT-L + ViNG の組合せ。原著は GPT-3 依存で、厳密にはクラウド/外部LLM前提。総パラメータ数やJetson条件は非公開。 | 屋外、Clearpath Jackal。高レベル自然言語指示に従う長距離走行。 | 20指示で 成功率 85%、平均 1回の介入/6.4km。到達距離は最大 800m。 | 部分的に可能。CLIP/ViNGはローカル置換しやすいが、原著構成のままではGPT-3依存がボトルネック。ローカル化には小型LLM置換が必須。 |
| RT-1 | 2022 | 実世界ロボット制御用Transformer。画像と自然言語から離散化アクションを生成する、RT系列の出発点。 | 35M、3Hz の閉ループ制御。RT系列としては異例に軽量。 | 主にマニピュレーション。実世界データによる多タスク制御。 | 大規模多タスク・多環境での汎化を示し、後続RT-2の基盤になった。 | 高い。ただしナビゲーション専用ではない。ローカル制御の成立例としては重要。 |
| RT-2 | 2023 | 画像・言語・行動を同一トークン空間で扱う代表的VLA。Web知識をロボット制御へ転移し、意味推論能力を獲得。 | 公開評価では PaLM-E 12B / PaLI-X 55B 系 を使用し、別途 5B vs 55B の比較も報告。55Bは1–3Hz、5Bは5Hz、最大モデルは multi-TPU 級。 | 主に実世界マニピュレーション。6,000試行で評価。 | 学習済みタスクでは RT-1 同等、未学習シナリオでは 62% vs 32% へ改善。記号理解・推論など emergent skill を示した。 | 低い。研究室/クラウド級。Jetson単体・厳密オンボードを狙う候補ではない。 |
| OpenVLA | 2024 | Open-sourceな 7B VLA。Llama 2 7B と DINOv2/SigLIP を融合し、Open X-Embodiment 由来の 970k エピソードで学習。 | 7B。学習は 64×A100を15日。LoRA で 1.4% のパラメータのみ微調整可能、量子化配備も想定。消費者向けGPUでの微調整を明示。 | 主にマニピュレーション。WidowX、Google Robot、Franka。5Hz/15Hz条件の微調整検証あり。 | 29タスクで RT-2-X (55B) を 16.5% 絶対成功率 上回り、7倍少ないパラメータ。多様な言語条件タスクで強い。 | 中程度。7B級のためJetson単体は重いが、量子化/LoRAで「ローカル研究基盤」としては最有力。 |
| NaVILA | 2024 | 四足ロボット向けVLAナビゲーション。VLAが「前進75cm」のような中位言語アクションを生成し、下位の視覚RL歩容ポリシーが実行する2層構成。 | 8B。学習最終段は 4 A100ノードで18時間。推論は 単一RTX 4090で約1 FPS。AWQ量子化も検討。歩容学習は RTX 4090 で 60K FPS。 | 主に四足。Isaac Labベンチマーク+実機。 cluttered / realistic scene に対応。 | 古典的VLNベンチマークで 17%改善、新設 IsaacLab ベンチマークと実機でも優位。 | 低〜中。RTX 4090級なら研究可能だが、Jetson単体運用は現状厳しい。四足では低レベル歩容分離が有効。 |
| OmniVLA | 2025 | 自然言語・2D座標・目標画像を統一的に扱う「オムニモーダル」ナビゲーションVLA。OpenVLAをベースにモダリティドロップアウト/マスキングで学習。 | ベースは OpenVLA 7B。公開情報上、エッジ実時間の推論条件は未公表。 | 屋内/屋外、FrodoBots、ERZ、GO1、Vizbot。2D pose 条件では 25–100m、画像条件では主に屋内 最大3m をトップメモリで接続。 | 9,500時間・10プラットフォームで学習し、専門特化ベースラインを各モダリティで上回ると報告。見知らぬ言語指示やクロスエンボディメントに強い。 | 中程度。発想は強いが、公開情報ではエッジ実装指標が不足。現時点では研究用ワークステーション向き。 |
| SmolVLA | 2025 | 低コスト・コミュニティデータ主導の小型VLA。視覚・言語・状態から行動チャンクを生成し、非同期推論で応答性を改善。 | 450M。単一GPU で学習、consumer GPU / CPU / MacBook 配備を想定。20k step の微調整は 単一A100で約4時間。 | 主にシミュレーションと実機マニピュレーション(SO100/SO101 等)。ナビ専用論文ではない。 | 10倍大きいVLAに匹敵する性能を掲げ、30%高速応答・2倍のタスクスループット を報告。 | 高い。ただしナビ用追加学習が必要。ローカルVLA研究の出発点として最も実用的。 |
| Improving Visual Place Recognition Based Robot Navigation By Verifying Localization Estimates | 2024 | VPRの照合結果に対し、MLP integrity monitor で「この自己位置推定は信頼できるか」を判定し、棄却または履歴補正する。 | VPR + MLP。正確なパラメータ数は要旨未記載だが、real-time 実験を行っている。VLAより軽量。 | 実世界VPRナビゲーション。屋外長距離ローカライゼーションに近い設定。 | 実験1で along-track goal error 9.8m→3.1m、完走率 41%→55%。実験2で along-track localization error 2.0m→0.5m、precision 97%→99%。 | 非常に高い。ローカル安全監視に直結し、VLAより先に実装価値がある。 |
| RTAB-Map / SLAM Toolbox + Nav2 | 2024–2026 | 2D/3D SLAMで地図と map->odom を供給し、Nav2 が計画・制御・BT実行を担う標準ROS 2スタック。Collision Monitor を安全レイヤとして重ねられる。 |
主に CPU中心。LiDAR/RGB-D/ステレオで運用可能。Nav2 は SLAM Toolbox との併用手順を公式に用意。 | 屋内中心だが、RTAB-Map 自体は RGB-D・Stereo・LiDAR をサポートし、多様なロボットに展開。 | Nav2 は運用実績の高いナビフレームワークで、Collision Monitor はコストマップやプランナを迂回して緊急停止レベルで介入できる。 | 最も高い。現在の「厳密ローカル自律走行」の実用本命。 |
この比較表から見える重要な点は、論文としての先進性 と ローカル実装の容易さ がきれいに一致しないことです。RT-2、NaVILA、OmniVLAは研究的には魅力的ですが、厳密なオンボード実装という観点ではまだ重く、現時点で実装しやすいのは RT-1級の軽量モデル、SmolVLA級の小型VLA、そしてVPR/SLAM/Nav2の堅牢系 です。
技術潮流の分析
大きな流れとしては、ロボット自律走行の研究はおおむね三つの系統に分かれます。第一に、LM-Nav のような「LLM/VLM/ナビモデルの分解統合型」。第二に、RT-2、OpenVLA、NaVILA、OmniVLA、SmolVLA のような end-to-end あるいは近い形の VLA 系。第三に、VPR・SLAM・Nav2 を中心にした古典系だが実運用に強いスタック です。実務的にはこの三者は競合ではなく、むしろ相補関係にあります。LM-Nav は意味理解、VLA は行動表現の一般性、VPR/SLAM/Nav2 は位相的整合性と安全性に強い、という分担です。
とくにナビゲーション研究では、GNM が多数ロボット・多数環境の視覚ナビモデルを示し、NoMaD が探索とゴール到達を一つの拡散ポリシーへ統合し、LeLaN が未ラベル・アクションなしの egocentric 動画から言語条件ナビを学ぶ方向を切り開きました。OmniVLA はその延長で、言語・目標画像・2D pose をまとめて扱う「基盤ナビゲーションモデル」へ進んでいます。つまり、トレンドは「言語を理解するロボット」から「複数モダリティで目標を与えられるロボット」へ進んでいます。
以下のタイムラインは、今回の調査対象を「ローカル運用への近さ」という観点で並べた概念図です。年次と位置づけは各論文・プロジェクトページに基づきます。
ただし、「大きいモデルほどローカル運用に不利」 という単純なまとめも不十分です。たとえば RT-1 は 35M で 3Hz、SmolVLA は 450M で consumer hardware を志向し、OpenVLA は 7B でも LoRA と量子化で現実的な研究基盤になっています。また 2025年以降は FAST、OpenVLA-OFT、Running VLAs at Real-time Speed のように、アクショントークン化、並列デコード、action chunking、continuous action 表現によって 大きいVLAを「使える速度」に寄せる研究 が急速に増えています。
実装論点
実装面では、「車体制御」「自己位置推定」「意味理解」「危険監視」 を一つの巨大モデルでまとめるより、ROS 2 でレイヤ分離する方が現実的です。AgileX の SCOUT ROS2 パッケージ は scout_base、scout_description、scout_msgs を提供し、ugv_sdk を通じて CAN 接続のベース制御を担います。一方の Nav2 は、SLAM から map->odom と /map を受け、計画・BT・制御・リカバリを引き受けます。これは 「ローカルAIモデルは高レベル判断、低レベル走行はNav2」 という構成に非常に相性が良いです。
以下は、SCOUT / ROS 2 / Nav2 をベースにした、今回の調査から導く推奨ハイブリッド構成です。これは単一論文の再掲ではなく、LM-Nav、OmniVLA、VPR integrity monitor、Nav2 collision monitor の知見を実装へ落とした統合案です。
オンデバイス最適化の観点では、いま使える主戦力は 量子化・低ランク微調整・非同期推論・並列デコード です。TensorRT は INT8、INT4、FP8 などの量子化型を公式にサポートし、ONNX Runtime も 8-bit 線形量子化を提供しています。NaVILA は AWQ を検討し、OpenVLA は量子化サービングと consumer GPU 微調整を明示し、SmolVLA は非同期推論で 30% 高速応答と 2倍スループットを報告しています。さらに OpenVLA-OFT は OpenVLA の推論スループットを 26倍 改善しつつ、LIBERO 平均成功率を 76.5% → 97.1% に押し上げています。
リアルタイム性については、論文の主張よりも 制御ループ全体の end-to-end latency を見た方が実務的です。VLA1回の forward が 100 ms 未満でも、カメラ capture、前処理、ROS message copy、planner update、safety gate、cmd_vel 反映まで含めると容易に 150–250 ms に膨らみます。2025年の real-time VLA 研究は単一 consumer GPU で 30Hz frame rate / 最大480Hz trajectory frequency を示しましたが、これは高度に最適化された条件であり、一般の移動ロボットにそのまま移植できるわけではありません。したがって、現実の自律走行では 高頻度なのは低レベル制御・安全監視、低頻度でもよいのは意味推論 と分離設計するのが安全です。
ハードウェア面では、Jetson AGX Orin は最大 275 TOPS、電力は 15–60W 設定、Orin 系は 10W/15W/30W などの電力モードを持ちます。一方、SCOUTのようなUGVで屋外連続運用を考えると、AI計算性能だけでなく、放熱・バッテリ持続時間・筐体内温度上昇 が制約になります。7B~8B級VLAを本当にローカルで回すなら、Jetson 単体よりむしろ x86 mini-PC + RTX 4070/4090 の方が現実的で、JetsonはVPR/SLAM/安全監視へ役割を固定するほうが堅いです。
安全性と異常検出
安全性について最も重要なのは、「モデルの賢さ」ではなく「推定が怪しい時に確実に止まれるか」 です。この観点から、VPR を単なる自己位置推定に使うだけでなく、状態監視器 として使う発想は非常に有効です。Claxton らの 2024 年論文では、VPR の位置推定に MLP integrity monitor を付けることで、ナビゲーション実験の目標誤差と完走率を改善し、別実験では along-track localization error を 2.0m から 0.5m に下げています。これは「VPR照合スコアが低いから止まる」程度の単純閾値より、一段進んだ設計です。
また、teach-and-repeat 系の VPR ナビゲーションは、屋内/屋外、昼夜変化、複数プラットフォーム での堅牢性が高く、長距離ローカル自律の現実解になりやすいです。2025年の multi-platform teach-and-repeat 研究は、VPRベースの外観ナビゲーションが屋内外・昼夜変化に耐え、既存法を複数条件で上回ることを示しました。GuideNav も、VPR埋め込み、時間的一貫性、相対姿勢推定を組み合わせ、LiDARなしでキロメートル級のルート反復を実証しています。
実装としては、三段階の安全ゲート が妥当です。第一に Nav2 の Collision Monitor で、センサ入力から コストマップやプランナを迂回して緊急停止レベル の速度制限や停止を行うこと。第二に VPR integrity monitor で、位置推定が不信頼なら goal update を止めるか cmd_vel = 0 に落とすこと。第三に novelty / OOD 監視で、学習分布外の映像や攻撃的入力に入った際に保守モードへ移行することです。上述の RSS 論文は novelty detection を用いた safe fallback の価値を示し、2026年の VLA 安全性サーベイは、VLA が物理的不可逆性・マルチモーダル攻撃面・リアルタイム防御制約を持つことを整理しています。
評価指標も、「成功率」だけでは不十分です。少なくとも 介入回数/km、衝突回数/km、false stop rate、mean/95th percentile latency、unsafe state 継続時間、stopping distance、along-track error は測るべきです。VPR integrity monitor 論文や adversarial VPR safety 研究は、Along-Track Error、Unsafe State、連続攻撃時間などの指標が、単純成功率より安全性をよく表すことを示しています。
推奨構成と実験計画
最優先の推奨 は、いきなり大規模VLAへ全面移行しないことです。SCOUT や屋内AMRで研究を始めるなら、第一段階は SLAM Toolbox または RTAB-Map + Nav2 + Collision Monitor + VPR monitor の構成で、安全なベースラインを作るべきです。この段階だけでも、完全ローカル、リアルタイム、再現性、デバッグ容易性、熱設計の見通しという点で非常に強いです。
モデル候補 は、目的別に分けるのが適切です。厳密ローカル運用が第一なら、低レベル走行そのものは classical stack に任せ、学習モデルは VPR encoder と 言語からサブゴールを出す front-end に限定してください。VLA研究を進めるなら、まず SmolVLA をナビゲーションデータで追加学習するルートが最も現実的です。7B級で再現性と公開性を確保したいなら OpenVLA。四足で rough terrain を含むなら NaVILA。複数目標モダリティを扱う研究テーマなら OmniVLA が最も筋が良いです。RT-2 は比較対象として重要ですが、ローカル実装の主候補にはしない方がよいです。
ハードウェア構成 は三層で考えるのが実務的です。
第一層の「堅牢ローカル」は、Jetson Orin NX 16GB または小型x86 + 2D/3D LiDAR + RGBカメラ で、SLAM/Nav2/VPR/安全監視を実行する構成です。電力制約を守りやすく、長時間稼働に向きます。第二層の「研究エッジ」は、Jetson AGX Orin を perception/safety 用に使い、さらに RTX 4070/4090 級 mini-PC を搭載して OpenVLA/NaVILA/OmniVLA を動かす構成です。第三層の「研究室分散推論」は、ロボット上は Jetson で safety/localization のみ、VLA は有線LAN越しにデスクトップGPUで動かす構成で、RT-2やNaVILAに近い現実です。これは研究開発には有効ですが、本番機では通信断時のフェイルセーフ設計が必須です。
評価プロトコル は、論文ごとの評価軸を混ぜるべきです。言語条件タスクは R2R / RxR / VLN-CE のシミュレータで事前比較し、実機では LM-Nav にならって 成功率・効率・介入回数 を取ります。VPR 系は along-track error、完走率、precision を使い、動的環境では false stop と re-acquisition time を追加します。実フィールドは、屋内 3 経路、屋外 3 経路、昼夜・天候・人流あり/なしの4条件を基本にし、各条件で少なくとも 20 トライアル、総走行距離ベースでも評価するのが望ましいです。評価データセットとしては、VLN は R2R / RxR / VLN-CE、実世界ナビの事前学習には GO Stanford4, SACSoN, RECON, SCAND, TartanDrive, Seattle, FrodoBots-2k、VPRロバストネスには Oxford RobotCar と Mapillary SLS を推奨します。
具体的な実験計画 としては、四つのフェーズがよいです。フェーズ一では SCOUT + Nav2 + SLAM で屋内外ベースラインを作り、Collision Monitor と manual e-stop の停止距離を測ります。フェーズ二では VPR integrity monitor を入れて、自己位置推定の不信頼時に停止/再取得できるかを検証します。フェーズ三では SmolVLA もしくは小型VLMで言語をサブゴールへ変換し、低レベル制御は Nav2 に残します。フェーズ四で初めて OpenVLA/OmniVLA/NaVILA 系を比較し、「完全 end-to-end」に近づけるかどうかを判断すべきです。この順序なら、途中で大型モデルが失敗しても、走行可能なベースラインと安全レイヤは失われません。
未解決点 / 限界 として、OmniVLA や NaVILA では公開要旨・プロジェクトページから取得できる数値が限られ、Jetsonでの実測レイテンシ、電力、温度 はほとんど公開されていません。また VLA 系の多くはマニピュレーションから派生しており、移動ロボットの長距離走行・GPS不安定環境・悪天候・動的障害物まで含めた検証は、VPR/SLAM系ほど成熟していません。このため、本レポートの「ローカル運用可否」は、公開された推論条件とモデル規模に基づく工学的判断を含みます。
参考文献
以下は、今回の比較で特に重要だった一次情報を中心とした主要文献です。リンクはユーザー要望に合わせて主要URLを併記しています。
-
Shah et al., LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action, CoRL 2023.
URL:https://proceedings.mlr.press/v205/shah23b/shah23b.pdf -
Brohan et al., RT-1: Robotics Transformer for Real-World Control at Scale, RSS 2023.
URL:https://arxiv.org/abs/2212.06817 -
Zitkovich et al., RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, CoRL 2023.
URL:https://proceedings.mlr.press/v229/zitkovich23a.html -
Kim et al., OpenVLA: An Open-Source Vision-Language-Action Model, 2024.
URL:https://arxiv.org/abs/2406.09246 -
Cheng et al., NaVILA: Legged Robot Vision-Language-Action Model for Navigation, 2024/2025.
URL:https://arxiv.org/abs/2412.04453 -
Hirose et al., OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation, 2025; project page notes ICRA 2026.
URL:https://arxiv.org/abs/2509.19480 -
Shukor et al., SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics, 2025.
URL:https://arxiv.org/abs/2506.01844 -
Claxton et al., Improving Visual Place Recognition Based Robot Navigation By Verifying Localization Estimates, RA-L 2024.
URL:https://arxiv.org/abs/2407.08162 -
Truhlařík et al., Multi-Platform Teach-and-Repeat Navigation by Visual Place Recognition Based on Deep-Learned Local Features, 2025.
URL:https://arxiv.org/abs/2503.13090 -
Hwang et al., GuideNav: User-Informed Development of a Vision-Only Robotic Navigation Assistant For Blind Travelers, 2025/2026.
URL:https://arxiv.org/abs/2512.06147 -
Nav2 documentation, Collision Monitor.
URL:https://docs.nav2.org/configuration/packages/configuring-collision-monitor.html -
Nav2 documentation, Navigating while Mapping with SLAM.
URL:https://docs.nav2.org/tutorials/docs/navigation2_with_slam.html -
AgileX Robotics, scout_ros2.
URL:https://github.com/agilexrobotics/scout_ros2 -
Labbé, RTAB-Map as an Open-Source Lidar and Visual SLAM Framework for Large-Scale and Long-Term Online Operation, 2024.
URL:https://arxiv.org/abs/2403.06341 -
NVIDIA, TensorRT quantized types documentation.
URL:https://docs.nvidia.com/deeplearning/tensorrt/latest/inference-library/work-quantized-types.html -
ONNX Runtime, Quantize ONNX models.
URL:https://onnxruntime.ai/docs/performance/model-optimizations/quantization.html -
NVIDIA, Jetson AGX Orin / Orin NX specs and power modes.
URL:https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-orin/ -
Pertsch et al., FAST: Efficient Action Tokenization for Vision-Language-Action Models, 2025.
URL:https://arxiv.org/abs/2501.09747 -
Kim et al., Fine-Tuning Vision-Language-Action Models, 2025.
URL:https://arxiv.org/abs/2502.19645 -
Ma et al., Running VLAs at Real-time Speed, 2025.
URL:https://arxiv.org/abs/2510.26742 -
Li et al., Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms, 2026.
URL:https://arxiv.org/abs/2604.23775


コメント