[PDF] arxiv.org

概要(Abstract)

私たちは、多様でオープンな世界環境における自律的な探索とナビゲーションのためのロボット学習システムを提案する。
本手法の中心となるのは、距離と行動を学習する潜在変数モデルと、画像に基づく非パラメトリックなトポロジカルメモリである。学習された方策を正則化するために情報ボトルネックを利用し、次の利点を得る。

  1. 目標をコンパクトに表現できる視覚表現

  2. 汎化能力の向上

  3. 探索のために実行可能な目標をサンプリングする仕組み

本モデルは、大規模なオフラインデータセットを用いて訓練され、タスクと無関係な外乱(ディストラクタ)に対して頑健な視覚目標表現を獲得する。提案手法を移動地上ロボットに適用し、オープンワールド探索シナリオで検証した。最大80m離れた目標画像が与えられた場合でも、学習された表現を活用することで、未知の障害物や天候条件下でも20分以内にその目標を探索・発見できることを示す。


1. 序論(Introduction)

多様で実世界の環境をナビゲーションすることを学習する上で、ロバスト性(頑健性) は重要な課題である。
ロボット学習システムは次の点でロバストでなければならない。

  • オフライントレーニングデータセットと現実世界との違いへのロバスト性(=汎化が必要)。

  • 現実世界の非定常的な変化へのロバスト性(=タスクと関係ない視覚的な変化を無視できること)。

  • 探索メカニズムの備え(=移動可能性を調べるために情報を集められること)。

環境ごとに異なって見えても、物理的な構造は似ている場合があり、この類似性を活用することで新しい環境での探索を加速できる。学習ベースの手法は、過去の経験からこの共通構造の表現を学習できる点で魅力的である。


この研究では、未知の環境においてユーザーが指定した目標へナビゲートする問題を扱う。ロボットは他の環境から得られた大規模で多様な経験データにアクセスでき、これを用いて一般的なナビゲーション能力を学習する。提案手法は、情報ボトルネックアーキテクチャを用いて目標のコンパクトな表現を学習する。この「潜在的な目標モデル」は、知覚、ナビゲーションのアフォーダンス(行動可能性)、短期的な制御に関する知識を事前に取り込み、新しい環境に関する経験は非パラメトリックなメモリに蓄積される。これらを組み合わせることで、システムは数分の探索後に新しい環境で目標に到達できるようになる。

本研究の主な貢献は、未知の環境を探索してユーザー指定の目標を発見する方法を提案することである。提案手法は幾何学的な地図や構造化センサを用いず、画像のストリームのみを入力とする。また、目標画像を圧縮して表現することで、ロバスト性を確保しつつ探索のための仕組みを提供する。この表現により、例えば昼間に撮影した目標画像を指定し、夕方に同じ場所へ移動することが可能となる。見た目は変化していても、潜在表現は十分近いため正しい行動を生成できる。このようなロバスト性は、実環境においてランドマークの見た目が時間帯や季節によって大きく変わる状況で特に重要である。

2 関連研究(Related Work)

新しい環境を探索する問題は、多くの場合「効率的なマッピング」の問題として定式化され、環境の不確かな領域へロボットを誘導するために情報最大化が利用される。これまでの探索手法の一部は、ロボットの制御行動を生成するために局所的な戦略を用いてきた [1–4]。一方で、フロンティア法に基づいた大域的な戦略を使う手法もある [5–7]。しかし、信頼できる深度情報なしでは高精度な幾何学的マップを構築することは難しい。さらに、そのようなマップは「高い草は通れるが金網フェンスは通れない」といった移動可能性の意味的側面を表現できない。

先行研究 [8–12] に着想を得て、本研究では距離関数と低レベル方策を学習してトポロジカルマップを構築する。距離は教師あり回帰によって推定し、目標条件付き模倣学習 [13,14] によって局所的な制御方策を学習する。ただし、これらの先行研究は未知の環境でナビゲーションを学習する方法については扱っていない。そこで我々は、RECON に新しい環境を探索するための明示的な仕組みと、環境間で知識を転移するための仕組みを備えた。


強化学習(RL)における探索のための古典的な方法は、新規性に基づくボーナスを利用するものである。これは予測モデルから計算される [15–21]、情報利得に基づくもの [22,23]、または訪問回数・状態分布・既訪問状態からの距離に基づくもの [24–26] がある。しかし、これらの方法は「状態を訪れた後で」初めてその新規性を評価する。近年の研究 [27,28] では、環境の中で「探索に値する領域」を予測することで視覚探索を加速し、この問題を改善している。こうした手法はシミュレーション領域では最先端の結果を出している [29,30] が、100万サンプル以上という膨大なデータを必要とし、シミュレーション環境が存在しないオープンワールド環境では訓練が非現実的である。これに対し、本研究の手法は他環境での経験を利用して、20分程度で未知環境を探索可能にする。


タスク間で経験を再利用する問題は、メタ学習 [31–33]転移学習 [34–38] の文脈で研究されている。我々の手法は 情報ボトルネック [39] を利用しており、これは二重の役割を果たす。

  1. RL アルゴリズムの汎化能力を高める表現を提供する [40,41]。

  2. タスク関連の不確実性を測定する手段を提供し [42]、新しい環境における制御方策学習に有効な目標を提案する際に過去情報を活用できる。


目標指向行動の学習は、強化学習 [43–46] や模倣学習(IL)[13,14,47–50] を用いて広く研究されてきた。本研究は、既存の目標条件付き IL 手法を拡張し、未知環境において目標へ到達するというやや異なる問題を解く。新しい環境に置かれた際、本手法は訪れる目標を慎重に選びつつ探索を行う。この考え方は先行研究 [51–55] に着想を得ているが、異なる点として、本手法は異なる環境での経験を活用して現在の環境での学習を加速する。

3 問題設定とシステム概要(Problem Statement and System Overview)

本研究では、未知の環境における視覚ナビゲーションのための目標指向探索の問題を扱う。ロボットは、目標地点 GG で撮影された画像観測 ogo_g を与えられ、その場所へ移動することを課題とする。大まかに、この問題は次の3つの段階に分けられる。

  1. オフラインデータから学習する

  2. 新しい環境で地図を構築する

  3. 新しい環境で目標へナビゲーションする

ナビゲーションの課題は、時間でインデックス付けされた状態 stSs_t \in S と行動 atAa_t \in A を持つマルコフ決定過程(MDP)としてモデル化する。ロボットは空間的な位置情報(自己位置推定)や地図にアクセスできると仮定しない。またシステムのダイナミクスにもアクセスできない。

我々は、さまざまな環境におけるロボットの軌跡を記録した映像を用いて、一般的なナビゲーションスキルを学習し、感覚入力を圧縮した表現を構築する。これにより未知の環境での探索をガイドできるようにする。軌跡の生成方法については特に仮定せず、人間による遠隔操作、ロボットの自律探索、あるいは既存の方策によるものでもよい。また、それらの軌跡が「賢い行動」である必要もない。

ロボットは単一のオンボードカメラからの観測のみを利用し、状態推定は行わないため、本システムは部分観測の設定で動作する。制御出力は連続的な並進速度と角速度である。


3.1 移動ロボットプラットフォーム(Mobile Robot Platform)

RECON は Clearpath Jackal UGV プラットフォーム上に実装した(図1参照)。
標準のセンサー群は以下を含む。

  • 6自由度(DoF)の IMU

  • GPS(おおよそのグローバル位置推定用)

  • ホイールエンコーダ(局所オドメトリ推定用)

さらに以下を追加した。

  • 前方170°の視野を持つRGBカメラ

  • RPLIDAR 2D レーザースキャナ

機体内部には NVIDIA Jetson TX2 コンピュータを搭載している。GPSやレーザースキャナは環境によっては信頼性が低下する [56] ため、データ収集時の安全制御のみに使用した。本手法はオンボードRGBカメラからの画像のみを利用し、他のセンサーや正解の位置情報には依存しない。


3.2 自己教師ありデータ収集とラベリング(Self-Supervised Data Collection & Labeling)

本研究の目的は、多様な環境で収集されたデータを活用して、ロボットが未知環境でも新しい目標を発見しナビゲートできるようにすることである。
そのために我々は、時間相関型ランダムウォークによって多様な実環境で収集された自己教師あり軌跡のデータセットを用意した(図2 (d,e))。

このデータは18か月にわたって収集され、季節や照明の変化による見た目の大きな多様性を含んでいる。我々はこのデータセットを公開しており、詳細は付録Aで述べる。

4 RECON:目標指向探索のための手法

我々の目的は、視覚観測を利用して効率的に未知の環境を探索し、与えられた目標画像へ確実に到達できるロボットシステムを設計することである。RECON は、未知の環境探索を可能にする以下の2つの要素から構成される。

  1. 不確実性を考慮したコンテキスト条件付き目標表現

    • 新しいシーンに素早く適応できる潜在表現を学習する。

  2. トポロジカルメモリ

    • ノードを自分視点の観測、エッジをそれらの間の予測距離として表現し、フロンティア探索を通じて逐次的に構築する。

    • これにより、対象環境のコンパクトな記憶を保持できる。


4.1 目標の表現を学習する(Learning to Represent Goals)

提案手法は、タスクに無関係な要因に頑健な目標画像のコンパクトな表現を学習する。そのために、情報ボトルネックアーキテクチャ [42,57] の変種を利用する。

  • アイデア:現在の観測 oto_t に基づき、目標画像 ogo_g を潜在表現 ztgz_t^g に圧縮する。

  • この表現は、最適な行動 atga_t^g と目標までの時間的距離 dtgd_t^g を予測するのに十分である。

数式的には、相互情報量 I(;)I(\cdot;\cdot) を用いて次の目的関数を最適化する。

I((Atg,Dtg);Ztgot)βI(Ztg;Ogot)I((A_t^g, D_t^g); Z_t^g | o_t) - \beta I(Z_t^g; O_g | o_t)

これは、**「目標の行動・距離を予測できる表現を保持しつつ、余分な情報を圧縮する」**ことを意味する。

最適化は変分近似によって実行され、最終的には以下の目的関数(式2)を最大化する。

  • 1項目:エンコーダ pϕp_\phi とデコーダ qθq_\theta による行動・距離の予測性能

  • 2項目:潜在表現の圧縮度(KL正則化)

重要なのは、この表現が相対的な目標位置のみを符号化する点である。そのため、得られる潜在表現は「現在の状態から到達可能な目標」を意味する。もし通常のVAEのように画像を自己符号化した場合、学習した潜在空間は必ずしも「到達可能な目標」を表さず、探索に不適切になる。この違いは、新しい環境を探索する際に非常に重要である。


4.2 トポロジカルメモリによる目標指向探索(Goal-Directed Exploration with Topological Memory)

システムの第2要素は、新しい環境を探索しながら逐次的に構築されるトポロジカルメモリである。

  • このメモリは探索フロンティアを推定し、また任意の目標へナビゲーションするための地図として利用できる。

  • ロボットは、事前学習済みの潜在目標モデルを用いてサブゴールを提案し、データを収集しながらこのメモリを拡張する。

アルゴリズム1に示すように、手順は以下の通り:

  1. 潜在表現からサブゴールをサンプリング

  2. サブゴールに向けて一定ステップ行動を実行

  3. 得られたデータを用いてトポロジカルメモリを拡張

  4. さらにモデルをファインチューニング

これにより効率的な探索は**「どのサブゴールを選ぶか」**の問題に帰着する。

サブゴールは3つのケースで選択される:

  • (i) 到達可能な目標:信頼度が高ければ、そのまま目標を採用する。

  • (ii) フロンティアでの探索:まだ十分探索されていないノードにいる場合は、ランダムにサンプリング。

  • (iii) フロンティアへ移動:最も探索回数が少ない隣接ノードを選んで移動。

こうして構築されたトポロジカルグラフは、ノード=観測、エッジ=予測距離を保持し、探索・ナビゲーションの両方に利用できる。


4.3 システムのまとめ(System Summary)

RECON は以下の3段階で機能する。

A) 事前経験の利用

  • 目標条件付き距離・行動モデル(4.1節)を過去の環境データから学習。

  • 学習時の監督信号は、時間ステップを距離の代理として使用し、リラベリング手法を利用する。

B) 新しい環境での探索

  • 新しい環境では、フロンティア探索と潜在目標サンプリングを組み合わせて探索。

  • モデルは環境に合わせてファインチューニングされる(アルゴリズム1、4.2節)。

C) 探索済み環境でのナビゲーション

  • 環境を探索して得られたトポロジカルグラフ GG を用いて、目標画像へ到達するための経路計画を行う。

  • 経路はサブゴールの列として表現され、アルゴリズム2でまとめられている。

5 実験評価(Experimental Evaluation)

我々は次の4つの研究課題に答えるために実験を設計した。

Q1. 未知環境での視覚的目標探索において、RECON は既存手法と比較してどうか?
Q2. 探索後に、RECON はその経験を活用して効率的に目標へナビゲートできるか?
Q3. RECON が頑健に対応できる外乱や非定常要素の範囲はどこまでか?
Q4. 情報ボトルネックや非パラメトリックメモリといった RECON の各構成要素は性能にどれほど重要か?


5.1 未知環境における目標指向探索(Goal-Directed Exploration in Novel Environments)

我々は多様な屋外環境(図2参照、駐車場、住宅地、歩道、カフェテリアなど)で評価を行った。
自己教師ありナビゲーションモデルは、トレーニング環境で収集したオフラインデータセット(3.2節)で訓練し、未知環境におけるユーザー指定目標の探索能力を評価した。

比較対象とした手法は以下の5つである。

  1. PPO + RND

    • 強化学習で広く用いられる「ランダムネットワーク蒸留(RND)」[18] に基づく探索ボーナスを利用。PPO [59,60] と組み合わせた。

    • RL における「新規性ボーナス型探索」の代表例。

  2. InfoBot

    • 目標条件付き情報ボトルネックを用いるが、非パラメトリックメモリは使わない。

  3. Active Neural SLAM (ANS)

    • 室内ナビゲーションでよく使われる、メトリック地図に基づくカバレッジ最大化探索手法 [21]。

    • 本実験では、RECON の距離関数を用いて「目標が近いかどうか」を判定するように改変。

  4. Visual Navigation with Goals (ViNG) [11]

    • ランダムな行動列で探索し、訪問回数を考慮せずにトポロジカルグラフを構築。

  5. Episodic Curiosity (ECR) [20]

    • トポロジカルグラフのフロンティアでランダム行動列を実行して探索する手法。

    • 我々の手法のアブレーションとして実装(アルゴリズム1の行7でランダム行動に置換)。


実験では、8つの未知環境でロボットに**目標画像(RGB)**を与え、次を測定した。
(i) 目標発見に要する時間(Q1)、(ii) 一度発見した目標へ再度ナビゲートする時間(Q2)。

また、エージェントのダイナミクスを考慮する成功指標 SCT(Success weighted by Completion Time) [58] を評価指標として用いた。

結果(表1・図4参照):

  • RECON はすべてのベースラインを上回り、最大80m離れた目標を20分以内に発見。

  • RECON+ECR と ViNG は簡単な環境でのみ成功し、発見までに80%長くかかる。

  • RND、InfoBot、ANS は25mまでの目標は発見できるが、それ以上は失敗。

  • NTS [27] はどの環境でも目標探索に失敗(オフライン軌跡への過学習が原因)。

さらに、一度目標を発見した後の再ナビゲーション性能でも、RECON は他手法を大きく上回った。
トポロジカルグラフを利用して効率的に経路を再利用できるため、探索後の目標到達が高速。

図4では、ある環境での経路を示しており、RECON のみが最短経路を見つけ、ECR より30%速く到達できた。


5.2 非定常環境での探索(Exploring Non-Stationary Environments)

屋外環境は、車や人といった動的障害物や、季節・時間帯による見た目の変化によって非定常である。成功する探索には、こうした外乱に対して表現が不変であることが必要である(Q3)。

検証方法:

  • 新しい「ジャンクヤード」で探索し、青いダンプスターを目標とした。

  • その後、追加の探索なしで、障害物(ゴミ箱、コーン、車)や異なる天候(晴れ、曇り、夕暮れ)下で評価。

結果(図5参照):

  • RECON はいずれのケースでも成功。

  • 学習された表現は、外乱(照明変化など)が行動決定に不要であれば自動的に無視する。

  • これにより、トポロジカルグラフは外乱下でも有効に機能する。


5.3 RECON の分解評価(Dissecting RECON)

次に、RECON が採用する潜在サンプリング探索戦略の重要性を評価した(Q4)。

比較条件:
(a) ランダム行動列による探索 [20]
(b) 潜在サンプリングによる探索

結果(図6参照):

  • サンプリングによる探索は、ランダム行動に比べて 5倍速く環境をカバー

また、RECON のアブレーション実験も行った(表2参照):

  • Reactive:トポロジカルグラフを使用しない

  • Random Actions:フロンティアでランダム行動(ECRと同じ)

  • Vanilla Sampling:情報ボトルネックを使わず潜在表現を学習

結果:

  • 「Vanilla Sampling」は遠い目標を発見できず性能が大幅低下。

  • 「Reactive」は探索性能の低下は小さいが、過去の目標を再利用できない → メモリが不可欠。

  • したがって、圧縮表現(情報ボトルネック)と非パラメトリックメモリの両方が性能に必須である。

6 議論(Discussion)

本研究では、新しいオープンワールド環境において効率的に目標指向の方策を学習するシステムを提案した。
提案手法の核心は、学習済みの目標条件付き距離モデルを活用し、視覚的な目標を潜在変数で表現することで、迅速な目標指向探索を可能にした点にある。

ここで扱った問題設定 ― 「過去の経験を利用して新しい環境での学習を加速する」 ― は、現実のロボット応用に強く対応している。
というのも、展開時に新しい経験を収集することはコストが高い一方で、過去の環境で得られた経験は新しいタスクを解くための有益な指針となり得るからである。


今後の研究課題としては、以下の点を挙げる。

  • 理論的保証の提供

    • どのような状況で確率的方策や情報ボトルネックが効率的な探索を実現するかを理論的に明らかにする必要がある。

  • 情報価値の明示的考慮

    • 現行の手法は「情報の価値」を直接考慮していない。

    • これを組み込むことで、より優れた目標到達方策を生成できる可能性がある。