【2010年_Paul Furgale ETH Zurich】Visual teach and repeat for long-range Rover autonomy

2025年12月23日2026年5月18日

著者：副業の宮殿｜製造業に携わる現役エンジニア。技術士試験対策書籍をKindleで複数出版。技術ブログ「副業の宮殿」にて製造業DX・AI活用の情報を発信中。

📌 論文の概要

この論文では，ステレオカメラを唯一のセンサとして用い，ローバーが人間の操縦なしに長距離を自律走行できるようにする「Visual Teach and Repeat (VT&R)」ナビゲーションシステムを提案しています。(ResearchGate)

🧠 コアアイデア

1. Teach and Repeat（教示と繰り返し）方式

Teachフェーズ（教示）:
人間の操作者がローバーを目的地まで操作するときに，ステレオカメラの情報から局所的な部分地図（submap）を連続的に構築します。
Repeatフェーズ（繰り返し）:
構築した部分地図を元に，ローバーが同じルートを完全自律で再走行します。
重要なのは，GPSや外部位置情報は使わず，視覚情報のみで位置推定と追従を行う点です。(ResearchGate)

📍 技術的特徴

✔ トポメトリック地図の利用

全体のルートを連続した局所サブマップで表現することにより，グローバルな正確な地図を生成する必要がなくなる。これにより計算負荷が削減され，長距離の再走行が可能になります。(ResearchGate)

✔ 3次元での局所位置推定

推定は3次元空間で行い，それを現在のサブマップのローカルな地面平面へ投影して追従制御に使用します。
これにより，不整地や勾配がある地形でも正確にルートを追従できるようになっています。(ResearchGate)

🚀 実際の実験と結果

都市部テストと北極圏アナログ環境テストを実施
合計32 km以上の距離を自律走行し，99.6%の区間を人間の介入なしに走破
自律走行距離は45 m〜3.2 kmの区間で評価され，高い信頼性が示されました。(ResearchGate)

📌 結論

この研究は，単一の視覚センサ（ステレオカメラ）のみで長距離自律走行を実現する手法としてVT&Rを確立した重要な論文です。
特に**GPSが使えない環境（例：惑星探査や地下環境）**でのローバー自律走行への応用が期待されています。(ResearchGate)

必要であれば，「Teach and Repeat」のアルゴリズムの詳細なステップや，関連する実装（VT&R3）についても説明できます。

日本語翻訳（全文）

本論文は、ステレオカメラのみを唯一のセンサとして用い、長距離にわたるローバーの自律走行を可能にするために構築されたシステムについて述べるものである。
学習フェーズにおいて、本システムはローバーがある経路に沿って操縦される間に、**重なり合うサブマップから構成される多様体マップ（manifold map）を構築する。その後、このマップは、ローバーが同じ経路を自律的に再走行する際の自己位置推定（ローカライゼーション）**に用いられる。

局所的なサブマップを用いることで、正確なグローバル再構成を必要とせずに、長距離の経路を忠実に再走行することが可能となる。
非平坦な地形上での経路追従は、まず三次元空間において自己位置推定を行い、その結果を現在のサブマップに対応付けられた局所的な地面平面へ射影することで処理され、これを用いて経路追従制御が行われる。

本システムは、都市環境およびカナダ北極圏高地に位置する惑星探査アナログ環境の両方で試験された。
その結果、合計32 km以上の距離が走行され、そのうち99.6%が自律走行であった。自律走行区間の長さは45 mから3.2 kmに及び、いずれも全地球測位システム（GPS）を使用せずに達成された。

単一のコマンドサイクルで長距離の自律行動を可能にする点から、Visual Teach and Repeat（視覚的教示・反復）方式は、GPSが利用できない火星サンプルリターンのような惑星探査ミッションに非常に適している。
© 2010 Wiley Periodicals, Inc.

1. はじめに（INTRODUCTION）

全地球測位システム（GPS）またはそれに相当する手段が存在しない環境では、ローバーによる長距離自律ナビゲーションは非常に困難な問題となる。
視覚、慣性、オドメトリなどのセンサを組み合わせた相対移動推定システムは、近年ますます高精度化してきている。しかし、どれほど精度が高くても、定期的なグローバル補正が行われない限り、位置推定誤差は走行距離とともに無限に増大する。

本論文では、屋外の非構造環境において移動ロボットを長距離にわたり自律運用するための完全なシステムを提案する。このシステムは、ステレオカメラのみを用いたセンシングと、Teach-and-Repeat（教示・反復）という運用戦略によって実現されている。

学習フェーズ（Teachパス）では、ローバーは目的とする経路上を操縦される（手動操作、または外部の自律システムによる制御）一方で、マッピングシステムが重なり合うサブマップから構成される多様体マップを構築する。
その後、自律走行フェーズ（Repeatパス）では、トポロジー的に接続されたサブマップ群が自己位置推定に利用される。

このトポロジー／メトリックのハイブリッド表現により、正確なグローバル地図再構成の必要性が軽減されると同時に、純粋な相対移動推定で問題となる誤差の無限増大を回避できる。
さらに、小規模なサブマップを連続的に用いることで、経路再走行に要する計算量が経路長に依存しなくなる。

類似のシステムは、屋内環境を走行するローバー、鉱山内、あるいは平坦な屋外環境においてこれまでにも提案されてきたが、本研究は、GPSを使用せず、高度に三次元的で非構造な屋外環境において、数キロメートル規模の完全自律走行を実証した初のシステムである。

本論文で提案するVisual Teach and Repeatシステムは、GPSが利用できない多くのローバー自律運用シナリオに適用可能である。
たとえば、火星サンプルリターン（図1）や、月面着陸地点と居住施設間の装備自動輸送などが想定される。そのため、本システムはカナダ北極圏デボン島の火星／月アナログサイトで試験された。

加えて、都市環境、草地、起伏の激しい三次元地形、さらには屋内から屋外への急激な照明変化といった条件下でも試験を実施している。
本論文では、32 km以上にわたる評価結果を報告し、その99.6%が自律走行で達成されたこと、そしてそのすべてがGPS非使用であったことを示す。

2. 関連研究（RELATED WORKS）

視覚に基づく地図構築に関する初期の論文において、Brooks（1985）はロボットマッピングに関するいくつかの基本原則を示した。

世界は本質的に三次元（3D）である。したがって、自己位置推定およびマッピングはこの事実を反映すべきである。
センシングにおける不確かさは、グローバルには整合しない地図を生じさせる。しかし、ロボットの自律性を実現するためには、地図は局所的に整合していれば十分である。

この問題に対処するため、Brooks は自由空間プリミティブの抽象グラフから構成される地図を提案した。これと概念的に類似した研究として、Howard、Sukhatme、Mataric（2006）は、ロボットの地図を高次元空間に埋め込まれた多様体（manifold）として表現するマルチエージェントシステムを設計・実装した。

多様体マッピングは、地図が世界をどのように表現するかという考え方そのものを変える。地図は、連結された空間の列を定義するという意味でトポロジカルになるが、地図中の空間と実世界との対応は多対一であってもよい。このトポロジーは、地図をサブマップのグラフとして分割することで表現される（Bosse et al., 2004; Eade & Drummond, 2008; Howard et al., 2006; Marshall et al., 2008）。あるいは、連続的な相対表現を用いる方法もある（Mei et al., 2009; Sibley et al., 2009）。

純粋にメトリックな地図では不整合を引き起こすような累積誤差は、多様体表現の中では消失する。その結果、ループ閉合の判断を遅らせることが可能となり（Howard et al., 2006）、また地図のサイズに関係なく一定時間でループ閉合を行うことも可能となる（Sibley et al., 2009）。
多様体マッピングは、地図がグローバルに整合していなければならないという制約を取り除くが、自己位置推定に有用であるためには、ロボット周辺の近傍が依然として局所的にユークリッド的に見える必要がある。

この「局所ユークリッド性」という制約が、同時自己位置推定・地図構築（SLAM）問題においてどのように現れるかを理解するため、基本的なSLAM方程式の構造を考察する。
SLAM問題は確率論的に次のように定式化される。すなわち、すべての過去の観測値 (z_{0:k})、制御入力 (u_{0:k})、および事前知識 (x_0) が与えられたときに、時刻 (k) における地図 (m) と車両状態 (v_k) の同時事後確率分布を推定する問題である（Durrant-Whyte & Bailey, 2006）：

[
p(x_k, m \mid z_{0:k}, u_{0:k}, x_0).
]
（1）

この問題に対する多くの解法では、現在の状態および地図推定値が与えられたときの観測ベクトル (z_k) の尤度
[
p(z_k \mid x_k, m)
]
を計算することが含まれる。この尤度は観測モデル (h(\cdot)) を用いて次のように表現される：

[
z_k = h(x_k, m) + v_k,
]
ここで (v_k) は観測ノイズである。

式（2）の性質が、この制約の形を決定する。多くのナビゲーション用センサは、ロボットの局所近傍における幾何構造に関する情報を取得する。そのため、地図が有用であるためには、その近傍がセンサ群に対してユークリッド空間として見える必要があり、もし逸脱がある場合でも、それはノイズ (v_k) の中に埋もれる程度でなければならない。
これが、Sibley et al.（2009）における適応的最適化手法や、Marshall et al.（2008）におけるサブマップサイズの選択の動機である。この制約が満たされていれば、たとえグローバルな再構成が不正確であっても、地図は自己位置推定にとって有用であり続ける。

Visual Teach-and-Repeat ナビゲーションシステムは、まさにこの概念に基づいて構築されており、トポロジー的に接続されたキーフレームと、経路上で同一の視点へロボットを導こうとするコントローラを組み合わせている。本論文におけるTeach-and-Repeatシステムのレビューは、カメラベースのシステムに焦点を当てる。

Marshall et al.（2008）および Newman et al.（2002）は、いずれも平面レーザ距離計を用いて、屋内通路におけるTeach-and-Repeatシステムを構築した。これらのシステムは、それぞれ地下鉱山やオフィスビルといった環境には非常に適している。しかし、屋外の非構造環境では、レーザセンサの有効範囲内に常に壁が存在する保証はない。

一方、カメラはシーンの地形構造に依存しない。有用な画像を得るために必要なのは、周囲光とシーンのテクスチャのみである。広視野角カメラや全方位カメラは、シーンの大域的な幾何構造や外観を捉えることができ、これらは一般に特定の視点に固有であり、また小規模なシーン変化に対して比較的頑健である。このように、カメラは過去に訪れた場所を認識するのに適している。

視覚的Teach-and-Repeatナビゲーションに関する初期研究では、この方式の重要な利点がすでに認識されていた。すなわち、ロボットが経路を再走行するために、正確なグローバル再構成は必要ないという点である（Baumgartner & Skaar, 1994; Brooks, 1985）。

Teach-and-Repeatを実装したシステムは、Bonin-Font、Ortiz、Oliver（2008）によって分類された地図ベース手法の連続体全体にわたって存在する。すなわち、

純粋にメトリックなアプローチ（Baumgartner & Skaar, 1994; Royer et al., 2007）
トポロジー／メトリックの混合アプローチ（Goedemé et al., 2007; Šegvić et al., 2009）
純粋にトポロジカルなアプローチ（経路上の位置のみを追跡）（Matsumoto et al., 1996; Zhang & Kleeman, 2009）

が存在する。

本論文で提案するシステムは、トポロジー／メトリック型に分類される。
自己位置推定は三次元空間で行われ、経路追従は局所的に平面へ射影された空間で行われ、そして経路管理はトポロジカルに行われる。

外観ベース（Appearance-based）システムは、入力画像の大きな領域を、Teachフェーズ中に取得されたプロトタイプ画像と比較する。これらのアルゴリズムは、Matsumoto ら（1996）の研究に端を発している。彼らは、通路内における自律ナビゲーションのためのシステムを開発した。経路学習フェーズでは、単眼カメラを用いて順序付けられた画像列が取得される。経路再走行時には、この画像列に沿った進捗が追跡される。新たに取得された各画像の中央部分から切り出したテンプレートは、経路上で最も近い2枚の画像と相関計算される。操舵角は相関ピークのオフセットから決定され、次の画像が前の画像よりも高い相関スコアを返したときに、現在の画像インデックスが更新される。

Jones、Andresen、Crowley（1997）はこの基本的枠組みを拡張し、2台目のカメラを導入することで経路上の位置をより正確に追跡した。Payá、Reinoso、Gil、Pedrero、Ballesta（2007）は、**主成分分析（PCA）**を用いることで処理の効率化を試みている。外観ベースの経路追従において最も印象的な実証は、Zhang と Kleeman（2009）によるものである。彼らは、全方位画像システムを用いて18 km以上の走行試験を報告している。経路上の位置推定および操舵角決定は Matsumoto ら（1996）と同様であるが、照明条件の変化に対して頑健性を持たせるために、大規模な画像前処理が施されている。
これらすべての外観ベース手法は、カメラ運動が平面的であるという仮定に依存している。そのため、屋外の非構造環境には適していない。

別のアルゴリズム群は、画像特徴を用いてマッピングおよびナビゲーションを行うが、問題の複雑性を下げるために、やはりカメラ運動の平面性に依存している。Ohno、Ohya、Yuta（1996）は、単眼カメラを用い、方位情報のみを用いた2次元自己位置推定によって、プロトタイプ画像間を移動する手法を提案した。Tang と Yuta（2001）は、全方位カメラを搭載したロボット向けに同様のシステムを開発している。彼らは色情報を用いて線特徴を記述し、線対応の方位に基づく平面内自己位置推定を行っている。

Bekris、Argyros、Kavraki（2006）および Argyros ら（2005）は、全方位画像間で点特徴を追跡するアルゴリズムを提案した。これらの手法では特徴点を三角測量する代わりに、観測された方位情報のみを用い、視点間を移動するための制御則を構築している。Jun、Miura、Shirai（2000）は、ステレオカメラから得られる距離情報を用いて障害物を検出し、それを平面に射影して、経路再走行時の自己位置推定に利用するアルゴリズムを示している。

Blanc、Mezouar、Martinet（2005）は、屋内の視覚経路を追従するシステムを開発した。このシステムではカメラが天井を向いているため、例示画像と現在画像間で追跡された特徴を用いて、3自由度のホモグラフィを解くことが可能であった。Courbon、Mezouar、Martinet（2008）は、この研究を全方位カメラへ拡張している。Chen と Birchfield（2006）は、前方を向いた単眼カメラで取得された画像に対して KLT点追跡器を用いる帰還（homing）システムを開発した。学習走行中に保存された点特徴と、再走行時の画像中の点特徴が対応付けられ、すべての対応点が単純なビジュアルサーボ制御に寄与する。

Goedemé、Tuytelaars、Van Gool（2005）は、照明変化および視点変化に対して不変となるよう、アルゴリズム全体を設計することで、線特徴抽出の手法を改良した（ただしカメラ運動は平面内に制限される）。また、SIFT（Scale-Invariant Feature Transform）（Lowe, 2004）によって検出された点特徴の利用へと移行している。マップ構築フェーズでは、複数視点間で特徴点が三角測量され、それらの3次元座標が地図に保存される。地図に対する三次元自己位置推定は、特徴点を観測し、カメラのエッセンシャル行列を推定することで行われる。点特徴から得られる局所的な3次元メトリック情報が導入されたことにより、このアルゴリズム、および Booij ら（2007）による類似手法は、非平面カメラ運動にも適用可能である。

屋外の非構造環境における Teach-and-Repeat システムの開発には、非平面なカメラ運動への対応が不可欠である。点特徴を用いた自己位置推定は、この平面性制約を取り除き、本システムが要求する三次元での自己位置推定を可能にする。この分野では、前方視単眼カメラを用いた研究もいくつか存在する。Royer ら（2007）の研究は、その一例である。マッピングフェーズでは、単眼画像列中で検出された点特徴が追跡され、経路全体のデータが大規模かつ多段階の推定処理にかけられ、特徴点位置とロボット姿勢が同時に推定される。得られた姿勢列は参照経路となり、特徴点は地図として用いられる。経路再走行時には、現在画像中の特徴点が地図中の特徴点と対応付けられ、ローバーの位置推定に利用される。

このようなグローバル再構成アプローチとは対照的に、Šegvić ら（2009）は、マッピングフェーズにおいて多数の局所的再構成を行うシステムを提案している。単眼画像列において観測された特徴点は、二視点幾何を用いて三角測量される。再走行時には、これらの特徴点を用いてローバーの三次元姿勢が推定される。興味深いことに、この三次元姿勢はトポロジカルな自己位置特定のみに使用され、操舵角は Chen と Birchfield（2006）と同様の単純なビジュアルサーボ制御則から導出される。これらのアルゴリズムは、本論文で提案する手法に最も近いものである。ただし、本研究では主要センサとしてステレオカメラを用いる。

ステレオカメラは、各ステレオ画像対の中にメトリックな構造情報を直接提供するため、再構成を大幅に簡略化できる。Konolige ら（2009）が提案したステレオナビゲーションシステムには、非常に単純な Teach-and-Repeat モードが組み込まれている。マッピングフェーズでは、視覚オドメトリ（VO）（Konolige ら, 2007）を用いてローバーの経路が推定される。経路再走行時には、現在の視点と学習時の最初の画像を対応付けることで、経路開始点におけるローバーの位置が推定される。その後は、地図に対する再ローカライゼーションを行うことなく経路が再走行される。この方法は、比較的短い経路（一般に200 m未満）では有効であったが、より長距離の経路では、グローバル整合性を維持するための位置補正が必要となる。

図3：検討対象となる座標系

本研究では、ステレオ視覚のみを用いて、非平面カメラ運動を伴う長距離経路を、屋外の非構造環境において再走行できることを示す。本研究は、視覚オドメトリ（VO）（Konolige ら, 2007; Maimone ら, 2006; Moravec, 1980; Nistér ら, 2004）に基づいている。具体的には、これらの研究に共通する視覚パイプラインを出発点とする。これは、ステレオ特徴の追跡、RANSACアルゴリズムによる外れ値追跡の除去、そして反復的手法によるローバー姿勢推定から構成される。
我々はこの基本パイプラインをマッピングおよび自己位置推定システムへと拡張し、単一のコマンドサイクルで数キロメートルに及ぶ自律走行経路を実行可能であることを実証する。

3. システム概要（SYSTEM OVERVIEW）

本節では、我々の 視覚的 Teach-and-Repeat システムについて詳細な説明を行う。本システムの主要な処理ブロックを図2に示す。Teach（教示）システムおよび Follow（追従）システムの両方は、キャリブレーション済みの平行ステレオ視覚に基づいているため、まず基礎事項および記法について説明する。次に、経路学習（route-learning）システムについて述べ、最後に、経路追従（route-following）アルゴリズムおよびその失敗時の対処について概説する。

本システムで用いられる座標系を図3に示す。
マップ座標系 (F_{\rightarrow m}) は、すべての三次元推定が行われる座標系として定義される。
カメラ座標系 (F_{\rightarrow c_k}) は、時刻 (k) におけるステレオ対の左カメラに固定された座標系として定義される。この時刻におけるカメラの姿勢は、座標系 (F_{\rightarrow c_k}) から (F_{\rightarrow m}) へベクトルを変換する回転行列 (C_{m,c_k}) によって表される。同様に、カメラの位置は、(F_{\rightarrow m}) の原点から (F_{\rightarrow c_k}) の原点へのベクトルとして定義され、( \rho^{m}_{c_k,m} ) と表記される。ここで、上付き添字は始点を、下付き添字はその表現座標系を示す。

同様の記法を用いて、カメラ座標系 (F_{\rightarrow c_k}) と車体座標系 (F_{\rightarrow v_k}) の間の回転 (C_{c_k,v_k}) および並進 ( \rho^{v_k}{c_k,v_k} ) を定義する。この変換は静的であると仮定しているが、時間変化する場合も考えられる。
最後に、投影座標系 (F{\rightarrow p}) は、経路追従コントローラに必要な三次元から二次元への射影を定義する座標系である。

3.1 ステレオ・パイプライン（Stereo Pipeline）

本研究および関連プロジェクトを可能にするために、我々は NVIDIA の Compute Unified Device Architecture（CUDA）ツールキットを用いて、GPU 上に完全実装された疎ステレオ・パイプラインを開発した。図4に示すように、このパイプラインは SURF（Speeded-Up Robust Features）アルゴリズム（Bay, Ess, Tuytelaars, & Van Gool, 2008）に基づいている。カメラは任意にロールできないローバーに搭載されているため、回転不変ではない upright ディスクリプタを使用している¹。

異なるシーンや照明条件においても一定の計算量と高い頑健性を確保するため、適応的な閾値が用いられている。時刻 (k) においてステレオ・パイプラインから得られる各キーポイント (j) は、画像座標 (y_{k,j}) と、64次元の記述ベクトル (d_{k,j}) を持つ。

ステレオ画像対で検出されたキーポイントを扱う際には、視差座標（Demirdjian & Darrell, 2002）を用いる。キーポイント (y_{k,j}) は次の成分から構成される：

[
y_{k,j} :=
\begin{bmatrix}
u \
v \
d
\end{bmatrix}.
]

本研究では左カメラを基準としているため、(u) および (v) はそれぞれ左画像における水平方向および垂直方向の画素座標を表し、(d) は視差、すなわち左右画像における水平方向画素位置の差である。

キャリブレーションされた平行ステレオカメラモデルは、以下のパラメータを持つ：
(c_u, c_v)：画像左上を原点としたときの水平方向および垂直方向の主点位置（画素単位）
(f_u, f_v)：水平方向および垂直方向の焦点距離（画素単位）
(b)：カメラのベースライン（すなわち2つの投影中心間の距離、メートル単位）

観測モデル (h(\cdot)) は、左カメラ座標系で表現された点を視差座標へ射影する 非線形関数である。左カメラ座標系で表現された三次元特徴点 (p^{c_k}_{j,c_k}) を

[
p^{c_k}_{j,c_k} =
\begin{bmatrix}
x \
y \
z
\end{bmatrix}
]

とすると、その点の画像上での観測 (y_{k,j}) は次式で与えられる：

[
y_{k,j}
= h(p^{c_k}_{j,c_k})
= \frac{1}{z}
\begin{bmatrix}
f_u & 0 & c_u & 0 \
0 & f_v & c_v & 0 \
0 & 0 & 0 & b f_u
\end{bmatrix}
\begin{bmatrix}
x \
y \
z \
1
\end{bmatrix}.
\tag{3}
]

キャリブレーション済みのステレオカメラを使用しているため、式（3）は可逆である。逆観測モデル (g(\cdot)) は、ステレオ画像対で観測された点を三角測量する：

[
p^{c_k}{j,c_k}
= g(y{k,j})
= \frac{b}{d}
\begin{bmatrix}
\frac{u – c_u}{f_u} \
\frac{f_v (v – c_v)}{f_u} \
1
\end{bmatrix}.
\tag{4}
]

¹ upright ディスクリプタを使用しているが、制御器がロボットを同一の視点へ戻す限り、軌跡は真に三次元（たとえばヘリコプタや水中ロボットの場合）であり得る。upright ディスクリプタは軌跡自体を制限するものではなく、経路再走行時におけるカメラ座標系のロール誤差が存在する場合の自己位置推定を妨げるだけである。

多様体マッピングとはどういうものですか？

**多様体マッピング（Manifold Mapping）**を一言でいうと、

「世界を“一枚の正しい地図”として無理に整合させず、
ロボットの周りでは正しく見える“局所地図”を、
トポロジー（つながり）として連結して扱う地図表現」

です。

以下、直感 → 数学的イメージ → SLAMとの違い → なぜ有効か → VT&Rとの関係の順で説明します。

1️⃣ 直感的な説明（いちばん大事）

❌ 従来の考え方（グローバル地図）

世界は 1つのユークリッド空間
地図は 全体で整合していなければならない
誤差が溜まると 全体が破綻

✅ 多様体マッピング

世界は
「局所的には平らで正しいが、全体としては歪んでもよい」
地図は
小さな局所地図（サブマップ）の集合
重要なのは
「今いる近所が正しく見えること」

📌 ロボットにとって必要なのは
「地球が正確に描けていること」ではなく
「今、正しく動けること」

2️⃣ 図で見るイメージ

グローバルSLAM（1枚の地図）

誤差が溜まる
ループ閉合で地図全体が歪む
計算が重い

多様体マッピング（サブマップの連結）

各サブマップは局所的に正しい
全体は多少ねじれてもOK
サブマップ同士はグラフ構造

3️⃣ 「多様体（manifold）」とは何か（数学的に）

難しく聞こえますが、本質はこれだけです：

局所的にはユークリッド空間に見えるが、
大域的にはそうとは限らない空間

例

地球 🌍
- 近くでは平面に見える
- 全体は球面（ユークリッドでない）
紙を丸めたもの
- 近くでは平ら
- 全体は歪んでいる

多様体マッピングでは、

各サブマップ = 局所ユークリッド空間
全体 = 多様体

として扱います。

4️⃣ なぜ SLAM では問題になるのか

SLAMの観測モデル

論文に出てきた式：

[
z_k = h(x_k, m) + v_k
]

ここでセンサ（カメラ・LiDAR）は：

局所的な幾何構造しか観測しない

👉 だから地図は

局所的にユークリッドであれば十分
全体が正しい必要はない

これが論文で言う：

「地図が自己位置推定に有用であるためには、
ロボット周辺が局所的にユークリッドに見える必要がある」

という意味です。

5️⃣ 多様体マッピングの核心的メリット

問題	従来SLAM	多様体マッピング
誤差蓄積	全体に伝播	局所に閉じる
ループ閉合	重い最適化	遅延 or 定数時間
計算量	地図サイズ依存	一定
長距離	破綻しやすい	非常に強い

6️⃣ VT&R（Teach & Repeat）との関係

あなたが読んでいる論文の本質はここです。

Teach フェーズ

ロボットが進みながら：
- 局所サブマップを次々生成
サブマップ同士は：
- 順番（トポロジー）だけを保持

Repeat フェーズ

今いる場所では：
- 対応するサブマップ1つだけを使う
過去・未来の地図は：
- 計算に参加しない

👉 だから：

経路が 50 m でも 5 km でも
計算量・安定性は同じ

7️⃣ 一文でまとめると

多様体マッピングとは、
「世界を正確に再現する」ことを諦め、
「ロボットが正しく行動できる局所世界」を
トポロジーとしてつなぐ地図表現である

8️⃣ SCOUTプロジェクト視点で言い換えると

SCOUT は
「世界を理解しようとしている」のではなく、
「同じ景色を見つけて、同じ動きを再現しようとしている」

これは
多様体マッピング思想そのものです。

次に進むなら、特におすすめなのは：

多様体マッピング vs VPR（画像検索型）の違い
なぜ“局所ユークリッド性”が壊れると制御が破綻するのか
サブマップサイズ設計（何mが最適か）
多様体マッピングとNeRF / 3D Gaussian Splattingの関係

どれを深掘りしますか？

ロボットが経路を再走行するために、正確なグローバル再構成は必要ないという点であるを詳しく教えてください。

とても核心的な一文です。
これは VT&R（Visual Teach and Repeat）とSLAMの思想差そのものを表しています。

以下、目的 → 何が「不要」なのか → なぜ成り立つのか → 具体例 → 失敗条件の順で詳しく説明します。

1️⃣ まず結論（何を言っているか）

ロボットが「同じ道をもう一度たどる」だけなら、
世界を正確な1枚の地図として再構成する必要はない

必要なのは：
- 「次にどちらへ進めばよいか」
- 「Teach時と同じ景色に戻れているか」
不要なのは：
- 地図全体の幾何的一貫性
- 絶対座標での正確な位置

2️⃣ 「正確なグローバル再構成」とは何か

グローバル再構成（Global Reconstruction）

世界を 1つのユークリッド座標系で表現
すべての点・姿勢が：
- 正しい距離
- 正しい角度
- 正しい位置関係
SLAMの典型目標

📌 これは 「地図を作る」ことが目的。

3️⃣ なぜそれが不要なのか（目的の違い）

SLAMの目的

未知環境を理解し、どこへでも行けるようにする

→ 正確な地図が必要

Teach & Repeat の目的

一度通った道を、もう一度なぞる

→ 地図は「手がかり」で十分

4️⃣ 直感的なたとえ（人間の場合）

あなたが夜の自宅でトイレへ行くとき

家の正確な間取り図を思い浮かべる？
- ❌ しない
やっていること：
- 「ここを曲がる」
- 「この壁の感触」
- 「この距離感」

👉 局所的な記憶の連鎖

5️⃣ ロボットではどうするか（VT&R）

Teachフェーズ

人が操作しながら：
- 景色（画像）
- そのときの移動量
- 視点の並び
  を保存

これは：

正確な地図 ❌
「視点の列」 ✅

Repeatフェーズ

ロボットは：

今見えている画像をカメラで取得
Teach時の「近い視点」と比較
視点が一致する方向へ制御

📌 必要なのは：

視点の対応関係
相対的な向き・ずれ

6️⃣ たとえ地図が歪んでいても問題ない理由

想像してみてください

Teach時：
- 一本道をぐるっと回って帰る
地図上では：
- 誤差で円が「歪んだ八の字」になる

でも：

Repeat時は：
- その歪んだ地図の上をなぞる

👉 現実の道は正しくたどれる

7️⃣ 数学的に言うと（重要）

SLAMはこれを最小化する

[
\sum |z_k – h(x_k, m)|
]

→ 全体の整合性が重要

VT&Rはこれを最小化する

[
\text{今の見え方} \approx \text{Teach時の見え方}
]

→ 局所的一致が重要

8️⃣ 何が「正確でなくてよい」のか

要素	必要？	理由
絶対位置	❌	相対的に進めばよい
全体距離	❌	誤差があっても追従可能
地図の直交性	❌	多様体でOK
局所整合性	✅	制御が成り立つため
視点の順序	✅	経路管理に必須

9️⃣ 逆に「必要になる」ケース

以下の場合は 正確なグローバル再構成が必要になります：

新しい道を自律探索したい
Teachしていない分岐に行きたい
他ロボットと地図共有したい
絶対座標（GPS・地図）と統合したい

👉 VT&Rは 用途特化型

🔟 SCOUTプロジェクト視点での要約

SCOUTがやっていることは
「世界を理解する」ことではなく、
「経験を再生する」こと

だから：

地図が歪んでいてもいい
正確でなくてもいい
同じ行動ができればいい

一文でまとめると

経路再走行とは「記憶の再生」であり、
正確な世界モデルの構築ではない

次に進むなら、とても相性がいいテーマは：

なぜVPRはさらに地図すら不要なのか
VT&Rが失敗する典型パターン
サブマップの大きさと視覚条件の関係
Teach時より環境が変わった場合の耐性

どれを深掘りしますか？

小規模なサブマップを連続的に用いることで、経路再走行に要する計算量が経路長に依存しなくなる。とはどういう意味ですか？

とても重要な一文なので、直感 → 技術的 → 数式・計算量の観点 → SCOUT/VT&Rとの対応の順で説明します。

結論を一言でいうと

長い経路でも、毎回「今いる近く」だけを計算すればよい設計になっているため、
10 mの経路でも10 kmの経路でも、1ステップあたりの計算量はほぼ同じになる
という意味です。

① 直感的な説明（地図を広げる vs メモ帳を見る）

❌ 悪い設計（経路長に依存する）

走るたびに
- スタートからゴールまでの全地図
- すべての過去画像・特徴点
  を参照して自己位置推定をする

👉 経路が長くなるほど
計算が重くなり、最終的にリアルタイムで動かない

✅ VT&Rの設計（論文の主張）

地図を
- 小さなサブマップ（例：数m〜数十m）
- が鎖状に接続された構造
  として持つ
今は
- 「現在対応するサブマップ1個（＋隣）」だけを見る

👉 経路が

100 m → サブマップ10個
10 km → サブマップ1000個

になっても、

「今やる計算」は常にサブマップ1個分

② 技術的な意味（論文の文脈）

論文のこの文は、次の対比を言っています。

❌ フルSLAM（グローバル地図）

全特徴点 N を使って自己位置推定
計算量：
[
O(N),; O(N^2)
]
経路が長くなるほど Nが増え続ける

✅ VT&R（局所サブマップ）

サブマップ1個あたりの特徴点数： 一定（k）
ローカライゼーション：
- 現在のサブマップのみで実行
計算量：
[
O(k) \quad (\text{kは定数})
]

経路長 L に依存しない

これが

“decouples the computational complexity of retracing a route from the path length”
の正確な意味です。

③ 「連続的に用いる」とはどういうことか

サブマップの使い方

[Submap 1]—[Submap 2]—[Submap 3]—…—[Submap N]

ローバーが進むにつれて
- Submap i → i+1 に切り替えるだけ
過去のサブマップは
- 保存されるが計算には参加しない

👉 まるで

「ページをめくる地図帳」

④ なぜこれが「長距離」で効くのか

長距離ローバーの致命的問題

計算量爆発
メモリ肥大
誤差の蓄積

VT&Rでは：

問題	解決方法
計算量増大	局所サブマップのみ使用
誤差蓄積	サブマップ切替でリセット
リアルタイム性	常に一定計算量

⑤ SCOUT / Teach & Repeat との対応（重要）

あなたがやっている SCOUT の Teach & Repeat は、まさにこの設計思想です。

Teach フェーズ

走行しながら
- 画像列を 区間ごとに保存
- 実質的に「サブマップ列」を作成

Repeat フェーズ

今いる位置に対応する
- Teach画像数枚だけと照合
昔の画像（何百m前）は見ない

👉 だから

数十mの実験も
数kmの巡回も

同じPC・同じ負荷で成立する

⑥ もしサブマップが無かったら？

設計	結果
全画像照合	数kmで破綻
全特徴点最適化	メモリ枯渇
常時グローバル整合	リアルタイム不可

👉 VT&Rは「長距離用に割り切った設計」

⑦ 一文で言い換えるなら

「VT&Rでは、ローバーは“長い道を覚えている”のではなく、
“今いる場所の近所だけを思い出しながら進む”ので、
道がどれだけ長くなっても計算は重くならない」

もし次に進むならおすすめは：

なぜ SLAM はこの構造を取りにくいのか
VPR（画像検索型）との違い
サブマップのサイズ設計指針（何mが良いか）
SCOUTでサブマップ的構造をどう実装するか

どれを深掘りしますか？

純粋にメトリックなアプローチ（Baumgartner & Skaar, 1994; Royer et al., 2007）トポロジー／メトリックの混合アプローチ（Goedemé et al., 2007; Šegvić et al., 2009）純粋にトポロジカルなアプローチ（経路上の位置のみを追跡）（Matsumoto et al., 1996; Zhang & Kleeman, 2009）について教えてください。SCOUTプロジェクトはどれに分類されますか

とても重要な整理ポイントです。
ここは Teach & Repeat / SLAM / VPR / SCOUT の立ち位置が一気に見えるところなので、
① 各アプローチの思想 → ② 何を地図として持つか → ③ 強み・弱み → ④ SCOUTの分類
の順で説明します。

全体像（まず結論）

分類	本質	代表例	SCOUTとの関係
純粋メトリック	正確な幾何地図	Visual SLAM	❌ 目的が違う
トポロジー＋メトリック	局所幾何＋経路構造	VT&R	✅ ここ
純粋トポロジカル	順番・進捗のみ	VPR	△ 近縁

👉 SCOUTプロジェクトは
「トポロジー／メトリック混合アプローチ」
に明確に分類されます。

① 純粋にメトリックなアプローチ

（Baumgartner & Skaar, 1994; Royer et al., 2007）

思想

世界を1つの正確な幾何空間として再構成する

すべてを：
- 距離
- 角度
- 座標
  で表現

地図の中身

3D点群
カメラ姿勢
1つのグローバル座標系

典型例

Visual SLAM
SfM（Structure from Motion）

強み

地図として「使える」
新規経路生成が可能
他ロボットと共有可能

弱み

計算量が経路長に依存
誤差が全体に伝播
長距離・屋外で破綻しやすい

📌 長距離再走行には過剰性能

② トポロジー／メトリック混合アプローチ

（Goedemé et al., 2007; Šegvić et al., 2009）

思想（重要）

局所的には正確、全体は多少歪んでもよい

地図 =
サブマップ（局所メトリック）＋つながり（トポロジー）

地図の中身

サブマップ：
- 局所3D
- 相対姿勢
トポロジー：
- サブマップの順序
- 遷移関係

強み

計算量が一定
誤差が局所に閉じる
長距離に非常に強い

弱み

完全な地図用途には不向き
経路外探索は弱い

📌 VT&Rのど真ん中の思想

③ 純粋にトポロジカルなアプローチ

（Matsumoto et al., 1996; Zhang & Kleeman, 2009）

思想

位置すら要らない。
「今は経路の何番目か」だけ分かればよい

地図の中身

キーフレーム列
画像ID
インデックス

何を推定するか

絶対位置 ❌
姿勢 ❌
進捗度（何％進んだか） ✅

強み

超軽量
環境変化に比較的強い
実装が簡単

弱み

制御が荒くなりがち
精密走行が苦手
停止・後退・分岐に弱い

📌 VPR（Visual Place Recognition）系

図で整理（直感）

④ SCOUTプロジェクトはどれか？

SCOUTで実際にやっていること

Teach時：
- 画像列取得
- 移動量ログ
- 局所的な幾何関係を保存
Repeat時：
- 現在画像 ↔ Teach画像の対応
- 相対姿勢誤差で制御
経路管理：
- 画像列インデックス（トポロジー）

これはどれ？

要素	該当
局所的な姿勢誤差制御	メトリック
サブマップ／フレーム遷移	トポロジー
グローバル地図	なし

👉 完全一致で
「トポロジー／メトリック混合アプローチ」

⑤ SCOUTを他分類に無理やり当てると？

❌ 純粋メトリック
→ 地図最適化も全体整合もしていない
❌ 純粋トポロジカル
→ 実際は姿勢誤差で制御している
✅ トポロジー／メトリック
→ 論文のVT&Rと同一思想

⑥ 一文でまとめると

SCOUTは
「地図を作るロボット」ではなく、
「経験した経路を正確に再生するロボット」であり、
そのための最適解が
トポロジー／メトリック混合アプローチである

次に深掘りすると強力なのは：

SCOUTを“純粋トポロジカル寄り”に倒すと何が起きるか
どこまでメトリックを入れると破綻し始めるか
VPR → VT&R → SLAM の進化的関係
論文的に「SCOUTの新規性」をどう表現できるか

どれを掘りますか？

Royer ら（2007）、Šegvić ら（2009）、Chen と Birchfield（2006）、Konolige ら（2009）、Konolige ら, 2007とSCOUTプロジェクトを比較して説明してください

以下では、各研究（Royer 2007／Šegvić 2009／Chen & Birchfield 2006／Konolige 2009／Konolige 2007）と、あなたの SCOUT プロジェクトを、
① 目的・思想 → ② センサと地図 → ③ 再走行時の制御 → ④ 強み・弱み → ⑤ SCOUTとの関係
という同一の軸で横断比較します。最後に**結論（SCOUTの立ち位置）**を明確にします。

1. Royer ら（2007）

① 目的・思想

グローバル再構成型の Teach & Repeat
「一度の走行で世界全体を再構成し、その地図に対して再走行」

② センサ・地図

前方視単眼カメラ
経路全体の画像列から
- 特徴点を追跡
- 全経路を一括最適化
- 3D特徴点＋ロボット姿勢のグローバル地図を構築

③ 再走行時

現在画像の特徴点を地図全体と対応付け
推定した絶対3D姿勢で経路追従

④ 強み・弱み

強み

地図として再利用可能
理論的に整った SLAM 的枠組み

弱み

計算量が経路長に依存
長距離では重く・壊れやすい

⑤ SCOUTとの関係

❌ SCOUTとは思想が逆
SCOUTはグローバル再構成を明確に避けている

2. Šegvić ら（2009）

① 目的・思想

局所再構成型 Teach & Repeat
「世界は正確でなくてよい。局所3Dが使えれば十分」

② センサ・地図

単眼カメラ
経路を細かく区切り：
- 二視点幾何で局所三角測量
- 多数の局所サブマップ

③ 再走行時

特徴点から3D姿勢を推定
ただし：
- 3D姿勢はトポロジカルな位置判断のみ
- 操舵は単純なビジュアルサーボ

④ 強み・弱み

強み

グローバル最適化不要
長距離に強い

弱み

単眼ゆえスケール・安定性に制約

⑤ SCOUTとの関係

✅ 最も近い思想
違いは：
- Šegvić：単眼＋局所再構成
- SCOUT：ステレオで最初からメトリック

3. Chen & Birchfield（2006）

① 目的・思想

純粋トポロジカル寄り
「見え方が一致すれば帰れる」

② センサ・地図

前方視単眼
KLT特徴点
地図というより：
- Teach時の点集合の記憶

③ 再走行時

Teach点とRepeat点をマッチ
全点を使ったビジュアルサーボ制御
位置・姿勢の明示的推定なし

④ 強み・弱み

強み

非常に軽量
実装が簡単

弱み

精密制御が難しい
長距離・3D地形に弱い

⑤ SCOUTとの関係

△ SCOUTの下位概念
SCOUTは：
- これに3D姿勢推定を加えたもの

4. Konolige ら（2009）

① 目的・思想

VOベースの簡易Teach & Repeat
「VOでたどった経路をそのまま再生」

② センサ・地図

ステレオカメラ
視覚オドメトリ（VO）
地図というより：
- VO軌跡の記録

③ 再走行時

最初だけ再ローカライズ
あとは：
- VO積分のみで再走行
- 地図照合なし

④ 強み・弱み

強み

シンプル
短距離では安定

弱み

誤差が蓄積
200 m超で破綻

⑤ SCOUTとの関係

❌ SCOUTはこの欠点を明確に克服
SCOUT：
- 常時ローカライズする

5. Konolige ら（2007）【VO】

① 目的・思想

視覚オドメトリの基盤技術
Teach & Repeat ではない

② センサ・地図

ステレオ
フレーム間の相対運動推定
地図なし

③ 再走行時

再走行概念なし（積分のみ）

④ 強み・弱み

強み

高精度な短距離移動

弱み

無限に誤差が増える

⑤ SCOUTとの関係

✅ SCOUTの基礎技術
ただし：
- SCOUTは VOを「地図化」して閉じている

6. SCOUT プロジェクト（あなたの位置）

思想（核心）

VOで作った局所的3Dを、
トポロジーとしてつなぎ、
常に「今の近所」だけで制御する

近さの順

Šegvić ら（2009） ← ほぼ同思想
Chen & Birchfield（2006）
Konolige ら（2009）
Royer ら（2007）

最終まとめ（1文）

SCOUTは、
Royer の「重すぎるグローバル再構成」と
Chen の「軽すぎる純トポロジカル」の中間で、
Šegvić の思想をステレオ視で完成させた
“長距離実用型 VT&R” に分類される

もし次に進むならおすすめは：

この比較をそのまま論文用 Related Work 図にする
「SCOUTの新規性」を1段落で言語化
なぜステレオが“決定的に効く”のかの整理

どれをやりますか？

この記事を書いた人

5億円ボタン

天才

【2010年_Paul Furgale ETH Zurich】Visual teach and repeat for long-range Rover autonomy

📌 論文の概要

🧠 コアアイデア

1. Teach and Repeat（教示と繰り返し）方式

📍 技術的特徴

✔ トポメトリック地図の利用

✔ 3次元での局所位置推定

🚀 実際の実験と結果

📌 結論

日本語翻訳（全文）

1. はじめに（INTRODUCTION）

2. 関連研究（RELATED WORKS）

3. システム概要（SYSTEM OVERVIEW）

3.1 ステレオ・パイプライン（Stereo Pipeline）

多様体マッピングとはどういうものですか？

1️⃣ 直感的な説明（いちばん大事）

❌ 従来の考え方（グローバル地図）

✅ 多様体マッピング

2️⃣ 図で見るイメージ

グローバルSLAM（1枚の地図）

多様体マッピング（サブマップの連結）

3️⃣ 「多様体（manifold）」とは何か（数学的に）

例

4️⃣ なぜ SLAM では問題になるのか

SLAMの観測モデル

5️⃣ 多様体マッピングの核心的メリット

6️⃣ VT&R（Teach & Repeat）との関係

Teach フェーズ

Repeat フェーズ

7️⃣ 一文でまとめると

8️⃣ SCOUTプロジェクト視点で言い換えると

ロボットが経路を再走行するために、正確なグローバル再構成は必要ないという点である を詳しく教えてください。

1️⃣ まず結論（何を言っているか）

2️⃣ 「正確なグローバル再構成」とは何か

グローバル再構成（Global Reconstruction）

3️⃣ なぜそれが不要なのか（目的の違い）

SLAMの目的

Teach & Repeat の目的

4️⃣ 直感的なたとえ（人間の場合）

あなたが夜の自宅でトイレへ行くとき

5️⃣ ロボットではどうするか（VT&R）

Teachフェーズ

Repeatフェーズ

6️⃣ たとえ地図が歪んでいても問題ない理由

想像してみてください

7️⃣ 数学的に言うと（重要）

SLAMはこれを最小化する

VT&Rはこれを最小化する

8️⃣ 何が「正確でなくてよい」のか

9️⃣ 逆に「必要になる」ケース

🔟 SCOUTプロジェクト視点での要約

一文でまとめると

小規模なサブマップを連続的に用いることで、経路再走行に要する計算量が経路長に依存しなくなる。 とはどういう意味ですか？

結論を一言でいうと

① 直感的な説明（地図を広げる vs メモ帳を見る）

❌ 悪い設計（経路長に依存する）

✅ VT&Rの設計（論文の主張）

② 技術的な意味（論文の文脈）

❌ フルSLAM（グローバル地図）

✅ VT&R（局所サブマップ）

③ 「連続的に用いる」とはどういうことか

サブマップの使い方

④ なぜこれが「長距離」で効くのか

長距離ローバーの致命的問題

⑤ SCOUT / Teach & Repeat との対応（重要）

Teach フェーズ

Repeat フェーズ

⑥ もしサブマップが無かったら？

⑦ 一文で言い換えるなら

全体像（まず結論）

① 純粋にメトリックなアプローチ

思想

地図の中身

典型例

強み

弱み

② トポロジー／メトリック混合アプローチ

思想（重要）

地図の中身

強み

ロボットが経路を再走行するために、正確なグローバル再構成は必要ないという点であるを詳しく教えてください。

小規模なサブマップを連続的に用いることで、経路再走行に要する計算量が経路長に依存しなくなる。とはどういう意味ですか？

コメントするコメントをキャンセル