近年のVisual Place Recognition (VPR) モデル比較
Visual Place Recognition(VPR)は地理情報付き画像データベースから現在位置と同じ場所を検出するタスクであり、都市ナビゲーションやロボットの自己位置推定に不可欠であるarxiv.org。環境の照明や季節、視点や動く物体によって外観が変化するため、この分野では特徴抽出と特徴集約が継続的に進化している。以下では主なVPRモデルをカテゴリごとにまとめ、最近登場したモデルも含めて比較する。長い文は本文で説明し、表はキーワードや性能の概略を示す。
1. 従来のVLAD/プーリングベース手法
| モデル | 特徴/技術 | 長所 | コメント |
|---|---|---|---|
| NetVLAD (2016) | CNN特徴をVLAD (Vector of Locally Aggregated Descriptors) に学習的に割当てるプーリング層を導入し、弱教師ありランキング損失でエンドツーエンド学習di.ens.fr | 手工特徴より高性能でCNN特徴を上回る。街景データなど大規模データに強いdi.ens.fr | 高次元で汎化しにくく、後年の改良モデルの基盤となった |
| GeM pooling | Generalized‑mean pooling。各チャンネルの最大値と平均値の間を調整するプーリング。 | シンプルで軽量、分類ベースのCosPlace等のバックボーンとして採用 | 局所情報の選択が難しく、繰返し模様に弱い |
| SuperVLAD (NeurIPS 2024) | VLADの重心ベクトルを除去し、クラスタ数を少数にする。ゴーストクラスタを用いた低次元1‑Cluster VLAD記述子も提案papers.nips.cc | 少ないパラメータでNetVLADより高精度。トランスフォーマ・バックボーンとも相性が良いpapers.nips.cc | VLADに基づくため外観変化には限定的 |
| VLAD‑BuFF (ECCV 2024) | VLADで生じる繰返し構造のバースティネスを自己相似性に基づき減衰し、PCA前投影により次元を削減するecva.net。 | 低次元でも高リコール。バースティネス抑制で多数のデータセットにおけるSOTAを達成ecva.net | VLAD系であるため集約後の微調整が難しい |
| SALAD (2023/24) | 特徴とクラスタ間の関係を最適輸送問題として定式化し、“dustbin”クラスタで不要特徴を捨てるarxiv.org | DINOv2バックボーンと組み合わせて高速に学習でき、二段階手法を上回る性能arxiv.org | 対象となる基盤モデルに依存する |
| MixVPR (WACV 2023) | CNNバックボーンから抽出した特徴をカスケード的に混合し、NetVLADやTransVPRのような局所/ピラミッド集約を排除arxiv.org | 少ないパラメータで従来法より大きく性能向上。高速かつメモリ効率が高いarxiv.org | CNNベースで視野が狭く、大きな外観変化には限定的 |
| CricaVPR (2024) | Optimal Transport活用型SALADを改良した手法(文献内言及pmc.ncbi.nlm.nih.gov)。 | SALADより頑健で、環境変化に強い。 | 詳細情報は論文に依存 |
解説
初期のVPRはNetVLADやGeMのように局所特徴をVLADやプーリングで集約してグローバル記述子を生成する手法が主流であった。SuperVLADはクラスタ数を減らし汎化性を高め、VLAD‑BuFFは繰返しパターンのバースティネスを抑制して効率的に記述子を生成する。SALADは最適輸送理論を適用して不要な特徴を捨て、MixVPRは局所集約を行わず特徴の混合のみで高性能を達成した。
2. 分類学習ベース手法
| モデル | 特徴/技術 | 長所 | コメント |
|---|---|---|---|
| CosPlace (CVPR 2022) | ジオタグ座標を離散ラベルに変換し、CosFace損失による分類タスクとしてVPRを学習。ハードネガティブ採取を不要としGPUメモリを約80%削減openaccess.thecvf.com | 小さな埋め込み(8倍小さい)でもSOTA性能openaccess.thecvf.com | ラベル付けが必要で、未知環境への適応は苦手 |
| D‑CosPlace (Frontiers 2024) | CosPlaceのグループ分割と並列学習により収束を安定化し、より高精度を達成frontiersin.org | 訓練速度向上と性能向上 | 元手法同様にラベル設定が必要 |
| GDCPlace (Electronics 2024) | 地理距離一貫性ロスを導入し、簡単な負例を除外しながらサンプル間の相関を維持mdpi.com | 地理情報を考慮した埋め込みを生成し、正確なランキングを実現 | 研究段階で適用範囲が限られる |
解説
CosPlaceは対照学習ではなく分類タスクとして学習することでメモリ消費を大幅に削減した。D‑CosPlaceは並列学習により収束問題を解決し、GDCPlaceは地理情報を損失に組み込んで外れ値を除外するなど、分類型手法は計算効率に優れるがラベル準備が必須である。
3. ホリスティック混合法
MixVPRは上表で紹介済み。特徴をカスケード的に混ぜることで二段階の集約を不要にし、大きな性能向上と速度向上を同時に実現arxiv.org。局所パターンを明示的に抽出しないため、後述のトランスフォーマ系手法に繋がる。
4. トランスフォーマ/ViTベース手法
| モデル | 特徴/技術 | 長所 | コメント |
|---|---|---|---|
| TransVPR (CVPR 2022) | Vision Transformerの自己注意を用いて複数レベルの注意マップを融合し、グローバル記述子とキーパッチ記述子を生成arxiv.org | エンドツーエンド学習で高速。記憶・計算コストが低いarxiv.org | 局所位置推定が弱く、外観の大きな変化にやや脆弱 |
| PlaceFormer (arXiv 2024) | ViTパッチトークンを使用し、全てのパッチでグローバル記述子を計算後、注意機構で重要パッチを選択して幾何検証を実施。マルチスケールのパッチ照合で再ランキングを行うarxiv.org | SOTA精度でありながら計算時間とメモリ消費が小さいarxiv.org | 2段階処理のため実装が複雑 |
| Pair‑VPR (IEEE RA‑L 2025) | ViTでグローバル記述子とペア分類器を同時学習。Siamesed Masked Image Modelingによる場所認識前学習と対照的ペア分類で同一/異なる場所を判定arxiv.org | 5つのデータセットでSOTAを達成し、CNN系より外観変化に強いaibr.jp | 2つのネットワーク(エンコーダ+デコーダ)の共有重みが複雑 |
| LGCN (RA‑L 2025) | CNNとViTを組み合わせ、周波数–空間アダプタと動的融合で局所とグローバル特徴を補完arxiv.org | ViTのグローバル文脈とCNNの細部情報を統合し、多様なデータセットで高精度arxiv.org | モジュール設計が複雑でチューニングが必要 |
| PlaceFormerやTransVPRの改良版(Patch‑NetVLAD、PatchFormer等) | トランスフォーマのパッチを用いた2段階リランキング手法群。 | 高精度だが推論時間が長くなる傾向 | 例としてPlaceFormerの多段照合があるarxiv.org |
| ClusVPR (T‑AI 2024) | クラスタリングに基づく重み付きトランスフォーマ(CWTNet)で複製領域の冗長情報と小物体への注意不足を解決。OptLAD層でパラメータを削減し、ピラミッド自己教師あり学習で多スケール情報を学習arxiv.org | 少ないパラメータで複雑な環境に強く、複数データセットで高精度arxiv.org | 2023年発表だが2024年以降に注目される |
| EDTformer (T‑CSVT 2025) | バックボーンの特徴をキーとバリュー、学習可能パラメータをクエリとする効率的デコーダトランスフォーマで深い文脈情報を抽出arxiv.org。DINOv2をバックボーンにし、低ランク並列適応(LoPA)で中間特徴を効率的に改良arxiv.org | デコーダ部分で集約を行うため外部集約器が不要。単一段階でも二段階手法より高精度arxiv.org | 実装が新しく検証例がまだ少ない |
| Implicit Aggregation (ImAge) (NeurIPS 2025) | トランスフォーマのバックボーンに学習可能な集約トークンを挿入し、自己注意のみでパッチ特徴を暗黙的に集約arxiv.org。独自の挿入位置と初期化戦略で強力なグローバル記述子を生成。 | 集約器を使用せず記述子次元を削減し推論が高速。MSLSリーダーボードで1位を獲得arxiv.org | 集約トークンの最適挿入位置が課題 |
| SAGE (ICLR 2026提出) | オンラインで更新される地理的–視覚的グラフを用いた空間適応グラフ探索。ソフトプロービングにより局所パッチ重みを学習し、教師ありハードサンプルマイニングを行うopenreview.net | 凍結したDINOv2を用いたパラメータ効率の高い微調整で、複数データセットで98〜100%のRecall@1/10を達成openreview.net | 研究段階のため詳細実装が公開待ち |
| Focus on Local (FoL) (AAAI 2025) | 抽出–集約空間整合法(SAL)と前景・背景コントラスト強調損失 (CEL) で信頼できる局所領域を明示的にモデリングし、弱教師あり局所特徴学習と効率的なリランキングを実施arxiv.org | 局所領域を用いたリランキングで二段階手法を上回りつつ効率的arxiv.org | 局所対応の擬似ラベル生成に手間 |
| Revisiting Image Matching (CVPRW 2025) | 最新のVPRシステムではリランキングが不要になる場合が多く、画像マッチングを取得信頼度の検証に使うべきだと主張arxiv.org | インライア数による信頼度評価でリランキング適用の可否を判断し、パイプラインの適応性を向上arxiv.org | 高性能ベースラインが前提 |
解説
トランスフォーマ系手法は自己注意によるグローバル文脈把握を活かし、複数レベルの特徴を統合する。TransVPRやPlaceFormerはパッチ照合で精度を高める一方、Pair‑VPRやSAGEはペア分類やグラフ探索など新たな学習戦略を取り入れている。ImAgeとEDTformerは集約器を廃止あるいはデコーダで集約を行い、記述子の計算効率を改善した。Focus on Localは信頼できる局所領域を明示的に扱い、従来の二段階リランキングの計算コストを下げている。
5. パラメータ効率と基盤モデル適応
| モデル | 特徴/技術 | 長所 | コメント |
|---|---|---|---|
| EMVP (NeurIPS 2024) | DINOv2などの視覚基盤モデルを対象に、Centroid‑Free Probing (CFP) とDynamic Power Normalization (DPN) によるパラメータ効率の高い微調整 pipeline を提案。二次元特徴を使ってタスク固有情報を保持し、64.3%のパラメータ削減で高いRecall@1を達成proceedings.neurips.cc | MSLS Validation, Pitts250k-test, SPEDで93.9〜96.5%のRecall@1を記録proceedings.neurips.cc | 記述子抽出の工程が複雑 |
| EffoVPR (ICLR 2025) | DINOv2の自己注意層から得た特徴をリランカーとして利用し、ゼロショット設定でも有力。内部ViT層のプーリングのみでコンパクトな128次元記述子を生成openreview.net | ゼロショットで以前の手法を上回り、再ランキングを組み込むとさらに差が拡大openreview.net | ファインチューニング不要が利点だが、詳細は単一ステージ手法に限定 |
| D$^{2}$‑VPR (arXiv 2025) | DINOv2の高性能を維持しながらパラメータと計算を削減するため、Knowledge Distillation + Deformable Aggregation を導入。蒸留回復モジュールで教師と生徒モデルの特徴空間を整合し、トップダウン注意ベースの変形アグリゲータを設計arxiv.org | CricaVPR比でパラメータを約64.2%、MACsを約62.6%削減しつつ競合性能arxiv.org | 2025年11月公開で検証データが限られる |
| SAGE | 上記トランスフォーマのグラフ探索手法。Frozen DINOv2でパラメータ効率良く高精度を達成openreview.net | 4096次元記述子で高リコール。 | ICLR 2026提出のため今後検証が必要 |
解説
近年はDINOv2など自己教師あり視覚基盤モデルを利用したVPRが盛んである。しかし、基盤モデルは巨大で実装が難しいため、EMVPやEffoVPRは少ない学習パラメータで高性能を引き出す工夫を提案した。D$^{2}$‑VPRは知識蒸留と変形アグリゲーションにより大幅にモデルを軽量化する。
6. 空間周波数・マルチモーダル融合
| モデル | 特徴/技術 | 長所 | コメント |
|---|---|---|---|
| DDA‑VPR (BMVC 2025) | Dual‑Domain Aggregation。従来は空間ドメインのみで特徴を集約していたが、周波数ドメインの構造情報を統合することでより判別力の高いグローバル表現を生成bmva-archive.org.uk。マルチスケールコンテキスト注意モジュールと三重融合で空間と周波数特徴を結合bmva-archive.org.uk | 周波数ドメインは建物の窓のようなパターンを効率的に捉え、複数ベンチマークで優れた性能bmva-archive.org.uk | FFTや逆FFTなど複数ステップが必要で処理が複雑 |
| Unified Depth-Guided Feature Fusion (Sensors 2025) | RGB画像と深度情報を離散ウェーブレット変換 (DWTF) で融合し、Spiking Neuron Graph Matching (SNGM) により深度の幾何構造を利用して再ランキングを行うpmc.ncbi.nlm.nih.govpmc.ncbi.nlm.nih.gov | RGBのみのVPRより環境変化に強く、2段階の階層的リトリーバルで精度・効率のバランスを達成pmc.ncbi.nlm.nih.gov | 深度センサーや深度推定が必要。計算コストが増加 |
| Multimodal & Cross‑modal手法 | レーザー(LiDAR)・テキスト・音響など異なるモダリティを統合し、照明や天候変化に対処する研究が増加link.springer.com。 | 複数センサーから得た情報を融合することで堅牢性を向上。 | データ収集やセンサー統合が難しい |
解説
空間ドメインだけでなく周波数ドメインや深度情報を利用する研究が増え、DDA‑VPRはFFTを用いてグローバルパターンを捕捉し、Unified Depth-Guided方法はRGBと深度をウェーブレット変換で融合する。これらはVPRをマルチモーダルな視点から強化し、従来の視覚のみのアプローチでは難しい環境でも成功を示した。
7. 普遍的/非教師ありアプローチ
| モデル | 特徴/技術 | 長所 | コメント |
|---|---|---|---|
| AnyLoc (RA‑L 2023) | 自己教師ありモデル (DINOv2) の一般目的特徴をそのまま利用し、クラスタリングやラインパンニングなどの教師なし集約で記述子を生成。環境に依存しない普遍的VPRを目指すarxiv.org | 構造化/非構造化環境の両方で従来法より最大4倍の性能。データセット分割で類似環境を特定しさらに6%向上arxiv.org | トレーニングを行わないため微調整による改善は難しい |
| EigenPlaces (ICCV 2023) | ポイントオブインタレストの異なる視点をクラスタリングし、追加の監督なしで視点頑健性を埋め込み表現に組み込むarxiv.org | 60%少ないGPUメモリと50%小さい記述子でSOTA性能arxiv.org | 特定のデータセットに依存しやすい |
| BoQ / Bag of Queries (2024) | ローカル特徴を動的に集約するマルチブロックカスケード構造pmc.ncbi.nlm.nih.gov | コンパクトな記述子を生成し、既存手法のパフォーマンス改善に利用される | 処理パイプラインが複雑 |
解説
AnyLocやEigenPlacesは教師なしまたは弱教師ありで大規模データから一般化性能を引き出すことを目指す。これらは特定の学習データに依存しないため未知環境への適応が期待でき、ロボットの長期運用に有用である。
まとめと傾向
近年のVPR研究は、以下の方向性で進化している:
-
集約方法の革新 – 従来のVLADやGeMに代わり、最適輸送(SALAD)、バースティネス抑制(VLAD‑BuFF)、周波数ドメイン集約(DDA‑VPR)、暗黙的集約(ImAge)など多様な手法が提案されている。
-
トランスフォーマ活用 – ViTの自己注意を活用し、パッチ単位でグローバル文脈を捉える手法が主流となりつつある。Pair‑VPRやPlaceFormer、TransVPRなどは外観変化への堅牢性を向上させ、ImAgeやEDTformerは集約器の構造を簡素化した。
-
パラメータ効率と基盤モデルの適応 – EMVP、EffoVPR、D$^{2}$‑VPR、SAGEなどはDINOv2のような巨視的モデルを効果的に微調整し、モデルサイズや計算を大幅に削減しながらSOTA性能を達成している。
-
局所領域および再ランキングの再評価 – Focus on LocalやRevisiting Image Matchingなどは、局所領域の信頼性や再ランキングの有無を検討し、計算コスト削減と精度向上のバランスを図っている。
-
マルチモーダル・クロスモーダル融合 – 周波数ドメインや深度情報、LiDARなどを取り入れた手法が登場し、環境変動に対する頑健性を高めている。
-
非教師あり・普遍的学習 – AnyLocやEigenPlacesのように大規模データから汎用的な特徴を抽出し、特定ドメインに依存しないVPRを実現する動きがある。
これらのモデルを適切に選択するには、応用シナリオ(屋外/屋内、計算制約、必要なリコールレベル)や利用できるセンサー情報を考慮する必要がある。例えば、計算資源が限られるロボットではEMVPやD$^{2}$‑VPRのようなパラメータ効率の高い手法が適しており、天候・照明変動が大きい環境ではPlaceFormerやPair‑VPR、DDA‑VPRのような変化に強い手法が有利である。
視覚的場所認識(VPR)に関する論文調査
はじめに
視覚的場所認識(Visual Place Recognition; VPR)は、未知の観測画像や点群から対応する地理的位置を推定する技術であり、自己位置推定やSLAM(Simultaneous Localization and Mapping)、拡張現実、ナビゲーションなどに不可欠な役割を担うijcai.org。ロボットや自動運転車にとって、高速かつ頑健に位置を認識することは不可欠であり、その研究は近年大きく進展した。本報告では、VPR研究を伝統的手法から最新の深層学習・マルチモーダル手法まで体系的に整理し、関連するデータセットやサーベイ論文もまとめる。なお、本文中の引用番号は本文末尾の文献を参照する。
伝統的手法と改良型VLAD
-
BoW/Fisher/VLAD:初期のVPRではBag‑of‑Words(BoW)、Fisher Vector、Vector of Locally Aggregated Descriptors(VLAD)などの手法が用いられてきた。これらは手工芸的なローカル特徴を辞書ベースで統合するが、照明や視点の変化に弱いiris.polito.it。
-
NetVLAD(2016):従来のVLADをCNNに組み込み、ソフトアサインメントにより学習可能なプーリング層を実現した。Google Street ViewのTime Machineを用いた弱教師ありランキング学習により従来手法を大きく上回る性能を達成したdi.ens.fr。以後の多くのVPRモデルの基盤となっている。
-
SuperVLAD/VLAD‑BuFF/SALAD:NetVLADの高次元性やドメイン依存性を改善するため、少数クラスタやゴーストクラスタを用いたSuperVLADpapers.nips.cc、自己類似性に基づき繰り返し構造を割引するVLAD‑BuFFecva.net、最適輸送により特徴クラスタ割り当てを再定式化するSALADarxiv.orgなど、多数の改良が提案されている。
深層学習に基づくVPRモデル
CNNベースの手法
-
GeM/MAC/GAPプーリング:畳み込み特徴を平均(GAP)、最大(MAC)、幾何平均(GeM)で集約するシンプルな手法。GeMはスケール可変のパラメータにより性能向上を実現したiris.polito.it。
-
MixVPR:複数スケールのCNN特徴を階層的に混合することで局所・大域情報を一段階で学習する。NetVLADやCosPlaceよりパラメータ数が半分以下ながら高いrecall@1を達成するarxiv.org。
-
CosPlace / D‑CosPlace:座標を離散化して分類問題として学習する手法で、CosFace損失を用いる。メモリと埋め込みの削減に成功し、2段階学習の必要がないopenaccess.thecvf.com。後に並列学習版D‑CosPlaceが提案され、収束速度を改善したfrontiersin.org。
-
EigenPlaces:同一地点の複数視点をクラスタリングし、視点ロバストな特徴を学習する。従来のSOTAを凌ぎ、GPUメモリと埋め込みサイズを削減したarxiv.org。
Transformer/注意機構を用いた手法
-
TransVPR:ViTの自己注意を用いて複数層の注意マップを融合し、重要パッチを抽出して再ランキングを行う。単段階でSOTA性能を達成しつつ計算量と記憶量を抑えたarxiv.org。
-
PlaceFormer:画像をパッチトークンに分割し、注意機構でキー領域を選択後に多段階幾何検証を行う。ノイズや動的領域の影響を低減し、高精度かつ高速なVPRを実現arxiv.org。
-
Pair‑VPR:Vision Transformerに基づき、マスク付き画像モデリングによる場所特化の事前学習と「同一/異なる場所」分類を組み合わせる。大規模データセットで学習し、五つの評価セットでSOTAを達成したarxiv.org。
-
LGCN(2025):CNNとViTを動的に融合し、局所詳細と大域文脈を同時に捉えるハイブリッドモデル。周波数・空間アダプタを挿入して凍結したViTを適応させることで精度とロバスト性を向上させたarxiv.org。
パッチ/二段階アプローチ
-
Patch‑NetVLAD:NetVLADの局所パッチ特徴と大域特徴を併用し、再ランキングで精度を高める。動的オブジェクトや視点変化に強い。
-
PlaceFormer:前述の通り、キー領域選択とマルチスケール幾何検証により効率的な再ランキングを行うarxiv.org。
分類ベース/損失設計
-
GDCPlace:地理的距離が近い正例のみを保持する損失を提案し、embeddingと地理距離の整合性を向上mdpi.com。
マルチモーダル/クロスモーダル VPR
近年は単一モダリティ(画像のみ)に限らず、LiDARやテキストなど異種センサーを組み合わせたマルチモーダルVPRや、RGB画像からLiDAR地図へのクロスモーダルVPRが注目されている。主な研究を以下に整理する。
Visual–LiDAR融合型
| モデル | 要点と貢献 | 引用 |
|---|---|---|
| AdaFusion (2022) | 画像とLiDAR特徴を各々エンコードし、重み生成枝で環境に応じた重みを学習して両特徴を加重結合する。2D・3D両方の注意を階層的に融合する二段階融合により、環境ごとに重要なモダリティを動的に調整し、認識精度とロバスト性を改善したarxiv.org。 | arxiv.org |
| LCPR (2023) | 複数視点のRGB画像とLiDAR点群を入力に、Transformerベースの**多段階注意融合(VCTF)**でパノラマ特徴の対応関係を学習し、ヨー角に不変なグローバル記述子を生成。nuScenesデータセットで既存手法より高性能を示したarxiv.org。 | arxiv.org |
| UMF (Unifying local & global multimodal features, 2024) | ビジョンとLiDARのクロスアテンションによって大域特徴を生成し、上位候補に対して局所特徴マッチングによる再ランキングを行う。惑星類似環境やOxford RobotCarデータで既存手法を大幅に上回ったelib.dlr.de。 | elib.dlr.de |
| EINet (2024) | LiDARの距離画像をカメラ特徴抽出の疎深度教師として用い、逆にカメラ画像で点群を着色する明示的相互作用ネットワークを提案。新たにNUSC‑PRベンチマークを構築し、既存の重み付けや暗黙的融合手法を上回ったarxiv.org。 | arxiv.org |
| DistilVPR (2023/AAAI 2024) | クロスモーダル教師から単一モーダル生徒へ知識蒸留するフレームワーク。教師・生徒内外の関係を自己エージェントとクロスエージェントに分け、ユークリッド・球面・双曲空間など複数の多様な多様体上で関係を学習することで、多様な特徴関係を保持しつつ蒸留を実現し、従来の蒸留法を上回る性能を示したarxiv.org。 | arxiv.org |
| LIP‑Loc (2024) | 画像とLiDAR点群のバッチを用いた対照的バッチ損失を採用し、共通埋め込み空間を学習。KITTI‑360データセットで既存手法より22.4%高いRecall@1を達成し、トレーニング不要のゼロショット転送も可能であることを示したopenaccess.thecvf.com。 | openaccess.thecvf.com |
Aerial–Groundクロスビュー/その他
-
AGPlace (2025):地上データ(画像+LiDAR)をクエリとし、航空ビュー(衛星画像/地図)をデータベースとするクロスビューVPRにおいて、**多様体に基づくニューラル常微分方程式(ODE)**による融合記述子を提案。マルチドメインアライメント損失により航空・地上データを一致させ、KITTI360とnuScenesから新データセットを構築しSOTAを達成したopenaccess.thecvf.com。openaccess.thecvf.com。
-
Range & BEV融合 (2025):RGB画像をクエリに点群データベースを照合するクロスモーダルVPRで、レンジ画像と鳥瞰(BEV)画像を組み合わせて再ランキングを行い、距離平均に基づく新しい類似度ラベル監督を導入した。KITTIでSOTAを達成しているarxiv.org。
新しいデータセット・ベンチマーク
-
MMS‑VPR (2025):既存のVPRデータセットが車載カメラに偏り、単一モダリティであることを問題視し、歩行者向け商業地区(成都・太古里)で78,575枚の画像と2,512本の動画を収集。画像にはGPS・時間・テキストメタ情報が付与され、昼夜・多視点を網羅する。データセットは125のエッジと81ノードからなる空間グラフを形成し、マルチモーダル統合によりベースラインより大幅に性能向上したarxiv.org。
-
NUSC‑PR (2024):EINetに伴いnuScenesデータセットに基づく新ベンチマークが整備され、教師あり・自己教師ありの両訓練スキームと評価プロトコルを提供するarxiv.org。
-
その他、AGPlaceではKITTI360とnuScenesを拡張した航空–地上クロスビューデータセットを構築openaccess.thecvf.com、UMFでは惑星環境やOxford RobotCarなど多様なデータで評価されたelib.dlr.de。
総合的なサーベイ論文と課題
近年、VPRに関するサーベイ論文が多数発表され、研究領域全体の整理が進んでいる。
-
Place recognition meet multiple modalities(2025)では、CNNベース・Transformerベース・クロスモーダル手法を網羅的に整理し、データセット・評価指標・課題・将来展望をまとめたarxiv.org。
-
General Place Recognition Survey(2024/2025)はPRをロボティクスの中心技術と位置づけ、スケーラブルで効率的な手法の必要性やデータセット/ライブラリを概観したarxiv.org。
-
A Survey on Deep Visual Place Recognition(2021)は、手工芸特徴から深層学習への進化と典型的な検索パイプライン(エンコーディング・類似度検索・再ランキング)を紹介し、照明や視点変化への課題やデータセットの定義の違いによる比較困難を指摘しているiris.polito.itiris.polito.it。
-
Where Is Your Place, Visual Place Recognition?(IJCAI 2021)は、VPRを「視覚的重なり」に基づいて再定義し、エージェント・環境・タスクの三つのドライバーがVPRシステムを形作ると論じる。標準的な定義やベンチマークが未整備であること、評価指標や環境の多様性など数多くの課題を挙げているijcai.orgijcai.org。
今後の課題と展望
-
ドメインの一般化と頑健性:季節・天候・照明・視点変化など多様な環境に耐える表現が依然として課題である。Self‑supervised pretrainingやfoundation models(DINOv2、MinkLoc++等)の活用が進んでいるが、一般化性能をさらに高める必要がある。
-
パラメータ効率とリアルタイム性:ロボット搭載のリソース制約下では軽量で高速なモデルが求められる。EMVPやPEFT(Parameter-Efficient Fine-Tuning)などの研究が進み、学習パラメータを大幅に削減したモデルが提案されているproceedings.neurips.cc。
-
クロスモーダル/マルチモーダル統合:LiDAR・テキスト・動画など多様なセンサー融合は性能向上に寄与するが、センサーコストや欠損が問題となる。DistilVPRのような蒸留手法やEINetの明示的相互作用モデルは、少ないセンサーでもマルチモーダルの恩恵を得る方向性を示しているarxiv.orgarxiv.org。
-
データセットと評価基準:従来データセットは車載視点や西洋都市に偏りがちであり、非西洋地域・歩行者視点・夜間撮影など多様な環境を含むデータが求められる。MMS‑VPRarxiv.orgやNUSC‑PRのような新ベンチマークが登場しており、今後さらに充実が期待される。
おわりに
VPR研究は、伝統的なBoW/VLAD手法からCNNによる学習型手法、さらにVision Transformerやマルチモーダル統合へと大きく進化してきた。特に近年はLiDARや動画、テキストなど複数センサーを組み合わせたクロスモーダルVPRが活発であり、環境・機器の多様化に伴う課題への対応が進んでいる。また、大規模データセットやサーベイ論文が整備され、研究の基盤が形成されつつある。今後も一般化能力や効率性、マルチモーダル統合を追求する研究が進むと考えられる。





