人に追従する移動ロボットの学術文献調査と技術整理

エグゼクティブサマリ

人に追従する移動ロボット(human‑following / person‑following mobile robots)は、(i) 対象人物の検出・追跡(必要なら Re‑ID で特定人物追従)(ii) 相対目標(距離・方位・並走位置など)の生成(iii) 障害物回避を含む局所計画・制御を、リアルタイムに統合することで成立する。文献を俯瞰すると、性能を決めるボトルネックは「移動ロボット上の視点変化・遮蔽・近距離(被写体が画面からはみ出す)・照明変動・混雑」に対して、追跡が破綻しないこと(ID switch を抑える)と、破綻しても再捕捉・再同定(Re‑ID)できることにある。

センサ構成は大きく、2D LiDAR(脚/下腿クラスタ)中心RGB/RGB‑D(検出器+深度で距離)中心単眼(幾何仮定+状態推定で距離推定)中心、および**融合(RGB‑D+LiDAR、あるいは LiDAR+地図+視覚)**に分かれる。2D LiDAR 追跡は照明に強く計算も軽い一方、識別情報が乏しく混雑でのデータ関連付けに弱い。RGB/RGB‑D は識別(服装・外観・骨格)に強いが、遮蔽・照明・モーションブラーの影響を受けやすい。単眼はコスト面で魅力的だが、距離推定の不安定さを、地面仮定・人体寸法仮定・フィルタ(KF/UKF)で補う流れが主流である。

制御は、ロボットベースを微分駆動(unicycle 近似)とみなした上で、誤差(距離誤差・方位誤差)を PID/PD で整形する古典制御が実装容易で依然強い(ベンチマークでも有効)。一方で、追従は「目標が常に動く」ため、局所計画を含めて**(拡張)DWA のような “近未来評価(リシーディングホライゾン)”**で最適化する設計が、障害物回避・社会的配置(後方追従、斜め後方追従など)と相性がよい。さらに、仮想ばね(virtual spring)で人—ロボット相対運動のギャップを吸収する制御則や、予測を組み込む MPC 系の枠組みも、追従の滑らかさ・追従遅れ低減の観点で重要な系譜を形成している。

実装面では、ROS エコシステムの成熟により、2D LiDAR 脚追跡(例:leg_detector)、マルチモーダル人物追跡(SPENCER)、動的目標追従のナビゲーション(Nav2 Follow Dynamic Point / Following Server)など、研究成果を現場実装に落とす部品が揃ってきた。論文側でも、追跡器+追従コントローラを ROS パッケージとして公開する例があり、再現性を押し上げている。

目的・適用場面とシステム要件

人追従ロボットの目的は、単なる “追いかける” に留まらず、**運搬(荷物・工具)、案内(ガイド)、同行(介助・見守り)、遠隔存在(テレプレゼンス)、作業支援(ワーカ追従)**のように「人のタスクを中断させずに移動支援する」ことにある。たとえばテレプレゼンスでは、操作者が会話に集中できるよう追従の自律化が有効で、ユーザスタディでも自律追従が好まれるという報告がある。

設計要件は、用途により強弱が変わるが、移動ロボットとして共通に次が支配的になる。第一に、安全(衝突回避、対人距離の維持、停止挙動の確実性)。第二に、追従のロバスト性(遮蔽、混雑、外観変化、近距離での観測欠落、照明変動)。第三に、**自然さ(振動のない速度指令、過度な蛇行回避、社会的に受け入れられる位置取り)**である。追従距離を一定に保つだけでも、遅れやノイズで振動し得るため、デッドバンドや減速則を工夫する例がある。

Deep-Learning-Based Indoor Human Following of Mobile Robot Using Color Feature

Human tracking by a mobile robot using 3D features | Semantic Scholar

How four-legged robots and smart belts help people overcome everyday barriers | ETH Zurich

The human-robot interface, the smart chair mounted with the prototype... | Download Scientific Diagram

センサ構成と知覚パイプライン

センサ構成は「対象人物の位置(相対座標)をどの観測モデルで安定に出すか」と「識別(特定人物)をどの情報で担保するか」に直結する。

センサ別の主要パターン

視覚単独(単眼)は、コストと屋外適用性で魅力がある一方、距離推定が難しい。そのため、骨格検出(例:OpenPose 系)で人体のキー点を得て、**地面平面仮定+人体寸法(身長)推定+状態推定(UKF)**で “ロボット座標系の人物位置” を構成する枠組みが提案されている。距離が大きいほどピクセル量子化や足首位置の揺れが効くため、UKF で軌跡を平滑化し、一定距離内で実用精度に寄せる評価が示されている。

RGB‑D は深度が直接距離に効くため人物位置推定が組みやすい。テレプレゼンス追従では、深度画像でクリック選択した人物の頭部位置を推定し、レーザの脚追跡を起動する融合設計が採用されている。

LiDAR(特に 2D)は脚・下腿クラスタ追跡が古典で、照明に依存せず、動作が軽い。追跡精度と ID switch を評価指標(CLEAR MOT)で整理し、追従用ベンチマークを公開した研究もある。

融合は、混雑と遮蔽に強くなりやすい。RGB‑D+LiDAR を統合し、行動木(Behavior Tree)で「見失い→探索→再捕捉」を含む設計にする例が報告されている。

典型アーキテクチャと情報フロー

以下は、移動ロボットの人追従でよく現れるモジュール分割である(論文の構成例:ステレオ+地図+ランダム化計画の統合、RGB‑D+LiDAR+計画、単眼+追跡+Re‑ID+制御、など)。

mermaid
flowchart LR
  S[Sensor Layer\nMono/RGB-D/LiDAR/IMU-Odom] --> P[Perception\nDet/Pose/Segmentation]
  P --> T[Tracking & State Estimation\nKF/UKF + Data Association]
  T --> I[Target ID / Re-ID\nOnline learning / Metric]
  T --> G[Relative Goal Generation\nfollow distance/angle/side-by-side]
  I --> G
  G --> PL[Local Planning\nDWA/RRT/MPC/Nav stack]
  PL --> C[Low-level Control\nPID/PD/Virtual spring]
  C --> U[cmd_vel (v, ω)]
  U --> R[Mobile Base]
  R --> S

検出・追跡・Re‑IDの手法整理

検出器と観測表現

検出は、(a) LiDAR スキャンのクラスタリング+幾何特徴分類(脚らしさ)、(b) 画像の人物検出(バウンディングボックス、インスタンスセグメンテーション)、(c) 骨格(関節点)推定、に大別できる。LiDAR 追跡ではクラスタの幾何特徴と分類確信度を用い、フレーム間はフィルタとデータ関連付け(GNN 等)で安定化する設計が示されている。

視覚系では、人物の検出・特徴抽出・オンライン更新が鍵になる。屋内追従の一例では、SSD で人物検出・追跡を行い、HSV ヒストグラムの色特徴でターゲット同定、さらに LiDAR SLAM で障害物回避まで統合した状態機械(state machine)設計が報告されている。

“部分遮蔽” を正面から扱う研究では、バウンディングボックス(YOLOX)と関節点(AlphaPose)を同時に検出し、可視な関節集合 (P) を観測として扱う定式化が提示されている。観測 (D={B,P}) とし、(B) はバウンディングボックス中心・幅・高さ、(P) は頸部・腰・膝・足首などの可視関節点集合としてモデル化する。

追跡器とデータ関連付け

追跡器は、KF/UKF を中核に、複数人物ではデータ関連付けが支配的になる。2D LiDAR ベースの追跡では、スキャン点のクラスタを全て追跡し、占有グリッドと整合する位置にトラックを制約することで、混雑・障害物近傍の誤関連付けを抑える設計が示されている。追従用ベンチマークでは MOTA/MOTP を用いて、既存 ROS leg_detector に対して ID switch と精度の改善を報告している。

単眼ベースでは、画像平面からロボット座標系に人物位置を落とす段が難所となる。近距離では全身が写らないため “高さ仮定” だけでは破綻しやすく、幅情報(バウンディングボックス幅)を距離推定の prior に使う設計が提案されている。この枠組みでは、バウンディングボックス情報から “処理済み観測” (y_k) を構成し、予測状態 (o_i) と (y_j) の距離 (d(i,j)=|o_i-y_j|_2^2) で関連付けし、GNN(Global Nearest Neighbor)でマッチングする流れが明示されている。

Re‑ID(特定人物追従)とオンライン適応

特定人物追従では「一度見失っても、別人に乗り換えずに再捕捉する」ことが要求になる。単眼・移動ロボット文脈では、外観特徴にオンライン学習を組み合わせ、識別に効く部位(例:ズボン)へ重み付けを寄せる発想が整理されている。

FollowMe 系の統合フレームワークでは、人物検出(YOLACT++)→Re‑ID(深層特徴)→深度で 3D 位置化→Kalman Filter で平滑化→ナビゲーションで追従、という “知覚〜移動” を一貫させる。Re‑ID は、キャリブレーションで集めた特徴分布(平均・分散)に対し、特徴ベクトル (f) の正規化距離(成分ごとの標準化距離の形)でターゲット判定し、しきい値で弾く式が明示されている。

制御アルゴリズムと障害物回避・経路計画

追従モデルと誤差モデル

多くの移動ロボットは平面上で unicycle 近似(状態 (x,y,\theta)、入力 (v,\omega))され、追従誤差はロボット座標系の相対位置 ((x_h,y_h)) から「距離誤差」「方位誤差」に落とす。実装上は、(i)追従距離の一定化、(ii)横ずれ((y_h))のゼロ化、(iii)必要に応じて並走オフセット付与(側方追従)をする。単眼追従の枠組みでも、ロボット座標系で (x) を目標値に保ち、(y) を 0 に収束させる方針が明示され、制御は PID を採用している。

PID/PD 系の代表

距離制御を “デッドゾーン付き比例+人速度フィードフォワード” として設計し、角度を PD で制御する例がある。具体的には距離誤差 (\Delta d_t=d_t^* - d_t) に対し [ v_d= \begin{cases} 0 & d_t \in \text{death zone}\ -K_p\Delta d_t + K_s v_h & \text{otherwise} \end{cases} ] のように速度指令を構成し、角度誤差 (\Delta \theta_t=\theta_t^*-\theta_t) に対して [ \Delta v=\left(K_P^{ang}\Delta\theta_t + K_D^{ang}\dot{\Delta\theta}_t \right)\frac{D}{2} ] の形で左右輪速度差を作る((D):輪距)。この系は、ロボット速度制限や応答遅れに起因する振動を抑えるため、減速度を距離(および角度制御量)に応じて適応させる工夫まで含む。

2D LiDAR 追跡+追従制御でも、目標位置ベクトルと人物位置ベクトルの “角度差” と “長さ差(距離差)” をそれぞれ PID に入れ、角速度と並進速度を独立に整形する設計が明示されている。

仮想ばね(virtual spring)とインピーダンス的設計

仮想ばねモデルは「人とロボットが仮想的なばねで接続され、その弾性力(伸び・曲げ)に応じてロボット速度が決まる」という考え方で、歩行の急な速度・方向変化をローパス的に吸収する狙いが明確である。代表例では、座標変換後にばねの変形量を幾何量として近似し、伸び方向・曲げ方向の弾性力から移動体の並進・回転の運動方程式を導く(ばね係数、粘性摩擦、モーメント等を含む)。追従パターン(後方だけでなく並走など)を、ばねの取付角の設定で作れる点も示されている。

組込み指向の RGB‑D 追従でも、検出・追跡(CamShift 改良)と組み合わせて、仮想ばねモデル(安全領域・能動領域)を使い滑らかな追従に落とす設計が報告されている。

局所計画・DWA 拡張と “近未来最適化”

“追従” は目標(人物)が常に動くため、固定ゴール前提の計画では再計画頻度が過大になる。そのため、許容速度集合を前方シミュレーションして最良行動を選ぶ Dynamic Window Approach(DWA)系の考え方を、動的ゴール追従へ拡張する設計がある。テレプレゼンス追従の研究では、ロボット状態更新式(構成 (q) と行動 (a) による離散時間遷移)を用いて深さ制限付き木探索を行い、割引和の効用 [ U_{t_n}=\sum_{t=0}^{t_n}\beta^{t},u_t(\cdot) ] [ u_t = w_g g(q_t,p_t)+w_o(1-c_o)+w_a(1-c_a)+w_v(1-c_v) ] の形で、目標関数(人との相対位置の望ましさ)と障害物・加速度・曲率(角速度)等のコストを統合し、未来も見据えた追従を構成している。

ランダム化計画の系譜では、人物位置を局所目的地としつつ、静的障害物と動的障害物(他者)を入れた状態空間で、制限時間内にランダム木を展開し最良パスを選ぶ。例として、葉ノード評価を [ k^*=\arg\max_k{w\hat{B}(k)+(1-w)V(k)} ] (ポテンシャル増分と平均速度の重み付け)で行い、毎サイクル(500ms)で計画→実行する統合設計が報告されている。

MPC と予測の組込み

予測を組み込む設計は、「現在位置フィードバックだけでは追従遅れが積み上がる」という問題意識から出る。作業者の将来位置を予測し、MPC のリシーディングホライゾンで有限未来の評価関数(終端+ステージコスト)を最適化して軌道を生成する枠組みが提示されている。人の運動予測には GMR(Gaussian Mixture Regression)を用い、予測分布列を生成する手順が具体的に示されている。

評価指標・実験設定・ベンチマーク

評価は「追跡(tracking)評価」と「追従(following)評価」に分けると整理しやすい。

追跡評価では、MOTA/MOTP(CLEAR MOT)や ID switch、miss、FP を用いる例があり、MOTA は [ \mathrm{MOTA}=1-\frac{\sum_k(\mathrm{ID}_k+\mathrm{Miss}_k+\mathrm{FP}k)}{\sum_k g_k} ] MOTP は [ \mathrm{MOTP}=\frac{\sum{i,k} d_k^i}{\sum_k c_k} ] (マッチ距離平均)として定義される。追従タスクでは特に **ID switch(別人への乗り換え)**と **miss(見失い)**が致命的になりやすい、という議論も併記される。

追従評価では、平均追従距離、距離の時系列(見失い時の挙動含む)、衝突回数、再捕捉成功率、追従継続時間などが使われる。テレプレゼンス追従の例では、複数走行の平均追従距離(例:全7走行の平均 1.16m)や、見失い点での再初期化が時系列で示されている。

実験環境は、屋内(廊下・食堂・研究室)と屋外で難易度が大きく変わる。屋外は LiDAR が日射でノイズを受けやすい等の課題がベンチマーク収集の記述として明確化されている。

代表論文の比較表(10本以上)

下表は、移動ロボットの人追従を「知覚〜制御〜評価」まで含めて議論している代表的文献を中心に、指定の観点で整理したものである(※制御式は、論文で明示されている主要式を優先し、記述のみの場合は “構造式(入力と誤差の関係)” として要約)。

代表論文 目的・主貢献 使用センサ/手法要点(検出・追跡・Re‑ID) 制御則の数式要約(主要式) 実験条件と評価結果 長所・短所
Morioka 2004(IEEE TIE) 分散センサ環境(Intelligent Space)で、人に負担をかけず安定追従する制御則を提案(仮想ばね)。 環境側の複数カメラ(DIND)で人・ロボットを計測し、追従制御へ供給。 人とロボットを仮想ばねで接続し、伸び・曲げ弾性力から並進・回転ダイナミクスを導出(運動方程式を含む)。 実機+シミュレーションで追従有効性を確認、追従パターンの切替(後方/並走等)も示す。 長所:非ホロノミック制約を“吸収”する設計思想、追従の滑らかさ。短所:環境インフラ依存で一般移動体への移植が難しい。
Miura 2010(IAS) 特定人物追従を、視覚追跡+地図+オンラインランダム化計画で統合し、遮蔽や他者を含む環境で実証。 ステレオで人物検出・追跡、LRF で地図生成、オンラインの randomized kinodynamic planning。 葉ノード選択 (k^*=\arg\max{w\hat{B}(k)+(1-w)V(k)})(ポテンシャル増分と平均速度)。500ms周期で計画→実行。 126フレームで最大3人、追跡成功率96%。大学食堂で10回以上実験し、平均ロボット速度≈0.3m/sで追従成功。 長所:地図・他者を含む“統合”が明確。短所:計画の確率性、実装複雑(RTミドルウェア前提)。
Cai & Matsumaru 2014(JRM/J‑Stage) 2D LR センサで人検出・追従し、速度制限下でも安定追従する制御(death zone+減速適応)と障害物回避を提示。 LRセンサで人(下肢)追跡+Kalman 状態空間(人位置・速度・加速度)。障害物検出用 LR も仮定。 速度:(\Delta d_t=d_t^*-d_t)、(v_d=0)(death zone)/ (-K_p\Delta d_t+K_s v_h)(外)。角度:PD で左右輪差 (\Delta v = (K_P^{ang}\Delta\theta +K_D^{ang}\dot{\Delta\theta})D/2)。 追従サンプリング500ms、最大速度0.5m/s等の設定。盲廊下や遮蔽・動的障害物(通行人)で軌跡評価。最大距離4m超でも前進継続など挙動を記述。 長所:速度制限・遅れを明示的に扱う制御設計。短所:設定依存(aim point 等)、歩行者密集での識別は弱い。
Cosgun 2013(ICRA) テレプレゼンスで“会話しながら追従”を成立させるため、DWA拡張の近未来効用最大化計画+ユーザスタディを実施。 Kinect で人物選択・頭部推定→LRF で脚追跡(Mahalanobis 距離)→将来も考慮した局所計画。 離散遷移 (q_{t+\Delta t}=f(q_t,a)) と、割引効用 (U=\sum \beta^t u_t)、(u_t=w_g g+w_o(1-c_o)+w_a(1-c_a)+w_v(1-c_v))。 7走行で平均追従距離=1.16m。10名ユーザスタディで全員が自律追従を選好、統計差も報告。 長所:社会的配置を goal function で設計可能、評価が多面的。短所:センサ融合・UI前提があり一般化に注意。
Leigh & Pineau 2015(ICRA) 2D LiDAR で多人追跡を強化し、追従用ベンチマーク(ROS有効)と ROSパッケージ公開を含めて体系化。 クラスタ特徴+RF分類、KF+GNN関連付け、占有グリッド整合で追跡を安定化。追従は OFC(PID×2)。 角速度:角度誤差の PID、速度:距離誤差の PID(Z‑N tuning、デッドバンド)。MOTA/MOTP定義も明示。 データ合計40分。追従用屋内21m24s・屋外12m00s等、平均追従距離(例:1.33±0.57m)と追跡指標(ID switch 等)を提示。 長所:評価指標・データ・実装公開で再現性が高い。短所:LiDAR単体は Re‑ID が弱く“特定人物”には追加設計が必要。
Koide 2020(RAS preprint) 単眼のみで人物追跡+識別を成立させ、安価センサで person following を可能にする枠組みを提案。 OpenPose で骨格検出→地面平面+身長推定で robot space 追跡→UKF+GNN関連付け→CCF+オンライン boosting で Re‑ID。 追跡側は UKF により足首点の揺れ・量子化を抑制(式は本文の状態推定枠組みに依存)。追従制御は “推定位置に基づき距離維持” の構造を前提。 UKF有無で軌跡誤差を距離別に比較し、2m程度が最小検出距離、20m超で過大推定傾向などの実験的性質を報告。 長所:単眼+オンライン Re‑ID の実装指針が明確。短所:距離推定の仮定・キャリブレーションに依存、計算資源制約が課題。
Kim 2018(arXiv) “見失い→能動探索→再捕捉” を含むアーキテクチャ(Active Target Search)を提案し、動的・混雑条件で堅牢化。 RGB‑D+レーザ融合、Bayesian filtering、回帰で軌道予測、行動木で統合。実機(Toyota HSR)で実験。 能動探索は「視点(vantage)候補へ移動」+「再同定」の行動選択として設計(コスト関数の定式化必要性も議論)。 実機でリアルタイム追従・探索の成立を示す(ページ/図構成で統合を説明)。 長所:追従を“探索込み”で捉え直す。短所:設計自由度が高く、再現には多モジュール統合が必要。
Algabri 2020(Sensors) 屋内で遮蔽・照明変動に耐える追従を、深層検出+色特徴+状態機械で統合し、LiDAR SLAMで障害物回避まで含める。 SSDで検出・追跡、HSVヒストグラムでターゲット同定、LiDAR SLAMで安全ナビ。 “state-machine control” により追従状態遷移を設計(見失い→探索など)。制御は速度指令生成として実装。 11実験(総フレーム約15,562、総距離287.9m、総時間673.6s)で、10回は回復成功、1回は回復失敗(角で消失等)。照明変動で誤追従の限界も記述。 長所:実環境に近いプロトコルで反復評価。短所:色特徴は照明に弱く、誤同定リスクを残す。
Do 2015(MVA) 組込みデバイス前提で、RGB‑D+CamShift改良(HDOI)で追跡精度を上げ、仮想ばねで滑らかな追従を実装。 RGB‑D、HDOI+CamShift。追従は safe/active region を持つ virtual spring model。 仮想ばねモデル(領域設計)で速度を生成(実装容易性を重視)。 CamShift単体より精度改善・実装容易性を主張(短報形式)。 長所:軽量実装の方向性。短所:評価規模は限定的、混雑・遮蔽の体系評価は今後。
Ye 2022(arXiv) 単眼追従で問題となる “近距離で全身が写らない” を、幅ベース距離推定+頑健 Re‑ID(オンライン学習)で解決。 Bounding box 幾何から processed measurement (y_k) を構成し、GNN+KFで多人追跡。Re‑IDはグローバル特徴+ridge regression(短期+長期サンプル)。 追従制御:ロボット座標系で (x) を所望値に維持し (y\to 0) を PID で実現、という構造を明示。 公開データセットで比較し、幅ベース追跡の有効性(近距離での失敗回避)を例示。 長所:近距離問題を設計レベルで解く。短所:事前キャリブレーション・検出器品質に依存。
Ye 2023(ICRA採択) 単眼追従の“部分遮蔽”を主題化し、可視関節から人物位置を推定する枠組みを提案。 YOLOXでBBOX、AlphaPoseで関節。観測 (D={B,P})、(P) を可視関節集合として扱う。 複数関節から “人物位置推定への寄与” を統合する設計(関節高さ prior を構築し、追従は robot frame の推定位置に基づく)。 公開データセットで既存手法より “部分遮蔽下でも位置推定が安定” を報告し、実機でもデモ。 長所:遮蔽を前提化して定式化。短所:関節推定器の失敗(遮蔽+動き)に依存、計算量も課題。
Rollo 2023(FollowMe / ARSO) 視覚 Re‑ID+ジェスチャ+深度位置化+ROSナビ統合で、作業環境の robust person following をフレームワークとして提示。 YOLACT++(instance segmentation)+Re‑ID(深層特徴、距離閾値)+深度で3D重心→KF平滑化→地図座標へ変換。 Re‑ID距離:特徴分布(平均・分散)への標準化距離(式(1))。位置:カメラ座標→map座標変換 (p^m=T^m_c p^c)(式(2))。追従は nav stack が目標を追う。 Re‑ID/ジェスチャは定量評価、全体フレームワークは動的障害物を含む実験で定性的検証(COCO事前学習も記述)。 長所:実装志向で“統合”が明確、デバイス不要の個人化。短所:RGB‑D前提になりやすく屋外適用は工夫が必要。
日本語:レーザレンジセンサを用いた人追従システムの開発(Life Support) LRセンサで下腿検出・追跡し、障害物回避機能も含めた追従システムを試作。 下腿検出(障害物形状が類似すると誤認識)、障害物回避あり。 制御式の詳細は短報では限定的(追従機能の成立を主眼)。 約26mコース、被験者3名・計10回で7回成功。失敗は障害物の下腿誤認識が主因。 長所:国内短報として“成功率”を明示。短所:識別・混雑耐性の拡張が課題。

実装例と推奨構成

ROS 実装の現実解

研究〜実装の移行では、**追跡(people tracking)ナビ(障害物回避+動的追従)**の接続が要点になる。

2D LiDAR 脚追跡では、ROS の leg_detector が LaserScan から脚らしさを学習器で判定して追跡するパッケージとして公開されている。

マルチモーダル人物追跡では、SPENCER の spencer_people_tracking が “モバイルロボット向けの多人・グループ検出追跡フレームワーク” として GitHub で提供されている。

追従ナビ側は、Nav2(ROS2 の Navigation)が、動的目标(dynamic point)を追う行動木(Follow Dynamic Point)や、Following Server(Dynamic Object Following)を文書化しており、「(外部で推定した)人の pose をトピックに出す」→「ナビが追従」の分離がしやすい。

加えて、単眼での特定人物追従(検出・追跡・識別)を ROS パッケージとして提供する実装もあり、研究プロトタイプの再利用性を高めている。

センサ別・制御別の比較表

**センサ別(視覚単独/LiDAR単独/融合)**の実務的比較:

区分 代表例(文献) 強み 弱み 推奨シーン
視覚単独(単眼) Koide 2020、Ye 2022/2023  低コスト・屋外適用余地、Re‑ID に有利 距離推定が難しい/遮蔽で破綻、計算負荷 価格制約が強いサービス、個人化重視
RGB‑D中心 Cosgun 2013、FollowMe 2023、Do 2015  深度で距離推定が安定、セグメンテーションで背景除去 屋外(赤外深度)制約、センサ重量・消費電力 屋内・作業場・テレプレゼンス
2D LiDAR中心 Cai 2014、Leigh 2015、日本語LR短報  照明に強い、軽量・高速、追跡ベンチが整う “誰か”は追えるが“誰を”が弱い(Re‑ID不利) 屋内AMR、工場・病院、低計算環境
融合(LiDAR+視覚等) Kim 2018、Cosgun 2013、FollowMe 2023  混雑・遮蔽に強い、再捕捉戦略を組みやすい 統合コスト・キャリブレーション負担 混雑空間、実運用(誤追従が致命的)

制御/計画別の比較(“追従”に効く観点):

区分 代表例(文献) 何が得意か 注意点
PID/PD(幾何誤差) Cai 2014、Leigh 2015、Ye 2022  実装容易、チューニングで安定追従しやすい ノイズで振動→デッドバンド等が必要
仮想ばね(相対運動吸収) Morioka 2004、Do 2015  滑らかさ、急変の吸収、並走などの形状制御 パラメータ設計が難しい/安全保証の形式化が課題
DWA拡張・効用最大化(近未来) Cosgun 2013  障害物回避と相対配置(社会性)を同時に最適化 重み設計が支配的、計算量管理が必要
ランダム化 kinodynamic planning Miura 2010  動的障害物+地図で安全・効率を両立 乱択性、最悪時の不安定挙動に注意
MPC(予測追従) Khawaja 2021  予測で遅れを抑え、終端・ステージコストで目的を明確化 モデル化/制約設定が重い、計算資源が必要

実装に移す際の推奨構成(センサ/アルゴリズム/ROS/評価プロトコル)

  • センサ構成(推奨)

    • 屋内・安全最優先:2D LiDAR(脚追跡)+(可能なら)RGB/RGB‑D(Re‑ID補助)を第一候補。2D LiDAR の追跡評価と追従統合は benchmark・指標が揃っている。
    • 低コスト・単眼縛り:単眼+(i)幅/骨格を使った距離推定 prior、(ii)KF/UKF、(iii)オンライン Re‑ID(外観特徴+オンライン学習)を “最初からセット” で入れる。
    • 混雑・遮蔽が前提:関節点を観測として利用し、部分遮蔽でも位置推定が崩れにくい設計(joint set (P) を明示)+再捕捉戦略(能動探索や state machine)を組み込む。
  • アルゴリズム(推奨)

    • 追跡:KF/UKF+GNN などの関連付け(多人・混雑を意識)。LiDAR 系は ID switch を主要 KPI に置く。
    • Re‑ID:オンライン学習(外観特徴の適応)+「誤 Re‑ID に対して追従を即切替しない」ガード(しきい値・連続フレーム条件)を入れる。
    • 制御:まず PID/PD(距離+方位)+デッドバンド/速度制限対応で確実に動かし、その後、必要に応じて DWA拡張や MPC に上げる(要件が “社会的配置” や “予測追従” を含むとき)。
  • ROS パッケージ(推奨)

    • LiDAR脚追跡:leg_detector(ROS)を起点に、必要なら SPENCER へ(多人・マルチモーダル)。
    • ナビ:Nav2 の Follow Dynamic Point / Following Server で「人の推定位置(Pose)」を追従目標として扱う分離を推奨。
    • 単眼 Re‑ID 追従:公開実装(monocular_person_following)を参照し、センサ・計算資源制約下の設計パターンを流用。
  • 評価プロトコル(最低限)

    • 追跡:MOTA/MOTP、ID switch、miss を報告(特定人物では ID switch を最重視)。
    • 追従:平均追従距離、距離時系列(見失い→再捕捉を含む)、衝突回数、追従成功率(複数試行)を報告。
    • 条件:屋内/屋外、近距離(被写体はみ出し)、遮蔽(部分遮蔽・完全遮蔽)、照明変動、混雑(他者横切り)を最低1つずつ含める。
 

音声制御で追従や走行を指示したりするような使用は実用化されていますか

はい、音声制御で「追従開始/停止」「目的地へ走行」などを指示する用途はすでに実用化されています。
ただし産業用途では「完全音声のみ」ではなく、音声+安全センサ+既存ナビゲーションの統合が一般的です。


① 産業物流・倉庫

実例

  • 作業員が
    👉「ついてきて」→ 追従開始
    👉「止まれ」→ 停止
    👉「充電に戻れ」→ 自律帰還

実装の実態

  • 音声はトリガー入力

  • 実際の移動はROSナビゲーションやMPC制御

  • 安全はLiDARと安全PLCで担保

技術構成

音声認識(ASR) 意図分類(NLP) 状態遷移(FSM) 追従制御 / ナビ制御

② 医療・介護分野

実例

  • 看護師「一緒に来て」→ 追従

  • 高齢者「部屋まで」→ 自律走行

特徴

  • ハンズフリーが重要

  • 騒音環境対応

  • 日本語方言対応研究もあり


③ 商業・サービスロボット

実例

  • 「Follow me」機能

  • 空港案内ロボット

  • 展示会デモ機


④ 軍事・防災用途

実例

  • 兵士が「Follow」コマンド

  • 災害現場で音声トリガ


実装方式の分類

レベル 内容 実用性
① コマンド型 「ついてきて」「止まれ」 ◎ 実用済
② パラメータ型 「1m後ろを歩け」
③ 会話型 「人混み避けながらついてきて」 △ 研究段階

技術的課題

1️⃣ 誤認識

工場は騒音80dB超 → ビームフォーミング必須

2️⃣ 安全性

音声だけで動かさない
必ず

  • 人検出

  • 距離制御

  • 緊急停止

3️⃣ ID問題

誰の声で開始するか
→ Speaker Recognition


ROS実装例(概念)

rosnode ├─ audio_capture ├─ speech_to_text ├─ intent_classifier ├─ follow_controller ├─ navigation_stack └─ safety_monitor

現実的な実用状況まとめ

✅ 「追従開始/停止」は実用化済み
✅ 「目的地指定走行」も実用化済み
⚠ 完全自然言語会話型はまだ研究寄り


あなたのSCOUTに当てはめると

  • 音声で mode = FOLLOW

  • VPR integrity で逸脱検出

  • 人ロスト → Hold判定

  • Jump検出で再探索

これはかなり研究的に面白い構成です。


もしよければ次に:

  • 🔬 音声+追従の研究論文整理

  • 🧠 音声認識モデル選定(Edge vs Cloud)

  • ⚙ SCOUT実装アーキテクチャ図

どの方向を深掘りますか?

どのような製品があるか具体例を挙げてください

以下は 音声指示や「人に追従する」機能を含む、実際に存在するロボット/モビリティ製品の具体例 です。産業用途からサービス用途まで幅広く実装されています。


🚚 1. 自律追従/追従型ロボット/モビリティ

FOLO‑300 4WD追従ロボット

  • 全地形対応の自動追従ロボット。

  • 1.5~7 mの距離で対象に自動追尾可能。

  • 最大300 kg積載、障害物回避機能付き。

  • 主に屋外や現場での搬送支援に用いられます。


ROBOLUTION 01/02 系列自動追従モビリティ

  • 商業施設や空港での人の後ろをついてくるモビリティ

  • 01 は人乗り型、02 は荷物搬送型で追従機能を持つ。

  • 他にも二人乗りのモデルや高精度認識付き誘導ロボットも存在。


EffiBOT 自律搬送ロボット

  • フランス発の自律走行搬送ロボット。

  • 倉庫・工場でオペレーターとの「協働搬送(Follow-Me)」や自律搬送が可能。

  • セーフティセンサ搭載で安全性も確保。


🛎️ 2. サービス/対話型ロボット(音声+移動)

これらは「人に追従」まで明確に謳っている製品ではありませんが、音声インタラクション+移動ナビゲーション機能を持つロボットとして実用例があります。

Sanbot サービスロボット

  • レストラン・小売・高齢者ケアなどで使われるサービスロボット。

  • 音声認識・対話・自動充電・移動機能を搭載。

  • 音声で指示を与えることができる実用機。


📡 3. 受付・案内・テレプレゼンス系

SIFBOT‑5.0 テレプレゼンスロボット

  • 音声認識と顔認識を持つ自律移動ロボット。

  • 来訪者や案内対象者と音声で会話しながら動く機能あり。

  • イベント・受付・案内用途で実装例あり。


📍 製品例に関する注意点

🔹 「音声で追従」の実装

  • 現時点で「音声コマンドで追従開始・停止・走行指示を出す機能まで完全統合された市販AMR製品」は 限定的です。
    → 多くは **音声指示(例: 「ここまで来て」)+自律移動(SLAM+追従/誘導)**を統合するカスタム実装が主流です(研究機・プロトタイプ)。
    → 商用では音声は入力インターフェイスのひとつとして使われますが、追従制御そのものはセンサ融合ベース(LiDAR / RGB-D)で実装されます

🔹 実際の事例

  • 倉庫・物流領域では、人を追尾するAMR製品が導入されています(EffiBOTなど)

  • 商業・空港・施設では、人の誘導・案内を行う自律ロボットが音声インタラクションを組み込み済み

  • それらを音声指示+人追従制御として動くようにする統合実装は富む分野でのカスタム製品/PoCが進んでいます。


📈 実用化レベルの整理

製品カテゴリ 人追従機能 音声対話 実運用例
産業用AMR追従ロボット △(別UIと統合可) 倉庫・工場
商用サービスロボット 受付・案内
サーベイランス/テレプレゼンス イベント・オフィス
研究プロトタイプ ◎(統合) HRI研究現場

📌 まとめ

  • 産業レベルで「人に追従するロボット」は実用化済み(物流搬送・アシストモビリティ等)

  • 音声制御(コマンド入力)+自律移動は組み合わせて実装可能で、サービスロボットでの音声対話機能が一般化しています。

  • 現在の商用製品では「音声で細かく追従制御を直接指示する」よりも、音声でモード切替(例: 追従開始/停止)+内部制御で動く形が一般的です。


必要なら、

👉 「これらの製品で音声+追従を実際に可能にするためのシステム構成例(センサ・音声認識モデル・制御フロー)」
👉 「日本国内・海外の導入事例(企業名・導入場所)」

もまとめられます。どちらを見たいですか?

音声指示・人追従機能を備える実在ロボット/モビリティ製品の調査レポート

エグゼクティブサマリ

本調査は、「音声指示(ASR/NLU を伴う音声インタフェース)」「人に追従する(human-following / follow-me)」のいずれか、または両方を備える“実在する”ロボット/モビリティ製品について、公式資料・データシート・プレスリリース等を優先して整理した。結論として、人追従(follow-me)は産業(物流・製造・建設)と軍事の双方で広く実用化されている一方、音声で“走行・追従そのもの”を指示できる製品は、主に家庭・サービスロボット側に偏在する傾向が明確である(安全・騒音環境・責任分界の観点から、産業AMRは物理ボタン/HMI/ハンドヘルド/テザーが主流)。

代表例として、物流・工場領域では Effidence の EffiBOT が“Follow-me”を前提に、ピッキング作業の歩行負荷低減や協働搬送を訴求し、機械指令適合や安全監査・PL d 言及まで踏み込んだ情報公開がある。 同じく工場向けでは Piaggio Fast Forward の kilo が「追従+100以上の既知経路走行」を公式に掲げ、グループ工場での導入計画(Moto Guzzi 生産ライン)まで明記されている。

音声指示と追従の“両立”という点では、家庭/サービス領域で Amazon Astro  temi が代表的であり、前者は “Astro, follow me” のような音声コマンドで追従・移動を直接指示できることが(Amazon Customer Service ページで)確認できる。 後者も Alexa スキルによる「follow me」指示がマニュアルに具体的に記載されている一方、国内公式 FAQ では Alexa 機能の日本語利用がサポート対象外である旨が示され、“音声で追従”の実用性は言語・運用条件に依存する。

安全・規格面では、産業系の driverless industrial truck/AMR に対して ISO 3691-4 が安全要求と検証方法を規定する(定義例として AGV/AMR/bots 等を含む)点が重要である。 また機能安全(PL)説明として、ISO 13849 の PL dが危険側故障確率帯で定義される旨の解説があり、メーカーが「PL d 相当」等を謳う場合の読み替えに有用である。

調査範囲と選定基準

対象は「一般消費者向け」「業務・産業向け(物流・製造・建設・医療・商業施設)」「軍事向け」にまたがる“実在製品”とし、以下の条件のいずれかを満たすものを採録した。

  • 人追従機能が公式資料で確認できる、または製品マニュアル/メーカー発信で追従モードが明記されている。
  • 音声機能(ASR/NLP/TTS のいずれか、または Alexa 等の音声アシスタント連携)が、公式仕様・マニュアル・メーカーサイトで確認できる。

「オンデバイス/クラウド」「対応言語」「意図分類(NLU)」は、製品によって公開粒度が大きく異なるため、公開情報がない場合は“非公開/確認不能”として明示した(推定で補完しない)。他方、Alexa 連携製品については、Alexa が cloud-based voice serviceであることが Amazon 開発者向け定義として公式に示されるため、クラウド側 ASR/NLU として整理した。

産業応用の実態と製品タイプ

産業での“人追従”は、典型的には ピッキング/キッティング中の協働搬送として現れる。作業者が押し引きする台車を置き換え、追従走行で歩行距離や負担を減らす、という価値仮説が繰り返し登場する。

一方、音声による走行指示は、産業現場では「誤認識時のリスク」「周囲騒音」「作業者の発話負荷」「責任所在」を理由に、緊急停止・速度制限・検知ゾーン等の安全レイヤと同等以上に設計が難しい。そのため、産業向け“追従カート”の多くは「ワンクリック開始」「携帯タグ/ハンドヘルド」「テザー(dismount-following tether)」など、意図入力を低曖昧性化するUIを採る。

家庭・サービス領域では逆に、音声アシスタントと移動体を統合し、「呼ぶ・部屋へ移動・追従開始」などを自然言語で指示する設計が普及する。Astro は音声コマンド例を Amazon 自身が明示し、temi も Alexa スキルで移動・追従をコマンド化している。

Effidence Autonomous Mobile Robots And Logistic Solutions

Wide Magazine

Amazon.com: Amazon Astro, Household robot for home monitoring, with Alexa,  Includes a Ring Home Trial : Everything Else

Amazon.com: Amazon Astro, Household robot for home monitoring, with Alexa,  Includes a Ring Home Trial : Everything Else

Amazon.com: Amazon Astro, Household robot for home monitoring, with Alexa,  Includes a Ring Home Trial : Everything Else

Meet Astro, a home robot unlike any other

典型アーキテクチャ

音声→意図→追従制御の実装は、概ね「音声I/F」「行動(ビヘイビア)管理」「追従・回避の運動知能」「安全監視」が分離された多層構造になる。特に Alexa 連携の場合、音声I/Fの中核(ASR/NLU)はクラウドにあり得るため、ネットワーク条件が品質と安全の両面に影響する。

Actuation
Safety
Voice
User
DM end subgraph Navigation DM
追従
目的地移動
許可
停止
音声
物理ボタン/アプリ/テザー
オペレータ/利用者
マイク/マイクアレイ
ウェイクワード検出
ASR 音声認識
NLU/意図分類
対話/コマンド管理
TTS 音声応答
ビヘイビア・マネージャ
モード選択
人物追従: 検出・追跡
Go-to/既知経路/SLAMナビ
ローカルプランナ/回避
速度指令生成
LiDAR/Depth/RGB/IMU等
安全監視: ゾーン/停止
安全停止/緊急停止
移動ベース/駆動系
コードを表示する

上図の「人物追従(PF)」は、(a) LiDAR/Depth で人体位置を追う、(b) **カメラ+Depth+レーダ等で“リーダー同定+予測”**を行う、(c) テザー/タグで追従対象を外部的に決め打ちする、の3系統が実製品で目立つ。例えば、PFF の gitamini は RGB+ステレオ+レーダを組み合わせ、衣服色を用いた再同定を含む追従設計を説明している。 対して軍事の MUTT は「dismount-following tether」やハンドコントローラを製品ページで明記し、意図入力をテザーに寄せる。

製品比較

下表は、少なくとも10製品について、追従方式・音声機能・安全・事例・コスト目安・一次資料を可能な限り同一フォーマットで整理した(「非公開」は公開資料で確認できない項目)。

製品 メーカー 用途カテゴリ 追従機能と方式 音声機能の有無と詳細 安全機能・規格 実運用事例 価格帯/導入コスト目安 主な公開資料
EffiBOT(AGV/AMR) Effidence 物流/製造(ピッキング支援・搬送) :Follow-me で作業者に追従。360°環境解析、自然環境認識、最大7km/h等を明記。 センサはレーザ/3Dカメラ/レーダ/IMU等の多種混在も言及。 音声ASRは非公開。一方でタッチスクリーンHMIをオプションとして提示。 障害物回避+非常停止。安全センサ(安全LiDAR等)と PL d 相当、第三者監査(Bureau Veritas)を記載。 機械指令 2006/42/EC 適合を明記。 物流企業で21台導入(Rhenus/Bjorg向け)等をプレスリリースで明記。 自動車部品サプライヤで10台導入(Daimay)。 要見積(公式価格なし)。 製品ページ・導入PR・プレスキット(安全/センサ/Follow-me 説明)。
kilo Piaggio Fast Forward 製造/物流(工場内・キャンパス搬送) :追従、100以上の既知経路走行、単独自律移動。4Dレーダ+センサパッケージで追従と明記。 非公開(音声UIの明示なし)。運用ツールとしてモバイルアプリ(PFF pro tools)言及。 「人と協働し負傷リスク低減」と説明(規格準拠の明示は限定的)。 グループ工場(Moto Guzzi 生産ライン)での導入計画、他拠点展開を明記。 B2B要問い合わせ(公開価格なし)。 公式記事・報道(仕様と導入計画)。
gitamini(gita mini) Piaggio Fast Forward 商業/個人搬送(歩行者環境での追従カート) :RGB+ステレオ深度+レーダを組合せ、追従対象を同定し“track”を推定、太陽光下での深度劣化をレーダで補う等、設計思想を詳細に説明。 非公開(音声による走行指示は資料で確認できず)。 安全規格の明示は限定的(公式ブログはセンサ/追従中心)。 米国で販売・運用を前提とした製品位置づけ(“already marketed in the USA”は kilo 記事側で言及)。 参考価格として $1,850 言及あり(業界/レビュー記事)。 公式技術ブログ(センサ構成/追従ロジック)。
Astro Amazon 家庭(見守り・スマートホーム・移動体Alexa) :室内でユーザに追従、センサフュージョンやSLAMに基づく移動を記載。 :音声リクエスト例として “Astro, follow me” “Astro, go to the kitchen” 等を Amazon Customer Service が提示。 Alexa は cloud-based voice service。 Amazonは複数の安全センサと専用安全プロセッサ、ブレーキ等の安全機能を説明(産業規格準拠は目的外)。 Day 1 Editions で招待制出荷・米国内提供など公式説明。 公式に $1,449.99、Day 1 Editions $999.99(当時)を提示。 公式ニュース・製品ページ・CSヘルプ(音声コマンド例)。
temi robotemi 医療/商業/案内(遠隔接客・説明・移動サイネージ) :外部デバイス不要の Human Follow mode を明記。センサは 360°LiDAR・Depth×2・RGB・IMU・ToF等。 :音声対話は ASR/NLP/STT/TTS を用いると仕様記載。 さらに Alexa スキルで “follow me” 等の移動指示が明記。 ただし国内FAQでは Alexa 機能は英語圏想定で日本語非サポート。 障害物回避・経路計画・センサフュージョンで安全走行を謳う。(産業安全規格準拠は資料で明確化されず) 国内販売資料で駅・医療機関等の導入事例を列挙。 国内販売資料で **temi V2 65万円〜、V3(サービス込)154万円〜**等を明記。 公式仕様・国内販売資料・運用マニュアル(音声指示例)。
Loomo Segway Robotics 個人モビリティ(追従・撮影・搬送の“ロボット相棒”) :Intel RealSense によるCVで auto-follow と説明。 日本語仕様で 3Dカメラ(Intel RealSense ZR300)や超音波/赤外線等の搭載も明記。 :音声コマンド操作を公式PRが明記。 日本語仕様でマイクアレイ(5マイク、音声コマンド認識)を明記。(オンデバイス/クラウドは非公開) 障害物検知センサ(超音波・赤外線)を仕様で明記。 クラウドファンディング/市販展開(Indiegogo)として公式発信。 Early bird $1,299(公式PR)。 公式プレスリリース・仕様(音声/追従/センサ)。
SQD Robo Follower SquareDog Robotics 建設/工場(手ぶら搬送カート) :ワンクリックのターゲット追尾、追従+メモリトレース(最大5ルート)を明記。 なし(押しボタン中心)。 LiDAR搭載、障害物検知、緊急停止、アラーム等をフライヤー仕様に明記。 公式サイトにプロジェクト例(施設名/地区の列挙)あり。 要問い合わせ(価格非公開)。 公式製品ページ・仕様フライヤー。
FOLO-AT300 Foxtech 物流/建設(屋外対応の追従台車) :ハンドヘルドを携帯したユーザへ追従(1〜7m、逸脱時アラート、近接で自動停止)等を商品説明に明記。 なし(アプリ/リモコン中心)。 逸脱時停止・ワンクリックブレーキ等の安全動作を商品説明で提示。(規格準拠は非公開) 一般流通(EC販売)製品。 $7,699(EC表示価格)。 EC商品ページ(仕様/価格/追従条件)。
ROBOLUTION 02 ロボリューション 商業施設/物流(施設内の追従搬送) :ルート記録+自動追従、ボタンでモード切替を公式サイトが明記。 ASRは非公開。一方でデモとして“音声ナビ(声優音声)”に従い操縦する事例紹介あり(=音声出力)。 Lidar等のセーフティ仕様は製品ページでは限定的(05は人混み誘導用 LiDAR 搭載を明記)。 公式サイトで 01G が商業施設/空港等で20台以上導入と記載。 要問い合わせ(価格非公開)。 公式サイト・新着情報(デモ/音声案内)。
Mission Master SP Rheinmetall 軍事(補給/救難/偵察等のA-UGV) :follow-me、convoy、autonomous navigation を PATH A-kit の機能として明記。 なし(タブレット/単手コントローラ等を提示)。 制御モードに多層の保護、キネティックは human-in-the-loop を明記。 英国陸軍が複数車両/モジュールを保有し follow-me/convoy を含むとニュースで説明。 要問い合わせ(価格非公開)。 公式製品ページ・軍向けニュース。
THeMIS Milrem Robotics 軍事(多用途トラック型UGV) :MIFIK が wired/wireless follow-me、waypoint navigation、障害物検知回避を提供と公式記事で明記。 なし(音声UIの明示なし)。 THeMIS は多国採用・実戦投入等を公式が説明。 追従/自律機能は MIFIK として提示。 イタリア軍向けデモで MIFIK(follow me/waypoint)搭載を明記。 要問い合わせ(価格非公開)。 公式製品ページ・公式ニュース(MIFIK/運用)。
MUTT(S-MET) General Dynamics Land Systems 軍事(分隊補給/装備運搬UGV) :dismount-following tether とハンドヘルドRC等を公式が明記。 なし(音声UIの記載なし)。 運用モード複数(controller/TeleOp/Tether)を公式が明記。 S-MET プログラム選定を公式が明記。 参考:米軍契約として最大 $249M 規模という報道。(単価は契約範囲に依存) 公式製品ページ・契約報道。
Arion-SMET Hanwha Aerospace 軍事(補給/救難/偵察UGV) 有(主に業界記事):テザー装置で兵士/車両を follow/lead 可能とする紹介あり。 なし(音声UI記載なし)。 規格/安全設計の公開は限定的(試験・評価・共同運用の記事中心)。 USMC/米陸軍関係者が参加する FCT(Foreign Comparative Testing)での試験実施を業界記事が報道。 要問い合わせ(価格非公開)。 業界記事(試験/追従方式の紹介)。

追従方式と音声方式の横断比較

追従方式は、実装・安全・現場運用の観点で以下の3類型に整理できる。

類型 代表的な方式 利点 限界 製品例
センサフュージョンによる人物追跡 LiDAR/Depth/RGB/レーダ等で人を同定・追跡 外部タグ不要で“自然な追従” 混雑・遮蔽・光条件で難化、誤追従対策が重要 temi(外部デバイス不要の追従)、EffiBOT(Follow-me+多種センサ)、gitamini(RGB+Depth+Radar)
テザー/ハンドヘルドでリーダ固定 物理テザー、携帯端末、タグ 誤追従を構造的に抑制しやすい 追加デバイス運用、紛失・断線対応 MUTT(dismount-following tether)、FOLO-AT300(ハンドヘルド追従)
既知経路+必要時追従 事前記録経路(memory trace)+追従 定型搬送を安定化、次工程設計がしやすい レイアウト変更に弱い場合あり kilo(100以上の既知経路+追従)、SQD Robo Follower(メモリトレース)、ROBOLUTION 02(ルート記録+追従)

音声方式は、公開情報ベースでは以下の傾向が強い。

  • クラウドASR/NLU(Alexa):Astro と temi が典型。クラウド型音声サービスとして定義される Alexa に依存し得るため、ネットワーク・プライバシー・言語サポートが支配因子になる。
  • オンデバイス音声認識(詳細非公開を含む):Loomo は音声コマンド認識やマイクアレイ仕様を公開するが、ASR処理の配置(端末内/クラウド)は資料から確定できない。
  • 音声“案内/出力”中心:ROBOLUTION は音声ナビ(出力)事例がある一方、走行指示をASRで受ける構成は公開情報からは確認できない。

安全・規格の読み替え指針

産業用途(AGV/AMR)の安全要求は ISO 3691-4 が中核であり、driverless industrial trucks/AMR 等の安全要件と検証を規定する。 そのうえで個別製品の「機械指令適合」「PL d 相当」「安全監査済み」等の表現を、リスクアセスメントと安全機能(停止、速度・ゾーン、再起動条件)に分解して評価する必要がある。EffiBOT では PL d や第三者監査が具体的に記載され、読み替えの材料が比較的揃う。 また PL d の意味(危険側故障確率帯)に関する解説があり、メーカーの“PL”表現の解像度を上げるのに有用である。

導入時の実務的注意点と推奨構成

導入・実装の観点からは、「追従」か「音声」かのどちらを主機能にするかで推奨構成が変わる。以下は、実運用で失敗しやすい論点を中心に、実務寄りに整理する。

  • 安全要求から逆算してUIを選ぶ。産業現場では誤認識が致命的になり得るため、まず ISO 3691-4 の射程(driverless industrial truck/AMR 系)に照らし、停止・ゾーン・速度制限・再起動条件を満たす設計にする。
  • 追従対象同定は「センサで自然に」か「タグ/テザーで固定」かを明確化。混雑・遮蔽がある環境では、タグ/テザー系(FOLO、MUTT 等)が運用設計しやすい一方、利便性は下がる。
  • 音声で“移動を直接指示”するなら、クラウド依存を前提にSLAを設計。Alexa 連携はクラウド音声サービスである点を前提に、ネットワーク断・遅延時のフォールバック(物理停止、手動運転、アプリUI)を必須にする。
  • 言語対応は“UI言語”と“音声アシスタント言語”を分けて評価。temi はUI多言語があっても、Alexa(英語モードのみ等)の制約があり得る。
  • 推奨センサ構成(実装側の一般解):産業の人追従は、(a) セーフティLiDAR(周囲検知+安全停止)、(b) Depth/RGB(人物同定補強)、(c) IMU(短時間の自己位置・姿勢安定)を基本セットとして“センサ冗長”を確保しやすい。EffiBOT は多種センサ併用を明示し、temi も LiDAR+Depth+IMU を仕様に含む。
  • 評価プロトコル(導入前検証):少なくとも「混雑」「遮蔽」「強い逆光/屋外」「狭隘通路」「段差/階段縁」「ネットワーク断」をシナリオ化し、追従誤差(距離・角度)、誤追従率、停止距離、再取得時間(lost→reacquire)を定量化する。Astro/temi のように“追従”がユーザ向け機能でも、実地では家庭・施設条件の適合制約が明示されるため、同様に適合条件を先に洗い出す。

VPR × 人追従は同時に行ってないのですか?

  結論から言うと、 「VPR(Visual Place Recognition)と人追従を同時に使う研究」はほとんどありません。 ただし 技術的には非常に相性が良く、今後研究価値がある領域です。 理由を整理します。

1. 人追従研究の主流構成

ほとんどの人追従ロボットは次の構成です。
カメラ / LiDAR
↓
人物検出
↓
人物追跡
↓
追従制御
使われる技術
  • YOLO
  • OpenPose
  • ReID
  • Kalman filter
つまり 追跡対象=人 位置はあまり考えていません。

2. VPR研究の主流構成

VPR研究は
カメラ
↓
特徴抽出
↓
場所認識
↓
自己位置推定
使われる技術
  • NetVLAD
  • SeqSLAM
  • AnyLoc
  • CosPlace
つまり 追跡対象=場所 です。

3. なぜ今まで組み合わされていないか

理由は3つあります。

① 研究分野が違う

分野 研究対象
HRI
Robot navigation 地図
VPR 場所
研究コミュニティが分かれているため 統合研究が少ないです。

② 人追従は局所制御

多くの人追従ロボットは
距離
角度
だけで追従します。 例 [ v = k(d-d_{ref}) ] つまり 場所を知らなくても動ける

③ VPRは自己位置推定

VPRは
  • ループ閉じ
  • 自己位置補正
のために使われます。 人追従には必須ではありません。

4. しかし実は相性が良い

VPRを使うと 人追従の弱点を解決できます。

問題① 人を見失う

普通の人追従
人ロスト
↓
終了
VPRあり
人ロスト
↓
最後に見た場所へ移動
↓
再探索

問題② 誤追跡

人が多い場所
別の人を追う
VPR
位置整合
↓
異常検出

問題③ 長距離追従

普通
局所追従
VPR
広域追従

5. 研究テーマとして成立する形

例えば

テーマ

Visual Place Recognition assisted Person Following 構成
音声
↓
Follow me
↓
人物追跡
↓
VPR位置確認
↓
追従信頼度評価

6. あなたの環境だとかなり強い

あなたの研究環境
  • Scout-E
  • Teach & Repeat
  • VPR
  • integrity monitor
これを組み合わせると
人追従
+
VPR
+
失敗検出
これはかなり新しいテーマになります。

7. 実は近い研究はある

完全一致ではないですが

類似研究

  • Follow-me robots
  • Person re-identification
  • semantic navigation
  • place recognition navigation
ただし VPR × person following はほぼありません。

8. 研究テーマとしての強さ

テーマ 新規性
人追従
音声追従
VPR
VPR × 人追従

9. 実はもう一段面白いテーマがあります

VPRと人追従をさらに発展させると かなり強い研究テーマになります。 それは 人の行動予測 × VPR × 追従 です。 これは
  • 自動運転
  • ロボット
  • AI
全部につながる研究になります。
もしよければですが、 あなたの Scout-E環境だとかなり面白い研究テーマが1つ作れます。 たぶん 日本でまだほとんど研究されていないテーマ です。 希望があれば それを 研究計画レベルまで具体化します。  

音声追従やチャットインターフェースは最終的にローカルLLMを使わないと、都度使用量や通信が必要になりますか?

  はい。 ローカルLLMを使わず、クラウドLLMやクラウド音声基盤で音声追従・チャットIFを動かすなら、基本的に毎回通信が必要です。多くの場合、従量課金も発生します。たとえば Alexa は公式に「cloud-based voice service」とされています。(Developer Portal Master) 整理すると、次の3層があります。

1. 音声認識

マイク入力をテキスト化する部分です。 これをクラウドASRでやると、音声データ送信が必要になります。したがって通信断や遅延の影響を受けます。Alexa 系はこの構成です。(Developer Portal Master)

2. 意図理解・対話

「ついてきて」「ここで待って」「研究室まで行って」を解釈する部分です。 ここをクラウドLLMでやるなら、発話ごとにAPI呼び出しになるので、使用量ベース課金になりやすいです。これは一般に避けられません。Alexa もクラウド側で言語モデルと地域サービスを持つ構成です。(Developer Portal Master)

3. ロボット制御

最終的な追従・停止・再探索・障害物回避はロボット側で動かすべきです。 ここまでクラウド依存にすると、通信が不安定なときに危険です。産業用途では、少なくとも安全停止や低レベル制御はローカルに置くのが現実的です。ISO 3691-4 は driverless industrial trucks / AMR の安全要求を定めています。(Developer Portal Master) なので実務上は、次の3案になります。

A. 全部クラウド

  • 実装は楽
  • 高性能LLMを使いやすい
  • ただし通信必須
  • 利用量に応じて費用が増える
家庭向けや試作なら成立しやすいです。(Developer Portal Master)

B. ハイブリッド

  • 音声起動語、簡単なコマンド、停止、安全系はローカル
  • 複雑な会話や柔軟な指示だけクラウドLLM
これが一番現実的です。 たとえば 「ついてきて」「止まれ」「待て」はローカルFSM、 「この建物の北側を回って研究室まで来て」はクラウド、という分け方です。

C. ほぼ完全ローカル

  • ローカルASR
  • ローカルLLMまたは小さい意図分類器
  • ローカルTTS
  • 制御もローカル
この場合、都度の通信は不要で、API従量課金もほぼ不要です。 ただし代わりに、
  • GPU/CPU資源
  • 消費電力
  • 発熱
  • モデル更新や保守 が必要になります。
重要なのは、ローカルLLMが必須ではないことです。 音声追従くらいなら、必ずしもLLMでなくてもよくて、
  • キーワード認識
  • 意図分類
  • ルールベースFSM
で十分なことが多いです。 たとえばこの程度なら、LLMなしでも可能です。
  • 「ついてきて」→ FOLLOW
  • 「止まれ」→ STOP
  • 「待って」→ WAIT
  • 「戻れ」→ HOME
この場合は、ローカルASR + 意図分類器で済むので、クラウド費用をかなり減らせます。 あなたの用途だと、研究としては次の構成がかなり良いです。
  • ローカル:追従制御、障害物回避、安全停止、VPR、失敗検出
  • ローカルまたは軽量:定型音声コマンド
  • 必要時のみクラウド:自由会話、複雑な自然言語指示
この形だと、
  • 通信断でも最低限動く
  • 研究として安全設計を語れる
  • APIコストを抑えられる
  • それでもチャットIFの面白さを残せる
というバランスになります。 一言でいうと、 「毎回の通信と従量課金を避けたいなら、最終的には少なくとも一部をローカル化する必要がある」 です。 ただし 全部をローカルLLMにする必要はなく、まずは“定型コマンドだけローカル”でも十分実用的 です。(Developer Portal Master) 次は、SCOUT向けに 「どこまでをローカル、どこからをクラウドに分けると現実的か」 を具体的な構成図レベルで整理できます。

あわせて読みたい