【2024_C Tang】Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes

Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes キーワード: robotics, reinforcement learning, deep learning, learning for control, real-world applications

【要旨】強化学習（Reinforcement Learning, RL）、特に深層ニューラルネットワークを組み合わせた深層強化学習（Deep RL: DRL）は、多岐にわたる応用領域において非常に有望な成果を示しており、高度なロボット行動の開発を可能にする潜在力を示唆している。しかしながら、ロボティクスの問題は、物理世界とのインタラクションにおける複雑性とコストのため、RLの適用において根本的な困難が存在する。本稿は、複数の主要なロボット能力を実現するうえでDRLが実際に果たした「現実世界での成功」に焦点を当て、包括的なサーベイを提供する。我々の分析は、そうした有望な成果を支える主な要因を明らかにし、未開拓の領域を示すとともに、ロボティクスにおけるDRLの現状を概観することを目的とする。さらに、安定かつサンプル効率の高い現実世界向けRLパラダイム、複数の能力を探索・統合して複雑な長期かつオープンワールドなタスクに対処する包括的アプローチ、そして原理に基づいた開発・評価手法の重要性を強調する。本サーベイは、RL研究者およびロボティクス研究者の両者に対して、一般に適用可能なロボットシステムを創出するための知見を提供することを目的としている。

はじめに

強化学習（RL）(1)は、エージェントが試行錯誤を通じて行動を学習し、状態と行動の組み合わせに対応するスカラー報酬関数によって定義される累積報酬の最大化を目指すという、意思決定問題の一種である。特に深層ニューラルネットワークと組み合わせたDRL (2)は、ボードゲーム(3)、ビデオゲーム(4)、ヘルスケア(5)、レコメンデーションシステム(6)といったドメインで、高次元の観測を扱う複雑な意思決定問題を解決する remarkable な能力を示してきた。こうした成果から、非線形で次元数の大きい状態・観測空間を持つロボットシステムを制御し、従来の意思決定・計画・制御手法（例：古典的制御、最適制御、サンプリングベースのプランニング）が苦手としてきた複雑な課題を解決しうる可能性が示唆されている。一方、DRLにおける著名なマイルストーンはシミュレーションまたはゲーム環境で達成されてきた。一方で、ロボットが実環境でタスクを遂行する際には、物理世界との相互作用に関わるデータ収集の非効率や安全性、また複雑な現実世界を精密にシミュレートすることが困難であるなど、追加の課題が存在する。そうした困難にもかかわらず、近年の進展により、DRLを実機のロボットタスクに適用して成果を上げる例がいくつか見られるようになった。たとえば、チャンピオンレベルのドローンレース(7)を実現したり、ANYbotics¹、Swiss-Mile²、Boston Dynamics³などの実用レベルの四足歩行ロボットシステムに統合された多様な四足歩行制御(例：産業検査や宅配、災害救助などの用途)などが挙げられる。ただし、最先端のDRLソリューションの成熟度はロボット応用の種類によって大きく異なり、都市部の自動運転など(8)では依然としてシミュレーションか非常に制限された実環境でしか実施されていない場合が多い。本稿では、ロボット応用におけるDRLの現在の進捗状況を広範かつ包括的に評価し、非常に有望な成果をもたらした鍵となる要素や、まだ成熟していない領域を明らかにすることを目的とする。具体的には、多様な問題ドメインにわたるDRLの成熟度を把握し、複数領域の成果を比較・対比することで、さまざまなタスクに通用する技術や未開拓領域、そしてロボティクスにおけるDRLの発展に向けて克服すべき一般的な課題を特定する。本サーベイの狙いは、ロボティクスにおけるDRLの現状に関する包括的な理解を研究者や実務家に提供し、幅広いタスクに適用可能なDRLソリューションを実世界で展開するための指針となる知見を示すことである。

なぜあらためて「RL in Robotics」のサーベイなのか？

過去にも、ロボティクス分野におけるRLを扱った文献サーベイはいくつか存在するものの、本稿では以下の3点で独自の視点と貢献を提供する。

実環境での成功事例にフォーカス 我々は「ロボティクスの実機でDRLがどれほど成功しているか」を主要なテーマとしており、単に手法の理論やシミュレーション実験をまとめるのではなく、現実世界でどういったタスクに成功したのかを重視する。既存の文献(9)はロボットに限らない一般的な「実世界RL」課題を扱っていたり、あるいは著者ら自身の研究に基づいたケーススタディ(10)などが中心である場合が多い。本稿では文献全体を俯瞰し、実環境での成功事例を網羅的に整理したうえで、成熟度の評価（レベルの定義）を行う。
多角的な分類法（タクソノミー）の提示 本稿では、DRLの論文を以下の4つの観点から包括的に分類する: (a) 「ロボットが学習する能力・コンピテンシー」（locomotion、navigation、manipulationなど） (b) 「問題設定」（行動空間や観測、報酬設計など） (c) 「解法のアプローチ」（シミュレータの活用、モデル学習、エキスパート利用、オフライン学習など） (d) 「現実世界における成功度合い（レベル0～5）」既存のサーベイ(11,12,13,14)はタスクや手法ごとに絞っている場合が多かったが、本稿のタクソノミーでは、ロボット応用におけるDRL全般を対象として、横断的な比較ができる構造になっている。
DRLの最新動向を踏まえた総合的な分析 DRLの分野は近年急速に発展し、特に過去5年ほどの進展は目覚ましい。初期のサーベイ(15)やロボット学習全般のサーベイ(16)が登場した頃は、DRLはまだシミュレーション中心の段階だったが、最近ではより多様な実機応用例が見られるようになった。本稿では2018年以降の文献を中心に取り上げ、最新の傾向と今後の展望を示す。

分類法（タクソノミー）

本節では、上記で述べた4つの軸（コンピテンシー、問題設定、解法アプローチ、現実世界での成功レベル）について、より詳細に説明する。現実世界でのDRL適用例を包括的に俯瞰するためには、各軸に沿って文献を整理・比較することが重要である。 3.1 DRLによって学習されるロボット能力 我々の第一の軸は、各論文で扱われるロボットのタスクを中心に据えている。ロボットのタスクは、特にオープンな現実環境においては、多様な能力（competencies）を必要とする場合がある。エンドツーエンドでシステム全体を深層強化学習（DRL）により合成してこれらの能力をすべて実現する場合や、サブモジュールを学習してその一部のみを実現する場合もある。本サーベイの焦点はDRLであるため、DRLによって学習・実現される具体的なロボット能力に基づいて論文を分類する。まず、これらの能力を単一ロボット（タスクを単独で完了するための能力）とマルチエージェント（作業空間を共有し、ロボットのタスク完了に影響を及ぼす他のエージェントと相互作用するための能力）に分ける。単一ロボットが作業空間でタスクを行う場合、そのロボットに必要な能力は、物理的世界との相互作用を実現するための特定の方法として考えられる。これをさらに、移動（mobility）――環境内での移動――と操作（manipulation）――環境内の物体を動かす、あるいは再配置する（例：把持、回転など）――の2つに大別する [17, 18, 19]。ロボット工学の文献では、移動能力（mobility）をさらに2つの問題に分けることが多い：**ロコモーション（locomotion）とナビゲーション（navigation）**である [18, 20]。ロコモーションは、四足、ヒューマノイド、車輪型、ドローンなどさまざまな形態のロボットが多様な環境を移動できるようにする運動スキルに焦点を当てる。一方、ナビゲーションは、衝突せず効率的に目的地に到達するための戦略に焦点を当てる。典型的なナビゲーションポリシーは、高次レベルの運動コマンド（例えば質量中心（CoM）の望ましい状態）を生成し、それを実行するための効果的なロコモーション制御があることを前提とする [18]。一部の研究では、ロコモーションとナビゲーションの両方の問題を同時に扱っている。これは、ナビゲーション戦略がロボットのダイナミクスやロコモーション制御（例：難所を含む地形の横断 [20]、レース [21]）に大きく影響されるタスクにとって特に有用である。これらの論文は、最終的な目標がナビゲーションであることから、他のナビゲーション研究とともにレビューする。ロボット工学の文献において、操作（manipulation）はしばしばテーブルトップ環境、すなわち固定されたベースと固定センサがシーンを観測するロボットアームやハンドを対象として研究される。さらに一部の実環境タスクでは、ベースを移動させながら環境に干渉（例：家庭や倉庫内のロボット）する必要があり、移動能力と操作能力を相乗的に統合することが求められる。前者を静止型マニピュレーション、後者を移動マニピュレーションとして分類する。タスクの完了が作業空間内の他のエージェントに影響される場合、ロボットは他者と相互作用するための追加の能力を備える必要がある。これをマルチエージェント能力としてまとめている。なお、一部の単一ロボット能力は、たとえ他のエージェントと相互作用していても依然として必要となり得る（例：群衆との相互作用を伴うナビゲーションや協調マニピュレーション）。このカテゴリでは、エージェント間の相互作用レベルでのDRL、すなわちある程度の単一ロボット能力が与えられたうえで相互作用戦略を学習する、あるいは相互作用と単一ロボット能力を共同で最適化するようなポリシーを学習する研究を対象とする。さらに、相互作用するエージェントの種類に基づき、以下の2つに分類する：

ヒューマン・ロボット相互作用（Human-robot interaction）：人間と協働するロボットの能力。人間の振る舞いの複雑さや、安全性要件の厳格さなどが追加の課題となる。
マルチロボット相互作用（Multi-robot interaction）：複数ロボット間の相互作用能力。マルチエージェント強化学習（MARL）を用いることが一般的である。MARLでは、環境や他のロボットとの相互作用を通じて各ロボットがポリシーを学習するため、学習自体が複雑化する。ロボット同士の目的が一致するか否かにより、相互作用は協調的、対立的、あるいは一般和的になる場合がある。さらに、実際のシナリオでは、部分観測下での分散的な意思決定や通信帯域幅の制限といった課題がしばしば要求される。

3.2 問題設定 第二の軸は、RL（強化学習）の問題設定である。これは、ターゲットとなるロボット能力のための最適制御ポリシーを定義するもので、単一エージェントの場合は部分観測マルコフ決定過程（POMDP）、マルチエージェントの場合は分散POMDP（Dec-POMDP）としてモデル化されることが多い。具体的には、以下の要素に基づいて論文を分類する：

アクション空間：低レベル（ジョイントやモーターコマンド）、中レベル（タスク空間におけるコマンド）、高レベル（時間的に拡張されたタスク空間コマンドやサブルーチン）か。
観測空間：高次元のセンサ入力（例：画像やLiDARスキャン）か、推定された低次元の状態ベクトルか。
報酬関数：スパースか、デンスか。

紙幅の都合上、これらの用語の詳細な定義は補足資料で示すことにする。

3.3 解法アプローチ 前項と密接に関連するもう一つの軸として、ターゲットとなるロボット問題を解くために用いられる解法アプローチがある。これは、採用されたRLアルゴリズムおよびそのロボット問題に対して実用的な解法を可能にするための技術から成る。具体的には以下の観点から解法を分類する：

シミュレータの使用法：どのようにシミュレータを用いるか（ゼロショット、少量の実機データを活用したシミュレーションから実機への移行（sim-to-real transfer）、あるいはシミュレータを使用せずにオフラインや実機で直接学習するか）。
モデル学習：遷移ダイナミクスモデルの（ある部分または全体を）ロボットのデータから学習しているか。
エキスパートの利用：エキスパート（例：人間やオラクルポリシー）のデータを学習を促進するために利用しているか。
ポリシー最適化：プランニングやオフライン・オフポリシー・オンポリシーといったRLアルゴリズムのどれを採用しているか。
ポリシー／モデル表現：ポリシーやダイナミクスモデルを表現する際に用いるニューラルネットワークアーキテクチャ（MLP、CNN、RNN、Transformerなど）。

詳細な用語の定義は補足資料を参照のこと。

3.4 実世界での成功度合い DRLが実世界のロボットタスクにおいてどの程度実用化されているかを評価するため、我々は論文をそのDRL手法がどのようなシナリオで検証されたかに基づいて分類する。異なるロボットタスク間でDRLの有効性を比較し、研究段階と実世界への導入とのギャップが大きいタスクと小さいタスクを識別することを目指す。これにはタスク横断的に実世界での成功度合いを定量化する指標が必要となるが、我々の知る限り、ロボット向けDRLの文献においてそのような試みはこれまでなかった。自動運転のレベル区分 [22] や機械学習の技術成熟度（Technology readiness level, TRL） [23] に着想を得て、我々は**実世界成功度合いのレベル（levels of real-world success）**という概念を導入した。以下の6つのレベルに基づいて論文を分類する：

レベル0：シミュレーションのみで検証されている。
レベル1：限られたラボ環境でのみ検証されている。
レベル2：多様なラボ環境で検証されている。
レベル3：制限された実環境条件下で検証されている。
レベル4：多様で代表的な実環境条件下で検証されている。
レベル5：商用製品として実運用されている。

レベル1〜5は、いずれも実世界での成功を何らかの形で達成していると見なせる。ここで注意すべき点は、各論文で報告される実験以外に判断材料がないため、多くの論文では単一の実世界実験しか示されていない場合もあることから、この分類は必然的に主観を含む可能性があるということである。加えて、我々は実世界での成功度合いのレベルを、そのタスクの複雑さにかかわらず、提案手法がターゲット問題に対してどの程度成熟しているかを示す指標として活用している。

コンピテンシー別レビュー

ここからは、上記タクソノミーに沿って、DRL研究を「能力（コンピテンシー）」ごとに整理し、各分野での成果や課題を議論する。各小節の終わりで、トレンドと未解決の課題をまとめる。なお、表1～6（補足資料）にて詳細な分類結果の一覧を提供している。

4.1 ロコモーション

ロコモーション（歩行・移動）研究は、ロボットが様々な実環境を動き回るための運動スキルを開発することを目指す。深層学習以前から、四足歩行(24)やヘリコプター制御(25,26)などで強化学習の先駆的な取り組みが行われてきた。本節では、ロコモーションとナビゲーションを分け、ロコモーションをさらに以下の3つに分類して論じる:

四足歩行 (Quadruped Locomotion)
二足歩行 (Biped Locomotion)
クアッドローター飛行制御 (Quadrotor Flight Control)

4.1.1 四足歩行

四足歩行は、DRLによる実世界の成功事例が比較的多い領域である。ANYboticsやSwiss-Mile、Boston Dynamicsなど複数の企業が、産業点検、宅配、救助などの用途に向けた四足歩行ロボット制御にDRLを組み込んでいると報告している。研究文献においては、まずセンサが足先のみ（平坦な屋内床など）でも歩行できる“blind”な手法が提案され、シミュレーションで学習したポリシーを実機へゼロショット転移する事例がいくつも示されている(28,29)。ここで主な課題はアクチュエータやロボット本体のダイナミクス不一致（シミュレータと現実のギャップ）であり、その対策として(28,29)では動力学パラメータのランダム化、(30)ではロボット形状のランダム化まで行う手法が提案されている。また(31,32,33)などで使われているように、階層型の制御構造を導入し、低レベルでモデルベース制御を用いてダイナミクスや外乱へのロバスト性を高める手法もある。さらに、屋外の多様な地形（段差、柔らかい地面、滑りやすい床など）に対応するため、(34,33,36,38,37)では、学習カリキュラムにより難易度を徐々に上げるアプローチや、高精度な地形モデルに基づくシミュレーションを用いるアプローチを採用している。外部センサ（LiDAR、カメラなど）を用いた外界認識を組み合わせることで、危険な地形に足を運ぶ前に適切に回避行動が取れる(35,44,45)。視覚情報などを扱う際は、高次元入力の特徴抽出として自己教師あり学習や、大容量モデル（Transformers）の活用が注目されている(43,44,45)。また、障害物のある場所で段差を飛び越えるジャンプ(47)や、倒れた後に自力で起き上がる(48,53)などのダイナミックなスキルも一部で実証されているが、まだ限定的な状況（平地など）にとどまる。さらに、高度なパルクールのように複数の足運びスキルを統合し(49,50)、あるいはエネルギー効率最適化などを盛り込んだ複数スキルを一元的に学習する(42,51,52)例も出てきている。最先端の手法としては、オンポリシー強化学習（PPOなど）によるゼロショット転移が主流だが(70)、最近は少量の実機データで微調整（(48,53)など）するアプローチや、モデルベースRL(54)の研究も進んでいる。

4.1.2 二足歩行

二足歩行ロボットは四足歩行よりもダイナミクスが不安定かつ高度であり、DRL手法の実世界応用はまだ発展途上である。平坦な床での基本的な歩行(55,57)から始まり、(56,58,27)では多少の起伏のある屋内床に対応し、(60,62)では屋外の地形にも対応する例がある。階段の昇降(59)や跳躍(57,63)、ギャップを超える動作(61)なども一部で実証されているが、四足歩行ほど幅広い地形にはまだ十分対応できていない。安定性確保のために、モデルベースの参照軌道生成を活用するケース(55,58,63)や、周期的報酬設計(57)が多用される。一部では(56)のように、実機で得たデータを用いてシミュレータを継続的にアップデートし、カーペット上での歩行を実現している。今後はハードウェアの発展や低コスト化が進むことで、二足歩行分野の実世界DRL研究も加速すると期待される。

4.1.3 クアッドローター飛行制御

UAV（Unmanned Aerial Vehicle）の中でも特にクアッドローターは、軽量かつ敏捷だが制御が難しく、DRLの応用先として注目されている。オンポリシーRLのPPOを使って高速旋回などを実現し、乱暴な初期状態からでも姿勢を回復する制御(64)が報告されている。動力学パラメータのランダム化や(65)、行動空間を工夫した(66)アプローチが有効である。また(67)ではRMA（機体パラメータ適応）によって、ホバリング制御を外乱下でも安定させる手法を示している。とはいえ、古典的な制御器と比較すると、DRLはまだ目標追従精度で劣る場合もある(64,66)。一方で、大域的なタスク最適化（例：ドローンレース）には大きな可能性があり、(7,21)ではチャンピオン級の高速レース走行が実演されているが、まだ頑健性や安全性に課題が残る。

4.2 ナビゲーション

ナビゲーションは移動全般を扱うが、ここでは主として「与えられた目的地へ衝突なく移動する」という計画策定や障害物回避を含む意思決定を指す。典型的には、移動体（車輪型、脚型、空中機など）における自己位置の推定、地図やプランニングを組み合わせたクラシカル手法が存在する。DRLによって、こうした従来型スタックの一部あるいは全部を学習器に置き換えるアプローチが研究されている。

4.2.1 車輪型（Wheeled）ナビゲーション

屋内の幾何的ナビゲーションで最初にRLが試された事例(73,74,75,76)がいくつかあり、2D LIDARスキャンをそのままポリシーの入力とするエンドツーエンド学習などが提案されている(73,74)。しかしクラシカルなSLAM＋プランニングに比べて優位性がまだ明確でないという指摘もある(12,74)。最近はクラシカル手法の一部（ローカルプランナー(75)や探索アルゴリズム(76)など）だけRLで置き換えるハイブリッド手法が提案されているが、広範囲の実世界アプリケーションには至っていない(74)。視覚情報を用いたビジュアルナビゲーションでは、ポイントゴールやオブジェクトゴールを設定して学習するエンドツーエンド手法(78,79,80)がシミュレーションで高い成功率を示すが、実機転移は難しく、多くの研究がパラメータ調整やセンサドメインの単純化(83,86,87)を行っている。オフロードナビゲーションでは(88,89,90,91)がモデルベースまたはオフラインRLを用いて、走破性の高い制御ポリシーを学習した。また自動運転（フルサイズ車両）への適用は安全面でさらに困難があり、(92,93)など一部で限定的な公道実験が報告されているものの、まだ研究段階である。

4.2.2 脚式（Legged）ナビゲーション

脚式ロボットのナビゲーションは、歩行ダイナミクスの複雑さと、地形上の衝突回避などの長期計画が組み合わさるため、さらに難度が高い。(83,86)では「運動学のみシミュレーションする」簡易モデルに対して視覚ベースのポリシーを学習し、実機転移のしやすさを示している。一方、(20,96,100)などでは歩行制御そのものも含めたエンドツーエンド学習に挑戦し、高速な障害物回避や複雑地形の踏破を実証している。ただし長いホライズンのタスクや部分観測への対応などで学習が不安定になる課題が残る(20,96)。

4.2.3 空中（Aerial）ナビゲーション

マルチコプター（例：クアッドローター）によるナビゲーションは、障害物回避の難しさと安全要求の高さから、まだ実世界での成功事例は限られる。視覚のみで室内を回避移動する(101,102)報告や、ドローンレースで人間チャンピオン級に迫る(7,21)報告があるが、後者はまだ頑健性に課題が残るようだ。モデル予測制御と組み合わせる(103)などの手法も検討されている。

4.3 マニピュレーション

マニピュレーションは、ロボットが物体や環境と物理的接触を通じて形状や位置を操作する能力である。古くから研究が盛んだが、接触ダイナミクスの複雑さや、開放的なタスクの多様性といった難しさがあり、実機での強化学習にとっては特にサンプル効率や安全性など多くの課題がある。本節では以下のサブカテゴリに分けて整理する:

ピック＆プレース
接触を多用する操作（コンタクトリッチタスク）
インハンド操作（手先で物体を回転させるなど）
ノンプリヘンシル操作（押す、スライドさせる、道具を使うなど）

4.3.1 ピック＆プレース

ピック＆プレースとは把持（グラスピング）と配置を含むタスクである。近年、物流現場などでは、物体検出や把持推定のみを学習し、経路生成は古典手法で行うモジュール型システムが一般に用いられている。DRLによる把持の研究例としては、膨大な実機試行を伴うバンディット的な近似(108,109)や、シミュレーションから学習してゼロショットで実機移行する例(111)がある。一方、把持だけでなくモーションも含めたエンドツーエンドのピック＆プレースは、課題のスケールが大きく学習が難しいため、まだ限定的な成果にとどまっている(113,116,119)。最近では、より大きなビジョン・言語モデルを活用し多様な物体や指示文に対応する研究(124)が進み、将来的にはオープンワールド操作に向かう可能性もある。

4.3.2 接触リッチな操作（組み立て、可動物体、変形物体など）

機械組立（例：ピン挿入）やドア開けのような可動な物体の操作、衣類など変形物体の操作は、接触が複雑でモデル化が難しい。従来は職人的にパラメータを調整するケースが多かったが、DRLはそうした作業の自動化を可能にする(126,130)。組立タスクでは、ロボットが既に物体を保持している状態から開始する研究が多く(126,127,128,129)、デモンストレーションや残差学習(126)で学習を加速するのが一般的である。布の折りたたみや服の着脱(134,135,136,137)などもシミュレーション＋ドメインランダム化を用いたゼロショット転移が行われているが、まだ限定的なシナリオが中心である。

4.3.3 インハンド操作

人間が行うような「手の中で物体を回転・再配置する」操作は高度な指操作が必要であり、DRLの難易度が高い分野だが、(138,139)などで特定物体の姿勢変更が成功している。多様な物体に対して視覚や触覚を用いた手先操作(141,142)も提案されており、大規模な動力学ランダム化を施したシミュレータによるゼロショット転移が行われる。まだ組立や道具使用など、さらなる拡張は課題として残る。

4.3.4 ノンプリヘンシル操作

把持せずに押す、弾く、転がすなどで物体を移動させる操作は、手先以外の身体や周囲の環境を活用できる点が特徴。(109,143,144,145)などで押し操作や姿勢調整が実証されている。形状情報の事前学習(144)などが鍵となっているが、オープンワールドでの操作は依然として挑戦的である。

4.4 モバイルマニピュレーション

モバイルマニピュレーション（MoMa）は、移動と操作を統合したロボット（例：移動台車＋アーム、四足ロボット＋アーム、ヒューマノイド）を対象とする。制御自由度が多く、周囲環境が広く、部分観測が強くなるなどの理由で難易度が上がる。ここでは、(a) 全身制御 (b) 短いホライズンのインタラクティブタスク (c) 長いホライズンのインタラクティブタスク、の3つを簡単に概観する。

4.4.1 全身制御

モバイルマニピュレータの全身制御（Whole-Body Control, WBC）は、ベースやアーム、センサヘッドなど多数の自由度を同時に動かして所望のリンク姿勢を実現する技術である。(152,153,154,155)などではタスク座標系での目標姿勢を入力とし、それを達成する関節トルクを直接出力するポリシーをDRLで学習している。階層的に分割して低レベルにWBCを任せ、高レベルに環境への対応を学習させる(157,158,159)アプローチもある。

4.4.2 短いホライズンのインタラクティブタスク

物体把持(160,161,159)や蹴り動作(162,158)、ドア開け(167,168)など、一回の操作シークエンスが比較的短いタスクでは、モデル化や報酬設計も比較的シンプルで、多くがシミュレーション学習＋ゼロショット転移を試みている(163,164,165,166)。成功例も多いが、接触や視覚のシミュレータ精度が課題となる場合があり、オフラインデモやプリミティブ行動を活用する研究が行われている。

4.4.3 長いホライズンのインタラクティブタスク

家庭内支援など長いタスクを連続してこなすには、探索範囲の拡大や部分観測への対応などでDRLが不安定になりやすい。(170)ではスクリプトやシミュレーションから得たデータを活用したオフポリシー学習、(157)では階層的にサブタスクを連鎖させるアプローチが取られている。しかし、こうした複雑タスクの実機実験はまだ限定的であり、今後の大きな課題である。

4.5 ヒューマンロボットインタラクション（HRI）

人間が介在するタスクでは、安全性や解釈可能性、人間モデル化など、DRLにとって追加の課題が生じる。ここでは、物理協調、物理的には協調しないが同じ空間にいる、遠隔操作支援の3つに分けて簡単に紹介する。

協調的物理HRI: 人とロボットが同じ作業を行う（例：人がロボットに物体を手渡す）。(172,173,174)では人間モデルを学習し、それをもとにシミュレーションでロボットの取り組み方を学習する事例がある。
非協調的物理HRI: ロボットと人が同空間で別の目的を持つ（例：群衆回避）。(175,176,177)などでは社会的に配慮した距離を保つナビゲーションを学習する手法があるが、まだ限定的な屋内などでの実験が中心。(178)のように実機でオンライン更新するアプローチもあるが、まだ実世界の大規模な適用例は少ない。
共有制御（Shared Autonomy）: 人間が高レベルで指示し、ロボットはそれを自律的に補完する。(179,180,181)ではVRやコマンド入力からの遠隔操作を学習で補佐する例があるが、まだ研究初期段階である。

4.6 マルチロボット相互作用

複数のロボットが相互作用するタスクを扱う研究は、複数エージェント強化学習（MARL）の文脈で議論される。(182,183,184)などでドローンサッカーやウェアハウス内での協調搬送、(185,186)などで対戦的相互作用が例示されているが、大半がシミュレーションを中心としており、実機での大規模な検証は限られる。

統合的考察

本節では、各能力（ロコモーション、ナビゲーション、マニピュレーション、モバイルマニピュレーション、ヒューマンロボットインタラクション、マルチロボット）を横断して、DRLによる実世界応用で見えてきた共通の成功要因や課題を整理する。

サンプル効率と安定性 物理世界での学習はコストや安全性の面で厳しく、いかに少ない実機データで学習を進めるかが鍵となる。シミュレーション活用、モデル学習、オフラインRLやデモ活用など、さまざまな工夫があるが、まだ決定版はない。
シミュレータとリアルギャップの克服 パラメータランダム化、センサドメイン転移、実機データによるシミュレータ修正など多彩な手法が駆使されているが、接触や変形といった複雑現象ではシミュレーション精度が課題になる。
報酬設計・長期タスク マニピュレーションや複雑ナビゲーションでは、タスク成功報酬が非常にスパースとなり、学習が困難。階層RLや自動リセット手法、形状報酬設計などで対応する例があるが、長期的かつ複雑なタスクにはまだ不十分である。
安全性と保証 特に人間や他ロボットとのインタラクションでは、安全性の保証や説明可能性への要求が高まる。現行のDRL手法はブラックボックス的で、保守的な設計やオーバーライドが多用される。
スケーラビリティと一般化 1つのポリシーで多様な物体や地形に対応する例が増えているが、オープンワールドな複数タスクへの一般化は課題として残る。ビジョン言語モデルの活用などが期待されるが、まだ初期段階。

結論

本稿では、ロボット分野におけるDRLの実世界応用事例を包括的に調査し、主要な能力や課題、成功要因を整理した。四足歩行など特定分野では既に「Level 4～5」の事例も存在する一方、二足歩行や高度なマニピュレーション、ヒューマンロボットインタラクションなどでは、まだ研究段階に留まる。今後は、サンプル効率、安全性、長期タスクへの対応、一般化能力などが主な研究課題となる。DRLがロボットの高次タスクにまで広範に活用され、実世界で大きなインパクトを与えるには、これらの課題に取り組むことが不可欠である。

4.4.2 短いホライズンのインタラクティブタスク 4.4.3 長いホライズンのインタラクティブタスク 4.5 ヒューマンロボットインタラクション（HRI）について全文を日本語訳してください

以下では、ユーザーからご指定のあった「4.4.2 短いホライズンのインタラクティブタスク」「4.4.3 長いホライズンのインタラクティブタスク」「4.5 ヒューマンロボットインタラクション（HRI）」の原文を日本語訳した全文を掲載します。原文は Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes の論文本文に対応する箇所になります。翻訳の出典箇所は文中で引用します。 --- ### 4.4.2 短いホライズンのインタラクティブタスク (原文出典: citeturn2file0) 短いホライズンのインタラクティブタスクは、多くの場合、メモリやプランニング機能をほとんど必要としない、特定のセンサモータスキルの学習に焦点を当てる。多くの研究が、以下のような短いホライズンのタスクにDRLを適用してきた: 把持(160, 161, 159)、ボールキック(162, 158)、衝突のない目標追跡(163, 164, 165)、インタラクティブなナビゲーション(166)、ドア開け(167, 168) citeturn2file0。特筆すべきは、Jiら(158)が分階層型RLを用いてサッカーボールをキックするスキルを学習した例であり、高レベルのポリシーが望みのエンドエフェクタ軌道を生成し、それを低レベルのポリシーが実行する citeturn2file0。Huら(163)は、行動空間を分解することで低分散なポリシー勾配更新を導出し、学習効率を向上させている citeturn2file0。Chengら(169)は、シミュレーション上で四足歩行ロボットに対して移動（ロコモーション）と物体操作のスキルをそれぞれ学習させ、ビヘイビアツリーで複数スキルを連鎖させるアプローチをとった citeturn2file0。Jiら(162)は、全身を使ったドリブルポリシーをシミュレーションで学習し、視覚入力とシミュレーションパラメータの大規模ランダム化を用いてゼロショットで実機に転移している citeturn2file0。Liuら(159)は、階層型RLと教師・生徒のディスティレーション手法を組み合わせて把持ポリシーを学習し、状態ベースの教師ポリシーから画像ベースの生徒ポリシーへと知識を蒸留する citeturn2file0。インタラクティブなタスクでは、ロボットが周囲環境をセンサで観測したうえで意思決定を行う必要があるため、高次元の観測（カメラ画像やLiDARなど）を入力とする場合が多い(表2参照) citeturn2file0。一方で、これらのタスクは接触力や可動物体の運動など、モデル化が難しいダイナミクスを伴うことが多く、従来手法やモデルベースRLよりも、モデルフリーRLのほうが魅力的な選択肢になりうる(表4参照) citeturn2file0。 --- ### 4.4.3 長いホライズンのインタラクティブタスク (原文出典: citeturn2file0) オフィス(170)や家庭、キッチン(171)などの非構造的な環境でモバイルマニピュレータを活用するには、長いホライズン（遠い将来まで見据えた）タスクと強い部分観測への対応が求められる。しかし、エンドツーエンドRLは、状態行動空間内で成功戦略を見つける探索が難しく、大量のサンプルを必要とするため、長いホライズンタスクでは苦戦しがちである citeturn2file0。さらに、部分観測もDRLにとっては課題であり、観測履歴をエンコードできる複雑なネットワーク構造（例：RNNやLSTM）や、マッピングや3次元再構成などの手法を用いて観測を集約・環境をモデル化する仕組みが必要となる citeturn2file0。この問題への対処法として、エキスパートのデモやシミュレーションデータを活用して学習をブートストラップする方法が挙げられる。たとえば、Herzogら(170)は、ゴミの仕分けタスクにおいてシミュレーションデータとスクリプトポリシーを組み合わせ、オフポリシーRLの学習速度を高めている citeturn2file0。あるいは、Wuら(171)や(157)に見られるように、短いホライズンのインタラクティブスキルを順次チェーンしていく、いわゆる分割統治法（プランニングや階層型RL）も有望な方向性である citeturn2file0。総じて、DRLを用いて長いホライズンのインタラクティブタスクを解くのは未開拓かつ課題が多い領域であるが、本質的に家庭用ロボットや対人支援ロボットを「真に有用」にするために不可欠なテーマでもある citeturn2file0。 --- ### 4.5 ヒューマンロボットインタラクション（HRI） (原文出典: citeturn2file3, citeturn2file4, citeturn2file5, citeturn2file6, citeturn2file7, citeturn2file8, citeturn2file9, citeturn2file10) 本小節では、ヒトとともに、あるいはヒトのために使用されるロボットシステムを対象とし、タスク実行の過程でヒトとやり取りを行う「ヒューマンロボットインタラクション（HRI）」にDRLが適用された事例を扱う citeturn2file3。HRIタスクは、目的が多様であったりロボットの形態が異なる場合があるが、ヒトが関わることで、安全性、解釈可能性、人間モデル化といった課題が共通して生じる点で、他の分野のロボットタスクとは異なる性質を持つ citeturn2file3。なお、ここでは「訓練中にのみヒトが関わる」ケースではなく、「ロボットがタスク実行中にヒトと相互作用する」能力が必要とされるシステムを扱う。 HRIのタスクは大きく以下の3種類に分けられる: 1) **協調的な物理HRI (collaborative pHRI)**: ロボットとヒトが同じ目標に対して物理的にコラボレーションする。 2) **非協調的な物理HRI (non-collaborative pHRI)**: ロボットとヒトが同じ空間を共有しているが、異なる目的を持つ。 3) **共有制御 (Shared Autonomy)**: テレオペレータとしてのヒトの指示を、ロボットが自律的に解釈して実行する。以下でこれらの3種類の手法を概観する。図6に、本節で取り上げる論文を示す。 #### 4.5.1 協調的物理HRI (Collaborative pHRI) (原文出典: citeturn2file3, citeturn2file4, citeturn2file5) もっとも直観的なHRIの例として、サービスロボットが家事を手伝うように、ロボットとヒトが物理的に協調して共通の目標を達成する場合が挙げられる citeturn2file3。たとえば、Ghadirzadehら(172)は、人間作業者の包装時間を短縮するため、リカレントQ学習とビヘイビアツリーを組み合わせる手法を提案した citeturn2file3。Christenら(173, 174)は、ヒトがロボットに物体を手渡す動作を、シミュレーション上で学習したヒトのハンドオーバーポリシーとロボットの把持ポリシーを組み合わせる形で実現している citeturn2file3。協調的pHRIの研究例は、いずれも「事前収集データからヒトのモデルを学習し、それを用いてシミュレーションでロボットのポリシーを学習する」流れをとることが多い。これは、協調タスクでは実機でのオンライン相互作用データを集めるのに常にヒトの注意や物理的応答が必要となり、コストが高いからだと推測される citeturn2file3。 #### 4.5.2 非協調的物理HRI (Non-collaborative pHRI) (原文出典: citeturn2file3, citeturn2file4, citeturn2file5, citeturn2file7, citeturn2file8) 非協調的pHRIでは、同じ空間をロボットとヒトが共有するが、それぞれ異なる目的を持つ。代表例として「社会的ナビゲーション」がある。これはロボットが人混みを動き回る際に、社会的ルールや衝突回避を満たすように行動するタスクである citeturn2file3。たとえば、Chenら(175)はソーシャルナビゲーション用に手作業で設計した報酬を用いてシミュレーション学習し、そのポリシーを実機の廊下にゼロショット転移した citeturn2file7。Everettら(176)は、LSTMを使ってヒトの動作履歴を考慮できるようにし、Chenらの研究を発展させた citeturn2file7。Liangら(177)は高精度なヒト動作シミュレータを構築し、LIDARを入力とするナビゲーションポリシーを学習、シミュレーションからリアルへの確実な転移を示した citeturn2file7。Hiroseら(178)は、実世界でヒトとともに学習を進めるアプローチを取り、オフラインで学習済みのQ関数に対して残差Q関数をオンラインで学習することで、即座に適応的な行動を生成している citeturn2file7。非協調的タスクでは、ヒトがロボットの活動に積極的に干渉しないため、ヒトの振る舞いをハードコード化しやすかったり(175, 176, 177)、あるいは実機でヒトの安全を確保しつつ学習する(178)こともできるため、社会的ナビゲーションの実機事例がいくつか出てきている citeturn2file7。また、Liuら(179)は、ロボットがヒトとの衝突を回避しながらマニピュレーションするタスクで、行動空間変換を行って安全な探索を可能にする手法を提案した citeturn2file7。 #### 4.5.3 共有制御 (Shared Autonomy) (原文出典: citeturn2file3, citeturn2file4, citeturn2file5, citeturn2file6, citeturn2file10) 共有制御は、ヒトとロボットが物理的に接触するわけではなく、キーボード操作や言語コマンドといった人間の指示に基づいてタスクを遂行するHRIのパラダイムを指す citeturn2file3。この設定では、ロボットがヒトの入力を条件としつつ、外部タスク報酬や制約を最適化しながら動作を生成するようにRLで学習できる。たとえばReddyら(182)は、クアッドローターの着地タスク（パーチング）において、タスク報酬に基づくQ関数を学習し、ロボットがユーザ入力に近い行動を選択しつつ、あらかじめ設定したタスク価値の閾値を下回らないように動作を保証する手法を示した citeturn2file10。Schaffら(183)は、シミュレーション上のクアッドローター制御を制約付き最適化問題とみなし、人間の入力ポリシーを最小限に修正しつつタスク不変な制約を満たす残差RLポリシーを学習する手法を提案した citeturn2file10。近年の自然言語処理の発展により、自然言語での指示に対応する共有制御の可能性も広がっている。たとえば、Nairら(181)はテーブルトップ操作の言語条件付きポリシーをモデルベースRLで学習し、手作業で付与した言語指示のラベル付きデータセットを活用した例を示した citeturn2file10。 #### 4.5.4 HRI分野における動向と今後の課題 (原文出典: citeturn2file10) 家庭用ロボットなどの実用を考えるとHRIは重要なテーマだが、ロコモーションやマニピュレーションと比べると、HRIにおけるDRLの成功事例はまだ限られる citeturn2file10。HRIにRLを適用する際の主な課題のひとつは、人間や人間的な事前知識をトレーニングプロセスにどう組み込むか、という点にある。人間の行動は必ずしもマルコフ的ではなく、合理的でもなく、データ収集のコストも高いからである citeturn2file10。既存の研究はこの課題を主に3つの方法で対処している。一つは、実際の環境でヒトと一緒にポリシーを学習する直接的なアプローチだが、実世界データ収集のコストや安全性の問題があり、シンプルなタスク(180)に限られたり(178のように)事前学習を活用する必要がある citeturn2file10。二つ目は、人間を模擬するモデルを作り、シミュレーションで学習する方法であり、共有制御(182, 183)のように比較的モデリングが簡単なドメインで使われる傾向がある citeturn2file10。三つ目は、人間の行動が単純なら、ドメイン知識でハードコードしてしまうアプローチ(175, 176, 177)で、これはスケーラビリティに難があるものの、事前学習用のデータソースとしては有用である citeturn2file10。今後の発展に向け、1) 人間行動モデルなどを活用した安全かつサンプル効率の高いRLアルゴリズムにより、実世界で直接学習を可能にすること、2) 高精度の人間行動シミュレータを用いてゼロショットで実世界へ転移する方法の確立、が鍵になるだろう citeturn2file10。 - 主なポイントまとめ: - ロコモーションやマニピュレーションと比べ、HRIにおけるDRLの成功事例はまだ限られる。とくに物理的に人とコラボレーションするようなタスクは難易度が高い。 - 現実的なヒトとのインタラクションデータを集めることが難しいため、実機での直接学習または高精度な人間モデルを構築してシミュレーション学習する2つのアプローチが探られている。 - シンプルなタスクでの成果はあるが、より難易度の高いタスクへスケールする方法は依然不透明である。 --- 以上が、「4.4.2 短いホライズンのインタラクティブタスク」「4.4.3 長いホライズンのインタラクティブタスク」「4.5 ヒューマンロボットインタラクション（HRI）」の論文本文に相当する内容の全文和訳です。翻訳中で言及している文献番号は原文準拠で示してあります。

【管理人の独り言】

【管理人メルマガ】副業でも稼げるヒミツ

【管理人メルマガの宣伝　終わり】