| panda-gym: Open-Source Goal-conditioned Environments for Robotic LearningQuentin Gallouédec et al., 2021 (E. Centrale de Lyon) |
マルチゴール深層強化学習(オフポリシーRL、HER対応) |
把持・操作タスク(到達、押出し、スライド移動、把持配置、積み上げ) |
PyBullet (OpenAI Gym統合環境) |
Panda向けの5種のマルチ目標タスク環境を公開し、最新モデルフリーRL手法のベースライン性能を提示。オープンソース環境として研究の再現性向上に貢献。 |
| Open-Source RL Environments in MuJoCo with Franka ManipulatorZichun Xu et al., 2023 (HIT, China) |
マルチゴール強化学習(DDPG, SAC, TQCによる検証) |
把持・操作タスク(押出し、スライド移動、把持配置) |
MuJoCo (Gymnasium Robotics API) |
Pandaの3種タスクをMuJoCo上に実装し公開。高忠実度の接触シミュレーション環境を提供し、オフポリシーRLで学習可能なことを検証(各タスクでベンチマーク結果提示)。 |
| Synchronous vs Asynchronous RL in a Real RobotAli Parsaee et al., 2023 (U. Alberta) |
オンポリシーRL (A3C/A2C) の実機実行方式比較 |
視覚フィードバックに基づくエンドエフェクタ位置あわせ(ターゲット到達タスク) |
実機 (Panda腕+Webカメラ、BeanBag標的) |
同期型vs非同期型RLを実機Pandaで比較検証。非同期型RLエージェントは学習が速く累積報酬も有意に向上。環境変化が速い実時間制御で、非同期処理により応答遅れを低減し性能向上を実証。 |
| Revisiting Constant Negative Rewards for Goal-Reaching TasksGautham Vasan et al., 2024 (U. Alberta/Amii) |
強化学習の報酬設計比較(スパース報酬:毎時刻定値負 vs 密報酬) |
ゴール到達タスク(物体把持や目標位置到達など)※Franka実機含む視覚到達 |
実機 (Pandaほか計4種ロボット; ReLoDリアルタイム学習) |
最終目標到達まで定常負報酬のみ与える最小時間定式化が、密報酬より高品質な方策を学習し得ると示唆。実機Panda等で画象ベースの方策を2~3時間でゼロから学習可能と報告。初期方策の目標到達率が学習成功の早期指標となることも示した。 |
| Minimizing Human Assistance: Augmenting a Single Demonstration for Deep RLAbraham George et al., 2023 (CMU) |
デモ+強化学習(DDPG+HERに人間デモ拡張を統合) |
ブロック操作タスク(押す・把持配置・ブロック二段積み)※VRテレオペによる単一デモ入力 |
PyBullet (PandaGymタスク, VR収集デモ) |
単一の人間デモから生成した擬似デモをリプレイバッファに追加し学習を促進。Pick&Placeタスクで学習時間を1/4以下に短縮(80%成功到達まで)し、従来RL単体では解けなかったブロック積み上げも解決。VRデモは数分で取得可能で、多少質が低くても性能向上を確認。 |
| RL for Robotic Rock Grasp in Off-Earth Env.Anton B. Andersen et al., 2022 (Aalborg Univ.) |
深層強化学習(PPO)+ドメインランダム化 |
岩石サンプルの6-DoF把持(火星地形上の不定形物体の把持回収) |
Isaac Gym (並列高速シミュレータ) |
Isaac Gym上で並列学習し、91.5%の成功率でランダム形状岩を把持可能に。地形・物体形状の大規模ランダム化でロバストな方策獲得に成功し、将来の実機移行に向け有望と報告(通信遅延が大きい惑星探査で自律把持を目指す)。 |
| Simulated and Real Robotic Reach, Grasp, Pick-and-Place (RL+Trad)Andrew Lobbezoo et al., 2023 (U. Waterloo) |
強化学習(PPO, SAC)+従来制御のハイブリッド |
基本操作タスク(物体への到達・把持・配置)※シミュレーションで学習し実機検証 |
PyBullet (シミュレーション)+実機 (Panda, ROS/FCI) |
シミュレータ上で学習したRLエージェントをMoveIt/ROS経由でPanda実機に適用し、到達・把持タスクへの適用可能性を検証。安全のため段階的動作制御を導入し、実環境でRL制御が機能することを実証。工場のピック&プレース自動化に向けたRL適用の有望性を示す結果となった。 |
| Lifelong Robotic RL by Retaining ExperiencesAnnie Xie et al., 2022 (Stanford Univ.) |
マルチタスク終身学習(逐次タスク経験リプレイ活用) |
連続タスク学習(ボトル蓋締め、ブロック挿入など異なる10タスクを順次学習) |
シミュレーション+実機 (Panda) |
タスク間のデータ・方策再利用により、一つ一つのタスクを独立学習するより必要サンプル数を半分以下に削減。実機Panda上でもボトル蓋締めやブロック挿入等10種のスキルを逐次習得し、学習の蓄積によるスキル拡張を実証。 |
| Goal-Conditioned RL in Human-Robot DisassemblyÍñigo Elguea-Aguinaco et al., 2022 (Mondragon Univ.) |
ゴール条件付き深層強化学習(アクタ critic系3手法評価) |
協働分解作業(人と共有空間での部品引き抜き、衝突回避付き) |
シミュレーション+実機 (Panda 他1機種) |
ペグ部品の抜去作業において、学習方策を人の位置に応じ動的変更することで、静止障害物ありで94%、人が動く動的環境下で92%の高成功率を達成。リアルタイム衝突回避を実現し作業中一度も人との衝突なしと報告。学習ポリシーを遅延少ない独自フレームワークで実機に直結展開し、HRI安全性と汎用性を示した。 |