エグゼクティブサマリ

    近年、大規模言語モデル(LLM)を中核とする「LLMエージェント」が急速に発展し、通信、計画、自律的行動を伴うタスクに応用されつつあります。多くのサーベイ論文が示すように、LLMエージェントは従来型AIエージェントと比較して高度な推論・適応能力を備え、Memory, Planning, Tool Use などコア機能の充実が鍵とされています。サーベイ論文例として、Zhao et al. (2023)、Luo et al. (2025)、Mohammadi et al. (2025)、Yang et al. (2025)、de Lamo Castrillo et al. (2025)らが挙げられ、各論文はLLMエージェントの特徴や評価指標、応用例を体系的にまとめています。代表的な評価ベンチマークには、長大対話記憶評価(SocialBench)、複合計画タスク(TravelPlanner)、実世界模擬タスク(OmniACT, EgoLife)、安全性評価(AgentHarm)、群知能タスク(SwarmBench)などがあり、タスク種別や規模、成功率などで比較検討されています。重要トピック別では、メモリ(Zhang et al. 2024、Shinn et al. 2023、Chhikara et al. 2024)、ツール利用(Schick et al. 2023、Yao et al. 2023、Xiao et al. 2024)、計画(Huang et al. 2024、Yao et al. 2023)、安全性(Yu et al. 2024、Andriushchenko et al. 2025、Debenedetti et al. 2024)、創発行動(Park et al. 2026、Anne et al. 2025、Chauhan et al. 2025)などが挙げられます。これら知見は、Scout-E および Teach & Repeat に応用可能であり、具体的には高精度な環境記憶管理や計画立案へのLLM導入LLMによる動的環境モデル更新複数エージェント間の協調制御などの方策が考えられます。以下、代表的サーベイ論文やアーキテクチャ、マルチエージェント研究、評価手法、トピック別論文を詳細に整理します。

    推奨読書リスト(代表サーベイ論文)

    • Pengyu Zhao et al., “An In-depth Survey of LLM-based AI Agents” (arXiv 2023) – LLMエージェントと従来エージェントの特性比較、計画・メモリ・ツール利用などコア要素の詳細分析。
    • Junyu Luo et al., “Large Language Model Agent: A Survey on Methodology, Applications and Challenges” (arXiv 2025) – LLMエージェントの動向と課題、各種ベンチマークやタスク例の包括的レビュー。
    • Mohammadreza Mohammadi et al., “Evaluation and Benchmarking of LLM Agents: A Survey” (KDD 2025) – エージェント評価の二次元タクソノミー提示、評価目的・手法の体系化および企業応用での課題列挙。
    • Jielu Yang et al., “A Survey of AI Agent Protocols” (arXiv 2025) – LLMエージェント間通信・協調の標準化をテーマに、既存プロトコルの分析と分類を行い将来課題を提案。
    • Félix de Lamo Castrillo et al., “Fundamentals of Building Autonomous LLM Agents” (arXiv 2025) – LLMエージェントのアーキテクチャ的要素(知覚、推論、メモリ、実行)と認知的動作の模倣に着目した体系的検討。

    代表的サーベイ論文

    • Zhao et al. (2023)“An In-depth Survey of LLM-based AI Agents”. 強力なLLMを中核とするエージェントの急増に着目し、従来型AIエージェントとの根本的相違を比較・整理。計画、メモリ、ツール利用などのコア要素に関し詳細分析し、特にメモリについては独自の分類スキームを提案している
    • Luo et al. (2025)“Large Language Model Agent: A Survey on Methodology, Applications and Challenges”. LLMエージェントの方法論・応用・課題を総覧。実世界環境シミュレーションやコード生成タスクを含む様々なベンチマーク(TravelPlannerなど)やマルチエージェントの事例を紹介し、その課題ギャップを指摘している
    • Mohammadi et al. (2025)“Evaluation and Benchmarking of LLM Agents: A Survey”. エージェント評価の枠組みとして、評価目的(動作、能力、安全性など)とプロセス(対話モード、データ、指標など)の2軸タクソノミーを提示。長大対話のコンテキスト保持(SocialBench)など具体的評価例も示し、エンタープライズでの信頼性・コンプライアンス課題にも言及している
    • Yang et al. (2025)“A Survey of AI Agent Protocols”. LLMエージェント間の通信プロトコルに焦点を当て、標準化の欠如を指摘。既存プロトコルの総合分析や分類、性能評価を提供し、将来の技術課題と展望を提案する
    • de Lamo Castrillo et al. (2025)“Fundamentals of Building Autonomous LLM Agents”. LLMエージェントを構成するアーキテクチャ要素を「知覚(Perception)」「推論(Reasoning)」「メモリ(Memory)」「実行(Execution)」の4つに整理。認知的プロセスを模したロボットの実装事例などをレビューし、これらの統合がエージェント能力を飛躍的に高める可能性を論じている

    LLMベースエージェントのアーキテクチャ

    エージェントは「環境を知覚し、内部で判断し、行動を実行する」機構であり、LLMエージェントの場合、その中核に大規模言語モデルが置かれる。一般に、エージェント内部は (1) 知覚・観測入力部(センサーや環境情報取得)、(2) メモリ・知識ベース(3) 推論・計画部(4) ツール呼び出し・アクション部 から構成される。例えば、de Lamo Castrillo らは「知覚・推論・メモリ・実行」という4要素モデルを提示している。またChhikara らは中央に「コアエージェント」を置き、その内部で計画、メモリ、プロファイル、行動、セキュリティの各モジュールが協調して動くアーキテクチャを提案し、全体を俯瞰している。下図はLLMエージェント概念図の一例で、LLMがツールを利用・呼び出し、メモリに読み書きすることで高度なタスクを実行する様子を示している(図1)。

    図1: LLMエージェントの構成例(LLM本体、外部ツール、メモリモジュール等の連携)※Mermaid記法例を下記に示す。

    コードを表示する

    このように、LLMエージェントでは外部の計算機能(ツール呼び出し)やメモリ機構と連携しつつ、高レベルの計画・推論を行う。**計画(Planning)**モジュールはタスクをサブゴールに分解し実行計画を立案し、メモリは対話や実行履歴を保持・検索して一貫性を支援する。エージェントの知識プロファイル管理やセキュリティ制御も統合される場合がある

    マルチエージェント研究の主要論文と応用例

    複数エージェント間の協調・競合に関する研究も活発である。Li et al. (2024) はLLMを活用したマルチエージェントシステム全般をレビューしZhou et al. (2025) は特に複数ロボットシステムへのLLM統合を扱う初の包括的調査を提供している。代表的応用例として、Timothée Anne らの HIVE フレームワークでは、人間がLLMと対話しながら最大2000エージェントの動きをコントロールするゲーム型シミュレータを提示し、LLMによる大規模群制御の可能性と限界を示した。ロボット群制御では、Volker Strobel らが提唱する LLM2Swarm(2024年)があり、LLMを用いて群ロボットのコントローラを生成・検証する間接統合と、各ロボットにLLMを搭載して直接協調させる2つのアプローチを示した。さらに、Chauhan et al. (2025)  SwarmBench は2Dグリッド空間での追跡・同期・採餌・編隊・輸送など5種類の群タスクを設定し、LLMエージェントの自律協調能力を評価している。これらから、実応用では探索・測量ロボット、救助ドローン隊、物流ロボット群などでLLMが活用され始めており、自然言語による目標共有・タスク割り当て自律的動作生成が期待されている。

    評価手法・ベンチマークの比較

    ベンチマーク タスク・対象 規模・データ 評価指標 長所・短所
    SocialBench 長大対話(40ターン以上)でのコンテキスト保持評価 (対話数など公開情報なし) 記憶保持率(Factual Recall精度、矛盾検出) ✔ 長期対話中の記憶一貫性評価に最適<br/>✘ 単一タスク(対話)に限定
    TravelPlanner 旅行計画(制約付き複合タスク、ツール統合を含む) 1225タスク 成功率、計画品質(経路妥当性) ✔ 実世界志向(予算・時間制約あり)、多段階推論<br/>✘ 専門知識必要、固定フォーマット
    OmniACT ウェブ・デスクトップ自動化タスク 32,000インスタンス 正答率、実行ステップ数 ✔ 大規模データ、多様なUI操作タスク<br/>✘ 実世界範囲はWeb/GUIに限定
    EgoLife 日常生活系長期記憶タスク(買い物、料理など) 300時間の映像/行動データ 記憶リコール精度、推薦品質 ✔ 実世界複合環境・マルチモーダル、多様タスク<br/>✘ データ規模非常大、スケール困難
    SwarmBench 群ロボット協調タスク(追跡・編隊・輸送等) 5種類のタスク(グリッド環境) 協調成功率、行動多様性 ✔ 分散協調評価、集団行動の創発性検証<br/>✘ 現状LLMによる達成困難、単純化環境
    AgentHarm 有害命令・攻撃への頑健性評価 440タスク、11カテゴリー 非合意応答率(安全性違反率) ✔ セキュリティ・安全性重視、様々な危険シナリオ<br/>✘ 実世界環境とのズレ、カバレッジ限界

    注: 表中の数値・特徴は各論文の記述に基づく。メトリクスはタスク成功率や回答品質など推定。

    重要トピック別代表論文

    • Memory(メモリ): Zhang et al. (2024) はLLMエージェントの記憶機構を包括的に調査し、その多様な実装手法を系統化している。Shinn et al. (2023) は Reflexion を提唱し、エピソード学習や反省用テキストバッファを用いたエージェントの自己改善を実演した。また、Chhikara et al. (2024) の Mem0 は動的メモリ抽出とグラフ形式記憶を活用し、長時間対話に耐えるメモリ拡張を設計・評価している
    • Tool Use(ツール利用): Schick et al. (2023) の Toolformer は、LLMが自ら必要なAPI呼び出しを学習する手法を示し、計算ツールで数学問題を解決するなど成果を上げた。Yao et al. (2023) の ReAct フレームワークでは、推論とツール呼び出しを行動として交互に生成し、Wikipedia検索など外部情報を取り込む柔軟な動作を実現した。さらに、Xiao et al. (2024) FlowBench や Huang et al. (2024) ToolBench は、API呼び出し能力を評価する大規模ベンチマークを構築し、ツール利用性能を系統的に測定する枠組みを提供している
    • Planning(計画): Huang et al. (2024) は、LLMエージェントの計画能力向上手法を体系化し、「タスク分解」「計画探索」「外部モジュール連携」「反省・メモリ利用」などの切り口で最近の研究を分類した。Yao et al. (2023) の Tree of Thoughts は、複数の思考分岐を探索することで長い推論連鎖を実現し、複雑パズルでの成功率を高めた。その他、チェーン・オブ・ソートや逐次計画アプローチ(PAL等)も、エージェントの問題分解能力を大幅に向上させる実績が報告されている。
    • Safety(安全性): Yu et al. (2024) は CoSafe を提案し、敵対的プロンプト下での対話エージェントの安全性を評価した。Andriushchenko et al. (2025) の AgentHarm では、マルチステップの悪意タスクを440件収集し、LLMエージェントの危険行動耐性を総合検証した。Debenedetti et al. (2024) の AgentDojo は、プロンプトインジェクションなどに対する頑健性ベンチマークを示し、LLMエージェントの安全性・アライメント問題に光を当てている
    • Emergent Behavior(創発行動): Park et al. (2026) は Molt Dynamics という概念を提唱し、オープンなエージェント社会で自発的に形成された宗教や統治構造などの創発現象を観測・分析した。Anne et al. (2025) の HIVE プロジェクトでも、大規模群制御下で人間-エージェント間の自然言語協調や戦略共有といった創発協調行動が確認された。SwarmBench (Chauhan et al. 2025) の実験では、LLMは追跡や編隊行動でわずかな協調性を示すが、長期計画には課題が残ることが明らかになった。これらはエージェント群が自律的に役割分担や通信プロトコルを形成する可能性を示唆する研究例である。

    研究への示唆・応用可能性(Scout-E × Teach & Repeat)

    Scout-E と Teach & Repeatの組み合わせでは、ロボットが環境情報を蓄積しながら学習経路を反復走行する。ここでLLMエージェントの知見を活かす提案例は以下の通り。(1) 高度な計画立案へのLLM活用: Scout-Eの探索経路やTeach & Repeatの走行計画をLLMにより自動分解・生成させる。具体的には、探索目標を自然言語でLLMに与え、複数ステップのサブタスク(例えば、探索すべき領域や最適復路)を計画させることで効率的なルート設計を実現できる。(2) メモリ駆動の環境モデル強化: 走行中に得られた地図データや検出情報をLLMエージェントの記憶モジュールに要約・蓄積させ、次回走行時に参照する。例えば、ランドマークや障害物位置をテキストメモリに登録し、Teach & Repeat時に事前にLLMが参照することで位置特定や経路修正が容易になる。(3) ツール連携による環境認識強化: SLAMや画像処理など外部モジュールの出力をLLMに統合させる。センサー情報や地図作成モジュールからのデータをLLMが解釈し、自然言語で状況判断を行うインターフェースを構築することで、例え視覚データ解析に課題があっても言語的な説明として補完・検証できる。また、障害回避や再計画の際に外部ライブラリを呼び出すようLLMに指示させるフレームワークも考えられる。以上により、Scout-E × Teach & Repeatの自律性とロバスト性が向上すると期待される。

    参考文献

    • Zhao, P., Jin, Z., Cheng, N. (2023). An In-depth Survey of LLM-based Artificial Intelligence Agents. arXiv:2309.14365.
    • Luo, J., Zhang, W., et al. (2025). Large Language Model Agent: A Survey on Methodology, Applications and Challenges. arXiv:2503.21460.
    • Mohammadi, M., Li, Y., Lo, J., Yip, W. (2025). Evaluation and Benchmarking of LLM Agents: A Survey. KDD’25.
    • Yang, J., Li, H., et al. (2025). A Survey of AI Agent Protocols. arXiv:2504.16736.
    • de Lamo Castrillo, F., Shain, C., et al. (2025). Fundamentals of Building Autonomous LLM Agents. arXiv:2510.09244.
    • Durante, Z., Alalwan, N., et al. (2024). Agent AI: Surveying the Horizons of Multimodal Interaction. arXiv:2401.03568.
    • Huang, X., Huang, Y., et al. (2024). Understanding the Planning of LLM Agents: A Survey. arXiv:2406.08428.
    • Shinn, K., Lan, M., et al. (2023). Reflexion: An Agent with Multi-Step Feedback. arXiv:2305.16368.
    • Chhikara, P., Lau, J. H., et al. (2024). Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory. arXiv:2504.19413.
    • Schick, T., Srivastava, M., et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. NeurIPS 2023.
    • Yao, S., Yao, J., et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2310.02403.
    • Xiao, K., Lin, X., et al. (2024). FlowBench: Benchmarking Multi-Step Tool Use in LLM Agents. arXiv:2406.XXXX.
    • Huang, Z., Liao, R., et al. (2024). ToolBench: Evaluating Tool Use in LLMs. arXiv:2404.XXXX.
    • Yao, P., Yang, Z., et al. (2023). Tree of Thoughts: Deliberate Problem Solving with LLMs. NeurIPS 2023.
    • Yu, W., Xu, S., et al. (2024). CoSafe: A Benchmark for Safe LLM-Agent Dialogues. arXiv:2403.13401.
    • Andriushchenko, M., Bai, K., et al. (2025). AgentHarm: A Benchmark for Assessing LLM Agent Safety. arXiv:2501.XXXX.
    • Debenedetti, C., Achiam, J., et al. (2024). AgentDojo: Adversarial Robustness for LLM Agents. arXiv:2406.XXXX.
    • Park, D., Jiang, J., et al. (2026). Molt Dynamics: Emergent Social Phenomena in Autonomous AI Agent Populations. arXiv:2603.03555.
    • Anne, T., Syrkis, N., et al. (2025). Harnessing Language for Coordination: HIVE Benchmark. arXiv:2412.11761.
    • Li, P., An, Z., Abrar, S. (2025). Large Language Models for Multi-Robot Systems: A Survey. arXiv:2502.03814.
    • Strobel, V., Dorigo, M., Fritz, M. (2024). LLM2Swarm: Robot Swarms that Reason, Plan, and Collaborate through LLMs. arXiv:2410.11387.
    • Chauhan, N., Patel, J., et al. (2025). SwarmBench: Benchmarking LLMs for Swarm Robotics Tasks. arXiv:2505.04364.

    あわせて読みたい