一篇持续强化学习技术最新综述

发布日期: 2025-07-09

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

强化学习（RL）是一种用于解决序列决策问题的重要机器学习范式，然而，RL依赖于大量的训练数据和计算资源，跨任务泛化能力方面的局限性。随着持续学习（CL）的兴起，持续强化学习（CRL）作为一种有前景的研究方向应运而生，旨在通过使智能体能够持续学习、适应新任务并保留先前获得的知识，来解决这些局限性。
文章对CRL进行了全面的考察，重点关注其核心概念、挑战和方法，提出了一种新的CRL方法分类体系，从知识存储和/或转移的角度将它们分为四种类型。
CRL的定义：CRL是强化学习（RL）的扩展，强调智能体在动态、多任务环境中持续学习、适应和保留知识的能力。
与传统RL的区别：传统RL通常专注于单一任务，而CRL强调在任务序列中保持和提升泛化能力。
与多任务RL（MTRL）和迁移RL（TRL）的关系：
MTRL：同时处理多个任务，任务集固定且已知。
TRL：将知识从源任务迁移到目标任务，加速目标任务的学习。
CRL：任务通常按顺序到达，环境持续变化，目标是积累知识并快速适应新任务。
CRL面临的主要挑战：在可塑性（plasticity）、稳定性（stability）和可扩展性（scalability）之间实现三角平衡。
稳定性：避免灾难性遗忘，保持对旧任务的性能。
可塑性：学习新任务的能力，以及利用先前知识提高新任务性能的能力。
可扩展性：在资源有限的情况下学习多个任务的能力。
传统RL的度量：通常使用累积奖励或成功率来衡量智能体的性能。
CRL的度量：
平均性能（AveragePerformance）：智能体在所有已学习任务上的整体性能。
遗忘（Forgetting）：智能体在后续训练后对旧任务性能的下降程度。
转移（Transfer）：智能体利用先前任务知识提高未来任务性能的能力，包括前向转移和后向转移。
导航任务：在二维状态空间中使用离散动作集，智能体探索未知环境以到达目标。
控制任务：涉及三维状态空间和离散动作集，智能体使用控制命令达到特定目标状态。
视频游戏：状态空间通常为图像，动作为离散，智能体执行复杂控制以实现目标。
CRL基准测试：如CRLMaze、LifelongHanabi、ContinualWorld等，这些基准测试在任务数量、任务序列长度和观察类型等方面有所不同。
CRL场景分类：
终身适应（LifelongAdaptation）：智能体在任务序列上训练，仅在新任务上评估性能。
非平稳性学习（Non-StationarityLearning）：任务在奖励函数或转移函数上有所不同，智能体在所有任务上评估性能。
任务增量学习（TaskIncrementalLearning）：任务在奖励和转移函数上显著不同，智能体在所有任务上评估性能。
任务无关学习（Task-AgnosticLearning）：智能体在没有任务标签或身份的情况下训练，需要推断任务变化。

这是最主流的一类方法，强调对策略函数或价值函数的存储与复用，分为三个子类：
保留并重用先前任务的完整策略。
常见做法：使用旧策略初始化新策略（如MAXQINIT、ClonEx-SAC）。
高级方法：使用任务组合（如布尔代数）实现零样本泛化（如SOPGOL）。
可扩展性较差，但知识迁移能力强。
将策略分解为共享组件和任务特定组件。
方法包括：
因子分解（如PG-ELLA、LPG-FTW）
多头网络（如OWL、DaCoRL）
模块化结构（如SANE、CompoNet）
层次化结构（如H-DRLN、HLifeRL、MPHRL）
优点：结构清晰、可扩展性强、适合复杂任务。
将多个策略合并为一个模型，节省存储资源。
技术手段包括：
蒸馏（如P&C、DisCoRL）
超网络（如HN-PPO）
掩码（如MASKBLC）
正则化（如EWC、Online-EWC、TRAC）
优点：节省内存、适合资源受限场景。
强调对历史经验的存储与复用，类似于经验回放机制，分为两类：
使用经验缓冲区保存旧任务数据（如CLEAR、CoMPS、3RL）。
优点：简单有效，适合任务边界明确的场景。
缺点：内存消耗大，存在隐私风险。
使用生成模型（如VAE、GAN）合成旧任务经验（如RePR、SLER、S-TRIGGER）。
优点：节省内存，适合任务边界模糊或资源受限场景。
缺点：生成质量影响性能。
通过建模环境动态（状态转移函数）来适应非平稳环境，分为两类：
显式学习环境转移函数（如MOLe、LLIRL、HyperCRL）。
优点：适合需要长期规划的任务。
缺点：建模复杂，计算开销大。
使用潜变量或抽象表示推断环境变化（如LILAC、3RL、Continual-Dreamer）。
优点：更灵活，适合任务边界不明确或动态变化的环境。
常与内在奖励机制结合使用。
通过修改或重塑奖励函数来促进知识迁移和探索，常见方法包括：
奖励塑形（RewardShaping）：如SR-LLRL、基于时序逻辑的塑形方法。
内在奖励（IntrinsicRewards）：如IML、ReactiveExploration，通过好奇心驱动探索。
逆强化学习（IRL）：如ELIRL，从专家演示中学习奖励函数。
大模型辅助奖励设计：如MT-Core，使用大语言模型生成任务相关的内在奖励。
https ://arxiv. org/pdf/2506. 21872ASurveyofContinualReinforcementLearning
推荐阅读
•动手设计AIAgents：（编排、记忆、插件、workflow、协作）
•DeepSeekR1+Agent的下半场
•单智能体（Agent）：企业员工AI助理
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解（1. 2万字，20+文献，27张图）
欢迎关注我的公众号“PaperAgent”，每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。