一篇持续强化学习技术最新综述


一篇持续强化学习技术最新综述

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

强化学习(RL)是一种用于解决序列决策问题的重要机器学习范式,然而,RL依赖于大量的训练数据和计算资源,跨任务泛化能力方面的局限性。随着持续学习(CL)的兴起,持续强化学习(CRL)作为一种有前景的研究方向应运而生,旨在通过使智能体能够持续学习、适应新任务并保留先前获得的知识,来解决这些局限性。
文章对CRL进行了全面的考察,重点关注其核心概念、挑战和方法,提出了一种新的CRL方法分类体系,从知识存储和/或转移的角度将它们分为四种类型。
CRL的定义:CRL是强化学习(RL)的扩展,强调智能体在动态、多任务环境中持续学习、适应和保留知识的能力。
与传统RL的区别:传统RL通常专注于单一任务,而CRL强调在任务序列中保持和提升泛化能力。
与多任务RL(MTRL)和迁移RL(TRL)的关系:
MTRL:同时处理多个任务,任务集固定且已知。
TRL:将知识从源任务迁移到目标任务,加速目标任务的学习。
CRL:任务通常按顺序到达,环境持续变化,目标是积累知识并快速适应新任务。
CRL面临的主要挑战:在可塑性(plasticity)、稳定性(stability)和可扩展性(scalability)之间实现三角平衡。
稳定性:避免灾难性遗忘,保持对旧任务的性能。
可塑性:学习新任务的能力,以及利用先前知识提高新任务性能的能力。
可扩展性:在资源有限的情况下学习多个任务的能力。
传统RL的度量:通常使用累积奖励或成功率来衡量智能体的性能。
CRL的度量:
平均性能(AveragePerformance):智能体在所有已学习任务上的整体性能。
遗忘(Forgetting):智能体在后续训练后对旧任务性能的下降程度。
转移(Transfer):智能体利用先前任务知识提高未来任务性能的能力,包括前向转移和后向转移。
导航任务:在二维状态空间中使用离散动作集,智能体探索未知环境以到达目标。
控制任务:涉及三维状态空间和离散动作集,智能体使用控制命令达到特定目标状态。
视频游戏:状态空间通常为图像,动作为离散,智能体执行复杂控制以实现目标。
CRL基准测试:如CRLMaze、LifelongHanabi、ContinualWorld等,这些基准测试在任务数量、任务序列长度和观察类型等方面有所不同。
CRL场景分类:
终身适应(LifelongAdaptation):智能体在任务序列上训练,仅在新任务上评估性能。
非平稳性学习(Non-StationarityLearning):任务在奖励函数或转移函数上有所不同,智能体在所有任务上评估性能。
任务增量学习(TaskIncrementalLearning):任务在奖励和转移函数上显著不同,智能体在所有任务上评估性能。
任务无关学习(Task-AgnosticLearning):智能体在没有任务标签或身份的情况下训练,需要推断任务变化。

这是最主流的一类方法,强调对策略函数或价值函数的存储与复用,分为三个子类:
保留并重用先前任务的完整策略。
常见做法:使用旧策略初始化新策略(如MAXQINIT、ClonEx-SAC)。
高级方法:使用任务组合(如布尔代数)实现零样本泛化(如SOPGOL)。
可扩展性较差,但知识迁移能力强。
将策略分解为共享组件和任务特定组件。
方法包括:
因子分解(如PG-ELLA、LPG-FTW)
多头网络(如OWL、DaCoRL)
模块化结构(如SANE、CompoNet)
层次化结构(如H-DRLN、HLifeRL、MPHRL)
优点:结构清晰、可扩展性强、适合复杂任务。
将多个策略合并为一个模型,节省存储资源。
技术手段包括:
蒸馏(如P&C、DisCoRL)
超网络(如HN-PPO)
掩码(如MASKBLC)
正则化(如EWC、Online-EWC、TRAC)
优点:节省内存、适合资源受限场景。
强调对历史经验的存储与复用,类似于经验回放机制,分为两类:
使用经验缓冲区保存旧任务数据(如CLEAR、CoMPS、3RL)。
优点:简单有效,适合任务边界明确的场景。
缺点:内存消耗大,存在隐私风险。
使用生成模型(如VAE、GAN)合成旧任务经验(如RePR、SLER、S-TRIGGER)。
优点:节省内存,适合任务边界模糊或资源受限场景。
缺点:生成质量影响性能。
通过建模环境动态(状态转移函数)来适应非平稳环境,分为两类:
显式学习环境转移函数(如MOLe、LLIRL、HyperCRL)。
优点:适合需要长期规划的任务。
缺点:建模复杂,计算开销大。
使用潜变量或抽象表示推断环境变化(如LILAC、3RL、Continual-Dreamer)。
优点:更灵活,适合任务边界不明确或动态变化的环境。
常与内在奖励机制结合使用。
通过修改或重塑奖励函数来促进知识迁移和探索,常见方法包括:
奖励塑形(RewardShaping):如SR-LLRL、基于时序逻辑的塑形方法。
内在奖励(IntrinsicRewards):如IML、ReactiveExploration,通过好奇心驱动探索。
逆强化学习(IRL):如ELIRL,从专家演示中学习奖励函数。
大模型辅助奖励设计:如MT-Core,使用大语言模型生成任务相关的内在奖励。
https ://arxiv. org/pdf/2506. 21872ASurveyofContinualReinforcementLearning
推荐阅读
•动手设计AIAgents:(编排、记忆、插件、workflow、协作)
•DeepSeekR1+Agent的下半场
•单智能体(Agent):企业员工AI助理
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1. 2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录