本周大模型新动向:知识蒸馏、超强智能体、推理行为分化


本周大模型新动向:知识蒸馏、超强智能体、推理行为分化

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

点击蓝字
关注我们
AITIME欢迎每一位AI爱好者的加入!
01
Robo-DM:DataManagementForLargeRobotDatasets
近期的研究结果表明,使用大规模的远程操作机器人演示数据集可以训练基于Transformer的模型,这些模型有潜力泛化到新的场景、机器人和任务中。然而,整理、分发和加载包含视频、文本和数值模态(包括多个摄像头的流)的大型机器人轨迹数据集仍然具有挑战性。本文提出了Robo-DM,这是一个高效的开源云基数据管理工具包,用于收集、共享和学习机器人数据。Robo-DM使用可扩展二进制元语言(EBML)将机器人数据集以自包含格式存储,与OXE数据集使用的RLDS格式相比,Robo-DM的压缩可以节省高达70倍(有损)和3. 5倍(无损)的空间。此外,Robo-DM通过使用内存映射解码缓存进行视频解码的负载均衡,加速了数据检索。与LeRobot(一个也使用有损视频压缩的框架)相比,Robo-DM在顺序解码时速度高达50倍。本文在物理环境中评估了使用Robo-DM有损压缩训练的模型,在一个抓取和放置任务以及上下文机器人Transformer中,Robo-DM使用了75倍的原始数据集压缩,并且没有降低下游任务的准确性。
文章链接:
https ://arxiv. org/pdf/2505. 15558
02
DeepKD:ADeeplyDecoupledandDenoisedKnowledgeDistillationTrainer
近期知识蒸馏领域的进展强调了对不同知识组件进行解耦的重要性。尽管现有方法利用动量机制分离面向任务和蒸馏的梯度,但它们忽略了目标类别和非目标类别知识流之间固有的冲突。此外,非目标类别中的低置信度暗知识会引入噪声信号,阻碍有效的知识传递。为解决这些局限性,本文提出了DeepKD,这是一个新颖的训练框架,整合了双层解耦和自适应去噪。首先,通过对面向任务和非面向任务的知识蒸馏中梯度信噪比(GSNR)特性的理论分析,设计了每个组件的独立动量更新器,以防止相互干扰。观察到面向任务梯度(TOG)、目标类别梯度(TCG)和非目标类别梯度(NCG)的最佳动量系数应与其GSNR呈正相关。其次,本文引入了动态top-k掩码(DTM)机制,该机制遵循课程学习原则,随着训练的进行,从较小的初始值逐渐增加K,以纳入更多非目标类别。DTM联合过滤来自教师和学生模型的低置信度logits,有效净化早期训练中的暗知识。在CIFAR100、ImageNet和MS-COCO上的广泛实验表明了DeepKD的有效性。
文章链接:
https ://arxiv. org/pdf/2505. 15133
03
AlignmentUnderPressure:TheCaseforInformedAdversariesWhenEvaluatingLLMDefenses
大型语言模型(LLMs)正在迅速应用于从聊天机器人到代理系统的各种实际应用中。对齐是防御诸如提示注入和越狱攻击等攻击的主要方法之一。近期的防御措施报告称,即使面对贪婪坐标梯度(GCG)攻击(一种白盒攻击,通过生成对抗性后缀来诱导攻击者期望的输出),攻击成功率(ASR)也接近零。然而,离散标记上的搜索空间极其庞大,使得找到成功的攻击变得困难。例如,GCG已被证明会收敛到局部最小值,对初始化选择敏感。本文评估了这些防御措施对未来攻击的鲁棒性,采用了一个更知情的威胁模型:能够获取有关对齐过程信息的攻击者。具体而言,本文提出了一种利用中间模型检查点来初始化GCG的知情白盒攻击方法,每个检查点都作为下一个检查点的“垫脚石”。研究表明,这种方法对最先进的防御措施和模型都非常有效。本文还展示了知情初始化优于其他初始化方法,并且基于梯度的检查点选择策略可以显著提高攻击性能和效率。重要的是,本文还展示了该方法能够成功找到通用对抗性后缀——这些后缀对多样化输入都有效。一旦找到这些通用后缀,攻击者就可以运行一系列攻击。结果表明,与之前的看法相反,针对最先进的基于对齐的防御措施,有效的对抗性后缀确实存在,这些后缀可以通过现有攻击方法找到,当攻击者利用对齐知识时,甚至通用后缀也存在。总体而言,这些结果突出了当前基于对齐的方法的脆弱性,以及在测试LLMs的安全性时需要考虑更强的威胁模型。
文章链接:
https ://arxiv. org/pdf/2505. 15738
04

大型语言模型(LLMs)虽然功能强大,但幻觉问题仍然是其可信使用的一个重要障碍。尽管以往的研究通过测量不确定性来提高幻觉检测能力,但它们都无法解释幻觉产生的根源,即输入的哪一部分倾向于触发幻觉。近期关于提示攻击的研究表明,语义传播中存在不确定性,其中注意力机制逐渐将局部标记信息融合为跨层的高级语义。同时,由于基于概率的高级语义选择用于采样生成,语言生成中也出现了不确定性。基于此,本文提出了RePPL,通过这两个方面重新校准不确定性测量,将可解释的不确定性分数分配给每个标记,并以困惑度风格的对数平均形式汇总为总分数。实验表明,该方法在各种问答数据集上的高级模型上实现了最佳的综合检测性能(平均AUC为0. 833),并且能够产生标记级的不确定性分数作为幻觉的解释。利用这些分数,本文初步发现了幻觉的混乱模式,并展示了其有希望的用途。
文章链接:
https ://arxiv. org/abs/2505. 15386
05
Self-GIVE:AssociativeThinkingfromLimitedStructuredKnowledgeforEnhancedLargeLanguageModelReasoning
当需要新信息来解决复杂问题时,人们常常会将问题与现有知识联系起来以得出合理的答案。例如,在评估褪黑素是否有助于治疗失眠时,人们可能会将“帮助精神疾病的激素”与“褪黑素是一种激素,失眠是一种精神疾病”联系起来以完成推理。大型语言模型(LLMs)在解决科学查询时也需要这种联想思维,尤其是当检索到的知识不足且不能直接回答问题时。图启发真实性外推(GIVE)通过使用知识图谱(KG)来外推结构化知识解决了这一问题。然而,它涉及到构建和修剪许多假设性三元组,这限制了效率和泛化能力。本文提出了Self-GIVE,这是一个检索-强化学习框架,通过强化学习增强LLMs的自动联想思维。Self-GIVE提取结构化信息和实体集,帮助模型将查询的概念联系起来。本文解决了GIVE的关键限制:(1)知识外推的大量LLM调用和标记开销;(2)由于复杂指令,在较小的LLM(3B或7B)上部署困难;(3)LLM修剪的不准确知识。具体而言,在使用Self-GIVE对135个节点的UMLS(Li等人,2023)KG进行微调后,它将Qwen2. 53B和7B模型在未见过的样本中的性能提高了28.5%→71. 4%和78. 6→90. 5%,在具有挑战性的生物医学问答任务中。特别是,Self-GIVE允许7B模型匹配或超过GPT3. 5turbo与GIVE的性能,同时将标记使用量减少了90%以上。Self-GIVE增强了结构化检索和推理与联想思维的可扩展集成。
文章链接:
https ://arxiv. org/pdf/2505. 15062
06

模型集成是强化学习(RL)中训练有效智能体的一种有用方法。尽管RL取得了广泛的成功,但由于需要仔细调整的多种因素,如算法选择、超参数设置,甚至是随机种子选择,这些都会显著影响智能体的性能,因此训练有效的智能体仍然具有挑战性。模型集成通过将多个弱智能体组合成一个更强大的智能体来克服这一挑战,从而提高整体性能。然而,现有的集成方法,如多数投票和玻尔兹曼加法,被设计为固定的策略,缺乏对特定任务语义的理解,限制了它们的适应性和有效性。为了解决这一问题,本文提出了LLM-Ens,这是一种新颖的方法,通过大型语言模型(LLMs)驱动的任务特定语义理解来增强RL模型集成。对于一个给定的任务,本文首先设计一个LLM将任务中的状态分类为不同的“情境”,并纳入任务条件的高级描述。然后,本文统计分析每个将用于集成的个体智能体在每个情境中的优势和劣势。在推理时间,LLM-Ens动态识别变化的任务情境,并切换到在当前情境中表现最佳的智能体,确保在演变的任务条件下进行动态模型选择。本文的方法旨在与使用不同随机种子、超参数设置和各种RL算法训练的智能体兼容。在Atari基准测试上的广泛实验表明,LLM-Ens显著改进了RL模型集成,超过了众所周知的基线高达20. 9%。
文章链接:
07
WhenCanLargeReasoningModelsSaveThinking?MechanisticAnalysisofBehavioralDivergenceinReasoning
大型推理模型(LRMs)在复杂任务上的性能取得了显著进展,但其过度思考的倾向引入了效率低下。本研究调查了强化学习(RL)训练的LRMs在被提示节省思考时的内部机制,揭示了三种不同的思考模式:无思考(NT)、显式思考(ET)和隐式思考(IT)。通过对思考终止的信心、从思考到生成的注意力以及对输入部分的注意力焦点进行综合分析,本文揭示了影响推理行为的关键因素。进一步发现,NT以牺牲准确性为代价减少了输出长度,而ET和IT在保持准确性的同时减少了响应长度。本研究的发现暴露了RL优化的LRMs中的基本不一致性,需要进行自适应改进以实现可靠的效率。
文章链接:
https ://arxiv. org/pdf/2505. 15276
本期文章由陈研整理
近期活动分享
ICML2025一作讲者招募中,欢迎新老朋友来预讲会相聚!
关于AITIME
AITIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AITIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击阅读原文查看更多!


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录