ICLR 2025 杰出论文奖揭晓！6篇获奖论文解读

发布日期: 2025-04-23

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

kaggle竞赛宝典
作者：文章摘自夕小瑶的卖萌屋
RAG不需要切块向量化了？通过PageIndex构建AgenticRAG
ICLR是专注于表征学习的人工智能领域顶级会议，由深度学习巨头Bengio和LeCun牵头举办，与NeurIPS、ICML并称为机器学习三大顶会。
今天，ICLR大会官方发布了今年的ICLR杰出论文奖。
共有3篇论文获奖，另外还有3篇论文获得了荣誉提名。
今年是ICLR举办的第13届，会议即将在4.24-4.28在新加坡举办。
投稿数量：根据reddit已有的信息（非官方），本届ICLR2025共收到约11,500篇有效投稿（接近但未精确确认，可能为11,672篇）。
录用数量：共录用3,706篇论文。
录用率：总体录用率为32.08%（3,706/11,672，基于Reddit讨论和PaperCopilot数据，最终以官方为准）。
相比ICLR2024的数据《ICLR2024杰出论文奖揭晓！两篇国内论文获荣誉提名》：7,262篇投稿，2,260篇录用，录用率31.1%，今年数量明显增加。
下面一起看看今年3篇杰出论文+3篇荣誉提名的具体论文信息。
公众号后台回复「ICLR2025」可以快速下载论文合集。
论文标题:SafetyAlignmentShouldBeMadeMoreThanJustaFewTokensDeep(中文直译：安全对齐不应仅限于浅层的少数几个词元)
论文链接：https ://openreview.net/pdf?id=6Mxhg9PtDE
机构：普林斯顿大学、谷歌DeepMind
研究领域：人工智能安全(AISafety)、大语言模型对齐(LLMAlignment)
【论文核心贡献&创新点】:
该论文发现当前大语言模型（LLMs）的安全对齐方法（如SFT,RLHF,DPO）存在一个普遍的、根本性的问题，即“浅层安全对齐(shallowsafetyalignment)”。
这意味着安全对齐的效果主要体现在模型输出的最初几个词元（tokens）上，模型学会生成拒绝式的开头（如”Icannotfulfill…”），但其内部生成有害内容的能力并未被根本改变。
该研究指出，“浅层安全对齐”这个核心问题可以统一解释近期发现的多种LLM安全漏洞，包括：
对抗性后缀攻击(adversarialsuffixattacks)
前缀填充攻击/开头引导攻击(prefillingattacks)
解码参数攻击(decodingparameterattacks)
微调攻击(fine-tuningattacks，即使是良性微调也可能破坏安全性)
这些攻击的共同点在于，它们都设法绕过或改变模型最初几个词元的安全“屏障”，一旦绕过，模型就可能“灾难性地”滑向生成有害内容的轨道。
1、提出并验证“深度安全对齐”概念和方法：

即使模型的输出开头偏离了安全轨道（例如，被诱导以有害内容开头），模型也应被训练得能够“恢复”到安全的拒绝式回答。实验表明这种方法能增强模型对某些常见攻击的鲁棒性。
2、提出并验证约束性微调方法：
针对微调攻击，论文提出了一种新的约束性优化损失函数(constrainedoptimizationlossfunction)。其核心思想是在微调过程中，重点约束模型在初始词元上的生成概率分布，防止其发生大的偏移，从而在允许模型适应下游任务的同时，最大程度地保留其原有的安全对齐特性。
总结:LLM安全性是当前AI领域最受关注的问题之一，这篇论文精准地指出了当前LLM安全对齐研究中的一个关键痛点——“浅层性”，并通过“深度安全对齐”和“约束性微调”两个方向，提出了具体且可操作的改进思路和初步验证。
论文标题:LEARNINGDYNAMICSOFLLMFINETUNING(中文直译：大型语言模型微调的学习动态)
论文链接：https ://openreview.net/pdf?id=tPNHOoZFl9
Github链接：https ://github.com/Joshua-Ren/Learning_dynamics_LLM
机构：不列颠哥伦比亚大学
研究领域：大型语言模型(LLM)、深度学习理论与理解(LearningDynamics,ModelInterpretability)
【论文核心贡献&创新点】:
提出了一种基于学习动态（LearningDynamics）的框架，通过分析梯度更新如何影响模型对不同输入的预测（特别是不同响应的可能性），来统一理解不同LLM微调算法（如SFT、DPO及其变种）的行为。
该框架成功解释了LLM微调中的多种已知或新观察到的现象，包括：
特定类型的幻觉（如回答A时用了B的知识）在SFT后可能被放大。
偏好调整（如DPO）后模型可能出现的“重复”行为（repeaterphenomenon）。
离线（Off-policy）DPO训练过久导致所有响应（包括期望的）概率下降的现象。
论文提到了一个概念——“挤压效应”(SqueezingEffect)，明确提出并解释了一个关键机制——在DPO等使用负梯度的算法中，对低概率响应施加负梯度会将其概率质量“挤压”到模型先前最自信的那个响应上，这可能是导致意外行为（如重复、性能下降）的原因。
算法改进:基于对“挤压效应”的理解，提出了一种简单有效的改进对齐性能的方法：在进行DPO之前，先在SFT阶段同时对正样本(y+)_和_负样本(y-)进行训练，以减轻后续DPO中的挤压效应。
新的视角:提供了一个不同于传统基于目标函数、最终状态或强化学习关联的分析视角，侧重于微调过程中的动态变化和样本间的相互影响。
总结:这篇论文巧妙地运用学习动态理论深入剖析了LLM微调的核心过程。其提出的统一框架和“挤压效应”解释为理解和改进LLM对齐提供了重要的理论基础和实践指导。
论文标题:AlphaEdit:Null-SpaceConstrainedModelEditingforLanguageModels(中文直译：AlphaEdit:面向语言模型的零空间约束知识编辑)
论文链接：https ://openreview.net/pdf?id=HvSytvg3Jh
GitHub链接：https ://github.com/jianghoucheng/AlphaEdit
机构：新加坡国立大学、中国科学技术大学
研究领域：LLM模型编辑/知识编辑
论文指出现有的”定位-编辑”(locate-then-edit)范式在更新LLM知识时，引入的扰动会不可避免地破坏模型中原有的、需要保留的知识，尤其在连续编辑场景下问题更严重，导致遗忘和模型崩溃。现有方法难以平衡“知识更新”和“知识保留”这两个目标。
【论文核心贡献&创新点】:
提出AlphaEdit方法:提出一种新的知识编辑目标优化方法。它不再试图在目标函数中平衡“更新误差”和“保留误差”，而是专注于最小化“更新误差”。
核心创新-零空间投影约束:为了在仅优化更新目标的同时保护原有知识，AlphaEdit在将计算出的参数扰动（perturbation）应用到模型之前，先将其投影到“被保留知识”对应Key矩阵的零空间(nullspace)。
理论保证:从理论上证明，这种零空间投影确保了编辑后的LLM在被问及需要保留的知识时，其输出（特别是关键的隐藏层表示）保持不变，从而有效缓解了知识破坏问题。
简单高效:该方法的核心（零空间投影）只需要增加一行代码即可集成到现有的主流”定位-编辑”方法（如MEMIT）中，实现了显著的性能提升（平均提升36.7%），具有即插即用的特性。
总结：AlphaEdit论文针对当前LLM知识编辑领域的一个关键痛点——更新知识与保留原有知识之间的冲突和破坏——提出了一个创新且简洁的解决方案。其核心亮点在于巧妙地运用了线性代数中的“零空间投影”概念，将参数更新约束在不影响原有知识表示的空间内进行。这不仅在理论上保证了对保留知识的“零干扰”，还简化了优化目标，避免了复杂的权重调整。
论文标题:DATASHAPLEYINONETRAININGRUN(中文直译：一次训练运行中的数据Shapley)
论文链接：https ://openreview.net/pdf?id=HD6bWcj87Y
机构：普林斯顿大学、加州大学伯克利分校、弗吉尼亚理工学院
研究领域：大规模模型数据归因、数据质量评估
【论文核心贡献&创新点】:
提出In-RunDataShapley概念:针对传统DataShapley需要大量模型重训练导致计算不可行以及无法评估特定单次训练运行中数据贡献的问题，提出了In-RunDataShapley。它旨在评估数据点对某一次特定模型训练运行的贡献，而非对通用学习算法的平均贡献。
消除重训练需求:通过将整个训练过程分解为单次迭代，计算每次迭代中数据子集对模型性能（如验证损失）变化的贡献（局部效用），并累加这些贡献来获得最终的数据Shapley值。

极高的计算效率:最优实现（一阶，使用”ghost”技术）相比标准模型训练只增加可忽略不计的运行时间开销，使得对大模型（如基础模型预训练）进行数据归因成为可能。
总结：该论文针对数据归因领域的核心痛点——传统DataShapley的计算瓶颈和模型特定性缺失——提出了一个创新且非常实用的解决方案”In-RunDataShapley”。其核心思想（分解训练过程+迭代归因）和关键技术（”Ghost”计算）极大地提升了效率，使得在大规模模型上应用Shapley值这一理论上公平的归因方法成为现实。
论文标题:SAM2:SegmentAnythinginImagesandVideos
论文链接：https ://openreview.net/pdf?id=Ha6RTeWMd0
机构：MetaAI、斯坦福大学
研究领域：VideoSegmentation(视频分割)
【论文核心贡献&创新点】：
扩展SAM至视频域(ExtensionofSAMtoVideo):将SegmentAnything模型的能力从静态图像扩展到了视频，提出了一个统一处理图像和视频分割的模型(SAM2)。
引入流式记忆机制(StreamingMemoryMechanism):模型架构的关键创新，通过记忆存储（MemoryBank）和注意力机制（MemoryAttention）来处理视频帧，有效利用历史帧信息进行目标跟踪和分割修正，实现实时处理。
提出PVS任务(PromptableVisualSegmentationTask):定义了可提示的视频视觉分割任务，允许用户在视频的任意帧通过点、框、掩码等提示进行交互式分割和修正。
构建数据引擎(DataEngine):开发了一个“模型在环”(model-in-the-loop)的数据标注引擎，利用SAM2辅助标注员，大幅提升了视频分割数据的标注效率和规模。

显著性能提升(SignificantPerformanceImprovement):在视频分割任务上，以更少的交互次数达到更高精度；在图像分割任务上，比原版SAM精度更高且速度快6倍；在多个基准测试上取得SOTA或强劲性能。
总结：SAM2是对开创性的SAM模型一次非常成功的演进，作为一个统一图像和视频分割的基础模型，并且伴随全面的开源，SAM2有望像SAM一样，对下游的视频理解、编辑、AR/VR等应用产生深远影响。
论文标题:FasterCascadesviaSpeculativeDecoding(中文直译：通过推测解码实现更快的级联)
论文链接：https ://openreview.net/pdf?id=vo9t20wsmd
机构：GoogleResearch、GoogleDeepMind、MistralAI
研究领域：LLMInferenceAcceleration(大模型推理加速)
【论文核心贡献&创新点】:
这篇论文巧妙地结合了两种流行的LLM推理优化技术，提供了一种新的、可能更优的平衡点来协调推理速度、计算成本和模型性能。

核心机制创新:关键在于利用推测解码的并行验证(parallelverification)机制来执行模型级联中的延迟决策(deferralrule)。即，大模型并行评分小模型的草稿，其目的不仅是验证Token，更是为了_决定是否触发级联的延迟（调用大模型）_。
解锁更优的成本-质量边界:通过这种新机制，推测级联能够在推理效率上实现更优的成本-质量权衡(cost-qualitytrade-off)。
总结：这篇论文巧妙地结合了两种流行的LLM推理优化技术，抓住了它们各自的优势——级联的成本效益权衡和推测解码的速度与质量保证。其核心思想是将级联的决策过程融入推测解码的并行框架中，这是一个有前景的方向。

ZejunCao

https://zejuncao.github.io/2025/04/23/1000001677-2247513712-2/