直播预约 | Evaluation论文分享@ICML&ACL2025
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
Evaluation论文分享@ICML&ACL2025
2025. 6.11周三20:00北京时间
梁小波,苏州大学副教授,研究方向涵盖大模型的奖励建模与自主学习,在NeurIPS、TPAMI、ACL等国际顶级学术会议与期刊上以第一作者发表论文数十篇。
论文介绍:OpenAI研究科学家姚顺雨在《TheSecondHalf》中提到了人工智能的研究进入了下半场,关键点变为了:任务定义+好的评估标准。如何获得好的评估标准是一件非常难的事情,因为真实世界的评估是多维度的,细粒度的。此外,获取详细的评估轨迹的代价极高,缺乏扩展性。为了克服这些缺陷,文本提出了生成式奖励建模方法SyncPL,通过将任务评估过程构建为了一棵评估标准的偏好树,通过inference-timescaling和预定义的奖励规则来对其进行优化。SyncPL不仅可以以过程监督的方式优化每一个评估标准,还可以为不同的评估标准进行重要性排序。此外,结合o1-like的长思维链优化方法的SyncPL-o1还可以进一步减少训练代价并提升奖励建模的能力,在多个实验基准上展现出了出色的效果。
论文:GenerativeRewardModelingviaSyntheticCriteriaPreferenceLearning
张坤,博士毕业于Inria(法国国立计算机与自动化研究所)和巴黎综合理工学院,导师为IoanaManolescu和OanaBalalau。研究方向为自然语言生成的忠实性和可控的文本生成。
论文介绍:本文探索一种用于比较文本之间事实一致性的结构化的信息表示格式。该格式由原子事件和事件之间的discourserelation组成。每个原子事件由主语、谓语、宾语、状语、补语组成;每个discourserelation表示两个原子事件之间的时序,对比,或递进关系。基于这种结构化信息表示格式,本文首先对文本内容进行信息抽取,然后用分类模型判别每个原子事件或discourserelation是否被另一个文本包含,从而比较文本之间的事实一致性。本文在data-to-textgeneration和textsummarisation两个任务上验证了所提出方法的有效性。
论文:StructuredDiscourseRepresentationforFactualConsistencyVerification
论文介绍:LLM-as-a-Judge,基于生成中间的评测推理过程(CoT)从而得到判断,已成为广泛采用的自动评测方法。然而,由于CoT推理往往无法捕捉全面且深入的细节,导致评测结果不够完整,其可靠性因此受到限制。现有方法通常依赖于多数投票或标准扩展(criteriaexpansion),但这些方法并不足以有效解决推理中存在的上述局限性。因此,我们提出了一种名为基于群体的比较评测(Crowd-basedComparativeEvaluation,简称CCE)的新方法,通过引入额外的群体回复(crowdresponse)与待评测回复进行对比,从而揭示待评测回复中更深入且更全面的细节。这一过程有效地引导LLM-as-a-Judge输出更为详细的CoT推理。广泛的实验表明,我们的方法显著提高了评测的可靠性,在五个评测基准上平均提升了6. 7%的准确率。此外,我们的方法还能生成更高质量的CoT推理,有助于进一步的Judge蒸馏,并无缝衔接地提升监督微调(SFT)的拒绝采样(rejectionsampling)任务,我们称这种方法为crowdrejectionsampling,从而实现了更加高效的监督微调。进一步,我们分析验证了我们方法生成的CoT更加全面且质量更高,并且评测准确率会随测试时计算规模(test-timecomputation)的扩大而持续提高。
论文:CrowdComparativeReasoning:UnlockingComprehensiveEvaluationsforLLM-as-a-Judge
李鑫,南洋理工大学博士在读,硕士毕业于北京大学,本科毕业于东北大学。研究方向聚焦于大语言模型在工程设计与部署中的应用,专注于无线通信与机器人系统的智能建模与自动化推理。曾在微软亚洲研究院、旷视科技实习,后在GaussianRobotics担任算法工程师,主导多模态感知与定位系统的工程落地。个人主页:https ://lixin. ai/
论文介绍:大型语言模型(LLMs)在广泛的任务中取得了令人印象深刻的成果,但它们在复杂的、特定领域的数学推理能力,特别是在无线通信领域,仍然未得到充分探索。在本研究中,我们介绍了WirelessMathBench,这是一个专门设计的基准,旨在评估LLMs在无线通信工程数学建模挑战中的表现。我们的基准包含587个精心策划的问题,来源于40篇最先进的研究论文,涵盖了从基本的选择题到复杂的方程补全任务的多样化任务,包括部分和完整补全,所有问题都严格遵循物理和维度约束。
论文:WirelessMathBench:AMathematicalModelingBenchmarkforLLMsinWirelessCommunications
论文介绍:在当前多模态人工智能快速发展的背景下,如何有效弥合视觉与语言之间的语义鸿沟,成为多模态研究领域亟需解决的核心问题。传统视觉问答(VQA)任务中存在明显的模态鸿沟以及对语言先验知识的过度依赖,而人类则凭借直观的符号推理能力(即“符号化”过程),能够灵活地将抽象的视觉符号转化为丰富的语言意义。受此神经认知机制启发,本文聚焦于一种新兴且具有挑战性的任务:大模型是否可以直接理解视觉符号,从视觉层面联想并解码出对应的抽象文本语义。我们关注到,emoji符号天然地桥接视觉与语言模态:emoji符号具有视觉表示,同时又有着约定俗成的特定指示含义,人们常常在日常交流或社交媒体表达中使用emoji替换文字表达。因此,我们选择了在全世界范围内被广泛使用的emoji表情符号作为核心符号,设计从表情符号(emoji)序列图像中生成抽象的语言表达的任务,旨在测试多模态大语言模型(MLLMs)在视觉密码解码中的高层推理能力。
我们提出了一个全新的多语言、跨文化基准测试——eWe-bench(ExpressWhatyouSeE),涵盖中文和英文语境下的表情符号与习语配对数据。该数据集构建框架包括三部分:真实世界emoji-text对的检索、文本到emoji的生成以减少偏差,以及结合机器筛选与人工验证的高质量过滤流程,确保数据的视觉敏感性与伦理合规性。此外,我们设计了融合自动评估与人工评估的细粒度评价策略,全面衡量模型的表现。实验结果显示,当前最先进的MLLMs在中文成语任务上的准确率仅为3. 3%,远低于人类的67%,暴露出其在处理同音异义关系与多对一映射等复杂语义结构时的重大缺陷。通过对典型案例的分析,我们揭示了现有模型的不足,并为未来改进提供了可行方向。
本文的主要贡献包括:(1)提出一种新的评估范式,用于衡量MLLMs在视觉直觉符号推理方面的能力;(2)构建了一个高质量、低模态差距的基准数据集eWe-bench;(3)通过实证分析揭示了当前模型在类人多模态理解中的局限性,并为加密分析与高阶认知智能的发展提供启示。本研究为推动具备类人感知能力的多模态智能系统奠定了基础。
王匡,香港中文大学(深圳)一年级博士生,他的研究方向为个性化对话系统与语音语言大模型。
论文介绍:用户模拟器可以模拟对话过程中人类的交互特性,对于构建高质量数据集以协同训练,模拟用户与大模型多轮交互以动态评估起重要作用。当前主流的基于角色扮演的方法常依赖于预设用户画像,易出现角色混淆,缺乏话语层的真实性与用户模拟的多样性。而直接模拟方法虽然聚焦逼真的话语生成,却忽视了用户的个性特征与对话一致性。
为了解决这些问题,我们提出了隐式画像驱动的用户模拟器(USP)框架,旨在从人机对话中推理隐性用户画像,以重构更加个性化、逼真的对话。具体而言,我们设计了系统化的画像结构,并构建了一个由大语言模型驱动的画像抽取器;随后结合条件监督微调与基于循环一致性的强化学习,在话语级与对话级联合优化模拟质量;此外,我们还引入多样化画像采样器,以拟合真实用户画像分布并生成多样且合理的画像样本。实验结果表明,USP在对话的真实性与多样性方面显著优于现有强基线,同时在一致性上表现持平。此外,USP在对大模型进行多轮动态评估时,其结果与主流评测基准高度一致,进一步展示了其在真实应用场景中的有效性。
汤子辰,北京邮电大学计算机学院(国家示范性软件学院)硕士研究生,师从鄂海红教授,主要研究多模态大模型垂域复杂推理决策及在金融、医疗、科研诚信等领域应用,在人工智能国际顶会ACL、NeurIPS、AAAI等会议发表5篇论文。个人主页:https ://zichentang. github.io
论文介绍:大推理模型(LRMs)相较大语言模型(LLMs)展现出更强的推理能力,能够处理需要多步推理的复杂任务,例如代码生成、数学求解以及科学问题。然而,更多现实世界的领域特定数值推理任务(例如金融定量分析)需要模型深入理解并应用领域知识,同时基于表格与文本等混合上下文进行复杂数学计算。现有金融数值推理基准在问题标注质量、金融领域知识覆盖度以及推理复杂度方面存在局限,导致难以客观评估LRMs实际推理能力并分析其缺陷。为此,我们提出FinanceReasoning——一个更加可信、全面且具有挑战性的金融数值推理基准,包含2,238道题目,涵盖多样化金融知识。每道题目均包含混合上下文、明确的问题描述、Python格式的解题步骤及精确答案。我们评估了当前领先的6个LRMs和7个LLMs,发现LRMs相较LLMs表现显著提升,但仍存在公式应用错误与数值计算不精确等问题。我们构建并开源了包含3,133个Python函数的金融函数库,通过知识增强和模型组合策略,进一步增强模型在专业领域复杂推理任务上的表现。
胥伟杰目前就职于亚马逊,担任高级应用科学家。主要工作方向包括因果分析、大语言模型评估及其在实际应用场景中的稳健性与公平性问题。是亚马逊内部LLM应用评估系统的主要负责人,覆盖几乎所有亚马逊内部应用的测评,支持自动化与人工结合的多维评估任务。研究成果发表于ACL、EMNLP、TMLR等机器学习会议,并致力于推动模型在安全性、拒答率控制与一致性方面的系统性改进。研究生毕业于加州伯克利本科就读于多伦多大学。个人网站:https ://weijiexu. com/
论文介绍:大型语言模型(LLMs)在多项选择题中常出现的选择偏差问题,即模型在回答时对某些选项位置或标签表现出系统性的偏好,无论内容相关性如何。
为了解决这一问题,作者提出了两种方法:BiasNodePruning(BNP):一种参数级的去偏技术,通过识别并剪除模型中导致选择偏差的参数节点,仅需移除约0. 002%的模型权重,即可减少偏差并提高多项选择题的准确性。
AuxiliaryOptionInjection(AOI):一种简单有效的提示策略,在原有选项中添加一个“我不知道”的辅助选项,适用于白盒和黑盒模型,有助于减少模型的选择偏差。
此外,作者还引入了一个新的评估指标——ChoiceKullback-LeiblerDivergence(CKLD),用于衡量模型预测分布与真实答案分布之间的差异,从而更准确地评估选择偏差。实验结果表明,这两种方法在多个基准数据集和不同类型的LLMs上均能有效减少选择偏差并提高回答准确性,且与现有技术(如链式思维提示和上下文学习)具有互补性,增强了其实用性。
论文:MitigatingSelectionBiaswithNodePruningandAuxiliaryOptions
王鑫涛,就读于复旦大学计算机系,博士四年级,致力于探索用AI创造具有人格的数字生命。曾在ICML/ACL/EMNLP/TMLR等国际会议和期刊上发表多篇文章,一作文章共被累计引用300余次。他的研究方向寻求AI的人格化和角色扮演,即构造模拟特定人格的AI模型,发表了该领域的首篇综述研究和多项开创型工作。在科研之外,他是一位深度二次元爱好者、业余Coser。个人主页:https ://neph0s. github.io/
论文介绍:角色扮演AI作为大语言模型的重要应用,近年来获得了广泛关注。特别是当扮演小说、动漫中的知名角色时,模型需要获取并有效利用关于这些角色的大量知识。然而,现有的角色扮演AI面临两大核心挑战:高质量的真实角色数据集,以及有效的评估方法。
因此,我们介绍CoSER,一个面向深度AI角色扮演的项目,包含当下最大的真实优质数据集、SoTA开源模型和深入的评估方案,用于高效构建和评估角色扮演AI。研究论文现已被ICML2025接收。
李大卫,亚利桑那州立大学一年级博士生,在ACL,EMNLP,NAACL等顶级会议发表多篇论文,同时担任ARR,ICLR,NeurIPS,AISTATS等国际会议审稿人。研究兴趣包括从结构化/非结构化文本以及参数化模型中蒸馏知识,高效模型训练/推理,以及探索大模型的社会智能和社交智能。
欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。