仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
从大模型的安全对齐到欺骗性对齐
北京时间:2025. 07.11(周五)10:00
微信视频号:
b站直播间:
https ://live. bilibili.com/27784098
(点击文末「阅读原文」即可跳转)
LanguageModelsResistAlignment:EvidenceFromDataCompression,https ://arxiv. org/abs/2406. 06144
AIAlignment:AComprehensiveSurvey,https ://arxiv. org/abs/2310. 19852
Aligner:EfficientAlignmentbyLearningtoCorrect,https ://arxiv. org/abs/2402. 02416
MitigatingDeceptiveAlignmentviaSelf-Monitoring,https ://arxiv. org/abs/2505. 18807
近年来,学术界和产业界持续关注通过对齐(Alignment)技术确保大模型与人类意图的一致性,尤其是在数学和代码等场景下的指令遵循能力。然而,实验结果表明,即便采用了精心设计的对齐流程,这些机制依然可能被有意或无意地规避,对齐效果的可靠性受到广泛质疑。那么,对齐技术究竟能否实现真正意义上的“对齐”?
本次分享将视角从传统的大模型安全对齐拓展至当下备受关注的欺骗性对齐问题,并从机理层面剖析类似胡克定律的“弹簧效应”——即大模型参数内在的“弹性”现象:模型对对齐目标表现出一定的抗拒性,倾向于回归其预训练阶段形成的稳定行为分布。从这一“弹性”理论出发,我们对现有对齐流程提出三点关键建议:与此同时,我们将深入探讨当前对齐领域面临的核心挑战,包括抗拒对齐(ResistAlignment)、欺骗性对齐(DeceptiveAlignment)等高阶安全风险。最后,还将分析传统安全对齐方法在应对高阶安全风险时所面临的不足与挑战。
吉嘉铭,北京大学人工智能研究院博士生,导师为杨耀东助理教授,研究方向为强化学习和大模型对齐,共发表顶会期刊论文二十余篇,论文入选ACLPanelDiscussion(接收率0. 3%),NeurIPSOral(接受率0. 5%),ICLRSpotlight等口头汇报,相关成果谷歌学术总引用3000余次,GitHub开源项目星标3. 2万余次,开源模型累积下载量500W余次,主持首批国自然博士青年基金资助(2023年度北京大学智能学科唯一),入选苹果学者AppleScholar,首届中国电子学会-腾讯博士生科研激励计划,获NeurIPS’22机器人灵巧操作比赛冠军,研究成果及模型被OpenAI、Meta引用,并被MITTechReview报道。
个人主页:https ://jijiaming. com/
薛博阳,香港中文大学博士生四年级,导师为黄锦辉教授,即将赴伦敦大学学院访问交流。他的研究方向包括可信大模型,对话系统,语音识别等,在ACL,EMNLP,ICASSP,TASLP等会议期刊均以一作身份发表多篇论文。
个人主页:https ://amourwaltz. github.io/
欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。
编辑:宁钰成中科院博士在读