继VAE之后,Adam也拿到了ICLR 时间检验奖,OpenAI联创两次获奖


继VAE之后,Adam也拿到了ICLR 时间检验奖,OpenAI联创两次获奖

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

机器之心报道
编辑:张倩
刚刚,ICLR2025宣布了今年的时间检验奖获奖论文。这个奖项旨在表彰十年前在ICLR2015上发表的对该领域产生持久影响的论文。

Adam:深度学习领域应用最广泛的优化算法之一
Adam算法,即AdaptiveMomentEstimation算法,是一种结合了动量法和RMSprop算法思想的自适应学习率优化算法。
Adam革命性地改变了神经网络训练,在各种架构和任务中实现了显著更快的收敛速度和更稳定的训练过程。如今,它已经成为深度学习中最广泛采用的优化算法之一。
Adam算法的创新之处在于,它结合了AdaGrad和RMSProp的优点,通过维护第一矩估计(均值)和第二矩估计(未中心化的方差)来动态调整每个参数的学习率,能够处理稀疏梯度和非平稳目标函数。
它的重要性体现在其广泛的应用场景,无论是计算机视觉、自然语言处理还是强化学习等领域,Adam算法都为模型的高效训练提供了有力支持,极大地提高了模型的训练效率和性能,成为无数最先进模型的默认优化器。
根据GoogleScholar的数据,Adam论文的被引量已经超过21万。
论文链接:https ://arxiv.org/abs/1412.6980
该论文总共有两位作者——DiederikP.Kingma和JimmyLeiBa。
DiederikP.Kingma是一位计算机科学家和研究员,专注于机器学习和生成式建模的可扩展方法。他的重要贡献包括变分自编码器(VAE)、Adam优化器、Glow和变分扩散模型。其中,VAE获得了去年的ICLR时间检验奖。所以,这次是DiederikP.Kingma第二次获得该奖项。而截至目前,该奖项总共就颁了两次。
2017年,他以优异成绩获得阿姆斯特丹大学博士学位。2015年,他作为创始团队成员参与创建了OpenAI。在此之前,他共同创立了Advanza公司,该公司于2016年被收购。
他的职业生涯包括:
2009年和2012年:在纽约大学YannLeCun实验室担任初级研究科学家;
2010-2012年:Advanza联合创始人兼技术负责人,公司于2016年成功退出;
2013-2017年:在阿姆斯特丹大学攻读博士学位,导师为MaxWelling,研究领域为深度学习和生成模型;
2015-2018年:OpenAI创始团队成员和研究科学家,领导算法团队,专注于基础研究;
2018-2024年:在GoogleBrain/DeepMind担任研究科学家,领导多个研究项目,主要是文本、图像和视频的生成模型;
2024年至今:在Anthropic研究大规模机器学习。
另一位作者多伦多大学JimmyLeiBa现在是多伦多大学的助理教授。他的长期研究目标是解决一个计算问题:如何构建具有人类效率和适应性的通用问题解决机器。他的研究兴趣主要集中在开发高效的深度神经网络学习算法上。他的研究领域与NeurIPS、ICLR和ICML等研究社区有交叉。此外,他对强化学习、自然语言处理和人工智能也有广泛的兴趣。

亚军论文
比Transformer提前三年引入注意力机制

论文链接:https ://arxiv.org/abs/1409.0473
去年12月,AI大牛AndrejKarpathy专门发帖为这篇论文鸣不平,称它是「真正引入注意力机制的论文」,但受到的关注远远不及三年后才出现的Transformer论文。
具体来说,这篇论文的创新之处在于,它引入了一种注意力形式,从根本上改变了序列到序列模型处理信息的方式。在此之前,编码器-解码器架构通常将整个输入序列压缩为固定长度的向量,从而为较长的序列造成内存瓶颈。该方法使模型能够在翻译过程中动态地「关注」源句子的不同部分,从而处理相关的上下文信息。这种注意力机制已经成为现代深度学习的基石,远远超出了机器翻译的范畴,形成了transformer和大型语言模型的基础。这篇论文的实际影响是巨大的,使其成为对神经网络架构最有影响力的贡献之一。
这篇论文总共有三位作者:DzmitryBahdanau、KyunghyunCho和YoshuaBengio

DzmitryBahdanau坚信人类语言技术(HLT,他认为这是比NLP更好的称呼)将改变人类与软件交互和获取知识的方式。事实上,这种改变已经开始发生(比如网络搜索),但这仅仅是个开始。Bahdanau对HLT技术栈各个层面的研究问题都有浓厚兴趣,包括深度学习基础、基础模型训练、特定任务算法(尤其是语义解析)以及用户与AI系统的交互体验。他近期正在进行的工作主要集中在语义解析和面向任务的对话方法、代码生成、神经模型的系统性(组合性)泛化和样本效率上。
在发给Karpathy的邮件中,DzmitryBahdanau曾详细谈过他们当年研究「注意力机制」的往事。
他提到,「我作为实习生来到Yoshua的实验室……我告诉Yoshua我愿意做任何工作。Yoshua安排我参与机器翻译项目……有一天,我突然想到让解码器RNN学习在源序列中搜索放置游标的位置会很好。这有点受到翻译练习的启发,在中学学习英语时会用到这种练习。当你翻译时,目光在源序列和目标序列之间来回移动。我提出了对BiRNN状态进行软搜索作为softmax然后进行加权平均的想法。这个方法从一开始就表现出色,令人振奋。我称这种架构为RNNSearch,我们赶紧发布了一篇arXiv论文,因为我们知道Ilya和谷歌的同事们在他们强大的8个GPULSTM模型(RNNSearch仍在1个GPU上运行)上领先于我们。事后证明,这个名称不太好。更好的名称(attention)是由Yoshua在最终定稿中添加的。」

在ICLR时间检验奖颁发之际,或许我们也可以重读这些经典论文,从中找到关于未来方向的新启发。
参考链接:https ://blog.iclr.cc/2025/04/14/announcing-the-test-of-time-award-winners-from-iclr-2015/
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录