何恺明的ResNet,成为21世纪被引量最多论文,Nature最新统计
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
机器之心报道
编辑:+0、陈陈
《自然》杂志统计了5个数据库,给出了论文引用Top25名单。
21世纪被引用最多的论文有哪些?
大家不用去统计了,《自然》给出了一个最新Top25排名。
完整排名地址:https ://www.nature.com/magazine-assets/d41586-025-01125-9/50860378
排名第一的是微软在2016年发布的ResNets研究,这是一篇计算机视觉领域的经典论文。
ResNets作为一种人工神经网络,是深度学习以及后续AI进步的基础。这项工作最初于2015年底以预印本形式发布,作者包括何恺明、张祥雨、任少卿和孙剑。ResNets原始论文在2016就获得了CVPR最佳论文奖。
论文地址:https ://arxiv.org/pdf/1512.03385
后来AI领域重大进展,都深受ResNets的影响,包括围棋AI(AlphaGo)、蛋白质结构预测(AlphaFold)到后来的语言模型(ChatGPT)等。
值得注意的是,以上结论是《自然》团队选取了5个数据库(WebofScience、Scopus、OpenAlex、Dimensions、GoogleScholar)的统计结果,这些数据库涵盖了21世纪发表的数千万篇论文:ResNets在其中两个数据库中引用量最高,在另外两个中排名第二,最后一个位列第三——综合来看,其引用次数的中位数排名在五个数据库中位居榜首。
如果从单一指标来看,ResNets并非在所有数据库中都是引用量最高的。根据谷歌学术(GoogleScholar)的数据(其团队向《自然》提供了高引论文榜单),该论文以25.4万次引用位居第二。而在美国科睿唯安公司旗下的WebofScience数据库中(该库收录的期刊范围较窄),它仅以10万余次引用排名第三。因而,大家需要相对来看待这次排名。
不过,21世纪的重大突破不只是AI领域,希格斯玻色子的发现、引力波的首次测量等都称得上巨大的进步,然而,这些突破性成果在2000年以来被引用量最高的论文中却无一上榜。
原因为何?
接下来,Nature这篇文章介绍了其他top25论文以及它们成为「引用巨头」的原因。
AI成为二十一世纪被引用次数最多的论文
AI教父GeoffreyHinton指出,AI论文在引用方面具有天然优势,AI领域与众多领域相关联,21世纪以来见证了快速的技术进步和大量学术论文的涌现。
Hinton因在AI领域的贡献,去年获得了诺贝尔物理学奖。
许多人认为,深度学习的革命性发展,特别是多层人工神经网络的广泛实用性,得益于Hinton在2012年共同撰写的论文《ImageNetclassificationwithdeepconvolutionalneuralnetworks》。这篇论文介绍了后来被命名为AlexNet的网络,其在图像识别和标记竞赛中表现优于其他方法,成为21世纪引用次数第8高的论文。
论文地址:https ://dl.acm.org/doi/pdf/10.1145/3065386
此外,Hinton及其合著者撰写的关于深度学习的综述论文排名第16。
而2009年李飞飞的论文《ImageNet:ALarge-ScaleHierarchicalImageDatabase》作为训练数据集根基,排名第24。
论文地址:https ://ieeexplore.ieee.org/document/5206848
三年后,一篇对AlexNet架构进行修改的论文描绘了一种称为U-net的新网络,其在图像处理上更高效,现排名第12,当时该论文差点因缺乏新意而被会议拒绝。共同作者OlafRonneberger因这一工作而加入DeepMind,他表示,U-net仍然是许多扩散模型中图像生成的主要基础。
论文地址:https ://arxiv.org/abs/1505.04597
2017年,谷歌研究团队推出题为《Attentionisallyouneed》的论文,介绍了Transformer神经网络架构。Transformer通过高效实现自注意力机制,使网络学习时能优先处理相关信息,并成为推动类似ChatGPT的大型语言模型发展的关键。该论文是本世纪引用次数第7高的。
论文地址:https ://arxiv.org/pdf/1706.03762
开源技术在机器学习的早期推动了其引用率的提升。《Randomforests》是第6高引用的论文,介绍了一种优化的机器学习算法。犹他州立大学统计学家AdeleCutler与已故美国统计学家LeoBreiman共同扩展了这一方法。Cutler表示,该论文受欢迎的原因在于其开源、免费并易于使用,且功能卓越,无需大量定制即可执行。
论文地址:https ://link.springer.com/article/10.1023/A:1010933404324
许多AI论文常在同行评审前以预印本形式发布,导致引用统计复杂化。商业数据库通常不跟踪预印本引用,或未能将其与正式发表文章的引用合并,致使实际引用量被低估。荷兰莱顿大学退休科学计量学专家PaulWouters指出,随着预印本引用日益普及,数据库亟需开发新方法整合这类引用数据。
据非营利学术服务公司OurResearch的JasonPriem所述,OpenAlex数据库(《自然》文章的一个来源)尝试通过合并预印本和最终版本来整合引用。而GoogleScholar则试图对所有版本进行分组,汇总其引用。
研究软件
有些论文的高引用并非偶然,而是有意识为研究人员提供可引用的对象。例如,约25年前,药学科学家ThomasSchmittgen撰写了一篇关于定量PCR(聚合酶链式反应)技术的论文。该技术用于定量分析样本中的DNA含量。Schmittgen原本引用了技术手册中的公式分析数据,但审稿人反馈称用户手册不可作为引用来源。因此,他联系了公式的创作者,共同发表了一篇具有引用性质的论文。
根据WebofScience数据,这篇论文获得了超过162000次引用,使其跻身历史引用次数最多的前十名。这篇论文因简化了生物学家计算基因在不同条件(如药物处理前后)下活性变化的方法而受欢迎。DESeq2是一个可以使用该论文描述的RNA测序数据进行基因活性变化计算的软件程序,其相关论文在引用榜单上排名第18。
另一个在榜单中被高度引用的软件论文(排名第五)由已故英国化学家GeorgeSheldrick撰写。Sheldrick于今年二月去世,他创建了SHELX计算机程序套件,用于分析X射线通过分子晶体后的散射图案,从而揭示分子的原子结构。在2008年,Sheldrick撰写了一篇评论文章,建议在使用SHELX程序时引用此文;该文章的引用次数约为70000至90000次,具体数值因数据库而异。
统计软件
统计软件领域中的高被引论文通常与特定的统计或编程软件相关。例如,一篇关于scikit-learn的论文获得了显著关注。scikit-learn是一个免费开源的机器学习库,专为Python编程语言用户设计,包含丰富的预编码函数和技术。这篇论文的引用次数超过50000次,根据GoogleScholar的数据可能高达100000次,在引用榜单中排名第15。
另一篇被大量引用的论文来自2015年,探讨了lme4软件包。lme4是一个使用R编程语言开发的免费软件包,用于分析特定统计模型的数据,其排名略高于前述scikit-learn的论文。此外,还有关于G*Power的论文,该软件是一个免费工具,为生物学家提供计算实验规模以获得统计显著性结果的便捷方法,也是高被引的。
然而,尽管R编程软件被科学界广泛使用和引用,它并未出现在这些高被引榜单中。OpenAlex记录显示,描述R的「研究工作」获得了超过300000次引用,但其他数据库没有相关记录。这可能是因为R的开发者建议用户引用软件所在的存储库网站(www.r-project.org),而未针对其撰写过正式的研究论文。OpenAlex错误地将这些引用视作研究论文,导致该「研究工作」在OpenAlex引文记录中排名靠前,却在其他数据库中缺席。
就引文文化和记录的变幻无常,这个例子说明了问题。德国科学计量学家RobinHaunschild为《自然》杂志的分析提供了建议。他指出:「第一课:如果你编写了一个有影响力的程序——请为它撰写一篇论文。」
参考链接:https ://www.nature.com/articles/d41586-025-01125-9
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com