一个谷歌大神Jeff Dean的演讲，回顾LLM发展史，Transformer、蒸馏、MoE、思维链等技术

发布日期: 2025-05-07

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

来源：数据科学与人工智能
4月14日，谷歌首席科学家JeffDean在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲，主题为「AI的重要趋势：我们是如何走到今天的，我们现在能做什么，以及我们如何塑造AI的未来？」
在这场演讲中，JeffDean首先以谷歌多年来的重要研究成果为脉络，展现了AI近十五年来的发展轨迹，之后又分享了Gemini系列模型的发展历史，最后展望了AI将给我们这个世界带来的积极改变。
机器之心将在本文中对JeffDean的演讲内容进行总结性梳理，其中尤其会关注演讲的第一部分，即谷歌过去这些年对AI领域做出的奠基性研究贡献。我们将看到，Transformer、蒸馏、MoE等许多在现代大型语言模型（LLM）和多模态大模型中至关重要的技术都来自谷歌。正如𝕏网友@bruce_x_offi说的那样，你将在这里看到AI的进化史。
下面我们就来具体看看JeffDean的分享。
源地址：https ://video.ethz.ch/speakers/d-infk/2025/spring/251-0100-00L.html
幻灯片：https ://drive.google.com/file/d/12RAfy-nYi1ypNMIqbYHjkPXF_jILJYJP/view
首先，JeffDean分享了他得到的一些观察：
近年来，机器学习彻底改变了我们对计算机可能性的期望；
增加规模（计算、数据、模型大小）可带来更好的结果；
算法和模型架构的改进也带来了巨大的提升；
我们想要运行的计算类型以及运行这些计算的硬件正在发生巨大的变化。
机器学习十五年
首先，神经网络！
神经网络的概念是在上个世纪提出的，而现在AI的各种能力基本上都是某种基于神经网络的计算。我们可以粗略地将神经网络视为真实神经元行为的非常不完美的复制品。它还有很多我们不理解的地方，但它们是AI的基本构建模块之一。
反向传播是另一个关键构建模块，这是一种优化神经网络权重的方法。通过反向传播误差，可让模型的输出逐渐变成你想要的输出。这种方法能有效地用于更新神经网络的权重，以最小化模型在训练数据上的误差。并且由于神经网络的泛化特性，得到的模型也具有泛化能力。
神经网络和反向传播是深度学习革命的两大关键。
2012年时，JeffDean与其他一些研究者开始研究：如果训练真正的大型神经网络，它们会比小型神经网络表现更好。在这一假设基础上，他们决定训练一个非常大的神经网络，并且他们使用了无监督学习算法。
这个大型神经网络比2012年已知的最大神经网络还大60倍，使用了16,000个CPU核心。
JeffDean说：「当时，我们的数据中心还没有GPU。我们有很多普通的旧CPU计算机。我们看到的是，这个无监督的训练目标再加上一些监督训练，将AI在ImageNet22K上的最佳性能提高了70%左右。」
这是一个相当大的进步，也证明了我们的假设，即如果投入足够的训练计算，更大模型的能力会更强。
作为这项工作的一部分，谷歌开发了他们第一个神经网络大规模基础设施系统，称为DistBelief。这是一个分布式计算系统，分散在许多机器上，而且我们许多同事并不认为它能其作用。但实际上，当模型很大时，本就不适合仅使用单台计算机。
在分摊计算时，有几种不同的方法。第一种是垂直或水平地切分神经网络中的神经元。这样一来，每台计算机上都只有神经网络的一部分，然后你需要想办法让这些不同部分之间互相通信。这叫做模型并行化。
另一种方法是数据并行化，即在许多不同的机器上都有底层模型的副本，然后将训练数据划分给不同的模型副本。
模型并行化与数据并行化可以同时使用。
在DistBelief中，实际上还有一个中心系统，可以接收来自模型不同副本的梯度更新，并将它们应用于参数。但JeffDean表示他们的做法实际上在数学上并不正确，因为这个过程是完全异步的。不同的模型副本将获得参数的新副本，在一些数据上进行计算，再将基于这些参数和该批次训练数据的梯度发送回参数服务器。但这时候，参数已经有变化了，因为其他模型副本在此期间应用了它们的梯度。因此，根据梯度下降算法，这在数学上显然是不正确的，但它是有效的。所以这就是个好方法。
这就是使我们能够真正将模型扩展到非常大的原因——即使只使用CPU。
在2013年，谷歌使用该框架扩展了一个扩大了词的密集表示的训练，这还用到了一个词嵌入模型Word2Vec。
基于此，谷歌发现，通过使用高维向量表示词，如果再用特定的方式训练，就能得到两个很好的属性：
一、在训练大量数据后，这个高维空间中的近邻词往往是相关的，比如所有与猫、美洲狮和老虎相关的词都汇集到了一个高维空间的同一部分。
二、方向在这种高维空间中是有意义的。举个例子，为了将一个男性版本的词转化为女性版本，比如king→queen、man→woman，都要朝着大致相同的方向前进。
2014年，我的三位同事IlyaSutskever、OriolVinyals、QuocV.Le开发了一个神经网络，名为序列到序列学习模型。这里的想法是，对于一个输入序列，或许可以根据它预测出一个输出序列。
一个非常经典的例子是翻译。比如如果源句子是英语，可以一个词一个词地处理输入的英语句子来构建表示，得到一个密集表示，然后你可以将这个表示解码成法语句子。如果有大量的英语-法语对，就可以学习得到一个语言翻译系统。整个过程都是使用这种序列到序列的神经网络。
JeffDean表示自己在2013年左右开始担心：由于模型越来越大，语音识别等方面也开始出现一些好用的应用，用户量可能有很多，那么该如何提供所需计算呢？
因此，谷歌开始尝试改进硬件，并决定为神经网络推理构建更定制的硬件。这就是张量处理单元（TPU）的起源。
第一个版本的TPU只专门用于推理，所以它使用了非常低的精度——它的乘法器只支持8位整数运算。但他们真正的目标是构建一种非常擅长低精度线性代数的硬件，它将能服务于许多不同类型的基于神经网络的模型。这个硬件也不需要现代CPU中那些花哨复杂的功能，例如分支预测器或各种缓存。相反，他们的做法是尽力以更低的精度构建最快和最小的密集线性代数硬件。
不出所料，最终生产出的TPU在这些任务上比当时的CPU和GPU快15到30倍，能源效率高30到80倍。顺便说一下，这是ISCA50年历史上被引用最多的论文。这很了不起，因为它2017年才发表。
之后，谷歌开始研发专用于训练神经网络的专用型超级计算机——大量芯片用高速网络连接起来。现在谷歌TPUpod在推理和训练方面都适用，并且连接的TPU也越来越多。最早是256台，然后是1000，之后是4000，最近已经来到了八九千。而且谷歌使用了定制的高速网络来连接它们。
上周，谷歌宣布了新一代的TPU，名为Ironwood。JeffDean表示谷歌不会继续再用数字来命名TPU。Ironwood的pod非常大：它有9216块芯片，每块芯片可以执行4614TFLOPS的运算。
TPU的能源效率也在快速提升。
另一个非常重要的趋势是开源。这能吸引更广泛的社区参与并改进这些工具。JeffDean认为，TensorFlow和Jax（都是谷歌开发的）另外再加上PyTorch，对推动AI领域的发展做出了巨大的贡献。
然后到2017年，Transformer诞生了。当时，他们观察到：循环模型有一个非常顺序化的过程，即一次吸收一个token，然后在输出下一个token之前更新模型的内部状态。这种固有的顺序步骤会限制从大量数据学习的并行性和效率。因此，他们的做法是保存所有内部状态，然后使用一种名为注意力的机制去回顾经历过的所有状态，然后看它们哪些部分与当前执行的任务（通常是预测下一token）最相关。
这是一篇非常有影响力的论文。部分原因是，他们最初在机器翻译任务上证明，用少10到100倍的计算量和小10倍的模型，就可以获得比当时最先进的LSTM或其他模型架构更好的性能。注意，下图使用了对数刻度。所以尽管箭头看起来很小，但其中差异实际非常大。
这篇论文很重要，几乎所有现代大型语言模型都使用Transformer或其某种变体作为底层模型架构。
2018年时，一个新思潮开始流行（当然这个想法之前就有了）。也就是人们意识到大规模语言建模可以使用自监督数据完成。比如对于一段文本，你可以用其中一部分来预测文本的其他部分。这样做能够得到一些问题的答案。实际情况也证明了这一点。并且人们也发现，使用更多数据可以让模型变得更好。
这类模型有多种训练目标。一是自回归，即查看前面的词来预测下一个词。今天大多数模型都采用了这种形式。另一种则是填空。上图中展示了一些例子。
这两种训练目标都非常有用。自回归式如今被用得更多，比如你在与聊天机器人对话时，模型就在根据之前的对话进行自回归预测。
2021年，谷歌开发了一种方法，可将图像任务映射到基于Transformer的模型。在此之前，大多数人都在使用某种形式的卷积神经网络。本质上讲，图像可被分解成像素块；就像Word2Vec将词嵌入到密集表示中一样，也可以对像素块做类似的事情——用一些高维向量来表示这些块。然后，就可以将它们输入到Transformer模型，使其能够处理图像数据。现在我们知道，图像和文本还可以组合成多模态数据。因此，这项研究在统一文本Transformer和图像Transformer方面产生了巨大的影响。
另外，在2017年，JeffDean还参与开发了一种创造稀疏模型的方法。本质上讲，就是对于一个很大的模型，仅激活其中一小部分，而不是针对每个token或样本都激活整个模型。
在最初的论文中，实际上有相当多的专家——每层有2048名专家。而每次会激活其中2个。这很不错，因为模型现在有了非常大的记忆能力，可以记住很多东西。并且选择具体激活哪些专家也可以通过反向传播以端到端的方式学习。这样一来，你可以得到擅长不同任务的专家，比如有的擅长处理时间和日期，有的擅长地理位置，有的擅长生物学。
然后，JeffDean列出了更多谷歌在稀疏模型方面的研究成果，感兴趣的读者可以参照阅读。
2018年，谷歌开始思考，对于这些大型分布式机器学习计算，可以有哪些更好的软件抽象。谷歌构建了一套可扩展的软件Pathways来简化大规模计算的部署和运行。
如上图所示，每一个黄点构成的框都可被视为一个TPUPod。当这些TPUPod在同一栋建筑内时，使用该建筑物内的数据中心网络来保证它们互相通信。而当它们位于不同的建筑内时，可以使用建筑物之间的网络以及相同的数据中心设施。甚至可以将不同区域的TPUPod连接在一起。
事实上，Pathways给机器学习开发和研究人员的抽象之一是你只需要一个Python过程。Jax本就有「设备（device）」的概念。比如如果你只是在一台机器上运行，里面有4块TPU芯片，当使用Jax和Pathways训练时，整个训练过程中所有芯片都将作为Jax的设备进行处理。依照这个机制，你可以用单一的Python进程管理成千上万个TPU设备。Pathways负责将计算映射到实际的物理设备上。而自上周开始，Pathways已开始向谷歌云的客户提供。
2022年，谷歌一个团队发现，在推理时思考更长时间是非常有用的。基于此观察，他们提出了思维链（CoT）。
图中举了个例子：如果给模型展示一些示例，示例中如果包含得到正确结论的思考过程，那么LLM更有可能得到正确答案。
这个方法看起来很简单，而实际上却能极大提升模型的准确度，因为通过鼓励它们生成思考步骤，可以让它们以更细粒度的方式解决问题。
可以看到，在GSM8K（八年级一般数学水平问题）上，随着模型规模增大，如果只使用标准提示方法，解决准确度会有一些提高，但如果使用思维链提示法，解决准确度则会大幅上升。
这正是在推理时使用更多计算的一种方式，因为模型必须在生成更多token之后才给出最终答案。
下面来看蒸馏——也是谷歌发明的。2014年，GeoffreyHinton、OriolVinyals和JeffDean最早开发出了这种名为蒸馏（Distillation）的技术，可用来蒸馏神经网络中的知识。这种方法能够将更好的大模型中的知识放入到一个更小的模型中。
在训练小模型时，比如想要其预测下一token，典型方法是让其先根据前面的句子进行预测，如果对了，很不错，如果错了，就反向传播误差。
这种方法还不错，但蒸馏却能做到更好。
教师模型不仅会给小模型正确的答案，而且还会给出它认为这个问题的好答案的分布。也就是说，教师模型能提供更丰富的训练信号。这种非常丰富的梯度信号可以用来为较小模型的每个训练样本注入更多知识，并使模型更快地收敛。
如上图中表格所示。这是一个基于语音识别的设置，其中给出了训练帧准确度和测试帧准确度。
可以看到，当使用100%的训练集时，测试帧准确度为58.9%。而如果只使用3%的训练集，可以看到其训练帧准确度还提高了，但测试帧准确度下降很明显，这说明出现了过拟合现象。但是，如果使用蒸馏方法，3%的训练集也能让模型有很好的测试帧准确度——几乎和使用100%训练集时一样准确。这说明可以通过蒸馏将大型神经网络的知识转移到小型神经网络中，并使其几乎与大型神经网络一样准确。
有意思的是，这篇论文被NeurIPS2014拒了。于是他们只得在研讨会上发表了这篇论文。而现在，这篇论文的引用量已经超过了2.4万。
另外在2022年，谷歌一个团队研究了一种不同的将计算映射到TPUPod以执行有效推理的方法。其中，有很多变体需要考虑，比如权重固定、X权重聚集、XY权重聚集、XYZ权重聚集……
谷歌得到的一个见解是：正确的选择取决于许多不同的因素。正如图中所示，其中的圆点虚线是最佳表现。可以看到，随着批量大小的变化，最佳方案也会随之变化。因此在执行推理时，可以根据实际需求选择不同的并行化方案。
时间来到2023年，谷歌开发了一种名为推测式解码（SpeculativeDecoding）的技术，可让模型推理速度更快。这里的想法是使用一个比大模型小10到20倍的drafter模型，因为其实很多东西靠小模型就能预测，而小模型速度又快得多。因此，就可以将两者结合起来提升效率：先让小模型预测k个token，然后再让大模型一次性预测k个token。相比于让大模型一次预测一个token，这种做法的效率明显更高。
JeffDean表示：「所有这些结合在一起，真正提高了人们今天看到的模型的质量。」
从底层的TPU发展到高层的各种软件和技术进步，最终造就了现今强大的Gemini系列模型。
这里我们就不继续整理JeffDean对Gemini系列模型发展历程的介绍了。最后，他还分享了AI将给我们这个社会带来的一些积极影响。
他说：「我认为随着更多投资和更多人进入这个领域，进一步的研究和创新还将继续。你会看到模型的能力越来越强大。它们将在许多领域产生巨大影响，并有可能让更多人更容易获得许多深度的专业知识。我认为这是最令人兴奋的事情之一，但也会让一些人感到不安。我认为我们有AI辅助的未来一片光明。」
版权归作者所有，本文仅用于学习。
阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”
https ://wx.zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx.zsxq.com/group/454854145828进入。
截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
（加入未来知识库，全部资料免费阅读和下载）
牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡：超级智能机构：赋能人们释放人工智能的全部潜力
AAAI2025关于人工智能研究未来研究报告
斯坦福：2025斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191页）
壳牌：2025能源安全远景报告：能源与人工智能（57页）
盖洛普&牛津幸福研究中心：2025年世界幸福报告（260页）
Schwab：2025未来共生：以集体社会创新破解重大社会挑战研究报告（36页）
IMD：2024年全球数字竞争力排名报告：跨越数字鸿沟人才培养与数字法治是关键（214页）
DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt
联合国人居署：2024全球城市负责任人工智能评估报告：利用AI构建以人为本的智慧城市（86页）
TechUK：2025全球复杂多变背景下的英国科技产业：战略韧性与增长路径研究报告（52页）
NAVEXGlobal：2024年十大风险与合规趋势报告（42页）
《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
2025-2035年人形机器人发展趋势报告53页
EvaluatePharma：2024年全球生物制药行业展望报告：增长驱动力分析（29页）
【AAAI2025教程】基础模型与具身智能体的交汇，350页ppt
Tracxn：2025全球飞行汽车行业市场研究报告（45页）
谷歌：2024人工智能短跑选手（AISprinters）：捕捉新兴市场AI经济机遇报告（39页）
【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习
《基于传感器的机器学习车辆分类》最新170页
美国安全与新兴技术中心：2025CSET对美国人工智能行动计划的建议（18页）
罗兰贝格：2024人形机器人的崛起：从科幻到现实：如何参与潜在变革研究报告（11页）
兰德公司：2025从研究到现实：NHS的研究和创新是实现十年计划的关键报告（209页）
康桥汇世（CambridgeAssociates）：2025年全球经济展望报告（44页）
国际能源署：2025迈向核能新时代
麦肯锡：人工智能现状，组织如何重塑自身以获取价值
威立（Wiley）：2025全球科研人员人工智能研究报告（38页）
牛津经济研究院：2025TikTok对美国就业的量化影响研究报告：470万岗位（14页）
国际能源署（IEA）：能效2024研究报告（127页）
Workday：2025发挥人类潜能：人工智能（AI）技能革命研究报告（20页）
CertiK：Hack3D：2024年Web3.0安全报告（28页）
世界经济论坛：工业制造中的前沿技术：人工智能代理的崛起》报告
迈向推理时代：大型语言模型的长链推理研究综述
波士顿咨询：2025亚太地区生成式AI的崛起研究报告：从技术追赶者到全球领导者的跨越（15页）
安联（Allianz）：2025新势力崛起：全球芯片战争与半导体产业格局重构研究报告（33页）
IMT：2025具身智能（EmbodiedAI）概念、核心要素及未来进展：趋势与挑战研究报告（25页）
IEEE：2025具身智能（EmbodiedAI）综述：从模拟器到研究任务的调查分析报告（15页）
CCAV：2025当AI接管方向盘：自动驾驶场景下的人机交互认知重构、变革及对策研究报告（124页）
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》
全国机器人标准化技术委员会：人形机器人标准化白皮书（2024版）（96页）
美国国家科学委员会（NSB）：2024年研究与发展-美国趋势及国际比较（51页）
艾昆纬（IQVIA）：2025骨科手术机器人技术的崛起白皮书：创新及未来方向（17页）
NPL&Beauhurst：2025英国量子产业洞察报告：私人和公共投资的作用（25页）
IEAPVPS：2024光伏系统经济与技术关键绩效指标（KPI）使用最佳实践指南（65页）
AGI智能时代：2025让DeepSeek更有趣更有深度的思考研究分析报告（24页）
2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告（37页）
华为：2025鸿蒙生态应用开发白皮书（133页
《超级智能战略研究报告》
中美技术差距分析报告2025
欧洲量子产业联盟（QuIC）：2024年全球量子技术专利态势分析白皮书（34页）
美国能源部：2021超级高铁技术（Hyperloop）对电网和交通能源的影响研究报告（60页）
罗马大学：2025超级高铁（Hyperloop）：第五种新型交通方式-技术研发进展、优势及局限性研究报告（72页）
兰德公司：2025灾难性网络风险保险研究报告：市场趋势与政策选择（93页）
GTI：2024先进感知技术白皮书（36页）
AAAI：2025人工智能研究的未来报告：17大关键议题（88页）
安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信：2025全球洪水风险研究报告：现状、趋势及应对措施（22页）
兰德公司：迈向人工智能治理研究报告：2024EqualAI峰会洞察及建议（19页）
哈佛商业评论：2025人工智能时代下的现代软件开发实践报告（12页）
德安华：全球航空航天、国防及政府服务研究报告：2024年回顾及2025年展望（27页）
奥雅纳：2024塑造超级高铁（Hyperloop）的未来：监管如何推动发展与创新研究报告（28页）
HSOAC：2025美国新兴技术与风险评估报告：太空领域和关键基础设施（24页）
Dealroom：2025欧洲经济与科技创新发展态势、挑战及策略研究报告（76页）
《无人机辅助的天空地一体化网络：学习算法技术综述》
谷歌云（GoogleCloud）：2025年AI商业趋势白皮书（49页）
《新兴技术与风险分析：太空领域与关键基础设施》最新报告
150页！《DeepSeek大模型生态报告》
军事人工智能行业研究报告：技术奇点驱动应用加速智能化重塑现代战争形态-250309（40页）
真格基金：2024美国独角兽观察报告（56页）
璞跃（PlugandPlay）：2025未来商业研究报告：六大趋势分析（67页）
国际电工委员会（IEC）：2025智能水电技术与市场展望报告（90页）
RWS：2025智驭AI冲击波：人机协作的未来研究报告（39页）
国际电工委员会（IEC）：2025智能水电技术与市场展望报告（90页）
RWS：2025智驭AI冲击波：人机协作的未来研究报告（39页）
未来今日研究所2025年科技趋势报告第18版1000页
模拟真实世界：多模态生成模型的统一综述
中国信息协会低空经济分会：低空经济发展报告（2024-2025）（117页）
浙江大学：2025语言解码双生花：人类经验与AI算法的镜像之旅（42页）
人形机器人行业：由“外”到“内”智能革命-250306（51页）
大成：2025年全球人工智能趋势报告：关键法律问题（28页）
北京大学：2025年DeepSeek原理和落地应用报告（57页）
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校：面向科学发现的多模态基础模型：在化学、材料和生物学中的应用
电子行业：从柔性传感到人形机器人触觉革命-250226（35页）
RT轨道交通：2024年中国城市轨道交通市场数据报告（188页）
FastMoss：2024年度TikTok生态发展白皮书（122页）
CheckPoint：2025年网络安全报告-主要威胁、新兴趋势和CISO建议（57页）
【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt
《21世纪美国的主导地位：核聚变》最新报告
沃尔特基金会（VoltaFoundation）：2024年全球电池行业年度报告（518页）
斯坦福：2025斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191页）
国际科学理事会：2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告（英文版）（118页）
光子盒：2025全球量子计算产业发展展望报告（184页）
奥纬论坛：2025塑造未来的城市研究报告：全球1500个城市的商业吸引力指数排名（124页）
FutureMatters：2024新兴技术与经济韧性：日本未来发展路径前瞻报告（17页）
《人类与人工智能协作的科学与艺术》284页博士论文
《论多智能体决策的复杂性：从博弈学习到部分监控》115页
《2025年技术展望》56页slides
大语言模型在多智能体自动驾驶系统中的应用：近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心：2024美国民众对气候变化及应对政策的态度调研报告：气候政策对美国经济影响的多元观点审视（28页）
空间计算行业深度：发展趋势、关键技术、行业应用及相关公司深度梳理-250224（33页）
Gartner：2025网络安全中的AI：明确战略方向研究报告（16页）
北京大学：2025年DeepSeek系列报告-提示词工程和落地场景（86页）
北京大学：2025年DeepSeek系列报告-DeepSeek与AIGC应用（99页）
CIC工信安全：2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告（42页）
中科闻歌：2025年人工智能技术发展与应用探索报告（61页）
AGI智能时代：2025年Grok-3大模型：技术突破与未来展望报告（28页）
上下滑动查看更多