谷歌大神首次揭秘Gemini预训练秘密:52页PPT干货,推理成本成最重要因素


谷歌大神首次揭秘Gemini预训练秘密:52页PPT干货,推理成本成最重要因素

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

谷歌凭借Gemini2.5pro已经彻底翻身,经过这段时间各路大神的深度使用和评测,基本上已经锁定大模型top1,除了优秀的写作能力以外,编程能力更是打遍无敌手,最重要的Gemini一直以来基本是免费给所有人用,连API都免费
今天有幸看到了一份来自Google内部的技术分享,主讲人是VladFeinberg,谷歌GeminiFlashPretraining的负责人。这份PPT信息量爆炸,深入探讨了Gemini预训练背后的核心逻辑、挑战以及未来方向,特别是如何在算力、数据、模型大小和推理成本之间找到那个微妙的平衡点。下面,我就带大家深度解读一下这份干货,一探Gemini背后的训练故事
关于大模型的预训,我们熟知的ScalingLaws(缩放定律)只是故事的一部分
ppt:
https ://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf
还记得大模型训练的那个经典问题吗?给你一笔固定的算力C(比如1000块H100用30天),怎么训练出最强的LLM?模型参数N该多大?训练数据D该多少?
早期,大家主要参考Kaplan等人在2020年提出的ScalingLaws。他们的研究发现,模型性能与算力、参数量、数据量之间存在幂律关系,并且强烈建议优先扩大模型参数N。具体来说,算力提升10倍,参数N建议扩大5.37倍,而数据D只需扩大1.86倍。这直接点燃了军备竞赛,大家疯狂堆参数
但是,GoogleDeepMind(GDM)在2022年3月发布的Chinchilla(龙猫)论文,给这个“参数为王”的时代泼了一盆冷水
Chinchilla团队指出,Kaplan的研究方法(基于单次训练中的中间loss点来推断)存在缺陷,忽略了学习率衰减等优化带来的好处,只有最终的loss才最能反映模型真实水平
他们采用了更严谨的IsoFlops方法:
1.固定总算力C
2.训练多个不同参数N的模型(对应不同的数据量D,因为C≈6ND)
3.找到这个算力下,loss最低的那个模型N_opt(C)和D_opt(C)
4.重复以上步骤,得到不同算力C下的最优(N,D)点
5.拟合这些最优点的关系
Chinchilla的惊人发现是:模型参数N和数据量D应该以大致相同的速率(指数约为0.5)随算力C增长!这意味着,按照Kaplan定律训练出来的很多大模型,其实是“训练不足(Undertrained)”的!模型太大,数据相对太少,潜力没发挥出来。更糟糕的是,这些“虚胖”的大模型,推理成本极高,部署和使用起来非常昂贵
为什么Chinchilla强调的“训练不足”和推理成本如此重要?因为大模型最终是要用的!
看看Google内部的应用场景:
1.高通量服务:像搜索AIOverviews、免费的GeminiApp(聊天机器人)、企业级VertexAI平台、AIStudioAPI等,用户量巨大
2.实时交互:ProjectAstra、ProjectMariner这类需要即时响应的多模态应用。
这些场景,尤其是实时交互,对模型的推理延迟有着极其苛刻的要求
VladFeinberg现场做了一个简单的“餐巾纸计算”(NapkinMath):假设一个需要实时交互的WebAgent,上下文128k,每次交互处理8k新token,生成128个token,要求延迟在1秒内,再去掉250毫秒的网络和处理开销…用Llama3-70B这样的模型在谷歌的v5e芯片上跑,光是处理8k新token(Prefill)就需要近6秒(单芯),即使动用4x4=16块芯片并行,也才勉强压到0.5秒左右。而生成阶段(Decode)更是受到内存带宽的严重制约,每生成一个token可能就需要好几毫秒
结论:对于低延迟场景,70B参数的模型可能都太大了!我们需要更小、更快的模型,也就是像GeminiFlash/Flash-lite这样的“小钢炮”
传统的ScalingLaw研究,往往只关注训练loss,完全忽略了推理成本,这在实际应用中是行不通的
既然推理成本如此重要,有没有更科学的方法来指导预训练呢?答案是肯定的。
Sardana等人在2024年提出了“推理感知”的ScalingLaws。核心思想是:不再仅仅最小化训练loss,而是要优化“总成本”,这个总成本包括了训练成本和生命周期内的总推理成本
其数学形式更复杂,需要考虑训练和推理使用的硬件(MFU不同)、输入/输出token量(D_inp,D_out)等因素
但结论很明确:
考虑到推理成本后,最优的模型往往比Chinchilla定律建议的更小,但需要用更多的数据(或重复训练更久)!
当然,这种新范式也面临挑战:
1.硬件非同质性:训练和推理芯片不同,成本难统一衡量
2.推理量D_inf难以预测:模型变好会刺激更多使用(杰文斯悖论),市场会扩张
3.ScalingLaw拟合本身不完美:尤其在数据量极大或极小的情况下,拟合误差可能很大
为了解决拟合问题,Muennighoff等人(2023)提出了考虑数据约束的ScalingLaw,引入了唯一数据量U和重复次数R的概念L(N,U,R)。研究发现,重复数据的收益会快速下降。这意味着,在数据有限的情况下,更小的模型对数据重复利用更有效
那如果数据“无限”呢?Llama3训练了15Ttoken还在提升,似乎说明对于开源模型,只要算力允许,可以一直用所有数据训练下去。但这是否是最优策略?用数据受限定律可以反推,如果用更少、更精的数据,达到同样效果能节省多少算力?达到Llama38B模型的loss,可能只需原来72%的算力
除了模型大小、数据量、推理成本,模型蒸馏(Distillation)也成为了一个重要的研究方向。Busbridge等人(2025)正在研究蒸馏的ScalingLaws,试图量化教师模型和学生模型之间的成本与性能关系
如何用有限的算力训练出“小而精”的学生模型?教师模型的能力上限、学生模型的“容量差距”、蒸馏过程中的技巧(如温度控制)等,都是需要探索的问题。一个有趣的观点是,蒸馏本质上是一种方差缩减,好的教师模型能提供更稳定的学习信号,减少学生模型学习的“噪声”。
总结一下VladFeinberg分享的核心观点:
Scaling研究两大方向:
1.提升曲线:在给定的模型大小下,做到更好的性能
2.增加斜率:让模型性能随规模增长得更快
Gemini的策略:类似“Tick-Tock”,用Flash版本追赶上一代Pro版本的性能,不断优化推理效率
推理效率是关键:压缩技术(更好的蒸馏、量化、服务友好型模型设计)与Scaling研究同等重要
低成本研究机遇:
硬件感知Kernel优化:为特定硬件写算子,比如下一代FlashAttention
量化新前沿:超越传统的向量量化
FunSearch类方法:用LLM辅助搜索更好的模型结构或训练策略
更鲁棒的ScalingLaws:引入更多维度(如数据质量、重复度),使用更严谨的统计模型(如MLEvs.最小二乘),甚至用主动学习来选择最优的(N,D)实验点
如果你对这个话题感兴趣,可以去查阅PPT中提到的几篇关键论文(Kaplan2020,Chinchilla2022,Sardana2024,Muennighoff2023,Busbridge2025等
ppt地址再次奉上:
https ://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf
免责声明:本文基于公开可获取的Google内部技术分享PPT进行解读,旨在传递技术信息,不代表Google官方立场。所有解读基于博主个人理解,如有偏差敬请指正
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~
求赞👇👇


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录