团队“DeepSeek”化!字节 Seed Edge启动不足两月,冲刺AGI再发新作,训练成本再节省40%


团队“DeepSeek”化!字节 Seed Edge启动不足两月,冲刺AGI再发新作,训练成本再节省40%

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

整理|褚杏娟
1月下旬,字节正式设立代号为“SeedEdge”的研究项目,目标是探索AGI的新方法,其中“Seed”是豆包大模型团队名称,Edge代表最前沿的AGI探索。
该项目团队近日发布了其最新的研究成果:一项针对MoE架构的关键优化技术Comet,可将大模型训练效率提升1.7倍,成本节省40%。
据悉,相较DeepSeek近期开源的DualPipe等MoE优化方案,Comet可以像插件那样直接接入已有的MoE训练框架,支持业界绝大部分主流大模型,且无需对训练框架进行侵入式改动。Comet也可以与DualPipe方案联合使用。
Comet主要解决的是MoE模型里的专家放置挑战。单个GPU无法容纳所有专家,通常做法是将专家分布在不同的GPU上,因此GPU之间需要频繁地交换数据。为了减少通信开销,一种有效的策略是将通信与专家计算重叠。
Seed团队指出,在分布式环境中,通信与计算的重叠存在两个问题:第一,随着数据块规模的缩小,计算效率降低,导致GPU计算资源的利用不足。此外,粗粒度的划分在通信的初始和结束阶段会导致不可避免的GPU空闲时间。第二,由于MoE的动态特性,专家在运行时的输入形状各异,给GPU带来了多样化的通信和计算负担。将通信和计算任务封装在不同的内核中,限制了对硬件资源的控制,导致内核性能不稳定,阻碍了通信与计算的无缝重叠。
Comet则通过两项关键设计实现了通信与计算的细粒度重叠:1.通过识别MoE中通信和计算操作之间的复杂数据依赖关系,优化计算通信管道的结构;2.通过动态分配GPU线程块来平衡通信和计算工作负载,提高延迟隐藏效率。
据悉,Comet由大约1.2万行的C++、CUDA代码以及2000行Python代码组成。Comet提供了一套用户友好的PythonAPI,开发者可以将这些API无缝集成到他们的框架中。
字节在各种并行策略下,将Comet集成到了Megatron-LM中,并对其进行了验证。在NvidiaH800和L20集群上的广泛实验表明,与现有的最先进MoE系统相比,Comet在典型的MoE层上实现了1.96倍的加速,对于端到端的MoE模型执行(如Mixtral-8x7B、Qwen2-MoE、Phi3.5-MoE等),平均加速1.71倍。当前,Comet已被部署到拥有超过一万块GPU的生产集群中,用于加速大规模MoE模型的训练和推理,节省了数百万的GPU小时。
与Megatron-Cutlass、Megatron-TE、FasterMoE和Tutel相比,Comet的端到端延迟分别降低了34.1%、42.6%、44.4%和31.8%。
开源代码:https ://github.com/bytedance/flux/pull/54/

    研发成果单月“三连击”

字节已在内部组建AGI长期研究团队,代号“SeedEdge”,核心目标是做更长期、更基础的AGI前沿研究。SeedEdge初步确定了五大研究方向,包括:
探索推理能力边界:探索更高效且更通用、提升模型推理能力的方法;
探索感知能力边界:找到统一生成和理解表示的方法,探索世界模型建模,探索比语言更好的对世界进行表示的建模;
探索下一个Scaling方向:在预训练和推理阶段的ScalingLaws之外,探索Multi-Agent和Test-TimeTraining等方向;

探索下一代软硬一体的模型设计:面向下一代训练和推理硬件的结构特点设计下一代模型,达到训练效率、推理效率、模型性能的多目标同时优化,并进一步压榨下一代硬件能力。
自正式对外公布后,在过去的整个2月份,SeedEdge项目团队公开了三项成果。
团队先是与北京交通大学联合发布和开源了通用视频生成实验模型VideoWorld。与Sora和DALL-E不同,它不依赖语言来理解世界,仅仅观察视频就足以学习复杂的任务。同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld达到了专业5段9x9围棋水平,并能够在多种环境中执行机器人任务。
值得注意的是,字节发布VideoWorld相关消息的2月10日,当天视觉认知概念股走强。参与该模型项目的北交大博士ZhongweiRen还在小红书上感叹“学术民工误入华尔街片场”,并称该模型还在“炼丹”阶段。
之后,团队提出了全新的稀疏模型架构UltraMem,该架构有效解决了MoE推理时高额的访存问题,推理速度较MoE架构提升2-6倍,推理成本最高可降低83%。该研究还揭示了新架构的ScalingLaw,证明其不仅具备优异的Scaling特性,更在性能上超越了MoE。
此外,团队还提出一个基于大语言模型(LLM)和最优先树搜索(BFS)的高效自动形式化定理证明系统BFS-Prover。团队发现,简单的BFS方法经过系统优化后,可在大规模定理证明任务中展现卓越性能与效率,无需复杂的蒙特卡洛树搜索和价值函数。在数学定理证明基准MiniF2F测试集上,BFS-Prover取得了72.95%准确率,超越此前所有方法。

    SeedEdge研究逐渐

“DeepSeek”化
一定程度上,字节要打造的SeedEdge项目团队与DeepSeek相似。
SeedEdge鼓励跨模态、跨团队合作,为项目成员提供宽松的研究环境,实行采用更长周期的考核方式,以保障挑战真正颠覆性的AGI课题。同时,SeedEdge也将得到单独的算力资源保障。
根据晚点的报道,字节每半年考核一次绩效,但为SeedEdge项目人员提供更长考核周期,同时不做严格的过程考核,而是在项目取得突破进展后再做最终评估。Seed团队主要考核模型层的效果,SeedEdge则考核研究成果的价值。
对于SeedEdge还有一个特别的考核和激励设计:如果一位研究者经过多轮考核周期后取得了重要的研究成果,字节还会“补偿”此前几轮周期的考核绩效,“鼓励探索更长周期、不确定的和大胆的课题”。
而根据在SeedEdge实习过的知乎答主Alan的表述,“Seed是国内唯一一家能在实习生身上提供难以想象的高资源投入的地方”。其在经过五轮技术面试以及最后语音部门负责人亲自面试后加入团队,称“这里对于前沿未知技术探索的氛围非常浓厚”,团队不聚焦刷榜,而是真正从AGI角度思考问题。另外,团队规模偏向小而精,各成员都很优秀,沟通成本非常低,并给了实习生很高的自由度。
用卡方面,知乎答主tyfr提到,自己为了验证一个想法而跑几百卡的实验是稀松平常的,就算任务突然挂了,几百卡空一天,也不会发警报斥责浪费资源。
另外,答主swtheking表示,Seed内部现在很重视外部的impact和research,所以团队里每个人都能有机会出国参与国际会议,将自己的一部分工作发表论文来提升个人和团队影响力。
SeedEdge项目团队成员也逐渐年轻化,如VideoWorld模型的核心作者是在读博士,在字节团队长期实习3年。
去年5月,为储备最具潜力的研究人才,豆包大模型团队启动了“TopSeed人才计划”,以极具竞争力的待遇在全球招募顶尖博士毕业生加入。
“我们看中的人一定是最top的5%的人。”字节各部门负责人也表达了对团队成员的期待:进来(字节)之后去做95%的人做不到的事情;最关键的点其实是创造力,敢于打破我们现在的认知;有坚定的目标和信念,对技术非常有热情、有想象力;有扎实的功底,动手能力也很强;有比较强的好奇心,有探索的欲望;能够承受挫折,“我们日常工作中的挫折感往往是大于成就感的,我们愿意给更长的周期,让大家去解决真正有挑战的事情。”
值得注意的是,近期字节大模型团队进行了一次架构调整。2月21日,原谷歌DeepMind副总裁吴永辉博士加入字节担任大模型团队Seed基础研究负责人。吴永辉博士主要负责AI基础研究探索工作,偏基础研究;而之前负责人朱文佳主要负责模型应用相关的工作,偏模型应用,两个人都在Seed部门,都向梁汝波汇报。团队易帅对整体科研氛围的影响尚不知晓。
参考链接:
https ://www.zhihu.com/question/4580911331/answer/112547776593
https ://mp.weixin.qq.com/s/6Epg3iRvzEczGuSSQdBzEA
https ://mp.weixin.qq.com/s/0fUwfjD4oeiqdZ3Yu1H17Q
声明:本文为AI前线整理,不代表平台观点,未经许可禁止转载。
会议推荐
在AI大模型重塑软件开发的时代,我们如何把握变革?如何突破技术边界?4月10-12日,QCon全球软件开发大会·北京站邀你共赴3天沉浸式学习,跳出「技术茧房」,探索前沿科技的无限可能。
本次大会将汇聚顶尖技术专家、创新实践者,共同探讨多行业AI落地应用,分享一手实践经验,深度参与DeepSeek主题圆桌,洞见未来趋势。
今日荐文
人大代表呼吁废除35岁就业门槛;Manus紧急扩容服务器;“海米兄弟”火了!海尔老总被调侃撞脸结界兽|AI周报
被骂惨的“现象级”Manus,今天我们来扒一扒它的真实水平!
代码界的“瘟疫”?卡帕西“氛围编码”兴起,越来越多创业公司正将代码全权交给AI!
阿里深夜发布QwQ-32B模型:仅1/20参数就可媲美DeepSeekR1、Mac上可跑,带动股价大涨
你也「在看」吗?👇


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录