从高考到实战,豆包大模型交卷了


从高考到实战,豆包大模型交卷了

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

机器之心报道
编辑:Panda
高考余热尚在,依然还是有不少博主和媒体在测试各家AI模型解答最新高考题的能力。而现在,一个正被火热评测的主流模型迎来了重磅升级!
事情发生在昨天、北京国家会议中心、火山引擎原动力大会Force2025现场。
火山引擎一口气发布了豆包大模型1. 6、Seedance1. 0Pro、AI云原生平台等多项新产品或升级,涉及语言、多模态理解、GUI操作、代码、视频生成、语音、播客、基础设施,再加上之前发布的豆包Seedream3. 0生图模型和豆包音乐模型,堪称火山引擎「十项全能」的「AI盛宴」。

性能上,不管是一般任务还是推理基准,豆包1. 6都进步明显,达到了世界前沿水平,跻身第一梯队;也是国内首个支持256K上下文的思考模型系列,并且已经掌握了多模态理解和GUI操作两大重要技能!
另外,火山引擎也晒出了豆包大模型在最新高考试卷上的成绩。如下图所示,其中左侧的高考全国新一卷数学单科成绩正是来自于我们之前的评测,但被测豆包是前一代的Doubao-1. 5-thinking-vision-pro,但它已能达到144高分,并列国内模型第一。而右侧则给出了豆包1. 6和去年版本在海淀模拟全卷上的成绩,可以看到豆包的成绩已经从能读重本升级成了能上清北的水平了。
豆包1. 6虽然丰盛可口,但也只是这场AI盛宴上的主菜之一。在火山引擎Force大会上,我们还看到了豆包视频生成模型Seedance迎来了正式版本1. 0Pro,其支持无缝多镜头叙事、多动作及随心运镜以及稳定运动与真实美感。在ArtificialAnalysis视频竞技场中,Seedance1. 0Pro的表现甚至超过了当前领先的Veo3(去除音效)和可灵2. 0。(虽然下图Seedance的名称中没有Pro,但确为同一模型。)
ArtificialAnalysis视频竞技场文生视频和图生视频排行榜前十名
在音频方面,火山引擎宣布已经备受用户欢迎的实时语音模型开始通过火山引擎面向B端企业用户开放。另外,我们也看到火山引擎之前发布的面向播客的专用模型也出现了在Force大会的舞台上——已可在扣子空间体验。另外,我们也在Force2025的视频直播页面看到了默默工作的豆包同声传译的身影。
在AI基础设施方面,火山引擎围绕AI应用的实际需求,打造了三个套件:AgentKit、TrainingKit和ServingKit。顾名思义,这三个套件的作用分别是智能体、模型训练和模型serving。
整场Force大会下来,我们最大的感受是火山引擎对「AI云原生」概念的反复强调。简单来说,「AI云原生」是指将云原生理念应用到AI领域,专注于AI工作负载的云端构建和部署;其核心理念是以AI负载为中心,重新优化计算、存储与网络架构,让GPU可直接访问存储和数据库,降低IO延迟,并提供高速互联和端到端安全保护。事实上,正如我们以前多次报道的那样,「AI云原生」已经成为火山引擎「下一个十年」所遵循的云计算新范式。
作为火山引擎这场AI盛宴的前排「食客」,我们也是第一时间进行了品尝。下面就来看看机器之心的一手实测,看看火山引擎究竟是否「十项全能」。
一手实测
每道菜都很香
话不多说,开始品尝。
豆包1. 6:版本号提升0. 1,能力迈进一大截
自豆包1. 5于1月下旬发布以来过去了还不到5个月,豆包大模型的版本号虽然仅提升了0. 1,但其能力的深度与广度都迎来了重大提升。在火山引擎的AI体验中心,我们对这款与OpenAIo3-pro和Mistral的Magistral这两款推理模型同一天问世的系列模型进行考校。
感兴趣的用户也可访问体验中心,选择模型后亲自尝试:
https ://exp. volcengine.com/ark?model=doubao-seed-1-6-250615
首先用一个常规测试题来测试下标准版Doubao-Seed-1. 6:
使用Python编写一个贪吃蛇游戏,要求蛇撞墙后会死亡,游戏场景中还有一些撞到会死亡障碍物,整体色彩丰富一些。
Doubao-Seed-1. 6用时277秒完成了这个任务。接下来将代码复制到Trae看看运行效果:
Doubao-Seed-1. 6毫无压力地一次性完成了整个任务,结果甚至有点超出预期。更早之前我们在其它模型上测试类似的编程任务时,还常会遇到一些报错或者游戏参数设置不合适(比如蛇的速度过快)的问题,而这一次,我们无需对代码进行任何修改!
接下来考验一下Doubao-Seed-1. 6的推理能力。先来一个24点问题:
使用这5个数构建三个不同的等式,使等式的值等于24。要求每个等式中每个数至少用一次:2、3、5、13、29。可使用任何高等数学方法。
618秒后,我们得到了答案。
经验证,这三个答案全都正确并且是超额完成了目标:在每个等式中都使用了每个数并且每个数都仅使用了一次。
在一个AI爱好者群里,我们看到有群友说,豆包1. 6是第一个能通过非编程式推理成功解决五位数密码推理问题的国产模型,所以这一次我们也把开启深度思考的Qwen3和DeepSeek-R1拉到一起进行同台竞技。
78635(有3个数字是正确的,但位置都不对)
16384(有1个数字正确且位置对,有1个数字正确但位置不对)
92741(有2个数字正确且位置对,有1个数字正确但位置不对)
56483(有1个数字正确且位置对,有1个数字正确但位置不对)
67153(有2个数字正确且位置对,有2个数字正确但位置不对)
推理出这五位数是什么?
先剧透一下,正确答案是12753。
我们的三位AI选手在拿到这个问题之后都进行长时间的思考,深度思考版Qwen3-235B-A22B消耗了38,912token后率先给出了一个结果,但并不正确。
Qwen3的解答
第二完成任务的是Doubao-Seed-1. 6,用时353秒,并且结果正确。
Doubao-Seed-1. 6的解答
从其思考过程可以看到,Doubao-Seed-1. 6首先会对条件进行分析,并从中确定出最重要的条件,然后基于此再执行进一步推理。如此就能水到渠成地得出正确答案。对本题解决思路感兴趣的读者可访问这里:
https ://www. volcengine.com/experience/ark/share/exsc-202506121206-%5BHqK0STXzPXIl6AxyAB93-%5D
DeepSeek-R1的思考时间最长,耗时1051秒,但也仅仅给出了一个「尽管有部分偏差,但整体符合多数线索」的答案。是的,这个答案并不正确。
DeepSeek-R1的解答
接下来,我们再试试豆包1. 6的多模态理解能力。比如如果我们想给自己的博客建一个漂亮的Landing页面,而我们又不想进行复杂的代码编写和参数调整,我们完全可以简单手绘一张图,然后让豆包直接帮我们生成想要的结果。打开Canvas,上传手绘草图,然后简单说出我们的需求:
我想制作一个动态网页,这是我手绘的设计稿,请生成这个页面。
结果?相当出人意料。或许是因为笔者的手书实在惨不忍睹,豆包1. 6在解读图片时领会错了含义,竟然在近5分钟后生成了一个相当不错的机械波动态演示网页。该网页支持正弦波、方波、三角波、锯齿波的演示,并支持波速、振幅和频率调节。效果相当不错。感兴趣的用户也可以访问这里进行尝试:
https ://www. volcengine.com/experience/ark/share/mcs-202506112116-%5BMvSEQxz8V52WBHGe5qCer%5D
我们又尝试了其他手绘草稿,但豆包1. 6未能完全准确地复现出我们手绘的网页形式(不过也确实给出了一些相当可用的结果),存在过度解读现象——生成的结果会增加许多额外的信息或采用完全不同的设计。我们猜想这可能涉及到多模态语言模型的幻觉问题,这方面还需要豆包模型和学术界做进一步的研究探索。
豆包1. 6还具有边想边搜、深度研究能力,能独立思考、规划、使用搜索等各种研究工具。举个例子,昨日Meta宣布了148亿美元重金投资ScaleAI,引发市场关注,而我们可以借助豆包1. 6的工具使用和深度研究能力帮助我们了解这件事可能对AI行业产生什么影响,以及可能导致哪些股票上涨或下跌。
上下滑动查看
可以看到,由于这是刚刚发生不久的事件,并不在豆包1. 6的记忆之中,因此它在执行这个任务时,首先会进行搜索和分析,形成对事件的基本了解,然后会根据任务规划接下来将要执行的任务步骤,之后再具体执行执行步骤。
最后,对于前些天的高考数学卷评测中让受测的所有多模态大模型折戟的第6题,我们又拿来检验了一下Doubao-Seed-1. 6系列模型的表现。
如果只提供问题截图+一句话提示「解答这道数学题」,豆包1. 6仍未能正确解答这个问题。大概是因为这种坐标系和细线、箭头对模型来说确实比较难识别。
Doubao-Seed-1. 6-thinking解答2025年高考全国一卷数学第6题的过程
从这个问题的解答以及前面的网页生成示例看,多模态推理模型依然还有进步空间。
Seedance1. 0Pro:比肩前沿的视频生成模型
接下来,通过即梦AI,我们抢先内测了火山引擎新发布的比肩Veo3和可灵2. 0的Seedance1.0Pro。
先来一个简单的场景,看看Seedance1. 0Pro的动态一致性表现。
提示词:一个小男孩在海边迎着风放风筝,风筝突然被风吹飞,绳子挣脱,他追着风筝跑。
可以看到,Seedance1. 0Pro在细节与真实感上已经达到了非常拟真的程度,我们甚至能看到小男孩跑动时头发自然的摆动。
接下来,加入镜头切换的元素,测试一下Seedance1. 0Pro的叙事控制、空间一致性和镜头语言理解能力:
开场为背后跟拍镜头:女孩穿着赛博朋克风外套在未来城市中行走,霓虹灯反射在街面。
切换至主观视角:她看着广告牌中一段闪现的神秘图像。
转为航拍全景镜头:俯瞰整个街区,光流动,车辆自动穿行。
最后切到近景侧面:女孩走入一扇自动门,镜头停留在门缓缓关闭的瞬间。
是的,这个提示词很复杂,因此我们选择了生成10秒长度的视频,而Seedance1. 0Pro虽然没能做到完全遵循指令,但在镜头切换上的表现却着实让人惊叹。
然后,我们想看看Seedance1. 0Pro能否很好地应对高速运动测试场景。这一次,直接让Doubao-Seed-1. 6-flash为我们快速编写一个提示词吧:
选择其中第三个,交给Seedance1. 0Pro看看。
可以看到,即使对于高速运动场景,Seedance1. 0Pro也能一次性生成相当出色的结果。顺便一提,这一次我们还加上了AI音效。
最后,也必须试试Seedance1. 0Pro基于参考图像生成视频的能力。是时候让朋友家的边牧出场了,看看它能否在Seedance1. 0Pro的魔法下变成一个年轻小伙。
有点瑕疵,但整体来说相当成功。
不止文本与视觉,还有语音
除了豆包1. 6系列模型和用于生成视频的Seedance1.0Pro,火山引擎在此次Force大会上还发布了一个类似NotebookLM的播客模型,可以根据用户提供的资料以及网络信息生成自然流程的对话式播客节目。
另外,火山引擎也宣布已经备受用户欢迎的实时语音模型开始通过火山引擎面向B端企业用户开放,现在开发者也能在自己的应用中集成这个既能说方言,还能讲悄悄话和唱歌的AI了。
整体看来,在豆包这个品牌下,火山引擎要做的并不是面向单个任务或模态的单点突破,而是面向真实世界的全面智能体。
由于火山引擎这一次更新了不少产品和服务,所以我们的实测也只能做到点到为止,包括豆包+Trae、MCP和PromptPilot等诸多能力我们都没有进行测试。事实上,火山引擎还专门打造了一个应用实验室,可让用户尝试针对不同场景开发的智能体应用。这些模型和技术的真正潜力还需要等待作为用户的你亲自去挖掘。
https ://console. volcengine.com/ark/region:ark+cn-beijing/application
如此AI盛宴
火山引擎是怎么做出来的?
在经历了火山引擎在我们的视觉和听觉感官上的多重炫技之后,我们不禁会想:在当今这个嘈杂纷扰、让人目不暇接的AI领域,为什么是火山引擎做出了这么多广受欢迎的模型和产品?
归根结底,在于火山引擎在技术上的「饱和投入」,而这些投入在整体上又可划分为火山引擎智能算法负责人吴迪曾谈到今年的AI技术发展的「三条主线」。
首先,第一条主线是「推理+视觉」范式的发展。吴迪指出:「如果仅仅是把推理和思考放在文本上,还不能完全发挥模型应有的智能;当我们把推理和思考用在视觉理解上,就会解锁更广泛的应用场景。」现在,豆包的模型能力已经基本上能实现有效的视觉理解了,但行业的应用还有待涌现。这也将是火山引擎今年将重点关注的发展路线。
第二条主线则是视频生成走向实用。这条主线的标志性事件是谷歌Veo3模型的上线,其在做到了高质量视频生成的同时还能同时生成恰到好处的语音和音效。而更早一些的Veo2与可灵2. 0则已经开始让视频生成不再局限于娱乐和研究领域,而是开始真正进入实际生产环境,被用于制作广告短片甚至生产专业视频内容。
而第三条主线就是多步骤复杂任务,这也就是当今大热的「智能体(Agent)」概念。不同于生成式AI,智能体AI不只是会生成用户查询的结果,更是会实实在在地执行具体的任务,甚至主动对用户的任务进行拆解、处理和优化。这一条主线正在火热发展中,但直到今天为止,大部分相关产品和服务都还处于探索阶段。吴迪预计多步骤复杂任务会在今年最后3个月左右逐渐走向成熟,并且这有望带来一个全新的产业。
事实上,这些技术发展的主线趋势也反映在了云服务商的token使用量上。吴迪表示,推理+视觉、视频生成、和工具使用将成为今年token用量增长的主要来源,甚至带来增长斜率的拐点。
当然,这三大主线本身也是由大量更底层的技术进步交织而成的。在Force2025大会上,我们也看到了火山引擎近段时间已经上线部署的一些重要技术进展。
比如在智能体开发方面,火山引擎实现了对MCP协议的全面整合,将智能体开发体系、云服务和大模型工具链接到了一起,其中还集成了近200种优质的生态服务,支持用户快速跳转至火山方舟或Trae、Cursor等支持MCP协议的开发工具,帮助用户快速进行端到端AI应用开发。
火山引擎也构建了自己的PromptPilot服务。这是大模型应用落地的「领航员」,可以把模糊的诉求变为具象化的目标并自动撰写和优化提示词。比如,在产生badcase时,它代替我们分析与检测每一条badcase,并实现提示词的自动优化。
而要让智能体发挥真正的价值,知识管理也至关重要。火山引擎的AI知识管理可理解和处理文字、图片、视频及超大文件,并支持本地内容理解+互联网信息补充以及进行交互式推理。
另外,为了让智能体AI真正有能力完成各式复杂的任务,尤其是对准确度要求非常高的任务(比如医疗和法律),后训练也非常关键,而强化学习已经成为最重要的后训练策略之一。针对这一需求,字节跳动去年开源了强化学习框架veRL,并收获了开源社区的广泛好评——star量已经超过9300。几天前,火山引擎发布了veRLv0. 4.0版,实现了对DeepSeek671B和Qwen3235B等大型MoE模型的支持,并且可通过SGLang支持带有工具调用和多轮RL的样本级rollout。
截图自veRL项目:https ://github. com/volcengine/veRL
数据方面,火山引擎为企业打造的新一代AI原生数据基建:多模态数据湖,可帮助企业打造出适应智能体时代的数据基础设施,将数据转变为驱动AI模型训练与决策的核心燃料。火山引擎还针对企业的需求打造了新一代企业级AI数字专家,其能够主动思考、洞察、分析与行动,从而为企业构建自主进化数据大脑。
而火山引擎为AI基础设施构建的三大套件AgentKit、TrainingKit和ServingKit也蕴含着巨大潜力。
其中,AgentKit和TrainingKit是在Force大会上最新发布的。前者提供了强大的智能体开发底座,可通过极致弹性沙箱保障工具生态安全高效运行、并搭配开箱即用的记忆管理机制和智能体全链路观测等核心能力,助力企业高效构建、部署、运维复杂智能的企业级智能体。后者则是火山引擎面向预训练打造的云原生训练套件,提供了集群诊断、故障自愈、HPN高性能智算网络、veCCL集合通信优化、BCC拥塞控制算法、veRL框架集成、训推引擎集成等能力。
ServingKit则已在今年4月上线,其提供了涵盖大模型推理部署加速、推理性能优化和运维可观测的推理服务全生命周期优化方案,且可灵活集成到客户自有推理系统和业务系统中。
而这些也只是火山引擎面向「AI云原生」时代的创新的一部分。打开火山引擎官网产品页面,你能看到这家正蓬勃发展的云服务商为满足AI应用的各式需求所开发的各种产品和解决方案,从中我们也能看到它的壮志雄心。
火山引擎官网截图,来自:https ://www. volcengine.com
在Agent时代
火山引擎率先交出了可落地的答卷
随着模型能力不断向多模态、长链条任务延展,大模型产品也正从语言对话的交互阶段,迈向更复杂、更贴近实际的智能体形态。火山引擎此次集中发布的一系列模型和工具,不只是一种「能力炫技」,而更像是在寻找一个更通用、更具落地性的AI能力框架。在快速演化的技术潮流中,它提供了一份相对清晰的阶段性答案。
与「模型先行、应用滞后」的行业惯性相比,火山引擎在应用场景的覆盖面和产品化节奏上走得更快了一步。从豆包App里的生成体验到企业客户可调用的服务接口,从文本、图像到视频和语音的统一调度……可以看到火山引擎对AI实际落地路径的某种认识:面向落地的AI才是好AI。
本次Force大会中提到的「AI云原生」,虽仍处于概念逐步落地的过程中,但其指向的方向具有共识意义——AI基础设施需要被重新定义。未来的智能应用,不只是「调用模型」,更是构建、部署和管理大量动态智能体的过程。而围绕这个目标,无论是火山引擎发布的三大开发套件,还是veRL等强化学习组件,都是在为下一阶段的AI产品形态做准备。
当然,每一代技术热潮都会带来一批「十项全能」的主角。模型好不好用、用不用得起、能不能持续演进……是所有玩家都必须面对的现实考题。而火山引擎显然已经做好了准备,正如字节跳动CEO梁汝波说的那样:「我们将长期投入,让火山引擎成为深受客户信赖的云服务平台。」高考刚刚过去,豆包以「全能」为题交上了一份答卷;但真正的竞争刚刚开始,未来几年将是整个行业从「考场比拼」走向「实战落地」的关键阶段。而这,可能才是智能体时代真正值得关注的拐点。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录