AI创业CEO们的真实战场,如何跑通最后一公里丨智源大会精彩回顾
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
在大模型的发展进入应用分化期后,围绕效率、可控性与多模态融合的讨论,正重塑AI创业的技术路径与商业逻辑。
6月6日,在智源大会·大模型产业CEO论坛上,几位来自模型、视频、机器人等方向的一线创业者,以各自产品与组织为背景,呈现出AI落地的几种不同策略。
回放链接:https ://event. baai.ac. cn/activities/895
主旨演讲嘉宾
在论坛的主旨报告环节,李大海分享了端侧模型如何通过极致压缩和高效推理,在手机、穿戴设备等终端实现性能飞跃;王长虎讲述了PixVerse如何以“非主流”的姿态闯入AI视频赛道,用一张照片引爆全球用户增长;驼怡航则展示了多模态生成平台Vidu如何从模型走向生产,推动创意、质量与效率的三重跃迁;陈建宇则描绘了一个更具想象力的未来,即人形机器人如何融合通用智能与物理交互,打开通往“具身智能新纪元”的大门。
如果说主旨演讲呈现的是AI创业者在各自赛道上的突围方式,那么圆桌讨论则更像是一场对产业“集体进度条”的冷静盘点。
圆桌论坛
圆桌讨论由钛媒体联合创始人万宁主持,围绕几个关键问题展开:大模型在推理能力上的突破,是否具备可持续性;多模态架构是否能够从“拼接”走向真正融合与扩展;视频生成能否突破演示阶段,迈入高质量、强可控的生产应用;以及最具现实意义的一点:AI如何完成从“技术工具”向“结果交付”的商业闭环转化。
在讨论过程中,与会者不仅在寻找解法,也在记录障碍。嘉宾提供的各自实践路径,本质上是对“AI产业如何真正落地”的不同回答,他们的尝试不止是技术迭代,更是对“AI如何真正落地”的不同注解。
李大海:端侧模型大有可为
在论坛上,面壁智能创始人李大海发表了题为《高效大模型的路径探索》的演讲。他指出,大模型正在向端侧智能快速演进,这一趋势意味着具备更高知识密度、更快推理速度、更低部署成本的端侧模型将发挥重要作用。
李大海在论坛现场发布了面壁小钢炮4. 0版—前进四,其名称寓意自《三体》中的最高速度巡航状态,强调极致的高效性能。
在技术方面,李大海提到,面壁智能通过上下文稀疏化技术,大幅减少了长文本推理计算量。此外,团队还推出仅0. 5B参数的极致量化小模型,性能远超同类产品。他指出,这一突破依赖于高质量数据的精准利用,仅用8T数据就实现领先性能,显著降低了训练和部署成本。
据悉,目前面壁智能已与英特尔、华为、联发科等合作,在多平台实现性能优化,并提供多个端侧应用demo,推动高效智能广泛应用。
李大海最后强调,“前进四”代表着面壁智能不断推进技术边界、持续践行知识密度定律的决心,期望通过高效的端侧模型助力更多智能硬件与终端,进一步丰富人类生活,实现技术与人文的共同进步。
王长虎:打造多人喜欢的AI视频产品
在论坛上,爱诗科技创始人兼CEO王长虎带来了题为《PixVerse(拍我AI):如何打造6000万用户喜欢的AI视频产品?》的分享。他分享了公司自成立以来,以视频生成技术为核心,迅速发展为现象级产品PixVerse的经历。
王长虎指出,两年前选择视频生成并非主流,当时许多投资人和业内专家并不看好,认为视频生成在短期内难以落地。但他坚信视频是最贴近用户的内容形态,因此带领团队Allin视频生成,持续投入研发视频大模型,取得了快速突破。短短数月时间内,PixVerse便跻身全球视频生成第一梯队。
他强调,PixVerse成功的关键在于技术创新与用户体验的完美结合。特别是V3版本的推出,将创作门槛降低到普通用户也能轻松使用的水平,例如不再需要复杂的指令,只需上传一张照片即可生成高质量的视频。这一突破引爆了全球社交媒体,包括广受欢迎的“超级变身”、“神明拥抱”等视频模板,推动PixVerse(拍我AI)迅速成为全球最受欢迎的视频生成产品之一,2025年4月月活用户超过1600万,全球累计用户超过6000万。
王长虎分享了创业过程中的几个关键战略决策,包括选择非共识的视频赛道、面对强大竞争对手Sora时果断加大投入,以及从ToC逐步拓展到ToB市场,服务于更多企业客户。同时,他坦言创业之路充满挑战,面临着技术迭代迅速、资金需求高、竞争环境激烈等问题。
王长虎说,创业两年,是一场“刀尖上求生存”的修行。在这段旅途中,他不仅见证了AI视频赛道的从冷到热,更以极大的韧性穿越了技术挑战、资金压力与行业质疑。他强调,企业如同孩子般成长,创始人的认知、决策将深刻影响其命运。只有在实践中不断学习、快速纠错,企业才有可能在浪潮中立足。
驼怡航:多模态生成,从模型走向生产
生数科技CEO驼怡航发表了题为《多模态生成,从模型走向生产》的报告。他提出,去年语言模型迎来了飞跃式的爆发,而多模态生成则相对没那么快,但在今年迎来了多模态领域规模化生产落地的关键转折点。这一转折点体现在技术迭代迅速、行业需求旺盛、以及视频产业落地节奏的显著加快。
驼怡航强调,视频生成技术的规模化应用必须同时具备四个关键要素:内容创意、内容质量、生产效率和生产成本。其中,创意依赖人的想象力,而质量、效率和成本则由大模型产品驱动。他指出,传统内容生产的痛点明显,周期长、成本高、专业门槛强,而通过AI视频模型,可以实现效率的百倍提升和成本百倍下降。
作为生数科技首席执行官,驼怡航介绍了公司旗下的多模态生成平台Vidu的具体实践。从2024年4月发布中国首个长时长、高一致性、高动态性视频大模型以来,Vidu持续升级,陆续推出Vidu1. 5、2. 0和Q1版本,实现了效果、速度和功能的大幅提升。Vidu平台现已服务全球200多个国家和地区,用户超过2500万,其中企业客户达2000余家,涉及八大行业、多个应用场景。
驼怡航还分享了多个生动的用户案例。个人创作者利用Vidu提升效率10倍以上;海外作家借助平台将文学作品转化为受欢迎的视频内容;企业用户通过集成Vidu的API实现高效协同生产,极大降低成本与创作周期。Vidu不仅服务于商业广告、影视宣传片等高要求场景,更支持科幻动漫、创意短视频等多样化创作,充分展现了平台的灵活性与高效能。
驼怡航最后强调,Vidu的成功关键在于快速响应用户需求,不断迭代模型与产品,形成技术、产品、用户之间的良性飞轮。他坚信,AI并非要取代人类,而是作为创意和生产力的伙伴,释放人类的想象力与创造力,从而真正赋能产业变革,助推千行百业的发展。
陈建宇:人形机器人是终极形态
星动纪元创始人兼CEO陈建宇带来了题为《加速奔跑迈入具身智能“星”纪元》的分享。他指出,AI大模型的发展正逐步拓展至具身智能领域,机器人技术正迎来从纯虚拟到物理世界交互的重要转折点。星动纪元致力于构建通用机器人的新纪元,目标是实现真正的通用智能与通用本体结合,推动机器人广泛部署,赋能千行百业并进入千家万户。
陈建宇认为,人形机器人是具身智能发展的终极形态。这是因为人形机器人不仅在数据获取方面有显著优势,能够直接从人类行为中更自然地学习,还具备高效的双足移动与双手操作能力,极大地扩展了机器人的应用边界。星动纪元正通过结合具身智能模型与创新硬件,逐步实现人形机器人的通用性与实用性。
他强调,具身智能的发展必须同时考虑智能算法与机器人本体的协同演进。从传统机械控制到强化学习,再到视觉语言动作(VLA)模型,智能算法正持续演进并趋于融合。同时,机器人本体也从固定机械臂逐步发展到自主移动机器人,最终进化为更具通用性的人形机器人。星动纪元推出的HiRT范式与后续的VPP、PAD等生成式模型创新性地实现了视频预训练与真实物理世界交互的结合,大幅降低了数据收集的成本与难度。
陈建宇详细介绍了星动纪元在机器人本体设计上的突破性成果,包括自主研发的准直驱技术人形机器人,以及首创的直驱灵巧手。这些技术创新不仅极大提高了机器人的运动能力和稳定性,还实现了高度灵敏和精准的操作性能。
他进一步指出,当前具身智能产业正处于快速发展的早期阶段,面临两道重要的创新鸿沟。星动纪元已经在高校、企业和研究机构中成功落地数百台机器人产品,下一步目标是跨越产业应用的鸿沟,实现ToB商业应用,并最终进入大众消费市场,打造数以亿计的机器人终端新纪元。
圆桌论坛:多模态大模型产业前瞻
突破瓶颈:多模态智能的技术进展与挑战
万宁:过去一年中,你所看到的最激动人心的技术突破是什么?同时,你认为当前面临的最大瓶颈是什么?尤其是像多模态模型、具身智能在商业化上真正的临界点会在哪里?
王仲远:过去一年,大模型,尤其是大语言模型,在推理能力方面取得了重要突破,主要原因是与强化学习的结合起作用了。但由于文本语料已趋近饱和,基础模型的进一步提升面临瓶颈。然而,通过后训练和链式思维,它在推理深度和回答准确性上有了明显进步,这推动了模型智能化的进一步发展。
目前主流的文生图、文生视频等应用,其背后的技术架构(如DiT)与大语言模型存在差异。业界正在积极探索新的技术路径,以实现真正的原生多模态融合,但距离迎来“多模态的ChatGPT时刻”尚有距离,未来发展值得高度期待。
曹越:在语言模型领域,我认为实现的非线性跃升有两个:一是以ChatGPT为代表的预训练模型规模化(scaling);另一个则是像OpenAI-o1、DeepSeek-R1这类支持Test-TimeScaling的技术。今天的视角看,这两项无疑是目前最具突破性的成果。
在多模态方向,过去一年最震撼的是Sora的出现。它让大家第一次直观感受到,高质量的视频生成已经变成现实。
但从技术层面来看,Sora背后的Diffusion-Transformer架构存在明显瓶颈,核心问题是模型Scale的能力较差。这种Scaling的难题类似于2018年语言模型领域BERT面临的局限:模型训练到一定规模后,效果提升就停滞了。而GPT之所以后来居上,正是因为具备良好的Scale能力,使其能够持续扩大模型规模。
目前的视频生成技术虽然在5s左右的视频生成任务上表现尚可,但随着模型变大,很快会遇到性能瓶颈。那么有没有更可扩展的方案?我认为可以尝试引入自回归的思路。如果人类观看视频是按顺序的,模型是否也可以按顺序生成?如果能实现实时流式的生成,甚至生成一分钟、五分钟的内容,用户体验将完全不同。
梅涛|智象未来创始人兼CEO
梅涛:我们在2023年采用扩散模型起步,处于跟随阶段。2024年DiT模型推出后,我们迅速转向,发布了扩散式回归模型。今年4月开源的HiDream-I1已跻身开源榜前列。
相比模型排名,我们更重视多模态大模型的实际应用,致力于提升客户创造力和生产力。服务模式也转向了成果即服务(RaaS),聚焦直接交付成果,以更高效率、更低成本为客户创造价值,实现共赢。
如果为当前视频生成技术打个分,它大概处在从ChatGPT-2向ChatGPT-3过渡的阶段。要真正实现视频创作的智能化,仍需突破三个关键问题:一是叙事能力:模型需具备讲好一个完整故事的能力,无论是5分钟还是1小时,人物和风格都要始终如一;二是稳定性:目前已有一定进展,基本画面不再出现严重错误;三是可控性:仍是短板。我曾在北影学习“镜头语言”,深知导演对时间点、镜头角度、角色表情的精准要求,而今天的大模型还远远无法满足。
因此,我们仍在等待视频生成领域的“ChatGPT时刻”的真正到来。
(右)张鹏|智谱CEO,线上
张鹏:过去一年最令我兴奋的技术进展有两点:一是大模型的深度推理能力有了突破,开始具备类似“系统2”的逻辑推理能力,不再只是直觉式的“系统1”,这对AI来说是划时代的进步;二是在此基础上,智能体(Agent)能力大幅提升,模型能自主规划、执行并根据反馈调整任务,这让AI真正具备走向物理世界的潜力。
当然,也面临不少挑战。最大的问题之一是数据,尤其是视频数据受限于版权和高昂成本,限制了模型训练的规模。更深层的技术难题是:视觉“理解”和“生成”在底层路径上仍未打通。视觉理解已经商业化落地较多,但视频生成仍缺乏统一技术框架,二者割裂严重,是目前多模态发展面临的核心瓶颈。
技术路线:从“静态描述”迈向“动态预测”
万宁:上午发布的“悟界”作为一个原生的多模态世界模型,似乎正在构建“物理AGI”这一概念。
王仲远院长能否进一步阐述,这个“物理AGI”与我们传统理解的AGI有何不同?其更深层的含义与价值又是什么?
王仲远:我们上午介绍的Emu4模型,其核心特点在于从一开始就原生统一了文本、图像和视频的训练,并融合了模型的理解与生成能力。基于此,我们正在训练的下一代模型,目标是实现对世界更深层次的理解,即从“静态描述”迈向“动态预测”。
目前多数模型对世界的理解,仍停留在描述静态事实,如同一个机器人报告它“看到了什么”。但人类的理解是基于因果和物理规律的预测:手伸向杯子,是预判“要喝水”;杯子倒了,是预判“水会洒湿地面”。这种对动态世界进行因果建模的能力,才是我们构建多模态世界模型的真正愿景,它远超单帧的图像描述。
要实现这一目标,不仅需要技术路线的突破,更需要一场理念上的革新。我们坚信,人工智能的未来发展,必须立足于对空间、时间及物理交互的深刻理解——这也正是我们智源研究院的核心研究方向。
万宁:目前很多生成视频在“物理真实性”上仍存在明显问题,例如我们常说的“一眼假”,比如杯子倒了、水却没流出来。请问,如何看待和应对“一眼假”这一挑战?
曹越|Sand. ai创始人兼CEO
曹越:王仲远院长提出的“预测物理规律”是一个非常关键的视角:判断模型是否真正理解世界,关键在于它能否基于已有画面预测下一秒的变化,并符合物理定律。比如一个杯子掉落的过程中,其运动轨迹是否符合牛顿定律。
在我们看来,视频生成的本质就是“视频预测”——通过理解过去的视频内容,来生成合理的未来片段,这种方式具备更强的可扩展性。
过去一年,Sand. ai的核心工作也围绕这一方向展开。我们最近开源了首个基于自回归范式的视频生成模型Magi-1,采用逐秒预测的训练方式,让模型基于“已发生”推演“将发生”。不同于主流的”Diffusion-Transformer”模型路径,我们认为自回归的训练方法更贴合视频模态顺序的信息存储方式。
进一步来看,统一多模态的关键,是找到各自模态最scalable的训练方式。“柏拉图特征空间假说”中曾提出过这样一个理论:当模型参数足够大时,不同模态会自然趋于学习相似的内部表示。当前大语言模型领域已找到正确的路径,而“视频预测”可能就是视频生成模型的最优路径。一旦路径成立,模态之间的融合也将水到渠成。
能力价值:跨越商业化“最后一公里
万宁:当这些技术落地到实际应用,用户的需求和反馈,是否会反向塑造我们对推理模型的技术路线和发展方向?
梅涛:关于大模型的本质,我一直在思考两种截然不同的观点。
一方面,计算机科学界认为大模型只是对现实的高质量复刻,不是真正的智能。架构相似后,核心竞争就变成了谁拥有更好的数据。
另一方面,生命科学界则更乐观,认为大模型的学习机制与人脑神经元连接有相似之处,虽仍初级,但可能是通向智能的正确方向。
这两种观点碰撞下,一个核心难题是:如何统一“理解”与“生成”。我们选择了一条更务实的路——不是直接挑战这个基础问题,而是通过结合3D世界建模与2D视频生成,尝试在理解场景的同时完成三维重建。这是我们认为更有现实价值的路径。
万宁:智谱选择了开源与闭源并行的“两条腿”策略。在这一战略背后,贵公司对于构建一个健康、共赢的行业合作生态,有着怎样的顶层设计与考量?
张鹏:我们始终认为,大模型仍处于技术驱动的快速上升期,不能过早将重心转向应用而忽视技术本身。
基于这一判断,智谱坚持开源与商业化“双轨并行”战略,各有侧重:开源旨在推动技术创新和社区发展,让更多人在我们的基础上探索新方向;商业化则聚焦解决客户的定制化需求,把前沿技术转化为实际价值。
在技术飞速演进的阶段,两者相辅相成,互为支撑。我们相信,这是实现技术突破与商业成功的最佳路径。
万宁:在当前阶段,大模型应如何跨越从“技术驱动”到“价值驱动”的鸿沟,在产业应用中为用户提供真正不可或缺的价值?
王仲远|智源研究院院长
王仲远:今天上午发布的“悟界”大模型系列中,包含了一款名为Brainμ的模型,它真正实现了“全模态输入、全模态输出”。
传统的“理解”与“生成”通常是单向的,比如视频转文字。而全模态意味着,任意模态都可以互相转换——文字、图像、视频,甚至脑信号都能作为输入或输出。
Brainμ基于EMU3架构,结合脑科学技术,具备从脑电信号中读取信息的能力。比如,它可以将人的思维转化为文字,或将想象中的图像还原出来,实现“思维可视化”。
虽然目前使用的是非侵入式的头戴式脑机接口,图像还原还有提升空间,但技术路径已经非常清晰。
未来,我们希望这项技术能广泛应用,比如帮助失明人士通过脑电信号“看见”世界。我们坚信AI能在跨学科融合和改善人类生活中发挥巨大作用。
尽管前路漫长、学术界尚存分歧,但探索那些产业尚未触及的前沿方向,正是智源研究院存在的意义。
万宁:随着ToB业务发展,专业创作者对视频质量要求越来越高。我们在提升生成技术的可控性方面,还面临哪些技术瓶颈?如何看待商业化“最后一公里”问题?
梅涛:关于商业化“最后一公里”的问题,其实目前有两条路径:
一是做强底层模型和产品。如果模型能力足够强,就有机会打通一些上层应用,像OpenAI或Google这种有流量和资源的公司,可以快速获取用户,提供底层服务。
二是构建垂直业务的闭环场景。这就要求我们深度理解业务流程,形成闭环。以我们做互动营销的经历为例:最初想卖工具,但用户门槛高、需求多,难以推广;接着转向内容交付,但又面临价值不清、难定价的问题;最终我们选择交付“结果”,通过提升流量或GMV来与客户分成。
未来,我们还计划搭建生态体系,比如签约UP主和MCN,运营账号。
总之,不管模型多强,如果不能打通商业闭环,就只是一个技术提供者。真正的商业落地,关键在于打通最后一公里,形成稳定的、可持续的现金流。
曹越:我认为很多人忽略了一个关键前提:实际上人类在视频领域的生产力是非常低下的。传统影视制作需要动用布景、灯光、道具、演员,甚至为了一个飞天镜头都要吊威亚,整个流程既昂贵又耗时。
正因如此,AI视频生成的早期价值并不在于其能够生成一段完美的视频,而在于它能以极低成本实现传统方式“无法完成”或“成本高到难以接受”的内容。比如,如果我们要拍太空中的航空母舰,用传统特效的方式需要逐帧制作,花费巨大;而AI视频即使需要多次尝试,生成一个片段的成本也仅仅需要几百元,成本远远低于传统特效制作。这种“用AI完成不经济的创作”,本身就是一个巨大的突破,也足以支撑行业未来三到五年的发展空间。
长远来看,尽管目前AI视频在一致性、稳定性等方面还有很多问题,但回顾大语言模型的发展路径,我们有充分理由相信这些技术瓶颈终将被突破。一旦视频创作的门槛被彻底拉低,生成式AI即使将带来全行业的变革。
可以想象,不久的将来,网文作者可能从每周更新一个章节变成每周发布一集剧集,老师布置的作业可能从写一篇作文变成生成一个2分钟的短片。今天看似遥远的场景,在未来都有可能成为日常。
万宁|钛媒体集团联合创始人、ITValue发起理事、钛媒体研究院院长丨主持人
重塑世界:AI引领变革与社会未来
万宁:AI最有可能在哪些行业真正带来突破?
张鹏:AI的本质是什么?我们认为,它核心上是对知识的学习、压缩和表达的能力。
正因如此,AI最先影响的是提供知识服务的场景,比如客服、教师、销售等。随着技术进步,它开始具备写代码、调用工具、撰写文章的能力,也逐渐渗透到程序员、研究人员等白领岗位。
未来可能还会影响更复杂的行业,比如医疗。有人甚至预测未来5到10年,AI可能解决所有已知疾病,医生这个职业可能会被重构,虽然这很激进,但医疗行业显然也将面临深刻变革。
当然,AI替代一些工作的同时,也会创造新的岗位。我们无需过度担忧,关键是正面看待技术进步所带来的变与机。
万宁:沿着您的商业路径,最快能在哪些垂直行业中,为用户创造出最大的、可衡量的商业价值?
梅涛:这是我们一直在关注的问题。目前我们在几个行业已经有不错的进展。在互动营销领域,特别是在通信行业,我们为个人和小商家提供AI视频营销服务,已经做到全国领先;在跨境电商领域,已服务数百家客户,帮助他们快速制作营销内容;在游戏方向,我们也在积极探索。
我们的核心思路是:用AI替代繁琐流程,让人专注于创意本身。所以凡是和数字创意相关的内容行业,都是我们重点关注的方向。
万宁:技术发展不可避免会替代一些东西,但也在塑造新的世界。如何看待大模型和AI对未来经济的影响?
王仲远:对技术革命的担忧在历史上反复出现。从电力到计算机革命,每一次都有旧岗位被淘汰(就像算盘被计算器取代),但人类社会总能继续向前发展,并创造出更多的整体财富。
当前的大模型浪潮同样会带来深刻的社会变革。尽管现阶段商业化看似缓慢,技术挑战依然存在,但我们已看到积极的信号,比如“智能体(Agent)”创业的兴起。
当越来越多的人将想法变为产品并融入日常生活,变革就会在不知不觉中完成。我们常常高估一年的技术进展,却低估五年所能带来的社会巨变。
纵观历史,人类经历了不止一次技术革命,因此我非常乐观。关键在于,我们每个人都应主动拥抱它,例如作为研究员,我们的使命是不断突破技术边界;而对于普通人,则应主动了解这项技术,并思考它如何为自己的工作与生活带来新的可能性。
当我们选择拥抱变化时,新的机会便由此产生。
-往期推荐-
本文版权归智源社区所有