Meta、MIT、人大、腾讯、字节、Luma AI、Sand.ai:他们正重新定义多模态 | 智源大会·多模态论坛精彩回顾


Meta、MIT、人大、腾讯、字节、Luma AI、Sand.ai:他们正重新定义多模态 | 智源大会·多模态论坛精彩回顾

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

自回归模型,仍是答案吗?扩散模型,真的更优?多模态,是迈向通用智能的关键融合,还是一次被高估的技术妥协?在范式的更迭与路径的抉择之间,多模态正站在下一个突破口的前沿,等待被重新定义。
6月7日,智源大会·多模态论坛上,来自Meta、MIT、字节、腾讯、LumaAI、Sand. ai等国内外领先企业与研究机构的多位代表,围绕多模态的未来展开深入探讨。
主旨报告环节,研究者们从“文生图”的实时生成应用,延伸至自回归结构重构,再到扩散语言模型LLaDA的架构革新——这些探索不仅是技术路线的演进,更是在追问一个关键命题:多模态是否正在逼近现有范式的极限?
而在围绕多模态的“下半场”圆桌论坛中,嘉宾几乎都强调了一个转折点:技术演进的下一阶段,关键不在于参数的继续堆高,而在于模态之间协同能力的真实发生,即不是更大的多模态,而是更协调。
例如,与会嘉宾提出“用语言模型式的Scaling逻辑来类比多模态并不完全适用”、“多模态上半场是追平人类感知能力,下半场则是探索超越人类感官极限的新模态”、“多模态真正的挑战在于模态间的数据无法统一处理”…….更多关于前沿的多模态探索,请欣赏↓
(回放链接:https ://event. baai.ac. cn/live/897)
DanielBolya:统一图像-视频CLIP模型

在演讲中,DanielBolya介绍了其团队提出的感知编码器系统,包括三个组成部分:(1)PE核心:(2)PE语言模块(3)PE空间模块。
其中,PE核心是基于ViT-L构建的基础模型,实现了鲁棒的图像预训练,采用通过改进的大规模对比学习框架训练。具体而言,在图像预训练阶段,该团队优化Batchsize、加入了旋转位置编码等技巧,提升了ImageNet上的零样本泛化准确率和鲁棒性。在视频扩展阶段,该团队首创\“数据引擎\“范式,先用图像模型生成初始视频字幕,经人工迭代优化后,仅用较少的高质量视频数据微调即实现视频理解。
PE语言模块可以将PECore的中间层特征与LLM对齐,从而被用于解决多模态任务。在训练阶段,该团队冻结语言模型仅微调视觉编码器,保留语言理解能力。该团队发现,模型的某些中间层特征在OCR和视觉问答等任务中甚至优于专用模型。
PE空间模块通过SAM掩码增强局部特征,同时保留语义信息,既对齐PECore中间层特征,又引入随机掩码的对比学习,针对密集预测任务进行了优化。
据悉,在图像检索任务中,PECore的性能较前SOTA模型SigLIP-2取得了提升显著;在视频任务上,仅基于帧级处理的PECore的新能超越了全时序注意力模型InternVideo-2。
芦清林:多模态生成模型实践
腾讯混元多模态生成技术负责人芦清林带来了《腾讯混元多模态生成模型实践》的主题报告。报告围绕三个核心议题展开:图像生成、视频生成以及模型在腾讯业务中的落地。
在图像生成方面,芦清林首先回顾了DALL·E-1以来的重要里程碑,随后介绍今年5月发布的“混元文生图2. 0”。该模型凭借高压缩率编解码器与自研对抗蒸馏,实现毫秒级实时出图,用户可在“双画布”上即时涂改、随写随画。
为兼顾速度与画质,芦清林团队引入结构化captioner、视觉-语言大模型文本编码器与提示词增强,同时与美术设计师合作,建立美学评估体系,筛选高质量训练数据,并通过“加噪-去噪”强化学习策略优化饱和度、手部细节与人像质感。最后,借助一致性插件,模型还能在多尺度特征、文本注入与课程学习三重机制下精准控制角色外观与提示遵循度。
视频生成方面,最新混元模型在四点上取得了突破:一是十亿级图片、亿级视频构成的超大规模数据管线;二是接入VLM文本编码器强化语义一致;三是基于自研ScalingLaw的全注意力DiT架构,实现大幅动作与帧间连贯;四是3DVAE提升重建能力,使人脸更清晰、运镜更流畅。
最后,芦清林展示了混元模型在腾讯各业务线中的广泛应用场景,包括游戏皮肤设计、长文配图与图文转视频等等。他强调,混元系列正在通过统一的多模态框架,实现技术与创意的深度融合,推动内容生产在效率与表现力上实现双重飞跃。
黎天鸿:扩展自回归模型

首先,黎天鸿回顾了自回归模型的历史发展,提到自回归模型早在70年代就已被广泛应用于金融、经济等时序预测领域,而当前在图像生成领域的代表性工作包括PixelCNN和VQGAN等模型。他特别强调了在图像生成中,将图像表示为离散的token(即VQ-tokenizer)是一个重要的里程碑。通过这种方法,图像特征通过CNN编码器提取,利用K-Means方法将视觉向量替换为词典中的代码,实现图像的离散化处理。
然而,黎天鸿指出,VQ-tokenizer在实际应用中仍然面临训练困难和高压缩率导致的重建质量问题。他还提到,虽然VQ-tokenizer在一定程度上延续了自然语言处理中的自回归计算方法,但并非自回归建模的必要步骤。为此,他提出了一种基于连续型tokenizer的自回归方法,能够直接对图像进行建模,避免了VQ-tokenizer的限制。
为了探究是否可以基于自回归生成直接对高维像素数据建模,黎天鸿等人在“分形生成模型”中,通过嵌套的自回归生成图像,形成了一个分形结构,实现了从粗到细的逐级生成。
自回归模型与扩散模型并不冲突,可以并存。自回归模型应该处于其它生成模型的上一级进行建模,可以将高维分布分解成多个简单的低维分布。相较于扩散模型,自回归模型的视觉推理能力、统一多模态数据的能力可能更强。未来,基于自回归的数据生成方法可能成为扩散模型的有力挑战者,还有很大的研究空间。
李崇轩:大语言模型新范式
中国人民大学李崇轩副教授在报告《LLaDA:大语言模型新范式》中,探讨了自回归与扩散模型在生成式人工智能中的优势与挑战,重点分析了两者在处理语言和视觉数据时的差异与应用。
李教授指出,在研究高维概率分布的生成模型时,有三个关键因素需要考虑:(1)网络结构:Transformer作为通用网络架构,适用于多种模态;(2)规模扩展:模型需要不断扩大以应对复杂分布;(3)概率建模方法:视觉与语言数据的建模方法不同,分别尝试了自回归和扩散模型。
自回归模型通过逐步预测下一个token,将高维联合概率转化为多个一维条件概率的积,而扩散模型则通过“从粗到细”的去噪过程生成数据,从简单的高维概率逐步转移到复杂的高维概率。李教授提出了一个问题:自回归是否是实现语言智能的唯一途径?
尽管自回归模型在大语言模型中取得了成功,但它也存在局限性。首先,生成速度与输出长度正相关,导致长文本生成效率低;其次,缺乏双向建模和推理能力。相比之下,扩散模型具备双向建模的优势,并且生成过程不依赖于输出长度,因此可能是一个更有效的解决方案。
李教授介绍了他们团队的新研究成果,提出了新的扩散模型范式,能够有效处理离散语言数据。他们在论文《ReparametrizedAbsorbingDiscreteDiffusion》(RADD)中,提出了基于条件概率的转移函数,通过这种方法,将扩散过程与Transformer架构结合,实现了新的扩散模型。
前段时间,李教授团队发布了LLaDA(扩散大语言模型)系列模型。通过无监督预训练和有监督微调,他们成功实现了灵活的语言生成。大量实验表明,LLaDA具有良好的可扩展性,在指令追随任务中,LLaDA8B的表现与LLaMA38B相当,且相比自回归模型,LLaDA的训练过程更为一般化,无需微调,支持多种采样方式。
李教授团队还探讨了如何通过强化学习对LLaDA进行价值对齐,提出了VRPO方法,通过方差缩减技术优化偏好对齐,进一步提高了模型的性能。
在多模态生成方面,团队通过使用包含千万级图文和视频数据的多模态数据集进行微调,结果显示,LLaDA在多模态任务中性能优于其他大语言模型,多模态生成中有巨大潜力。
黄伟林:图像与视频生成基础模型

首先,他首先介绍了Seedream模型。Seedream2. 0的表现在于中文生成能力。之后,开发团队通过优化数据质量、构建知识树,并针对2. 0版本模型的弱项进行补充,显著增强了文字渲染与图文匹配能力。2025年4月发布的Seedream3. 0进一步扩展了训练数据的规模,优化了文字生成与OCR数据,并基于MMDIT架构提高了生成效率,同时通过艺术美感的SFT(SupervisedFine-Tuning)训练提升了图像的美学表现。
接着,黄伟林讲解了SeedEdit图像编辑模型。SeedEdit1. 0支持“一键改图”,能够在保留原图特征的基础上精确根据指令对图像进行修改。2025年6月字节完成SeedEdit3. 0版本的升级,并将基础模型从SeeDream2. 0升级到SeeDream3.0,优化了数据收集设计,并引入了新的损失函数,强化了改图后人物一致性的稳定性与准确性。
此外,黄伟林介绍了Mogao模型。该模型兼具理解(自回归)和生成(扩散)能力,通过自回归和扩散两个独立的神经网络进行训练。模型通过因果注意力机制实现两部分的有效交互,训练数据包括视觉语言模型(VLM)、文本到图像(T2I)及交错数据,使得跨模态生成效果更加精准。
最后,黄伟林预告了Seedance1. 0视频生成模型的发布。该模型不仅支持多镜头切换和风格化生成,还通过优化后的文本编码器和3DVAE提取视觉特征,并采用MMDIT级联架构,显著提升了视频生成的质量与效率。
宋佳铭:新型预训练范式
LumaAI的创始人宋佳铭在《从推理优先的视角构建新的预训练范式》的报告中,提出了一种新的生成式人工智能训练思路,强调推理效率在多模态生成模型中的关键作用。
近年来,研究者们在多模态生成领域提出了多种模型,如“视觉-语言”模型、图像生成的扩散模型以及图像与文本的混合模态模型。然而,宋佳铭认为现有技术,主要依赖于自回归和扩散模型的组合,并未充分突破这些方法的限制。
宋佳铭指出,当前的方案通常集中在两个方面:(1)增加token的数量;(2)优化已有的token,甚至将这两者结合起来,通过扩展序列长度和优化token质量的方式进行推理改进。
这些方法的核心问题在于过于强调序列长度扩展,忽视了推理效率。宋佳铭指出,理想的推理算法应兼顾序列长度与token质量的扩展能力,并在模型容量允许的情况下尽量减少推理步骤。
他进一步指出,虽然连续扩散模型能扩展生成步数和token质量,但因其学习的是平均分布,无法在一步内收敛。理想模型应具备两项能力:(1)在N步内完成正确生成;(2)在一步内实现高效生成。然而,目前尚无模型可同时满足这两点。对此,他提出“flowmaps”方法,通过调整采样步数和策略,提升推理效率。
宋佳铭团队在论文《InductiveMomentMatching》(IMM)中提出了一种新型训练方法。与传统的去噪分数匹配或流匹配方法不同,IMM不依赖基于分数的随机微分方程。该方法通过一致性模型,使用单一目标函数和单阶段训练,简化了训练过程。IMM的优势在于:(1)训练过程稳定;(2)无需复杂的去噪分数匹配;(3)能够实现最佳的少步生成效果。
在离散扩散模型的应用,尤其是掩码扩散模型中,宋佳铭指出,当模型预测未被掩盖的token时,后续预测通常假设该token不再变化。他还强调,为了加速生成,推理时期望迭代步数小于序列长度N,根据“鸽笼原理”,至少有一步需要同时预测两个token。然而,基于BERT风格的掩码扩散模型通常先预测所有logits再采样,可能导致生成错误的文本。宋佳铭认为,自回归模型更适合处理此类任务,能避免这一问题。
圆桌论坛:工业界最前沿:多模态大模型的下半场
李根:LLM的上下半场划分是训练到推理的重心变化,在多模态大模型领域好像有没有这种标志,如何多模态的上、下半场?
张拯:用“训练半场”和“推理半场”来划分多模态模型并不合适,因为目前“上半场”的边界尚未明确。接下来,各种模态将加速融合、共同提升,每种模态在推理和训练上的算力需求会各不相同。找到一种统一处理所有模态的方法,将是一个具有标志性的突破。
宋佳铭:上半场和下半场这种划分本身没问题。但更关键的是:上半场要实现什么,才能让下半场真正发挥作用。
进入下半场的前提是上半场能把不同模态像语言一样统一处理,既要用同一个模型建模,还要保证推理足够快。希望未来能有统一的大模型,实现多模态的思维链,真正把它和强化学习或推理结合起来。
黄伟林:Transformer架构在多种语言模型中是通用的。语言模型之所以表现出满足ScalingLaw,是因为容易针对语言模态构建自监督环境,数据获取成本低。
但多模态就复杂得多,不同模态间的数据构建更难。以视觉和语言为例,以往多模态主要是语言监督、视觉辅助,发展路径比较依赖语言。但由于模态之间缺乏统一的处理方式,多模态的发展面临更高的数据复杂性。想要在“下半场”实现真正的多模态智能,关键在于如何构建适合的训练数据。
图注:芦清林|腾讯混元多模态生成负责人
芦清林:如果把基础模型和应用一起看,上下半场的界限其实很模糊,5分强的模型和8分强的模型,各有用法,且是连贯发展的。但如果只看基础模型,我原本觉得路线很清晰,未来大概率是走向大一统。但今天听到有人提到Diffusion可能更有优势,也让我觉得还需要再等等看,形势还不明朗。
黎天鸿:现在大家做的多模态,主要是把语言、图像、视频这些人类熟悉的模态整合起来,顶多算是“上半场”的多模态。而真正的“下半场”多模态,应该是模型能处理超越人类感官的数据。总体来说,上半场是追平人类的能力,下半场是要超越人类。更期待看到模型能从人类难以理解的模态中学到新东西。
多模态模型的技术里程碑
李根:回顾多模态发展过程,有没有一些标志性成果、进展让我们理解已经取得的成就?
张拯:在我看来,多模态发展经历了几个关键里程碑。
第一个是CLIP。简单的算法加上互联网极其丰富的数据,可以释放出强大的多模态能力。
第二个是GPT-4V。作为一个以语言模型为核心的视觉理解模型,它让我这个原本专注CV的人重新反思过去十年CV任务的定义可能从根本上出了问题。
第三个是GPT-4o的图像能力。当多个模态能力融合到一个模型中的时候,不同模态的能力会产生迁移,这些迁移会进一步激发出新的能力。但是这些新能力往往很难用传统的评估方法的衡量,这也促使我们重新思考应该怎么评估生成和理解相互促进这个问题的,传统的评估方式可能是不足的。
另外,像StableDiffusion和DALL·E也同样是里程碑,但这是并行发展的一条独立路线。
图注:宋佳铭|LumaAI创始人
宋佳铭:扩散模型这条路线,其实最早不是OpenAI主导的。他们一开始倾向用GPT做所有事,包括图像生成,但事实证明这条路走不通。现在主流的图像生成方法是扩散模型。最早是2020年提出的DDPM,之后我做了加速的DDIM,宋飏则将时间步从离散变为连续化。接着是Classifier-FreeGuidance等工作。
李根:还应该重点关注哪些标志性成果?
黄伟林:Sora在视频生成上迈出了一大步,让大家意识到可以通过扩散模型做视频,对整个行业的影响非常大。
芦清林:GPT-4o的图像生成给我的冲击很大。它特别之处在于,过去主要统一的是一维信号(如文本、语音),而它把图像理解和生成也统一了,相当于加入了二维信号。
从共识到非共识:关键技术趋势
李根:从上半场的角度看,哪些已经成为共识的技术,能真正推动我们进入下半场?还有哪些虽然还没形成共识,但非常关键?
黄伟林:语言模型在上半场已经证明了参数量的扩展非常有效,但多模态更多还是受限于感知类数据,尤其是视觉。
多模态更偏向于感知层的“世界压缩”。这意味着它对数据量的要求更高,未来的扩展空间还很大。
关键差异在于如何构建更大规模、更有效的数据,以及怎么把这些感知数据和语言模型更好打通。而共识方面,底层模型结构比如Transformer,大家都已接受,问题主要在数据层面。现在行业最大的问题就是缺乏真正高质量的多模态数据。
宋佳铭:在上半场,大家基本形成了一个共识——建模方式都类似自回归过程。但怎么做这个过程,目前还没有统一方案。但我个人认为,把复杂分布拆解成更简单、可建模的子分布,是当前一个比较普遍认可的方向。
大一统多模态模型的可能演化路径
李根:自回归,是否有可能最终支撑起一个多模态大一统的大模型?
(右)图注:黎天鸿|MITCSAILKaimingHe组博士后研究员(线上)
黎天鸿:虽然我自己做自回归模型,但我认为自回归要实现多模态大一统,核心问题在于“到底在对什么进行自回归”?
在单一模态中,自回归的语义层级是一致的,比如预测下一个像素、patch、帧等,它们在模型中的“理解距离”是统一的。但多模态就不同了。你不能用同一个模型同时预测下一个像素、下一个词,或下一步围棋棋步——它们的语义层级差别太大。
所以,要实现多模态的大一统,关键在于是否能把不同模态投射到一个共同的潜语义空间(latentspace)中,进而进行自回归。人脑其实就是类似的机制:我们用一个“中央处理器”处理所有信息,不是用多个“脑子”。
我倾向于YannLeCun的观点:自回归不应直接作用在原始模态上,而是在抽象语义空间中进行。这个空间可以从人类语言出发,但未来也可能超越语言。
如果我们能把视觉、语言、游戏等不同模态都编码到同一个语义空间,再在这个空间中进行自回归,那确实有可能用一个统一模型覆盖所有模态。但如果要模型直接处理所有原始模态数据,那还比较难,因为每种模态的原始数据语义层级差异太大。
李根:如果要构建一个多模态的大一统模型,可以分为哪几个阶段或关键节点?
黎天鸿:无法预测,但可以设想几个关键的阶段或标志性事件。
第一阶段是多模态的“协同效应(synergy)”。不同模态之间是否真的能互相帮助。例如,语言模态能否有效提升视觉模态的表现,反之亦然。如果不能,那我们为何要统一它们?与其构建一个“统一”的模型,不如直接用多个独立模型。
目前,我们看到了“language→vision”的涌现能力,比如语言模型能推理出地理或空间信息。但“vision→language”的能力还不明显。
第二阶段是多模态之间推理能力的“对齐(alignment)”。不同模态的推理方式、信息结构不同,比如预测“下一个token”的难度不一样。如果要构建真正统一的模型,就需要找到对齐这些推理机制的方法。
最后,是一个大胆的设想:能否在不依赖人类语言的前提下,发展出计算机自己的交流方式?人类语言是出于带宽限制而自然演化出的压缩方式,但对计算机来说,语言可能并不是最优的交流形式。未来如果真正的大一统多模态模型成熟,或许我们可以让它们摆脱人类语言,从环境中自发地“涌现”出一种新的、机器之间最优的交流方式。这虽然是纯科幻的想法,但也是值得探索的方向。
衡量多模态商业化进展的三类指标
李根:技术和应用是可以并行推进的,那么如何判断一个技术是否“成熟到可以用”的?有没有一些经验规律,或者说判断优先级的标准?
芦清林:当我们觉得技术很厉害,但专业从业者却不用,那说明它还没到拐点;但如果技术本身还有不少问题,而真正的一线专业用户已经开始用了,哪怕只是用它来解决一个很小的环节、提升一点效率,那就说明这项技术的局部能力已经“足够好”到可以带来实际价值了。
所以我们更倾向于观察这种“专业人是否开始用”的信号,而不是等技术完全成熟后才推动应用。这种“小切口的落地”往往就是技术开始真正发挥作用的起点。
李根:什么样的指标,能看出多模态领域的产业进展?
图注:黄伟林|字节跳动Seed图像&视频生成负责人
黄伟林:从我们观察到的数据来看,确实可以清晰地看出一些技术的商业化进展和时间节点。一是图像生成(生图):我认为今年是图像生成商业化的元年。以效率数据为例,用户生成100张图,会下载多少张?这个下载率过去一年提升了3倍,从十几个百分点提升到如今在创作场景下可达60%以上,说明它已经越过了商业化的关键门槛。二是用户留存:各类AI应用的用户留存数据也有明显提升。比如30天留存,从原来的十几个百分点提升到了40%左右。这反映出产品正在被真正使用和接受,是商业化过程中的另一个关键信号。三是收入增长:以视频生成为例,今年下半年或明年将是它商业化的关键期。头部视频生成产品的年化经常性收入(ARR)预计今年能达到1亿美元,明年可能增长到5到10亿美元,这种10倍的年增长也显示出技术正在加速变现。
所以我认为,从效率、留存到收入,这三类数据是目前观察技术商业化进程的关键指标。
图注:张拯|Sand. ai联合创始人
张拯:黄老师提的数据非常真实,尤其是在视频领域,头部公司的ARR增长速度和体量可能超出很多人的预期,说明商业化正在加速。
我这边不补充具体数据,但想讲一个技术和商业结合的重要点,也和“共识vs非共识”有关:ScalingLaw(扩展规律)其实不是固定的,它会随着数据、算法和范式的变化而演进,模型效果也在不断变好。
但真正重要的是“有效的ScalingLaw”,也就是说,用户为技术多付出一份成本,是否能换来超出这一份的价值?如果做不到,这种扩展在商业上其实是无效的。
所以,从商业视角看,我们追求的不是单纯更大的模型,而是在用户可接受的成本范围内,找到真正有价值的扩展空间。
多模态最期待的落地场景与机会
李根:随着多模态大模型技术不断推进,尤其进入“下半场”,落地应用会越来越多。大家也很关心一个问题——哪些行业或新应用最值得期待?
黎天鸿:医疗、教育、自动驾驶、具身智能等方向都很好,都是多模态有潜力落地的场景。
现在最热的是具身智能,但我有个小担忧:它可能会像自动驾驶一样,卡在用户信任和责任归属的问题上。比如机器人打碎了盘子,甚至引发事故,谁负责?这类问题不是技术能完全解决的,而是商业和法律层面的问题。
当然,在工厂等受控环境里,具身智能已经很成熟了。但如果是面向家庭的、真正“人性化”的机器人,可能还需要更长时间才能真正落地。
整体来看,多模态技术会融入几乎所有行业,不管是内容生成、理解,还是物理世界的交互。它不一定要完全像人类,但只要能力足够强,就有广阔的应用前景。
芦清林:可以分两层来看:第一层是技术发展的自然节奏。它在哪些地方跑得快?往往是离钱近的行业,比如广告、游戏这些产值高、变现快的领域,技术迭代就特别快。
第二层是我个人更期待的方向,可能不完全遵循商业规律,而是那些真正能改善我们生活、带来实质收益的行业。多模态未来一定会走向“感知+行动”的路径,也就是理解视觉后能做出决策和动作。虽然目前具身智能还主要应用在受限环境、垂直场景里,但我希望它能真正连接到开放的物理世界。
如果能在这一层实现突破,技术带来的改变才是根本性的。
黄伟林:主要还是看具体场景对技术的容错率和门槛这两个因素。讲三个场景:
第一,像自动驾驶这类场景,对技术要求极高,不能容忍错误,所以虽然技术已经很先进了,但最后那一步仍然难以跨越。
第二,有些场景容错率更高,比如教育领域的具身智能,用理解模型做解题、答疑,这些已经比较成熟,落地也相对容易。
第三,生成类的应用(如图像、文本生成)落地会更快,因为它本质是效率场景,对失败的容忍度也更高。哪怕出错,只是效率低点,不会带来严重后果。所以这些技术在创作和内容领域的商业化推进相对顺利,价值也很大。
宋佳铭:具身智能确实非常值得期待。不过它目前的瓶颈主要在于视觉-语言-动作模型的能力限制,以及模型运行的高成本。比如把视频模型或世界理解模型嵌入机器人中,当前技术还不够轻量化,因此仍需要进一步突破。但不可否认,具身智能是一个天花板很高、潜在产值很大的方向。
相比之下,生成类应用已经走出了不错的商业化路径,找到了明确的市场方向,继续打磨会是比较稳定的落地方向。
我自己更感兴趣的是理解与生成深度耦合的场景。比如:AI总结一部电影或一本书,跨模态生成内容;复杂场景中的推理任务,例如交通事故责任判断。这些场景对理解和生成的能力要求都很高,但在短期内是有落地空间的。
长期来看,多模态的进展一定会不断拉近我们与AGI的距离。
张拯:更期待多模态模型能提升整个社会的审美水平。变化其实已经在发生了,比如图片生成模型的门槛已经很低,设计变得更容易。但现在市场的渗透率还远远没到顶。这是一个可能被忽视、但会很快爆发的方向。
-往期推荐-
图灵奖得主RichardSutton智源大会最新演讲:欢迎来到经验时代!
点击「阅读原文」直达精彩回放
本文版权归智源社区所有


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录