一文看尽,2025年字节跳动23个重磅AI开源项目:从图像生成到智能体系统!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
以下文章来源于微信公众号:我爱计算机视觉
作者:CV君
链接:https ://mp. weixin.qq. com/s/GxyvCF_kN_vzfLfQumVpwg
本文仅用于学术分享,如有侵权,请联系后台作删文处理
导读
本文系统盘点了字节跳动2025年开源的23项AI成果,涵盖图形智能体、多模态生成、语音系统、视频理解等多个方向。如UI-TARS、MegaTTS3、InfiniteYou在顶会表现亮眼,兼具技术先进性与实用性,展现出字节跳动在AI领域的研发深度与开源影响力。
本文系统梳理了字节跳动2025年开源的23项AI技术成果,涵盖图形界面智能体、多模态生成、视频理解、图像编辑等前沿领域。从刷新10项SOTA的UI-TARS桌面操作模型,到支持中英混合克隆的MegaTTS3语音系统,再到突破身份保持生成的InfiniteYou框架,这些项目不仅在学术论文和顶级会议(如CVPR/ACL2025)中表现亮眼,更以轻量化设计、高效训练策略和社区友好特性著称。开源社区总星标数超5万,展现了工业界研究的前沿突破与落地潜力。
UI-TARS,一款原生图形界面智能体(GUIagent)模型,仅通过感知屏幕截图来执行类人操作(如键盘输入和鼠标点击)。不同于依赖专家构造的提示词和流程、使用高度封装商用模型(如GPT-4o)的主流智能体框架,UI-TARS是一个端到端模型,在多个任务上表现出色,超越了这些复杂框架。
实验表明,UI-TARS在超过10项GUI智能体基准任务中实现了感知、定位与任务执行的SOTA(当前最佳)性能。具体表现如下:
在OSWorld基准中,UI-TARS在50步和15步条件下分别获得24. 6和22.7分,超过Claude的22. 0和14.9;
在AndroidWorld中,UI-TARS得分46. 6,远超GPT-4o的34. 5。
UI-TARS包含以下几项关键创新:
增强感知能力:利用大规模GUI截图数据集实现对UI元素的上下文感知理解与精准描述;
统一动作建模:将多平台的交互操作标准化为统一动作空间,并借助大规模动作轨迹实现准确定位与操作;
系统二级推理(System-2Reasoning):在多步决策中引入任务分解、反思性思考、关键节点识别等多种推理模式,实现更具计划性的智能行为;
反思式在线轨迹迭代训练:通过在数百台虚拟机上自动收集、筛选并反思优化交互轨迹,解决数据瓶颈问题,使模型在最少人工干预下不断学习并适应未知任务。
参考论文:UI-TARS:PioneeringAutomatedGUIInteractionwithNativeAgents
论文地址:https ://arxiv. org/abs/2501. 12326
开源地址:https ://github. com/bytedance/UI-TARS-desktop
2025年1月23日开源★star:14. 7k
DeerFlow(DeepExplorationandEfficientResearchFlow)是一个社区驱动的深度研究框架,它建立在开源社区的杰出工作基础之上。目标是将语言模型与专业工具(如网络搜索、爬虫和Python代码执行)相结合,同时回馈使这一切成为可能的社区。
开源地址:https ://github. com/bytedance/deer-flow
★star:14k
特点:
轻量高效:TTSDiffusionTransformer主干网络仅有4. 5亿参数。
超高质量语音克隆:可在HuggingfaceDemo试用该模型。
双语支持:支持中文和英文,以及中英混合切换。
可控性强:支持口音强度调节,并将在近期支持细粒度的发音与时长调整。
参考论文:MegaTTS3:SparseAlignmentEnhancedLatentDiffusionTransformerforZero-ShotSpeechSynthesis
论文地址:https ://arxiv. org/abs/2502. 18924
开源地址:https ://github. com/bytedance/MegaTTS3
2025年3月22日开源★star:5. 6k
InfiniteYou(InfU),是最早利用DiT架构实现身份保持图像生成的稳健框架之一。
InfU解决了当前方法面临的诸多问题,例如身份相似度不足、文本与图像对齐差、生成质量与美学效果较低等。该框架的核心组件是InfuseNet,它通过残差连接将身份特征注入DiT主干模型中,有效提升了身份相似度的同时保持了图像生成能力。
此外,InfU采用了多阶段训练策略,包括预训练和使用合成的单人多样本(SPMS)数据进行的监督微调(SFT),从而进一步增强了文本与图像的对齐效果、改善了图像质量,并缓解了“人脸粘贴复制”问题。
大量实验表明,InfU在多个评估指标上超越现有方法,达到了当前最优性能(SOTA)。同时,InfU的即插即用式设计确保其可以灵活兼容其他已有方法,为图像生成领域的研究与应用提供了有价值的支持与推动。
参考论文:InfiniteYou:FlexiblePhotoRecraftingWhilePreservingYourIdentity
论文地址:https ://arxiv. org/abs/2503. 16418
开源地址:https ://github. com/bytedance/InfiniteYou
2025年3月开源★star:2. 4k
Dolphin是一种新的多模态文档图像解析模型,采用“先分析、再解析”(analyze-then-parse)的范式。
Dolphin通过两阶段方法应对文档图像解析的挑战,其技术实现如下:
第一阶段:进行全面的页面级布局分析,按自然阅读顺序生成文档元素序列,确保内容理解与人类阅读方式一致。
第二阶段:利用异构锚点和任务特定提示,实现文档各类元素的高效并行解析,大幅提升解析精度与速度。
参考论文:Dolphin:DocumentImageParsingviaHeterogeneousAnchorPrompting
论文地址:https ://arxiv. org/pdf/2505. 14059
开源地址:https ://github. com/bytedance/Dolphin
收录于ACL2025★star:2k
DreamO通用图像定制框架,旨在支持多种图像定制任务,并实现多种控制条件的无缝集成。具体而言,DreamO采用diffusiontransformer(DiT)架构,统一处理不同类型的输入。在训练阶段,构建一个包含多种定制任务的大规模训练数据集,并引入了特征路由约束,以精确查询参考图像中的相关信息。
此外,DreamO还设计一种占位符策略,将特定条件与生成结果中的特定位置相关联,从而实现对生成图像中元素位置的可控性。训练策略方面,DreamO采用了三阶段的渐进式训练机制:第一阶段利用少量数据完成简单任务,建立一致性基础;第二阶段进行全面训练以增强定制能力;第三阶段进行质量对齐,纠正由低质量数据引入的偏差。
大量实验证明,DreamO能够高质量地完成多种图像定制任务,并灵活整合不同类型的控制条件,表现出良好的通用性和可控性。
参考论文:DreamO:AUnifiedFrameworkforImageCustomization
论文地址:https ://arxiv. org/abs/2504. 16915
开源地址:https ://github. com/bytedance/DreamO
2025年5月8日开源★star:1. 5k
UNO,一个可从单主体定制扩展到多主体定制的通用框架。具有强大的泛化能力,能够在同一模型下统一处理多种任务。
参考论文:Less-to-MoreGeneralization:UnlockingMoreControllabilitybyIn-ContextGeneration
论文地址:https ://arxiv. org/abs/2504. 02160
开源地址:https ://github. com/bytedance/UNO
2025年4月3日开源★star:1. 1k
LatentSync,一种基于音频条件潜空间扩散模型的端到端唇形同步方法。与以往基于像素空间扩散或两阶段生成的扩散式唇形同步方法不同,LatentSync无需任何中间运动表示,直接在潜空间中实现音频驱动的唇动生成。
该框架能够充分利用StableDiffusion的强大建模能力,直接捕捉音频与视觉之间的复杂关联,实现高质量的音唇同步效果。
参考论文:LatentSync:TamingAudio-ConditionedLatentDiffusionModelsforLipSyncwithSyncNetSupervision
论文地址:https ://arxiv. org/abs/2412. 09262
开源地址:https ://github. com/bytedance/LatentSync
2025年3月14日开源★star:673
HyperLoRA,首个基于LoRA的零样本个性化人像生成方法,采用端到端训练方式。借助LoRA的优势,通过修改基础模型权重来注入身份信息,而非像基于Adapter的方法那样引入新的交叉注意力模块,因此表现出更强的非线性能力,从而生成更加细腻且真实的人像图像。
参考论文:HyperLoRA:Parameter-EfficientAdaptiveGenerationforPortraitSynthesis
论文地址:https ://arxiv. org/abs/2503. 16944
开源地址:https ://github. com/bytedance/ComfyUI-HyperLoRA
收录于CVPR2025★star:341
X-Dyna,一种新的零样本扩散式动画生成方法,可将单张人物图像根据驱动视频中的面部表情与身体动作进行动画化,生成逼真且具有上下文感知的动态效果,涵盖人物主体及其周围环境。
相较于以往仅关注人体姿态控制的方法,X-Dyna聚焦于动态细节缺失这一关键问题,显著提升了人像视频动画的真实感。其核心组件是Dynamics-Adapter,这是一个轻量级模块,能够将参考图像的外观上下文有效地注入扩散模型主干的空间注意力机制中,同时保留运动模块合成流畅且精细动态细节的能力。
除了身体姿态控制,X-Dyna还引入局部控制模块,用于提取与身份无关的面部表情特征,从而实现更精确的表情迁移,增强动画场景的真实感与表现力。
上述模块共同构成了一个统一框架,能够从多样化的人物与场景视频中学习人类物理运动与自然场景动态。
通过全面的定性与定量评估,实验结果表明X-Dyna在生成高度逼真、富有表现力的动画方面显著优于现有先进方法。
参考论文:X-Dyna:ExpressiveDynamicHumanImageAnimation
论文地址:https ://arxiv. org/abs/2501. 10021
开源地址:https ://github. com/bytedance/X-Dyna
收录于CVPR2025★star:249
AnyTrajectoryInstruction(ATI)是一种视频生成方法,可以将你在图像上绘制的任意轨迹转化为逼真的视频效果。
参考论文:ATI:AnyTrajectoryInstructionforControllableVideoGeneration
论文地址:https ://arxiv. org/pdf/2505. 22944
开源地址:https ://github. com/bytedance/ATI
★star:181
新视角:针对编辑指令与原始-编辑图像对之间不匹配导致的噪声监督问题进行了深入研究,是以往工作普遍忽视的根本性问题(如图所示)。
监督修正:利用扩散生成先验引导视觉语言模型,生成更准确对齐的编辑指令,以改善原始-编辑图像对的监督质量。
监督促进:引入基于三元组损失的对比监督,使编辑模型能够同时从正向和负向编辑指令中学习,提升模型辨别与生成能力。
优异表现:所提出方法在多个基准测试中取得显著提升,且无需额外的预训练或视觉语言模型支持。相比SmartEdit,在Real-Edit基准上实现了9. 19%的性能提升,同时训练数据减少了30倍,模型参数缩小了13倍。
参考论文:SuperEdit:RectifyingandFacilitatingSupervisionforInstruction-BasedImageEditing
论文地址:https ://arxiv. org/pdf/2505. 02370
开源地址:https ://github. com/bytedance/SuperEdit
★star:133
Vidi,用于多种视频理解与编辑任务的大型多模态模型(LMMs)。首个版本专注于时间片段检索任务(temporalretrieval),即从长视频中识别与给定文本查询对应的时间区段,这是智能视频编辑中的关键能力。Vidi具有强大的时间理解能力,能在小时级长视频中准确检索相关时间段。
为在真实场景下全面评估该能力,还发布了VUE-TR基准数据集,具有以下五大创新特性:
视频时长范围广:从20秒到1小时以上,远超现有时间/片段检索数据集;
音频查询支持:引入基于音频的时间检索任务;
多样查询格式:支持关键词、短语与句子三种长度/格式的查询;
高质量标注:所有时间片段均由人工精确标注,确保评估可靠性;
优化的评估指标:采用改进版IoU(交并比)评估多个时间片段的检索准确性。
令人瞩目的是,Vidi在时间片段检索任务中显著超越了当前主流的商业模型(如GPT-4o和Gemini),展现了其在视频编辑场景下的卓越能力。
参考论文:Vidi:LargeMultimodalModelsforVideoUnderstandingandEditing
论文地址:https ://arxiv. org/pdf/2504. 15681
开源地址:https ://github. com/bytedance/vidi
2025年6月6日开源★star:111
DreamFit,引入了专为服装中心人体生成设计的轻量级Anything-DressingEncoder。DreamFit具有三大优势:
轻量训练:通过自适应注意力和LoRA模块,DreamFit将可训练参数量显著降低至仅8340万;
Anything-Dressing:模型在多种(非)服装类型、创意风格及提示指令下均展现出惊人的泛化能力,稳定生成高质量结果;
即插即用:DreamFit设计兼容社区内各种扩散模型控制插件,实现无缝集成,降低使用门槛。
此外,为进一步提升生成质量,DreamFit利用预训练的大型多模态模型(LMMs)丰富提示词中的细粒度服装描述,缩小训练与推理间的提示差距。
在高分辨率基准和真实场景图像上进行了全面实验,结果显示DreamFit超越现有所有方法,彰显其在服装中心人体生成领域的先进能力。
参考论文:DreamFit:Garment-CentricHumanGenerationviaaLightweightAnything-DressingEncoder
论文地址:https ://arxiv. org/abs/2412. 17644
开源地址:https ://github. com/bytedance/DreamFit
收录于AAAI2025★star:108
本文提出一种基于强化学习的新模型Q-Insight,构建于群体相对策略优化(GRPO)之上,能够在仅需少量评分和退化标注的条件下,展现出强大的图像质量视觉推理能力。该方法通过奖励函数,联合优化质量评分回归与退化感知任务,充分利用两者之间的互补关系以提升整体性能。大量实验证明,Q-Insight在质量评分回归与退化感知任务中显著优于现有先进方法,同时在对比推理任务中展现出强大的零样本泛化能力。
参考论文:Q-Insight:UnderstandingImageQualityviaVisualReinforcementLearning
论文地址:
开源地址:https ://github. com/bytedance/Q-Insight
5月30日开源★star:103
ContentV,一个通过三大创新加速基于DiT的视频生成模型训练的高效框架:
极简架构:最大限度复用预训练的图像生成模型用于视频合成;
系统化多阶段训练策略:利用光流匹配(flowmatching)提高训练效率;
高性价比的人类反馈强化学习(RLHF)框架:在无需额外人工标注的情况下提升生成质量。
参考论文:ContentV:EfficientTrainingofVideoGenerationModelswithLimitedCompute
论文地址:https ://arxiv. org/abs/2506. 05343
开源地址:https ://github. com/bytedance/ContentV
★star:89
ID-Patch,实现了身份与二维空间位置之间的强关联。从同一张人脸图像中提取面部特征,生成两个关键要素:
IDPatch:直接放置在条件图像上,用于实现精确的位置控制;
IDEmbedding:与文本嵌入融合,确保生成结果与真实身份高度相似。
实验结果表明,ID-Patch在多个评估指标上显著优于现有基线方法,包括人脸身份相似度、身份与位置匹配准确率以及生成效率,展现出强大的多身份图像合成能力。
参考论文:ID-Patch:RobustIDAssociationforGroupPhotoPersonalization
论文地址:https ://arxiv. org/abs/2411. 13632
开源地址:https ://github. com/bytedance/ID-Patch
收录于CVPR2025★star:60
LatentUnfoldd零样本主体驱动图像生成框架,基于原始的Flux模型,该方法将任务建模为基于网格的图像补全问题,并通过在马赛克布局中重复主体图像,实现了强大的身份保持能力——无需任何额外数据、训练或推理时微调。“freelunch”策略进一步结合了级联注意力机制和元提示技术(metaprompting),有效提升了图像的保真度与多样性。
在多个基准任务和用户偏好评估中,在多项指标上优于现有方法(尽管存在一定权衡)。该框架支持多种图像编辑操作,如Logo插入、虚拟试衣、主体替换或插入,展现出预训练文本生成图像模型在下游定制任务中实现高质量、低资源图像生成的潜力。
参考论文:FluxAlreadyKnows–ActivatingSubject-DrivenImageGenerationwithoutTraining
论文地址:https ://arxiv. org/abs/2504. 11478
开源地址:https ://github. com/bytedance/LatentUnfold
★star:37
StyleSSP,一种专注于优化采样起点以应对原始内容布局发生变化和风格图像内容泄漏两个问题的风格迁移方法。StyleSSP包含两个核心模块:
频域操控(FrequencyManipulation):为增强内容保持能力,StyleSSP减弱了DDIM潜空间中的低频成分,从而使采样过程更加关注内容图像的空间布局结构;
反向引导(NegativeGuidanceviaInversion):为减少风格图像内容的泄漏,StyleSSP在反向过程引入负向引导,使采样起始点尽可能远离风格图像的语义内容,从而增强风格与内容的区分度。
实验结果表明,StyleSSP在保持原始内容结构和抑制风格图像内容泄漏方面,显著优于现有无训练风格迁移方法,展现出更强的稳定性和通用性。
参考论文:StyleSSP:SamplingStartPointEnhancementforTraining-freeDiffusion-basedMethodforStyleTransfer
论文地址:https ://arxiv. org/abs/2501. 11319
开源地址:https ://github. com/bytedance/StyleSSP
收录于CVPR2025★star:33
Hi3DGen旨在通过法线贴图作为中间表示,从图像生成高保真的三维几何结构。该框架解决了现有方法在从二维输入重现细粒度几何细节方面的不足。
参考论文:Hi3DGen:High-fidelity3DGeometryGenerationfromImagesviaNormalBridging
论文地址:https ://arxiv. org/abs/2503. 22236
开源地址:https ://github. com/bytedance/Hi3DGen
★star:14
EchoVideo,并采用两项关键策略:
身份图文融合模块(IITF):通过整合文本中的高层语义特征来提取干净的身份表示,有效排除遮挡、姿态和光照变化带来的干扰,避免伪影产生;
双阶段训练策略:在第二阶段引入随机性策略,适度使用浅层面部信息。该策略在增强图像保真度的同时,防止对浅层特征的过度依赖,促使模型在训练过程中更多地利用高层语义特征,从而建立更稳健的人脸身份表征。
实验表明,EchoVideo在保持人脸身份一致性和全身完整性方面效果显著,在视频生成的质量、可控性与保真度方面均取得了优异的表现。
参考论文:EchoVideo:Identity-PreservingHumanVideoGenerationbyMultimodalFeatureFusion
论文地址:https ://arxiv. org/abs/2501. 13452
开源地址:https ://github. com/bytedance/EchoVideo
2025年2月27日开源★star:14
ImageRef-VL使VLMs具备动态关联对话上下文与图像的能力,解决了传统多模态对话中图像引用缺失的问题。
参考论文:ImageRef-VL:EnablingContextualImageReferencinginVision-LanguageModels
论文地址:hthttps ://arxiv. org/abs/2501. 12418
开源地址:https ://github. com/bytedance/ImageRef-VL
★star:5
DiffLM框架,旨在通过融合真实数据分布,增强大语言模型(LLMs)生成高质量合成数据的能力。DiffLM首先通过变分自编码器(VAE)将真实数据映射到潜在空间,再通过因果语言建模目标将这些潜在表示注入到LLM的解码过程中。随后,扩散过程进一步优化潜在分布,减少采样偏差。
在七个具有结构化格式的真实数据集(包括表格、代码与工具数据)上的评估表明,DiffLM生成的数据质量极高,在某些下游任务中的表现甚至超过真实数据2%–7%。
参考论文:DiffLM:ControllableSyntheticDataGenerationviaDiffusionLanguageModels
论文地址:https ://arxiv. org/abs/2411. 03250
开源地址:https ://github. com/bytedance/DiffLM
收录于ACL2025★star:2
欢迎加入《AI未来星球》,一起成长
扫描下方二维码即可加入~
真诚分享AI落地过程(AI商机->项目签约->算法开发->产品开发->实施运维)中的各方面经验和踩过的坑。
你可以获得什么?
1、大白之前花费10W+购买,AI行业各场景私有数据集下载,星球内倾情分享;2、AI行业研发、产品、商业落地问题咨询(目前AI公司创业中),都可获高质量解答,有效期一年,无限次提问,有问必答。3、定期邀请AI行业各类嘉宾分享,创业/商业等方面的经验!
帮助你解决遇到的实际问题,升职加薪!
大家一起加油!