AI 艺术工具通讯


AI 艺术工具通讯

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

AI领域的发展速度令人惊叹,回想一年前我们还在为生成正确手指数量的人像而苦苦挣扎的场景,恍如隔世😂。
过去两年对开源模型和艺术创作工具而言具有里程碑意义。创意表达的AI工具从未像现在这般触手可及,然而这仅仅是冰山一角。让我们共同回顾2024年AI艺术领域的关键突破与创新工具,并展望2025年的发展趋势(剧透预警👀:我们将启动月度资讯精选的订阅👇)。
2024年哪些创意AI工具最引人注目?我们将重点盘点艺术创作领域的重要发布,特别关注文生图、视频生成等热门任务中的开源进展。
自初代StableDiffusion掀起开源文生图浪潮已逾两年,如今在文本到图像生成、图像编辑和可控生成领域,开源模型已能与闭源产品分庭抗礼。
2024年见证了扩散模型的范式转变——从传统U-Net架构转向扩散Transformer(DiT),同时目标函数也进化为流匹配(flowmatching)。
技术速览:扩散模型与高斯流匹配本质相通。流匹配通过不同的向量场参数化方式,为网络输出提供了新视角。
推荐阅读GoogleDeepMind的技术博客,深入了解流匹配与扩散模型的关联。https ://diffusionflow.github.io

StableDiffusion3https ://hf.co/stabilityai/stable-diffusion-3-medium
腾讯混元DiThttps ://hf.co/Tencent-Hunyuan/HunyuanDiT
AuraFlowhttps ://hf.co/fal/AuraFlow
Flux.1https ://hf.co/black-forest-labs/FLUX.1-dev
StableDiffusion3.5https ://hf.co/stabilityai/stable-diffusion-3.5-large
在开源图像生成模型的里程碑中,Flux.1的发布堪称革命性。该模型在多项基准测试中超越Midjourneyv6.0、DALL·E3(HD)等闭源模型,刷新了开源模型的性能纪录。
Flux.1https ://hf.co/black-forest-labs/FLUX.1-dev
图像模型的进步带动了个性化生成技术的飞跃。2022年8月,TextualInversion和DreamBooth等开创性工作实现了向文生图模型注入概念,极大扩展了应用边界。这些技术催生了LoRA等改进方案,推动个性化生成进入新阶段。
TextualInversionhttps ://textual-inversion.github.io
DreamBoothhttps ://dreambooth.github.io
然而,微调模型的质量受限于基础模型性能。StableDiffusionXL(SDXL)的发布为开源个性化生成树立新标杆,当前多数个性化方案仍基于SDXL架构。随着对扩散模型各组件语义角色的深入理解,我们不禁思考:能否实现不进行额外繁琐优化的高质量生成?
Zero-shot技术风暴来袭——2024年见证了仅需单张参考图即可生成高质量人像的技术突破。IP-AdapterFaceID、InstantID、PhotoMaker等免训练方案展现出媲美微调模型的实力。
IP-AdapterFaceIDhttps ://hf.co/spaces/multimodalart/Ip-Adapter-FaceID
InstantIDhttps ://hf.co/spaces/InstantX/InstantID
PhotoMakerhttps ://hf.co/spaces/TencentARC/PhotoMaker-V2
图像编辑与可控生成(如边缘/深度/姿态控制)也取得长足进步,这既得益于基础模型的发展,也源于社区对模型组件的深入理解(InstantStyle、B-LoRA)。
InstantStylehttps ://hf.co/spaces/InstantX/InstantStyle
B-LoRAhttps ://hf.co/spaces/Yardenfren/B-LoRA
未来展望:尽管DiT架构模型(如Flux、SD3.5)已开始探索个性化的应用,但对DiT组件语义角色的理解尚不及U-Net深入。2025年或将揭开DiT的组件奥秘,释放新一代图像模型的全部潜能。
相较图像生成,视频生成仍任重道远。但必须承认,我们已取得显著进步。OpenAI的Sora极大提升了行业预期,正如fofr在《AI视频正迎来StableDiffusion时刻》中所言——它让人们看到了可能性。
https ://replicate.com/blog/ai-video-is-having-its-stable-diffusion-moment
近期开源视频模型的爆发(CogVideoX、Mochi、Allegro、LTXVideo、混元视频)同样值得关注。视频生成面临画面动作是否自然、前后画面是否流畅、人物外观是否保持一致等多重挑战,加之计算资源需求巨大,导致生成延迟较高。尽管内存优化和量化技术可缓解硬件压力,但往往会影响生成的质量。尽管如此,开源社区仍在持续突破,最新进展可参阅开源视频生成模型现状。
CogVideoXhttps ://hf.co/THUDM/CogVideoX-5b
Mochihttps ://hf.co/genmo/mochi-1-preview
Allegrohttps ://hf.co/rhymes-ai/Allegro
LTXVideohttps ://hf.co/Lightricks/LTX-Video
混元视频https ://hf.co/tencent/HunyuanVideo
开源视频生成模型现状https ://hf.co/blog/video_gen
虽然多数用户仍难以本地运行视频模型,但这也预示着2025年将迎来更大突破。
音频生成在过去一年突飞猛进,从制作简单的声音效果到创作完整的歌曲都取得了很大进步。尽管面临信号复杂度高、训练数据稀缺等挑战,2024年仍涌现OuteTTS、IndicParlerTTS等开源语音合成模型,以及OpenAI的Whisperlargev3turbo语音识别模型。2025年开年即迎来Kokoro、LLasaTTS、OuteTTS0.3等语音模型,以及JASCO、YuE音乐模型的集中发布,预示着音频领域将迎来爆发年。
OuteTTShttps ://hf.co/OuteAI/OuteTTS-0.2-500M
IndicParlerTTShttps ://hf.co/ai4bharat/indic-parler-tts
Whisperlargev3turbohttps ://hf.co/openai/whisper-large-v3-turbo
Kokorohttps ://hf.co/hexgrad/Kokoro-82M
LLasaTTShttps ://hf.co/HKUSTAudio/Llasa-3B
OuteTTS0.3https ://hf.co/OuteAI/OuteTTS-0.3-1B
JASCOhttps ://hf.co/models?search=jasco
YuEhttps ://hf.co/m-a-p/YuE-s1-7B-anneal-en-cot
下方歌曲由YuE生成🤯
开源之美在于集社区之力探索模型新可能。本年度众多创意工具正是这种协作精神的结晶:
ostris开发的AI工具包助力社区创作出惊艳的Flux微调模型。
ostrishttps ://hf.co/ostris
AI工具包https ://github.com/ostris/ai-toolkit
Flux微调模型https ://hf.co/spaces/multimodalart/flux-lora-the-explorer
受face-to-many启发,FacetoAll将爆款模型InstantID与深度ControlNet、社区微调的SDXLLoRA结合,实现免训练的高质量风格化人像生成。
face-to-manyhttps ://github.com/fofr/cog-face-to-many
FacetoAllhttps ://hf.co/spaces/multimodalart/face-to-all
InstantIDhttps ://hf.co/spaces/InstantX/InstantID
基于NathanShipley的ComfyUI工作流,Flux风格塑形通过融合Flux[dev]Redux与Depth模型,实现风格迁移与视错觉创作。
NathanShipleyhttps ://x.com/CitizenPlain
Flux风格塑形https ://hf.co/spaces/multimodalart/flux-style-shaping
DiffusersImageOutpaint利用SDXLFillPipeline与联合ControlNet,实现无缝图像外扩。
https ://hf.co/spaces/fffiloni/diffusers-image-outpaint
LivePortrait与FacePoke让静态人像瞬间动起来。
LivePortraithttps ://hf.co/spaces/KwaiVGI/LivePortrait
FacePokehttps ://hf.co/spaces/jbilcke-hf/FacePoke
TRELLIS以惊艳效果重塑3D生成格局,支持多样化高质量资产创建。
https ://hf.co/spaces/JeffreyXiang/TRELLIS
IC-Light通过前景条件实现智能光影重构。
https ://hf.co/spaces/lllyasviel/IC-Light
2025年将是开源社区在视频、动态与音频模型领域迎头赶上的一年。随着高效计算与量化技术的突破,开源视频模型有望实现跨越式发展。当图像生成进入自然平台期,我们的目光将转向多模态创新。
YuE音乐生成模型
Apache2.0协议开源的YuE在音乐生成质量上比肩Suno等闭源产品,在线体验。
YuEhttps ://hf.co/m-a-p/YuE-s1-7B-anneal-en-cot
在线体验https ://hf.co/spaces/fffiloni/YuE
3D生成三剑客
继TRELLIS之后,混元3D-2、SPAR3D、DiffSplat持续革新3D生成领域。
混元3D-2https ://hf.co/tencent/Hunyuan3D-2
SPAR3Dhttps ://hf.co/stabilityai/stable-point-aware-3d
DiffSplathttps ://hf.co/chenguolin/DiffSplat
Lumina-Image2.0
这款20亿参数的文生图模型以Apache2.0协议开源,性能比肩80亿参数的Flux.1,在线体验。
文生图模型https ://hf.co/Alpha-VLLM/Lumina-Image-2.0
在线体验https ://hf.co/spaces/benjamin-paine/Lumina-Image-2.0
ComfyUI转Gradio指南
这份教程详细介绍了如何将复杂ComfyUI工作流转换为Gradio应用,并免费部署于HuggingFaceSpaces。
https ://hf.co/blog/run-comfyui-workflows-on-spaces
从本期开始,我们(Poli与Linoy)将每月为您精选创意AI领域最新动态。在这个快速迭代的领域,我们愿做您的信息顾问,让创意工具触手可及。
Polihttps ://hf.co/multimodalart
Linoyhttps ://hf.co/linoyts
英文原文:https ://hf.co/blog/ai-art-newsletter-jan-25
原文作者:LinoyTsaban,ApolináriofrommultimodalAIart
译者:yaoqih


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录