DeepSeek-VL 杀疯了！训练成本直降 80%，4K 高清图秒生成，设计师饭碗危险了？

发布日期: 2025-04-17

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

沃的顶会
近年来，多模态大语言模型（MLLM）在跨模态理解和生成任务中取得显著突破，其核心创新包括：
√架构融合：如Google的Gemini和OpenAI的GPT-4V通过统一Transformer框架实现文本、图像、视频和音频的联合编码与推理，显著提升跨模态对齐能力；
√小样本泛化：Meta的Flamingo和LLaVA-1.5引入可训练适配器与视觉提示，仅需少量标注数据即可完成复杂任务（如视觉问答、图文生成）；
√推理增强：微软的KOSMOS-2.5结合符号推理模块，解决数学公式与图表的多模态解析难题；
√高效训练：DeepSeek-VL采用混合专家（MoE）技术降低计算成本，同时支持高分辨率图像输入。
这些进展推动了医疗影像分析、跨模态内容创作等应用，但模型幻觉、多模态数据偏差等问题仍是未来研究重点。我整理了10篇【多模态大语言模型】的相关论文，感兴趣的同学欢迎扫码领取~
回复“MLLMs”即可领取
Omni-Emotion：ExtendingVideoMLLMwithDetailedFaceandAudioModelingforMultimodalEmotionAnalysis
文章解析
本文提出了一种新的多模态情感分析方法Omni-Emotion，通过整合精细的面部编码模型和音频特征到现有的视频多模态大语言模型（MLLM）中，解决了当前模型在捕捉微妙面部表情和音频线索上的不足。
同时构建了高质量的自审与人工审阅数据集，显著提升了情感识别与推理任务的性能。
创新点
提出了将面部编码模型显式集成到视频MLLM中以捕捉细微面部线索。
构建了包含24,137个粗粒度样本和3,500个人工标注样本的高质量数据集。
实现了多模态情感分析领域的最先进性能，特别是在开放词汇情感识别任务中表现突出。
研究方法
通过整合FaceXFormer和Whisper-large-v3等模型提取面部和音频特征，并将其对齐到通用视频MLLM嵌入空间。
设计了三阶段训练过程，有效统一音频编码器和细粒度面部编码器到视频MLLM中。
利用GPT-3.5生成一致性描述并筛选高质量的多模态情感推理标签。
研究结论
提出的Omni-Emotion模型在多种情感分析任务中取得了最先进的结果。
高质量数据集的构建显著提高了模型的泛化能力和实际应用效果。
该方法为未来多模态情感分析研究提供了新方向。
回复“MLLMs”即可领取
BeyondTokenCompression:ATraining-FreeReductionFrameworkforEfficientVisualProcessinginMLLMs
文章解析
本文提出了一种无需重新训练的分析框架，通过HollowAttention和Probe-ActivatedDynamicFFN方法减少解码器-only架构中视觉Token的计算冗余，显著降低计算成本同时保持甚至提升模型性能，揭示了当前MLLMs中视觉Token处理的大量冗余，并为未来更高效的模型设计提供了重要启示。
创新点
提出了HollowAttention，限制视觉Token的全局自注意力为局部注意力，同时保留视觉与文本的关联性。
设计了Probe-ActivatedDynamicFFN，仅激活部分FFN参数处理视觉Token，无需额外训练。
引入了一种无训练加速方法，可与现有Token压缩技术结合，实现互补加速。
研究方法
通过分析解码器-only架构中视觉Token的自注意力和FFN操作的高计算成本问题，提出针对性的优化策略。
设计了贪婪搜索方法，评估不同层应用减少策略的影响，选择最优层进行优化。
在多个最先进的MLLMs上进行实验，验证减少策略的有效性和适用性。
研究结论
当前解码器-onlyMLLMs中存在显著的计算冗余，约一半的层可以通过减少计算维持或提升性能。
所提出的无训练加速方法效果优于或等同于现有Token压缩技术，且具有自然兼容性。
研究发现为未来更高效的MLLMs设计提供了重要参考。
回复“MLLMs”即可领取
粉丝福利！
AI学习交流群来啦！
欢迎大家加入AI学习群一起交流~~这里会实时更新AI领域最新资讯、顶会最新动态等信息~~
扫描下方小助手的微信二维码，来添加好友备注：地区+学校/公司+姓名
（听说进群的小伙伴们都收到accept啦~）
添加好友申请格式（一定要按格式申请）
地区+学校/公司+姓名
沃恩智慧，21年教育辅导资质，AI人工智能科研辅导行业领头品牌；
拥有QStop100博士和科研人员2000+，全网粉丝50W+，专注为全球本硕博群体提供专业的科研背景提升、留学申请、作业辅导、基金申请、科研立项等服务；
自研的Turbo大模型从选题辅导、文献阅读、文献翻译＆润色、创新点评估、期刊推荐、AutoML全面辅助科研流程，让每一位学员都能快乐科研，高效产出。
此外，沃恩智慧还拥有全面的科研0基础课程、AI入门算法基础课程、AI前沿论文带读课程。