今日开源(2025-06-04):Video-XL-2,长视频多模态转换模型,块预填充+双层解码优化,高效处理视频分析与生成


今日开源(2025-06-04):Video-XL-2,长视频多模态转换模型,块预填充+双层解码优化,高效处理视频分析与生成

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

🏆基座模型
①项目:Video-XL-2
★Video-XL-2是由北京人工智能研究院开发的一个视频到文本的多模态转换模型。该项目旨在通过高效的推理策略来处理长时间的视频内容。它提供了两种效率优化策略:基于块的预填充和双层键值解码,以减少内存需求和响应延迟。该模型适用于需要处理长视频的任务,如视频分析和视频内容生成。
☆一键收藏:
https ://sota. jiqizhixin.com/project/video-xl-2
②项目:MoonCast
★MoonCast是一个高质量的零样本播客生成系统,旨在推动类人语音合成领域的发展。该项目通过生成更自然和富有表现力的合成语音,缩小机器与人类之间的差距。项目开放源代码,鼓励研究人员和开发者探索语音技术的新可能性,并欢迎通过代码、文档、反馈等方式进行贡献。
☆一键收藏:
https ://sota. jiqizhixin.com/project/mooncast
③项目:MangaLMM
★MangaLMM是一个专注于多模态漫画理解的项目,提供了MangaVQA和MangaLMM模型的基准和专用实现。该项目旨在通过结合视觉和语言信息来提升漫画内容的理解能力。项目提供了详细的环境设置和数据预处理步骤,并支持在多GPU环境下进行模型训练和评估。
☆一键收藏:
https ://sota. jiqizhixin.com/project/mangalmm
🤖Agent开发
①项目:Paper2Poster
★Paper2Poster是一个开源项目,旨在从科学论文中自动生成海报。该项目采用多智能体系统,将论文的PDF文件转换为可编辑的PPTX格式海报。用户可以选择本地部署或通过API访问来使用该工具。Paper2Poster支持灵活的模型组合,允许用户根据需求自定义设置。
☆一键收藏:
https ://sota. jiqizhixin.com/project/paper2poster
🛠️框架平台、必备工具
①项目:Mind-the-Gap
★该项目针对大语言模型中的链式推理(CoT)问题,提出了一个名为“思维跳跃”的现象,即在推理链中缺失的中间步骤。这些缺失步骤通常是由于人类专家在依赖隐性知识时省略了他们认为微不足道的步骤,导致模型学习和泛化能力受限。为了解决这一问题,项目提出了CoT思维跳跃桥接任务,自动检测并填补这些缺失步骤。通过构建一个名为ScaleQM+的数据集,项目系统地引入思维跳跃并与完整的推理链配对。
☆一键收藏:
https ://sota. jiqizhixin.com/project/mind-the-gap
②项目:CrossFlow
★CrossFlow是一个基于PyTorch的项目,旨在实现跨模态演化的无噪声框架,特别是从文本到图像的生成任务。该项目重实现了原始论文中提出的CrossFlow模型,并支持DiT和DiMR两种架构。模型训练使用了开源数据集,如LAION-400M和JourneyDB,并支持CLIP和T5-XXL作为语言模型。
☆一键收藏:
https ://sota. jiqizhixin.com/project/crossflow
今日大模型在线列表·API免费调用
2025年6月4日更新
Qwen3-8B
GLM-Z1-9B-0414
Phi-4-mini-instruct
InternVL3-14B
Qwen2. 5-VL-7B-Instruct
gemma-3-4b-it
————-详细内容————-
【中文对话模型!】
Qwen3-8B
清湛/山东4090公共线路;推理用时5s
API调用地址:
https ://sota. jiqizhixin.com/model-api/Qwen3-8B_030d2b035b/chat/completions
获取秘钥:
https ://sota. jiqizhixin.com/xt-terminal/d3a14120-2ad9-40fb-a877-fff849c0f7c4
GLM-Z1-9B-0414
清湛/山东4090公共线路;推理用时
5s
API调用地址:
https ://sota. jiqizhixin.com/model-api/GLM-Z1-9B-0414_0797808230/chat/completions
获取秘钥:
https ://sota. jiqizhixin.com/xt-terminal/fed46ab7-aa27-4acd-885d-fc9d1213a9a9
Phi-4-mini-instruct
清湛/山东4090公共线路;推理用时6s
API调用地址:
https ://sota. jiqizhixin.com/model-api/Phi-4-mini-instruct_2cc05e1841/chat/completions
获取秘钥:
https ://sota. jiqizhixin.com/xt-terminal/458064c9-8a63-4d17-97bd-8f1ad7284665
【多模态大模型!】
InternVL3-14B
清湛/山东4090公共线路;推理用时
6s
API调用地址:
https ://sota. jiqizhixin.com/model-api/InternVL3-14B_b11f253f0e/chat/completions
获取秘钥:
https ://sota. jiqizhixin.com/xt-terminal/a3328e01-ea41-4eff-a41a-3e7a83ff0e27
Qwen2. 5-VL-7B-Instruct
清湛/山东4090公共线路;推理用时10s
API调用地址:
https ://sota. jiqizhixin.com/model-api/Qwen2_5-VL-7B-Instruct_ad054e6a8f/chat/completions
获取秘钥:
https ://sota. jiqizhixin.com/xt-terminal/37da5bd4-1647-44d6-a2f2-883d6016ad59
gemma-3-4b-it
清湛/山东4090公共线路;推理用时
5s
API调用地址:
https ://sota. jiqizhixin.com/model-api/gemma-3-4b-it_5e487c7438/chat/completions
获取秘钥:
https ://sota. jiqizhixin.com/xt-terminal/93fbe213-e000-4be7-9aa7-8bb70592ce00
📋查看API调用文档:
https ://jiqizhixin. feishu.cn/wiki/EfHwwEuXZimdgpkQLXLcrOwKnyb
💻试用更多模型API:
https ://sota. jiqizhixin.com/xt-terminal


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录