今日开源(2025-05-29):TwGI,7B多模态大模型,图像生成与推理,长视觉思维链突破被动观察,自回归统一架构优化输出


今日开源(2025-05-29):TwGI,7B多模态大模型,图像生成与推理,长视觉思维链突破被动观察,自回归统一架构优化输出

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

🏆基座模型
①项目:ThinkingwithGeneratedImages
★ThinkingwithGeneratedImages项目旨在通过一个大型多模态模型(LMM)实现图像生成和推理。该模型能够自发生成和处理中间视觉思维,通过长多模态思维过程来解决复杂任务。项目展示了从被动的图像观察到主动的图像思维的演变,最终实现了生成图像的思维方式。该方法通过监督微调统一的自回归LMMs,优化多模态标记的交叉熵损失和视觉特征重建项,以确保语义一致性和高保真图像输出。
☆一键收藏:
https ://sota. jiqizhixin.com/project/gair
🤖Agent开发
①项目:LocAgent
★LocAgent是一个通过图形表示解决代码定位问题的框架。它将代码库解析为有向异构图,创建轻量级表示以捕捉代码结构及其依赖关系,从而使大型语言模型(LLM)智能体能够通过强大的多跳推理有效地搜索和定位相关实体。
☆一键收藏:
https ://sota. jiqizhixin.com/project/locagent
②项目:SearchAgent-X
★SearchAgent-X是一个高效的推理-搜索交错的大语言模型智能体系统。与流行的LLM推理框架vLLM和基于HNSW的检索方法相比,它在吞吐量上提高了1. 3–3. 4倍,而延迟仅为0. 2–0. 6倍。该系统适用于需要低延迟和高吞吐量的复杂用户查询的LLM驱动搜索智能体的部署。
☆一键收藏:
https ://sota. jiqizhixin.com/project/searchagent-x
🛠️框架平台、必备工具
①项目:CoGenAV
★CoGenAV是一个基于对比生成同步的音频视觉表征学习框架,旨在通过语音、唇部动作和文本的多模态对齐来学习高效且具有广泛适应性的音频视觉表征。该模型在多个音频视觉任务中表现出色,包括音频视觉语音识别、视觉语音识别、音频视觉语音增强与分离以及主动说话人检测。
☆一键收藏:
https ://sota. jiqizhixin.com/project/cogenav
②项目:DeepEyes
★DeepEyes项目通过端到端的强化学习实现了“图像思维”的能力。该项目不依赖于冷启动或监督微调,也不依赖于专门的外部模型。通过强化学习训练,DeepEyes在高分辨率基准测试中表现出显著的性能提升,并在视觉定位、幻觉缓解和数学问题解决任务中表现出强大的通用性。
☆一键收藏:
https ://sota. jiqizhixin.com/project/deepeyes
③项目:ZeroSearch
★ZeroSearch是一个创新的增强学习框架,旨在通过模拟搜索来激励大语言模型(LLMs)的搜索能力。在训练过程中,ZeroSearch将LLM转化为一个检索模块,能够在查询时生成相关和噪声文档。通过引入课程展开机制,逐步提高模型的推理能力,使其能够应对越来越复杂的检索场景。实验结果表明,ZeroSearch在不产生API成本的情况下,性能优于基于真实搜索引擎的模型,并且在不同大小的基础和指令微调的LLMs中表现良好,支持多种增强学习算法。
☆一键收藏:
https ://sota. jiqizhixin.com/project/zerosearch
今日大模型在线列表·API免费调用
2025年5月29日更新
Qwen3-8B
GLM-Z1-9B-0414
Phi-4-mini-instruct
InternVL3-14B
Qwen2. 5-VL-7B-Instruct
gemma-3-4b-it
————-详细内容————-
【中文对话模型!】
Qwen3-8B
清湛/山东4090公共线路;推理用时5s
API调用地址:
https ://sota. jiqizhixin.com/model-api/Qwen3-8B_d58a265355/chat/completions
获取秘钥:
https ://sota. jiqizhixin.com/xt-terminal/d3a14120-2ad9-40fb-a877-fff849c0f7c4
GLM-Z1-9B-0414
清湛/山东4090公共线路;推理用时
5s
API调用地址:
https ://sota. jiqizhixin.com/model-api/GLM-Z1-9B-0414_00670b1ee4/chat/completions
获取秘钥:
https ://sota. jiqizhixin.com/xt-terminal/fed46ab7-aa27-4acd-885d-fc9d1213a9a9
Phi-4-mini-instruct
清湛/山东4090公共线路;推理用时6s
API调用地址:
https ://sota. jiqizhixin.com/model-api/Phi-4-mini-instruct_c97b88ecef/chat/completions
获取秘钥:
https ://sota. jiqizhixin.com/xt-terminal/458064c9-8a63-4d17-97bd-8f1ad7284665
【多模态大模型!】
InternVL3-14B
清湛/山东4090公共线路;推理用时
6s
API调用地址:
https ://sota. jiqizhixin.com/model-api/InternVL3-14B_6bbf8e4a2c/chat/completions
获取秘钥:
https ://sota. jiqizhixin.com/xt-terminal/a3328e01-ea41-4eff-a41a-3e7a83ff0e27
Qwen2. 5-VL-7B-Instruct
清湛/山东4090公共线路;推理用时10s
API调用地址:
https ://sota. jiqizhixin.com/model-api/Qwen2_5-VL-7B-Instruct_f922c61a9a/chat/completions
获取秘钥:
https ://sota. jiqizhixin.com/xt-terminal/37da5bd4-1647-44d6-a2f2-883d6016ad59
gemma-3-4b-it
清湛/山东4090公共线路;推理用时
5s
API调用地址:
https ://sota. jiqizhixin.com/model-api/gemma-3-4b-it_417bc6162b/chat/completions
获取秘钥:
https ://sota. jiqizhixin.com/xt-terminal/93fbe213-e000-4be7-9aa7-8bb70592ce00
📋查看API调用文档:
https ://jiqizhixin. feishu.cn/wiki/EfHwwEuXZimdgpkQLXLcrOwKnyb
💻试用更多模型API:
https ://sota. jiqizhixin.com/xt-terminal


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录