今日开源(2025-05-06):Granite-4.0-Tiny,7B细粒度MoE指令模型,128k上下文,支持12种语言


今日开源(2025-05-06):Granite-4.0-Tiny,7B细粒度MoE指令模型,128k上下文,支持12种语言

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

🏆基座模型
①项目:Granite-4.0-Tiny
★Granite-4.0-Tiny是一个拥有7B参数的细粒度混合专家(MoE)指令模型。使用了开源指令数据集和内部合成数据集。具有128k上下文窗口,专为解决长上下文问题而设计。该架构利用Mamba-2,叠加了softmax注意以增强表现力,没有位置编码以实现更好的长度泛化。它支持12种语言,适用于一般指令跟随任务,并可集成到各类领域的AI助手中。
☆一键收藏:
https ://sota.jiqizhixin.com/project/granite-4-0-tiny-preview
②项目:MiMo
★MiMo项目旨在解锁语言模型的推理潜力,涵盖从预训练到后训练的全过程。该项目推出了MiMo-7B系列模型,这些模型专为推理任务而生,展示了卓越的推理能力,甚至超越了更大的32B模型。MiMo-7B通过优化数据预处理管道和多维数据过滤策略,提升了预训练数据中的推理模式密度,并采用多阶段数据混合策略进行预训练。此外,项目还开源了包括基础模型、SFT模型、从基础模型训练的RL模型以及从SFT模型训练的RL模型在内的多个模型检查点。
☆一键收藏:
https ://sota.jiqizhixin.com/project/mimo
③项目:NoteLLM
★NoteLLM和NoteLLM-2是为了解决用户生成内容平台(如小红书)上信息复杂多样的问题而开发的项目。NoteLLM通过生成标签和类别来增强内容嵌入的质量,从而提高下游任务的表现。NoteLLM-2则在此基础上引入多模态输入,采用端到端的微调策略,提升了模型的实用性和效率,并通过设计mICL和后期融合机制来增强多模态表示。
☆一键收藏:
https ://sota.jiqizhixin.com/project/notellm
④项目:ACE-Step
★ACE-Step是一个创新的开源音乐生成基础模型,通过整体架构设计克服了现有方法的关键限制,实现了最先进的性能。该模型结合了基于扩散的生成、Sana的深度压缩自动编码器(DCAE)和轻量级线性变压器,能够在A100GPU上仅用20秒合成长达4分钟的音乐,比基于LLM的基线快15倍,同时在旋律、和声和节奏指标上实现了卓越的音乐连贯性和歌词对齐。此外,ACE-Step保留了细粒度的声学细节,支持高级控制机制,如声音克隆、歌词编辑、重混和轨道生成。
☆一键收藏:
https ://sota.jiqizhixin.com/project/ace-step
🤖Agent开发
①项目:Tiny-Scientist
★Tiny-Scientist是一个轻量级且用户友好的框架,旨在自动化科学研究的整个生命周期,包括从构思到实施、撰写和审阅。该框架设计灵活,能够与您喜爱的LLM和搜索工具无缝集成。其核心功能包括生成结构化研究想法、自动生成和运行实验、将结果和想法转化为会议风格的论文,以及审阅任何形式的论文并输出结构化反馈。
☆一键收藏:
https ://sota.jiqizhixin.com/project/tiny-scientist
②项目:SWE-smith
★SWE-smith是一个用于训练软件工程智能体(SWE-agents)的工具包。通过SWE-smith,用户可以为任何Python仓库创建无限数量的SWE-bench风格任务实例,并生成SWE-agent解决这些任务实例的轨迹。用户还可以在这些轨迹上训练本地语言模型(LMs),以提高其软件工程能力。
☆一键收藏:
https ://sota.jiqizhixin.com/project/swe-smith
🛠️框架平台、必备工具
①项目:Oli
★oli是一个开源的终端AI编程助手,提供强大的智能体功能。它采用现代混合架构,使用Rust作为后端以提升性能,并使用React/Ink作为前端提供交互式终端UI。项目支持多种云API(如AnthropicClaudeSonnet3.7、OpenAIGPT4o和GoogleGemini)以及本地LLM(通过Ollama)。其功能包括文件搜索、编辑和命令执行,并支持所有模型提供商的工具使用。
☆一键收藏:
https ://sota.jiqizhixin.com/project/oli
今日大模型在线列表·API免费调用
2025年5月6日更新
Qwen3-8B
GLM-Z1-9B-0414
Phi-4-mini-instruct
InternVL3-14B
Qwen2.5-VL-7B-Instruct
gemma-3-4b-it
————-详细内容————-
【上新啦中文对话模型!】
Qwen3-8B
清湛/山东4090公共线路;推理用时
5s
API调用地址:
https ://sota.jiqizhixin.com/model-api/Qwen3-8B_d58a265355/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/d3a14120-2ad9-40fb-a877-fff849c0f7c4
GLM-Z1-9B-0414
清湛/山东4090公共线路;推理用时5s
API调用地址:
https ://sota.jiqizhixin.com/model-api/GLM-Z1-9B-0414_00670b1ee4/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/fed46ab7-aa27-4acd-885d-fc9d1213a9a9
Phi-4-mini-instruct
清湛/山东4090公共线路;推理用时
8s
API调用地址:
https ://sota.jiqizhixin.com/model-api/Phi-4-mini-instruct_c97b88ecef/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/458064c9-8a63-4d17-97bd-8f1ad7284665
【上新啦多模态大模型!】
InternVL3-14B
清湛/山东4090公共线路;推理用时
6s
API调用地址:
https ://sota.jiqizhixin.com/model-api/InternVL3-14B_6bbf8e4a2c/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/a3328e01-ea41-4eff-a41a-3e7a83ff0e27
Qwen2.5-VL-7B-Instruct
清湛/山东4090公共线路;推理用时10s
API调用地址:
https ://sota.jiqizhixin.com/model-api/Qwen2_5-VL-7B-Instruct_f922c61a9a/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/37da5bd4-1647-44d6-a2f2-883d6016ad59
gemma-3-4b-it
清湛/山东4090公共线路;推理用时
5s
API调用地址:
https ://sota.jiqizhixin.com/model-api/gemma-3-4b-it_417bc6162b/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/93fbe213-e000-4be7-9aa7-8bb70592ce00
📋查看API调用文档:
https ://jiqizhixin.feishu.cn/wiki/EfHwwEuXZimdgpkQLXLcrOwKnyb
💻试用更多模型API:
https ://sota.jiqizhixin.com/xt-terminal


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录