今日开源(2025-04-18):微软Granite-3.3,推理优化语言模型,8B/2B参数,数学/编码/指令跟随性能显著提升


今日开源(2025-04-18):微软Granite-3.3,推理优化语言模型,8B/2B参数,数学/编码/指令跟随性能显著提升

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

🏆基座模型
①项目:Granite-3.3
★Granite-3.3是一个拥有8B/2B参数的语言模型,经过微调以增强推理和指令跟随能力。在AlpacaEval-2.0和Arena-Hard等基准测试中表现出显著提升,尤其在数学、编码和指令跟随方面。它支持通过think和response标签进行结构化推理,清晰区分内部思考和最终输出。模型训练使用了经过许可的数据和精心策划的合成任务,支持多种语言,并可用于多领域的AI助手。
☆一键收藏:
https ://sota.jiqizhixin.com/project/granite-3-3
②项目:MAI-DS-R1
★MAI-DS-R1是由微软AI团队后训练的DeepSeek-R1推理模型,旨在提升其在被阻止主题上的响应能力和风险管理,同时保持其推理能力和竞争性能。该模型通过使用Tulu3SFT数据集中的11万条安全和不合规示例,以及微软内部开发的约35万条多语言示例进行训练,成功解锁了原始R1模型中大多数被阻止的查询,并在相关安全基准测试中超越了最近发布的R1-1776模型。
☆一键收藏:
https ://sota.jiqizhixin.com/project/mai-ds-r1
③项目:OctGPT
★OctGPT是一个基于八叉树的多尺度自回归模型,专注于3D形状生成。该项目通过使用八叉树结构来有效地表示和处理3D数据,能够在不同的尺度上进行形状生成。OctGPT的设计旨在提高3D形状生成的效率和质量,适用于多种类别的形状生成任务。
☆一键收藏:
https ://sota.jiqizhixin.com/project/octgpt
④项目:VARGPT-v1.1
★VARGPT-v1.1是一个改进的视觉自回归大型统一模型,通过迭代指令微调和强化学习提升其性能。该项目整合了一种新颖的训练策略,将视觉指令微调与直接偏好优化的强化学习相结合,扩展了包含830万视觉生成token对的训练语料库,并升级了语言骨干使用Qwen2。VARGPT-v1.1提升了图像生成分辨率,并在不修改架构的情况下实现了图像编辑功能。
☆一键收藏:
https ://sota.jiqizhixin.com/project/vargpt-v1-1
🛠️框架平台、必备工具
①项目:FramePack
★FramePack是一个用于视频生成的下一帧预测神经网络结构。它通过将输入上下文压缩到恒定长度,使得生成工作负载与视频长度无关。FramePack能够在笔记本电脑GPU上处理大量帧,并支持大批量训练,类似于图像扩散训练。该项目提供了一个功能齐全的桌面软件,具有高质量的采样系统和内存管理。
☆一键收藏:
https ://sota.jiqizhixin.com/project/framepack
②项目:InstantCharacter
★InstantCharacter是一个创新的、无需调优的方法,旨在从单个图像中实现角色保留生成,支持多种下游任务。该项目利用可扩展的扩散transformer框架,能够在不改变原始角色特征的情况下生成新的图像,适用于个性化角色生成和图像处理任务。
☆一键收藏:
https ://sota.jiqizhixin.com/project/instantcharacter
今日大模型在线列表·API免费调用
2025年4月18日更新
GLM-Z1-9B-0414
GLM-Z1-32B-0414
【多模态模型】
Janus-Pro-7B
gemma-3-12b-it
Qwen2.5-VL-32B-Instruct
DeepSeek-R1-Distill-Qwen-7B
————-详细内容————-
【上新!GLM-Z1系列】
GLM-Z1-9B-0414
清湛/山东4090公共线路;推理用时5s
API调用地址:
https ://sota.jiqizhixin.com/model-api/GLM-Z1-9B-0414_be760d73e2/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/fed46ab7-aa27-4acd-885d-fc9d1213a9a9
GLM-Z1-32B-0414
清湛/山东4090公共线路;推理用时
8s
API调用地址:
https ://sota.jiqizhixin.com/model-api/GLM-Z1-32B-0414_b0166a39f1/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/7d51b45a-0bfc-42fb-89b5-21c0418dff9f
【多模态模型】
Janus-Pro-7B
清湛/山东4090公共线路;推理用时5s
API调用地址:
https ://sota.jiqizhixin.com/model-api/Janus-Pro-7B_04f3775aec/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/5b1bb89a-c790-4c71-9cae-e1e9ff424b3f
gemma-3-12b-it
清湛/山东4090公共线路;推理用时
8s
API调用地址:
https ://sota.jiqizhixin.com/model-api/gemma-3-12b-it_2bca5948b1/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/b718cf5a-420d-4e2e-a8db-0cd33c0dee64
Qwen2.5-VL-32B-Instruct
清湛/山东4090公共线路;推理用时10s
API调用地址:
https ://sota.jiqizhixin.com/model-api/Qwen2_5-VL-32B-Instruct_0aa83a1bc0/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/d1bdba2b-ccab-4406-9508-0aedae444368
【DeepseekR1系列】
DeepSeek-R1-Distill-Qwen-7B
清湛/山东4090公共线路;推理用时
5s
API调用地址:
https ://sota.jiqizhixin.com/model-api/DeepSeek-R1-Distill-Qwen-7B_78216da51b/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/ff02de2b-827f-4aae-96eb-0ec8b7cc12fa
📋查看API调用文档:
https ://jiqizhixin.feishu.cn/wiki/EfHwwEuXZimdgpkQLXLcrOwKnyb
💻试用更多模型API:
https ://sota.jiqizhixin.com/xt-terminal


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录