今日开源(2025-06-11):MiniCPM4.0,8B原生稀疏模型媲美Qwen3,0.5B版int4量化实现极速推理


今日开源(2025-06-11):MiniCPM4.0,8B原生稀疏模型媲美Qwen3,0.5B版int4量化实现极速推理

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

🏆基座模型
①项目:MiniCPM4. 0
★MiniCPM4. 0端侧模型,包含8B和0. 5B两个版本。8B版本是全球首个原生稀疏模型(5%稀疏度),以仅22%的训练开销实现媲美Qwen-3-8B的性能,并超越Gemma-3-12B,支持端侧长文本与深度推理;0. 5B版本则在小模型领域实现突破,性能碾压同级Qwen-3-0. 6B、Llama3. 2和Gemma3,并通过int4量化实现600Token/s的极速推理。
☆一键收藏:
https ://sota. jiqizhixin.com/project/minicpm4
②项目:Magistral

☆一键收藏:
https ://sota. jiqizhixin.com/project/magistral
🛠️框架平台、必备工具
①项目:OpenRAGEval
★OpenRAGEval是一个开源的Python评估工具包,旨在评估和改进检索增强生成(RAG)管道的性能。该工具包提供了一个灵活且可扩展的框架,用于衡量RAG系统的表现,帮助识别改进的领域。其模块化设计允许轻松集成自定义指标和连接器,适用于各种RAG实现。OpenRAGEval的指标不需要黄金块或黄金答案,使得RAG评估变得简单且可扩展。
☆一键收藏:
https ://sota. jiqizhixin.com/project/open-rag-eval
②项目:Ragbits
★Ragbits是一个用于快速开发生成式AI(GenAI)应用的构建模块。它支持在100多个大型语言模型(LLM)之间切换,提供类型安全的LLM调用,并允许用户连接到多种向量存储。Ragbits还支持多种数据格式的快速处理,提供实时监控和自动优化功能,帮助开发者构建可靠且可扩展的GenAI应用。
☆一键收藏:
https ://sota. jiqizhixin.com/project/ragbits
③项目:VibeKit
★VibeKit是一个用于在安全、可定制的沙箱中运行强大编码(如OpenAICodex或ClaudeCode)的SDK。它允许安全地生成和执行真实代码,将输出流式传输到用户界面,并在云端运行所有内容,提供完全的隔离和灵活性。VibeKit支持多种沙箱运行时,并计划在未来支持本地执行。
☆一键收藏:
https ://sota. jiqizhixin.com/project/vibekit
④项目:MTLA
★MTLA是一种新颖的注意力机制,基于DeepSeekMLA,具有关键创新:关键值缓存的时间压缩。这使得自注意力更加高效,并显著减少推理过程中的内存占用,特别适用于仅解码架构如大型语言模型。该项目基于PyTorch构建,作为开源的仅解码工具包,用于端到端的语音和语言处理,涵盖文本摘要、语音翻译、语音识别、口语理解等任务,并提供完整的设置方案。
☆一键收藏:
https ://sota. jiqizhixin.com/project/mtla


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录