今日开源(2025-03-11):olmOCR,高效处理百万PDF文档,支持ChatGPT 4o解析与微调,提供微调与评估工具


今日开源(2025-03-11):olmOCR,高效处理百万PDF文档,支持ChatGPT 4o解析与微调,提供微调与评估工具

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

🏆基座模型
①项目:olmOCR
★olmOCR是一个用于训练语言模型以处理PDF文档的微调模型。它提供了一种提示策略,可以通过ChatGPT4o实现高效的自然文本解析。该工具包还包括用于比较不同管道版本的评估工具、语言过滤和SEO垃圾邮件移除功能,以及针对Qwen2-VL和Molmo-O的微调代码。olmOCR支持通过Sglang处理数百万个PDF,并提供了Dolma文档查看器以便于结果查看。
☆一键收藏:
https ://sota.jiqizhixin.com/project/olmocr
🛠️框架平台、必备工具
①项目:Kiss3DGen
★Kiss3DGen项目旨在将图像扩散模型重新用于3D资产生成。通过提供推理代码、模型权重和在线演示,用户可以轻松地将文本、图像或3D模型转换为3D资产。项目依赖于Python、PyTorch和CUDA等技术,支持在本地和HuggingFace平台上进行交互式推理。
☆一键收藏:
https ://sota.jiqizhixin.com/project/kiss3dgen
②项目:GaussianAnything
★GaussianAnything是一个创新的3D生成框架,通过级联的原生3D扩散管道生成高质量且可编辑的surfelGaussians。该项目支持多模态条件3D生成,允许点云、字幕和单/多视图图像输入。其独特的潜在空间设计保留了3D形状信息,并结合级联潜在扩散模型以改善形状和纹理的解耦,从而实现3D感知编辑。
☆一键收藏:
https ://sota.jiqizhixin.com/project/gaussiananything
③项目:StoryFlicks
★StoryFlicks是一个利用AI大模型一键生成高清故事短视频的项目。用户可以输入一个故事主题,系统将生成包含AI生成的图像、故事内容、音频和字幕的视频。项目的后端技术栈为Python和FastAPI框架,前端使用React、AntDesign和Vite构建。
☆一键收藏:
https ://sota.jiqizhixin.com/project/story-flicks
📊数据指令
①项目:MV-MATH
★MV-MATH是一个精心注释的数据集,旨在评估多模态大模型(MLLMs)在多视觉环境下的数学推理能力。每个样本由多图像和文本交错组成,包含2,009个多图像问题,问题类型包括选择题、自由形式和多步骤问题。数据集涵盖11个科目和3个难度级别,涉及从K-12数学课程的多个场景。
☆一键收藏:
https ://sota.jiqizhixin.com/project/mv-math
🤖Agent开发
①项目:EvolvingAgents
★EvolvingAgents是一个生产级框架,用于创建、管理和进化AI智能体。该框架支持智能智能体间的通信,能够构建协作的智能体生态系统,理解需求并基于过去的经验进行进化。它提供了一个智能库,通过OpenAI嵌入查找最相关的工具和代理,支持多框架集成,并通过固件治理实现领域特定规则的执行。
☆一键收藏:
https ://sota.jiqizhixin.com/project/evolving-agent
今日大模型在线列表·API免费调用
2025年3月11日更新
【上新啦!】
Qwen2.5-14B-DeepSeek-R1-1M
MiniCPM-V-2.6
DeepSeek-R1-Distill-Qwen-32B
————-详细内容————-
【上新啦!】
Qwen2.5-14B-DeepSeek-R1-1M
清湛/山东4090公共线路;推理用时6s
API调用地址:
https ://sota.jiqizhixin.com/model-api/Qwen2_5-14B-DeepSeek-R1-1M_4ddc0ba1dd/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/79f906d9-3f99-40e2-ae77-b60855a7b9e4
MiniCPM-V-2.6
清湛/山东4090公共线路;推理用时
6s
API调用地址:
https ://sota.jiqizhixin.com/model-api/MiniCPM-V-2_6_2adf3ff1e5/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/fb323d83-b737-464d-9bf5-a6d72adbee2f
DeepSeek-R1-Distill-Qwen-32B
清湛/山东4090公共线路;推理用时~80s
API调用地址:
https ://sota.jiqizhixin.com/model-api/DeepSeek-R1-Distill-Qwen-32B_74848ad356/chat/completions
获取秘钥:
https ://sota.jiqizhixin.com/xt-terminal/bf9b6504-8270-44ee-830c-a4c690ef304b
📋查看API调用文档:
https ://jiqizhixin.feishu.cn/wiki/EfHwwEuXZimdgpkQLXLcrOwKnyb
💻试用更多模型API:
https ://sota.jiqizhixin.com/xt-terminal


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录