今日开源(2025-06-10):Pixel-Reasoner,像素空间推理新范式,两阶段训练提升VLM性能,实现文本和视觉平衡
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
🏆基座模型
①项目:Pixel-Reasoner
★Pixel-Reasoner项目旨在通过引入像素空间推理的概念,提升视觉语言模型(VLMs)在视觉任务中的推理能力。该项目通过一系列视觉推理操作,如放大和选择帧,使VLMs能够直接从视觉证据中进行检查、询问和推断,从而提高视觉任务的推理准确性。项目采用了两阶段的训练方法,首先通过指令调优使模型熟悉新的视觉操作,然后通过好奇心驱动的奖励机制在像素空间推理和文本推理之间实现平衡。实验表明,该方法显著提高了VLM在多种视觉推理基准上的表现。
☆一键收藏:
https ://sota. jiqizhixin.com/project/pixel-reasoner
②项目:CT-CHAT
★CT-CHAT是一个专为3D胸部CT影像设计的前沿视觉语言聊天模型。该项目提供了开源代码库和预训练模型,利用CT-CLIP和从CT-RATE改编的VQA(视觉问答)数据集,使全球研究人员能够轻松访问。VQA数据集和模型权重可通过HuggingFace仓库获取。
☆一键收藏:
https ://sota. jiqizhixin.com/project/ct-chat
③项目:KokoroTTS
★KokoroTTS是一个基于命令行的文本转语音工具,使用Kokoro模型,支持多种语言和声音(包括声音混合),并支持多种输入格式,包括EPUB书籍和PDF文档。该工具旨在通过简单的命令行操作,将文本转换为自然的语音输出,适合需要高质量语音合成的用户。
☆一键收藏:
https ://sota. jiqizhixin.com/project/kokoro-tts
🤖Agent开发
①项目:Jaaz
★Jaaz是一个本地化的AI设计智能体,作为Lovart的替代方案。该项目具备设计、编辑和生成图像、海报、故事板等功能。通过智能画布板,用户可以快速进行迭代和布局发布。Jaaz支持本地LLM和免费本地图像生成,提供了多种图像编辑功能,如对象移除、风格转移和一致性角色生成等。此外,项目计划支持视频生成和编辑功能。Jaaz可在macOS和Windows上使用,支持通过API密钥使用Claude、OpenAI、Gemini等服务,或通过Ollama本地运行以实现完全免费使用。
☆一键收藏:
https ://sota. jiqizhixin.com/project/jaaz
②项目:Water
★Water是一个生产就绪的编排框架,允许开发者构建复杂的多智能体系统,而不被锁定在特定的智能体框架中。无论使用LangChain、CrewAI、Agno或自定义智能体,Water都提供了一个编排层来协调和扩展多智能体工作流。
☆一键收藏:
https ://sota. jiqizhixin.com/project/water
🛠️框架平台、必备工具
①项目:EvoSearch
★EvoSearch是一个新颖且通用的测试时刻缩放框架,适用于图像和视频生成任务。通过在推理过程中进行战略性计算分配,EvoSearch显著提升了样本质量,使得StableDiffusion2. 1超越了GPT4o,并使得Wan1. 3B模型在参数量仅为Wan14B模型的十分之一的情况下表现更佳。
☆一键收藏:
https ://sota. jiqizhixin.com/project/evosearch