今日开源(2025-07-03):OmniGen2,双模态解码生成模型,解耦图像分词器+独立参数路径,四大视觉任务全面升级


今日开源(2025-07-03):OmniGen2,双模态解码生成模型,解耦图像分词器+独立参数路径,四大视觉任务全面升级

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

🏆基座模型
①项目:OmniGen2
★OmniGen2是一个强大且高效的生成模型。与OmniGenv1不同,OmniGen2为文本和图像模态提供了两个独特的解码路径,使用未共享的参数和解耦的图像分词器。OmniGen2在视觉理解、文本到图像生成、指令引导的图像编辑和上下文生成四个主要能力上表现出色。
☆一键收藏:
https ://sota. jiqizhixin.com/project/omnigen2
②项目:GLM-4. 1V-Thinking
★GLM-4. 1V-Thinking是一个开源的视觉语言模型,旨在通过引入“思维范式”和强化学习来提升多模态推理能力。该模型仅用9B参数在视觉语言模型中实现了最先进的性能,甚至在18个基准任务上匹敌或超越了72B参数的Qwen-2. 5-VL-72B。GLM-4. 1V-Thinking支持64k上下文长度,能够处理任意纵横比和高达4K的图像分辨率,并提供支持中英双语的开源版本。
☆一键收藏:
https ://sota. jiqizhixin.com/project/glm-4-1v-thinking
③项目:WorldVLA
★WorldVLA是一个自回归动作世界模型,旨在统一动作与图像的理解和生成。该项目将视觉-语言-动作(VLA)模型与世界模型整合到一个框架中,能够根据文本指令和图像观察生成动作,并根据当前帧和动作控制生成下一帧图像。
☆一键收藏:
https ://sota. jiqizhixin.com/project/worldvla
🤖Agent开发
①项目:MemAgent
★MemAgent是一个创新的长上下文处理框架,通过端到端的强化学习直接优化长上下文任务,而无需改变底层模型架构。MemAgent展示了卓越的长上下文能力,能够从8K上下文扩展到3. 5M的问答任务,性能损失小于5%,并在512KRULER测试中达到95%以上的准确率。
☆一键收藏:
https ://sota. jiqizhixin.com/project/memagent
②项目:CHESS
★CHESS是一个基于大型语言模型的多智能体框架,旨在高效且可扩展地进行SQL合成。该项目通过四个专门的智能体解决了自然语言问题转化为SQL查询的挑战,包括信息检索、模式选择、候选生成和单元测试。CHESS支持工业规模的数据库,提供隐私保护的高性能系统,适合工业部署。
☆一键收藏:
https ://sota. jiqizhixin.com/project/chess
③项目:MemoRizz
★MemoRizz是一个用于AI应用的内存层Python库。它利用流行的数据库和存储解决方案来优化内存使用,提供实用的类和方法以实现高效的数据管理。该库集成了MongoDB和OpenAI嵌入功能,支持语义搜索能力。MemoRizz旨在为AI智能体提供持久的、上下文感知的和语义可搜索的信息存储,支持会话历史跟踪、工具使用管理和一致的角色维护。
☆一键收藏:
https ://sota. jiqizhixin.com/project/memorizz
④项目:OS-Kairos
★OS-Kairos是一个用于多语言模型(MLLM)驱动的GUI智能体的自适应交互项目。该项目的研究代码已被ACL2025年会议接收。OS-Kairos实现了在Android设备上基于人机交互的方法,并通过test_mode在真实设备或模拟器上实现了完全自动化的智能体控制。
☆一键收藏:
https ://sota. jiqizhixin.com/project/os-kairos
⑤项目:Mind2Web-2
★Mind2Web-2是一个用于评估智能体搜索能力的框架,采用Agent-as-a-Judge方法对Web自动化智能体进行全面评估。该项目提供了真实且多样化的长期Web搜索任务,并引入了一种新颖的Agent-as-a-Judge框架,用于评估复杂、时间变化和引用支持的答案。
☆一键收藏:
https ://sota. jiqizhixin.com/project/mind2web-2
🛠️框架平台、必备工具
①项目:DataFlow
★DataFlow是一个数据准备和训练系统,旨在从噪声源(如PDF、纯文本、低质量问答)中解析、生成、处理和评估高质量数据。从而通过有针对性的训练(预训练、监督微调、强化学习训练)或使用知识库清理的RAG来提高大语言模型(LLMs)在特定领域的性能。DataFlow已被实验证明可以提高领域导向的LLM在医疗、金融和法律等领域的性能。
☆一键收藏:
https ://sota. jiqizhixin.com/project/dataflow
②项目:RegressLM
★RegressLM是一个用于文本到文本回归的库,适用于任何输入字符串表示,并允许在多个回归任务上进行预训练和微调。该库的一个示例应用是直接从谷歌大规模计算集群的非结构化文本表示的系统状态中回归性能指标。项目提供了推理和预训练两个主要阶段,用户可以通过导入RegressLM类来解码给定输入的浮点预测,并针对新数据进行微调。
☆一键收藏:
https ://sota. jiqizhixin.com/project/regress-lm
③项目:91Writing
★91Writing是一个基于Vue3和ElementPlus的智能AI小说创作工具,集成了多种AI模型,旨在帮助作者高效创作。该平台提供完整的创作工具链,从构思到成文,支持多样化的小说生成算法和上下文感知的智能续写。用户可以通过专业的富文本编辑环境进行创作,并利用智能大纲生成与章节管理功能提升写作效率。此外,91Writing还具备复杂世界观构建系统和本地化数据管理中心,确保创作过程的流畅和数据的安全。
☆一键收藏:
https ://sota. jiqizhixin.com/project/91writing
④项目:DDO
★DirectDiscriminativeOptimization(DDO)是一种新颖的方法,旨在通过引入类似GAN的判别机制来增强基于似然的生成模型,如扩散模型和自回归模型。DDO不需要显式的判别器网络,而是通过结合反向KL散度和自生成的负样本来克服传统最大似然训练的局限性。这种方法能够在不改变网络架构或推理协议的情况下显著提高生成质量。
☆一键收藏:
https ://sota. jiqizhixin.com/project/ddo


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录