上个月5个火爆的AI项目，涉及大模型应用集合、提示词优化、PDF数据解析、设计领域的cursor等

发布日期: 2025-07-03

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

上个月github大模型比较火爆的五个项目分别为awesome-llm-apps、prompt-optimizer、MinerU、onlook、cognee。
具体用途如下
awesome-llm-apps项目是一个LLM应用合集，无论你做什么LLM应用都可以在这找到灵感
prompt-optimizer项目用于优化提示词，让AI回复质量飙升
MinerU项目用于PDF文档数据解析，涉及公式解析、OCR、表格解析等方面。
onlook项目设计了一个编辑器软件，设计师可以实时根据UI图生成前端代码
cognee项目简化了图在RAG中的使用，五行代码即可调用问答
随着ChatGPT、Gemini、Llama等大语言模型（LLM）的快速发展，基于LLM的应用开发已成为人工智能领域的热门方向。从简单的对话机器人到复杂的多智能体协作系统，LLM正在渗透到教育、医疗、金融、娱乐等多个领域。
然而，对于开发者和爱好者来说，如何将LLM与实际场景结合，构建出实用、高效的应用并非易事。无论是检索增强生成（RAG）、AI智能体（AIAgents），还是多智能体协作、语音交互等技术，都需要一定的实践经验和案例参考。因此，一个汇集各类优质LLM应用案例的资源库，成为了连接理论与实践的重要桥梁。
这个项目作为一个精心整理的LLM应用合集，主要解决了以下问题：
案例分散，难以系统学习：市面上的LLM应用案例多而杂，缺乏分类整理，开发者往往需要花费大量时间筛选有效信息。该项目将应用按类型分类，包括AI智能体、多智能体团队、语音AI智能体、RAG等，方便按需查找。
技术落地困难：很多LLM相关技术（如多智能体协作、本地模型部署）停留在理论层面，缺乏可直接参考的实战案例。项目中的每个应用都提供了具体实现，涵盖OpenAI、Anthropic、Google等主流模型。
应用场景局限：开发者常常局限于少数常见场景，难以拓展思路。项目包含了从旅行规划、数据分析、医疗影像辅助到游戏AI、财务教练等多样化场景，展示了LLM的广泛应用潜力。
项目的核心亮点在于其实用性和全面性：既有适合入门的基础AI智能体（如博客转播客工具、数据分析工具），也有适合进阶学习的高级应用（如深度研究智能体、多智能体协作系统），覆盖了RAG、记忆机制、语音交互等关键技术，为不同阶段的开发者提供了丰富的学习素材。
https ://github. com/Shubhamsaboo/awesome-llm-apps
假设你想让AI帮你写一篇关于\“攻击不open的OpenAI\“的短文，原始提示词可能是：\“你是一个网络喷子\“。
使用PromptOptimizer优化后，对比AI生成的结果会发现，优化后的提示词能让AI输出更全面、更贴合需求的内容——这就是PromptOptimizer的核心作用：通过智能优化提示词，让AI更好地理解你的需求。
随着大语言模型（LLM）的普及，越来越多人开始使用AI工具处理工作、学习和生活中的问题。但实际使用中，很多人都会遇到类似的困扰：同样的AI模型，别人用起来效果惊艳，自己却总得不到满意的结果。
这其中的关键差距，就在于\“提示词\“的质量。提示词是用户与AI沟通的桥梁，其清晰度、完整性和精准度直接决定了AI的输出效果。然而，写出高质量的提示词需要一定的技巧和经验，对于普通用户来说门槛较高。因此，如何降低提示词创作难度、提升提示词质量，成为了提升AI工具使用体验的重要课题。
PromptOptimizer作为一款专注于提示词优化的工具，针对性地解决了上述问题，其核心亮点包括：
智能优化能力：通过算法一键优化原始提示词，支持多轮迭代改进，即使是没有提示词撰写经验的用户，也能快速生成高质量提示词。
对比测试功能：直接展示原始提示词与优化后提示词的AI输出结果对比，让用户直观感受到优化效果，理解提示词优化的价值。
多模型适配：支持OpenAI、Gemini、DeepSeek、智谱AI等主流AI模型，针对不同模型的特性优化提示词，确保在各类AI工具中都能发挥作用。
隐私安全保障：所有数据处理都在客户端完成，API密钥和历史记录本地加密存储，不经过第三方服务器，保护用户隐私和数据安全。
多场景支持：提供Web应用和Chrome插件两种形式，既能在专门界面优化提示词，也能在使用AI工具的过程中随时调用，适配不同使用场景。
https ://github. com/linshenkx/prompt-optimizer
假设你有一份包含公式、表格和多语言内容的学术论文PDF，需要将其转换为可编辑的Markdown格式。使用MinerU，只需简单操作：
上传PDF文件后，工具会自动识别文档布局，区分标题、段落、公式和表格。对于其中的数学公式，如微积分方程，MinerU会将其精准转换为LaTeX格式；复杂的实验数据表格则会被转换为结构化的HTML表格，保留原有的行列关系；文档中夹杂的英文摘要和中文正文也能被准确识别并区分。
转换完成后，你会得到一份排版清晰的Markdown文件，其中公式、表格与正文内容完美融合，且去除了原PDF中的页眉、页脚和页码。无论是直接编辑、导入笔记工具，还是用于大模型训练数据预处理，都能显著提升效率。
PDF作为一种广泛使用的文档格式，在学术研究、商业报告、技术文档等领域占据重要地位。然而，PDF的设计初衷是保证文档展示的一致性，其内容提取和编辑却面临诸多挑战：
复杂布局处理困难：多栏排版、图文混排、不规则文本分布等情况，往往导致提取的内容顺序混乱。
特殊元素识别不准：公式、表格、手写体等元素难以被准确转换为可编辑格式，尤其是科学文献中的复杂公式，容易出现符号错误或结构错乱。
多语言支持不足：包含多种语言的PDF文档，在OCR识别时常常出现字符混淆、语义断裂等问题。
扫描件处理低效：扫描生成的PDF本质上是图片集合，传统工具的OCR识别速度慢、准确率低，难以满足批量处理需求。
这些问题使得PDF内容的二次利用效率低下，尤其对于需要频繁处理学术论文、技术手册的研究者和从业者而言，高效的PDF转换工具成为刚需。
MinerU作为一款专注于PDF转换的工具，针对性地解决了上述问题，其核心亮点包括：
智能布局理解：能够识别单栏、多栏及复杂布局，按人类阅读顺序提取内容，确保转换后文本的连贯性和逻辑性。
特殊元素精准转换：自动识别并转换公式为LaTeX格式、表格为HTML格式，保留原文档的结构和语义，尤其在学术文献处理上表现突出。
强大的OCR能力：支持84种语言的识别，能自动检测文档语言并选择合适的OCR模型，即使是扫描件或包含手写体的PDF，也能保持较高的识别准确率。
多场景适配：支持PDF、图片等多种输入格式，输出包括Markdown、JSON等多种可编辑格式，满足笔记整理、数据预处理、内容再创作等不同需求。
高效与灵活兼顾：支持CPU、GPU、NPU等多种设备运行，通过sglang加速技术可实现每秒万级令牌的处理速度，同时提供命令行和API两种使用方式，适配批量处理和集成需求。
https ://github. com/opendatalab/MinerU
想象你需要创建一个简单的产品展示页面。打开Onlook后，你可以直接输入文字描述：\“一个带有导航栏、产品图片展示区和联系表单的单页网站，风格简约现代\“。几秒后，工具就会生成一个基础的Next. js页面框架。
接下来，你可以像使用Figma一样，用鼠标拖动调整导航栏的位置，通过右侧工具栏修改字体大小和颜色——这些操作会实时反映在页面上，同时代码编辑器里的TailwindCSS代码也会自动更新。如果你想添加一个新的产品卡片，只需点击插入按钮并拖拽到合适位置，对应的JSX代码会自动生成。整个过程中，你既能看到可视化的设计效果，也能随时查看和编辑背后的代码，实现了设计与开发的无缝衔接。
在网站和应用开发过程中，设计师和开发者之间往往存在一道鸿沟。设计师习惯使用Figma等可视化工具创作界面，而开发者需要将这些设计转化为代码，这个过程不仅耗时，还容易因为理解偏差导致最终效果与设计初衷不符。
即使是设计师自己尝试开发，也会面临代码学习门槛高、视觉效果与代码实现不一致等问题。传统的代码编辑器专注于文本输入，缺乏可视化操作能力；而Webflow等可视化工具虽然降低了开发门槛，却在灵活性和代码掌控力上有所欠缺。因此，如何让设计与开发过程更高效地结合，成为提升前端开发效率的关键问题。
Onlook作为一款面向设计师的可视化代码编辑器，针对性地解决了上述问题，其核心亮点包括：
可视化与代码同步：提供Figma式的可视化操作界面，拖拽、点击等操作会实时转化为Next. js和TailwindCSS代码，让用户在直观设计的同时，掌握代码逻辑。
AI辅助开发：支持通过文本或图片生成初始项目框架，借助AI快速将设计想法转化为可运行的代码，降低开发启动成本。
实时预览与编辑：一边修改设计元素，一边在预览窗口查看效果，同时在代码编辑器中观察对应的代码变化，实现\“所见即所得\“的开发体验。
品牌资产管理：内置品牌资产和设计令牌管理功能，便于统一维护网站的颜色、字体等设计系统，保证视觉风格的一致性。
多页面管理：支持创建和导航多个页面，满足复杂网站的开发需求，同时保持各页面设计风格的统一性。
https ://github. com/onlook-dev/onlook
假设你需要让AI处理一系列关于自然语言处理（NLP）的资料，并能回答相关问题。使用Cognee，只需几步就能实现：
首先，导入Cognee并设置API密钥，然后添加一段关于NLP的文本：“自然语言处理（NLP）是计算机科学和信息检索的交叉学科分支。”接着调用“cognify”函数，让系统对这段信息进行处理和记忆。最后，当你查询“告诉我关于NLP的信息”时，AI会基于已记忆的内容，准确回复：“自然语言处理（NLP）是一门跨学科领域，涉及计算机科学和信息检索，专注于计算机与人类语言的交互，使机器能够理解和处理自然语言。”
这个过程中，Cognee不仅记住了原始信息，还对其进行了结构化处理，让AI能更深入地理解和关联信息，即使后续添加更多相关资料，也能快速整合并提供连贯的回答。
随着AI智能体（Agents）的发展，其处理的任务越来越复杂，需要处理大量的对话历史、文档、图片和音频转录等信息。然而，传统的大语言模型（LLM）存在“健忘”的问题——无法长期保存和关联信息，每次交互都像是“重新开始”。
为了解决这个问题，检索增强生成（RAG）系统应运而生，通过将信息存储在数据库中，让AI在需要时检索并使用。但传统RAG系统往往架构复杂，需要开发者处理数据加载、存储、检索等多个环节，开发成本高，且难以实现信息间的深层关联。因此，如何为AI智能体提供简单、高效、可扩展的“记忆”能力，成为了提升AI处理复杂任务能力的关键。
Cognee作为一款专注于AI记忆的工具，针对性地解决了上述问题，其核心亮点包括：
简化开发流程：只需5行代码就能实现AI的记忆功能，大幅降低开发者的工作量，替代复杂的RAG系统，减少开发成本。
多类型信息处理：支持关联和检索过去的对话、文档、图片和音频转录等多种类型的信息，满足AI智能体处理多样化数据的需求。
灵活的数据管理：通过Pydantic即可将数据加载到图数据库和向量数据库，支持从30多种数据源摄取数据，同时能对数据进行灵活操作。
高效的信息关联：不仅能存储信息，还能建立信息间的关联，让AI在回答问题时能调用相关联的内容，提供更全面、准确的结果。
https ://github. com/topoteretes/cognee