人类程序员依然远强于LLM：为什么说 AI 目前还差点火候

发布日期: 2025-06-03

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

来源：AI寒武纪
这是一篇来自Antirez（Redis之父SalvatoreSanfilippo）的博文，分享给大家
人类程序员依然技高一筹：为什么说AI目前还差点火候
这篇短文，是想聊聊为什么我觉得咱们人类程序员，比起现在大火的LLM（大语言模型）还是要强太多。先声明，我可不是什么AI反对者，了解我或者关注我动态的朋友应该都清楚。LLM我经常用，就像今天，我会用它来碰撞灵感、做代码评审、看看有没有比我最初构想更好的方案、探索那些快要超出我知识边界的领域，诸如此类吧。（大约两年前，LLM还没那么流行的时候，我就写过一篇关于用LLM辅助编程的博客：那时候我就已经在用LLM写代码了，并且一直没停过。这事儿我得抽空再写篇更新，但今天的主题不是这个。）
但是，话说回来：眼下AI的水平，确实有用，也相当不错，可要跟人类智能相比，那还差得远呢。我特别想强调这一点，因为近来想就这个问题进行平衡的讨论都很难，舆论往往一边倒。
话说今天，我正在为Redis的向量集（VectorSets）功能修复一个特别复杂的缺陷：在我离开Redis开发的那段时间里，我的同事们为RDB和RESTORE的数据引入了一种防损坏机制，即便数据的校验和通过了，这个机制也会生效。这个功能默认是关闭的，但为有需求的用户提供了一个增强的安全层。
但……这里有个巨大的隐患：为了让HNSW（分层可导航小世界图）能够快速地存入RedisRDB并加载回来，我序列化的是整个图结构本身，而不是单个的“元素-向量”对。否则的话，我得把数据重新插入到HNSW中，那样速度会慢上大概100倍（没错，就是这么多！）。所以我把节点之间所有的连接关系都以整数形式存储，然后在加载时再将它们解析成指针。这个技巧很巧妙，效果也非常好。可如果你把这套机制，跟数据表示层面可能出现的随机损坏，再加上我自己对HNSW的一点改进——强制节点间的连接必须是双向的（我自己实现了一套HNSW，加入了不少实用特性，而双向连接是启用其中许多特性的基础）——这些因素结合起来，就可能出现以下情况：
1. 我们加载了一份已损坏的数据，数据显示A链接到B，但B已经不再链接回A（因为节点ID损坏了）。
2. 我们删除了节点B：由于双向性被破坏，从A到B的链接并没有被清除。
3. 然后当我们扫描图结构，访问到B时，试图去访问A：好了，use-after-free（悬垂指针访问）发生了！:-D:-):-|
所以，数据加载完成后，我需要检查每一个链接是否都是双向的。如果用最直接的方法，复杂度会是O(N^2)——对于每个节点，都需要遍历其所有层级，在每个层级遍历其所有邻居节点，并且还要反过来检查该邻居节点在这一层级是否也链接回当前节点。这效率太低了，行不通。
#人类vsLLM
起初，我按照常规方法实现了这个检查，想看看模糊测试工具（fuzzer）是否还会发现那个缺陷。结果确实没再出现，但是，一个包含2000万个向量的大型向量集，加载时间从45秒一下子增加到了90秒左右。太坑了！于是我赶紧打开一个Gemini2. 5PRO的聊天窗口，问它：“老兄，这情况有什么好办法吗？有没有什么超快的解决方案？”
Gemini能给出的最佳方案是：对邻居链接的指针进行排序，这样就可以使用二分查找了。嗯，好吧，这个方法我懂，但我不太确定在一个只有16或32个指针的数组里，这样做到底是更快还是更慢。我又追问：“还有其他方案吗？”回答：“没有更好的了。”
于是我跟它说：你看这样如何？当我们发现A在X层链接到B时，我们把A:B:X存入一个哈希表（但我们总是对A和B进行排序，使得A>B，这样无论链接方向如何，其表示都是一致的）。当我们再次遇到这个链接时，就把它从哈希表中移除。这一次，我们就像之前解析ID到指针的链接时那样，完整地扫描整个图结构。如果最后哈希表不为空，那就说明肯定存在非双向的链接，对吧？
Gemini表示这是个不错的主意，但指出使用snprintf()生成键以及哈希运算本身会耗费时间，不过，它也承认这确实比我最初的方法（即使是排序指针的版本）要好。我提醒它，snprintf()并非必需。我们可以直接用memcpy()将指针复制到一个固定大小的键中。它认可了这种做法的可行性，然后，我突然有了个新想法……
我跟Gemini说，我们能不能用一个固定大小的累加器来处理A:B:X呢？完全不需要哈希表。每次我们遇到一个链接（A:B:X，也就是8+8+4字节），就把它与当前一个12字节的累加器进行异或（XOR）运算。如果一个链接出现两次，两次异或操作就会相互抵消。所以，最后如果累加器的值不为零，我们就知道数据有问题了！不过，我预先跟Gemini指出，这个系统可能存在冲突（collision）的风险，需要进行评估。即使这个功能在Redis中通常是关闭的，但当用户启用这种额外的检查时，他们通常也期望能获得更多保护，以防止攻击者故意构造恶意的负载。
Gemini对这个想法印象相当深刻，但仍然指出，指针这种东西……你知道，它们的结构都很相似，只在少数几个比特位上有差异。所以，如果恰好出现了三个伪造的链接L1、L2、L3，有可能L1和L2异或的结果正好与L3的比特位相同，这样我们就可能得到一个假阴性（即累加器为零，但实际上存在问题）。我还注意到，内存分配器的行为往往非常具有可预测性，并且容易被外部猜测到。
我让Gemini帮忙想办法改进这个方案：它没能提出什么特别好的主意。然后我想，等等，我们实际上可以用一个足够好并且速度仍然很快的哈希函数来处理它，比如murmur-128或类似的算法（这个任务并不要求它具备密码学级别的安全性），然后我向Gemini提出了以下方案：
1. 取链接A:B:X，但使用一个通过/dev/urandom获取的种子S作为所有键的前缀，所以我们实际处理的是S:A:B:X。
2. 我们将murmur-128(S:A:B:X)的输出与一个128位的寄存器进行异或操作。
3. 最后，检查该寄存器是否为0（如果为0，则表示所有链接都是双向的）。
我让Gemini对这个方案进行分析，它最终表示满意，说这样做会使得无论是偶然发现几个恰好异或结果为0的孤立链接，还是外部攻击者想利用这一点进行有效攻击，都变得困难得多。因为“S”是未知的，攻击者还需要同时控制指针，所有这些因素组合起来非常难以实现。此外，这个功能本身就是一种尽力而为的额外保护措施，需要用户手动启用，它通常是关闭状态，并且为了保证实用性，它不应该带来过大的性能开销。
代价
嗯，说了这么多，其实就是想表达：我刚刚完成了分析，就停下来写这篇博客了。我不确定最终是否会采用这个系统（但可能性很大），但是，人类的创造力依然占据着优势。我们能够真正地跳出固有思维模式，构想出那些看似奇特和不那么精确，但实际上却能比其他方案更好地解决问题的办法。这种能力，对于LLM来说是极其困难的。当然，在验证我所有想法的过程中，Gemini还是非常有用的，或许我之所以能从这些角度思考问题，也是因为我有一个“聪明的橡皮鸭”（指可以与之对话并梳理思路的对象）可以交流吧。
source：
https ://www. antirez.com/news/153
阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”
https ://wx. zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx. zsxq.com/group/454854145828进入。
截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
（加入未来知识库，全部资料免费阅读和下载）
牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡：超级智能机构：赋能人们释放人工智能的全部潜力
AAAI2025关于人工智能研究未来研究报告
斯坦福：2025斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191页）
壳牌：2025能源安全远景报告：能源与人工智能（57页）
盖洛普&牛津幸福研究中心：2025年世界幸福报告（260页）
Schwab：2025未来共生：以集体社会创新破解重大社会挑战研究报告（36页）
IMD：2024年全球数字竞争力排名报告：跨越数字鸿沟人才培养与数字法治是关键（214页）
DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt
联合国人居署：2024全球城市负责任人工智能评估报告：利用AI构建以人为本的智慧城市（86页）
TechUK：2025全球复杂多变背景下的英国科技产业：战略韧性与增长路径研究报告（52页）
NAVEXGlobal：2024年十大风险与合规趋势报告（42页）
《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
2025-2035年人形机器人发展趋势报告53页
EvaluatePharma：2024年全球生物制药行业展望报告：增长驱动力分析（29页）
【AAAI2025教程】基础模型与具身智能体的交汇，350页ppt
Tracxn：2025全球飞行汽车行业市场研究报告（45页）
谷歌：2024人工智能短跑选手（AISprinters）：捕捉新兴市场AI经济机遇报告（39页）
【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习
《基于传感器的机器学习车辆分类》最新170页
美国安全与新兴技术中心：2025CSET对美国人工智能行动计划的建议（18页）
罗兰贝格：2024人形机器人的崛起：从科幻到现实：如何参与潜在变革研究报告（11页）
兰德公司：2025从研究到现实：NHS的研究和创新是实现十年计划的关键报告（209页）
康桥汇世（CambridgeAssociates）：2025年全球经济展望报告（44页）
国际能源署：2025迈向核能新时代
麦肯锡：人工智能现状，组织如何重塑自身以获取价值
威立（Wiley）：2025全球科研人员人工智能研究报告（38页）
牛津经济研究院：2025TikTok对美国就业的量化影响研究报告：470万岗位（14页）
国际能源署（IEA）：能效2024研究报告（127页）
Workday：2025发挥人类潜能：人工智能（AI）技能革命研究报告（20页）
CertiK：Hack3D：2024年Web3. 0安全报告（28页）
世界经济论坛：工业制造中的前沿技术：人工智能代理的崛起》报告
迈向推理时代：大型语言模型的长链推理研究综述
波士顿咨询：2025亚太地区生成式AI的崛起研究报告：从技术追赶者到全球领导者的跨越（15页）
安联（Allianz）：2025新势力崛起：全球芯片战争与半导体产业格局重构研究报告（33页）
IMT：2025具身智能（EmbodiedAI）概念、核心要素及未来进展：趋势与挑战研究报告（25页）
IEEE：2025具身智能（EmbodiedAI）综述：从模拟器到研究任务的调查分析报告（15页）
CCAV：2025当AI接管方向盘：自动驾驶场景下的人机交互认知重构、变革及对策研究报告（124页）
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》
全国机器人标准化技术委员会：人形机器人标准化白皮书（2024版）（96页）
美国国家科学委员会（NSB）：2024年研究与发展-美国趋势及国际比较（51页）
艾昆纬（IQVIA）：2025骨科手术机器人技术的崛起白皮书：创新及未来方向（17页）
NPL&Beauhurst：2025英国量子产业洞察报告：私人和公共投资的作用（25页）
IEAPVPS：2024光伏系统经济与技术关键绩效指标（KPI）使用最佳实践指南（65页）
AGI智能时代：2025让DeepSeek更有趣更有深度的思考研究分析报告（24页）
2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告（37页）
华为：2025鸿蒙生态应用开发白皮书（133页
《超级智能战略研究报告》
中美技术差距分析报告2025
欧洲量子产业联盟（QuIC）：2024年全球量子技术专利态势分析白皮书（34页）
美国能源部：2021超级高铁技术（Hyperloop）对电网和交通能源的影响研究报告（60页）
罗马大学：2025超级高铁（Hyperloop）：第五种新型交通方式-技术研发进展、优势及局限性研究报告（72页）
兰德公司：2025灾难性网络风险保险研究报告：市场趋势与政策选择（93页）
GTI：2024先进感知技术白皮书（36页）
AAAI：2025人工智能研究的未来报告：17大关键议题（88页）
安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信：2025全球洪水风险研究报告：现状、趋势及应对措施（22页）
兰德公司：迈向人工智能治理研究报告：2024EqualAI峰会洞察及建议（19页）
哈佛商业评论：2025人工智能时代下的现代软件开发实践报告（12页）
德安华：全球航空航天、国防及政府服务研究报告：2024年回顾及2025年展望（27页）
奥雅纳：2024塑造超级高铁（Hyperloop）的未来：监管如何推动发展与创新研究报告（28页）
HSOAC：2025美国新兴技术与风险评估报告：太空领域和关键基础设施（24页）
Dealroom：2025欧洲经济与科技创新发展态势、挑战及策略研究报告（76页）
《无人机辅助的天空地一体化网络：学习算法技术综述》
谷歌云（GoogleCloud）：2025年AI商业趋势白皮书（49页）
《新兴技术与风险分析：太空领域与关键基础设施》最新报告
150页！《DeepSeek大模型生态报告》
军事人工智能行业研究报告：技术奇点驱动应用加速智能化重塑现代战争形态-250309（40页）
真格基金：2024美国独角兽观察报告（56页）
璞跃（PlugandPlay）：2025未来商业研究报告：六大趋势分析（67页）
国际电工委员会（IEC）：2025智能水电技术与市场展望报告（90页）
RWS：2025智驭AI冲击波：人机协作的未来研究报告（39页）
国际电工委员会（IEC）：2025智能水电技术与市场展望报告（90页）
RWS：2025智驭AI冲击波：人机协作的未来研究报告（39页）
未来今日研究所2025年科技趋势报告第18版1000页
模拟真实世界：多模态生成模型的统一综述
中国信息协会低空经济分会：低空经济发展报告（2024-2025）（117页）
浙江大学：2025语言解码双生花：人类经验与AI算法的镜像之旅（42页）
人形机器人行业：由“外”到“内”智能革命-250306（51页）
大成：2025年全球人工智能趋势报告：关键法律问题（28页）
北京大学：2025年DeepSeek原理和落地应用报告（57页）
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校：面向科学发现的多模态基础模型：在化学、材料和生物学中的应用
电子行业：从柔性传感到人形机器人触觉革命-250226（35页）
RT轨道交通：2024年中国城市轨道交通市场数据报告（188页）
FastMoss：2024年度TikTok生态发展白皮书（122页）
CheckPoint：2025年网络安全报告-主要威胁、新兴趋势和CISO建议（57页）
【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt
《21世纪美国的主导地位：核聚变》最新报告
沃尔特基金会（VoltaFoundation）：2024年全球电池行业年度报告（518页）
斯坦福：2025斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191页）
国际科学理事会：2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告（英文版）（118页）
光子盒：2025全球量子计算产业发展展望报告（184页）
奥纬论坛：2025塑造未来的城市研究报告：全球1500个城市的商业吸引力指数排名（124页）
FutureMatters：2024新兴技术与经济韧性：日本未来发展路径前瞻报告（17页）
《人类与人工智能协作的科学与艺术》284页博士论文
《论多智能体决策的复杂性：从博弈学习到部分监控》115页
《2025年技术展望》56页slides
大语言模型在多智能体自动驾驶系统中的应用：近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心：2024美国民众对气候变化及应对政策的态度调研报告：气候政策对美国经济影响的多元观点审视（28页）
空间计算行业深度：发展趋势、关键技术、行业应用及相关公司深度梳理-250224（33页）
Gartner：2025网络安全中的AI：明确战略方向研究报告（16页）
北京大学：2025年DeepSeek系列报告-提示词工程和落地场景（86页）
北京大学：2025年DeepSeek系列报告-DeepSeek与AIGC应用（99页）
CIC工信安全：2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告（42页）
中科闻歌：2025年人工智能技术发展与应用探索报告（61页）
AGI智能时代：2025年Grok-3大模型：技术突破与未来展望报告（28页）
上下滑动查看更多