陶哲轩使用o3 mini一手测评来了:好坏参半


陶哲轩使用o3 mini一手测评来了:好坏参半

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

来源:AI寒武纪
数学大神陶哲轩(TerenceTao)刚发了一篇他使用o3mini感受帖子,给大家划个重点
陶哲轩发帖说,最近他在研究图论中的一个“专家级”定理——“三角形移除引理”。这定理有点复杂,咱们普通人听着可能头大。为了搞清楚这个定理的证明,现有三种方法:
传统手撸:笔和纸,自己硬啃
传统搜索:用搜索引擎,网上冲浪找答案
AI助手:直接问大语言模型(LLM)
陶哲轩直接选择了第三种——求助大语言模型,他用的是o3-mini模型。结果让他有点惊喜:几秒钟,模型就给出了一个非常靠谱的答案,完美解释了这个定理的推导过程!他还贴出了聊天记录链接,感兴趣的可以直接去看:
https ://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d
大神亲自测试,这波必须点赞!陶哲轩也表示,这次体验让他觉得,对于快速获取专业领域内的标准论证细节,LLM真是个好帮手。之后自己再去验证一下模型的答案是否正确就行
尝到甜头的陶哲轩,又追问了模型另一个“三角形移除引理”的经典推论——鲁萨-塞迈雷迪(Ruzsa-Szemeredi)(6,3)定理。这回,模型的表现就没那么完美了
初次尝试:模型给出的策略方向是对的——用超图对图形编码。但是,关键细节完全缺失
深入追问:陶哲轩不断引导,模型依然没能抓住要点,比如如何用(6,3)条件来限制编码图中不需要的三角形,以及如何先简化到线性超图这种核心思路。
最后,陶哲轩还是通过传统搜索先找到了答案,然后用非常明确的提示引导模型,才让模型最终勉强给出了一个基本正确的推导证明。大神都得先自己搞懂,才能“教”会AI,这多少有点无奈
陶哲轩的总结和反思
两次测试下来,陶哲轩的感受是:
对于研究级别的数学任务,目前的模型表现波动很大。有时“在用户给出粗略指导下就能真正有用”,有时却“需要用户给出大量详细指导才能发挥作用”。更强大的模型,可能前一种情况会更多一些。
他认为,对于那些非常标准的问题,比如维基百科或StackOverflow上能轻松找到答案的,LLM表现出色。但问题越偏门、越冷门,模型的成功率就逐渐下降。想要模型给出有用的结果,就需要更多的用户引导,或者更高的算力支持
这是TerenceTao的推文全文翻译:
陶哲轩@tao@mathstodon.xyz加州大学洛杉矶分校#数学教授
今天我尝试重构图论中一个(对专家而言)标准的结果的证明,即鲁兹萨-塞迈雷迪“三角形移除引理”意味着,由n个导出匹配组成的n个顶点的图只包含o(n^2)条边。我当时的主要三个选项是:尝试用笔和纸进行推导;进行传统的网络搜索;或者询问大型语言模型。在这种情况下,我选择了第三个选项(使用o3-mini),并在几秒钟内收到了一个非常好的答案,正确地解释了这个推论:https ://chatgpt.com/share/67cf13cf-53dc-800e-a382-e4ece8341a6d
这满足了我眼前的需求-并指出了LLM的一个良好用例,即快速提供自己领域内一些标准论证的细节,然后可以验证其正确性-但后来我感到好奇,并要求模型也解释三角形移除引理的另一个标准推论,即鲁兹萨-塞迈雷迪关于具有特定禁用配置的3-均匀超图大小的(6,3)定理。在这里,结果明显好坏参半(见上方链接)。最初的答案有正确的总体策略-使用超图来编码图-但缺乏所有关键细节。当我进一步追问时,它没有提及两个最重要的想法-使用(6,3)条件来限制编码图中不需要的三角形,或最初简化为线性超图-但通过额外的提示,它能够重构这些组成部分,并最终提供了该推导的基本上正确的证明。但我不得不通过相当明确的提示来引导它,我只能这样做,因为我事先通过传统的网络搜索查找了证明。(1/2)
我的总体感觉是,至少对于研究级别的数学任务而言,目前的模型在“仅需用户提供广泛指导就真正有用”和“在用户提供大量详细指导后才有用”之间波动,其中,最强大的模型在前者类别中拥有更高比例的答案。对于那些非常标准的问题,它们似乎特别有效,以至于它们的答案基本上可以在诸如维基百科或StackOverflow等现有资源中找到;但是,随着人们转向越来越晦涩的问题类型,成功率会逐渐降低(尽管是以较为渐进的方式),并且需要更多的用户指导(或更高的计算资源)才能使LLM的输出达到可用的形式。(2/2)
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https ://wx.zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx.zsxq.com/group/454854145828进入。
截止到2月28日”未来知识库”精选的100部前沿科技趋势报告
《核聚变,确保21世纪美国的主导地位的关键技术》
《世界知识产权组织:2025WIPO技术趋势报告:交通运输的未来(145页)》
《世界知识产权组织(WIPO):2024年世界知识产权指标报告(194页)》
《联合国环境规划署:2024年保护地球报告(81页)》
《联合国工发组织:2024清洁技术创新能力建设框架研究报告(51页)》
《凯捷:ApplyingTechnoVision2025:未来科技趋势及应用愿景(17页)》
《谷歌:2025年AIAgent白皮书:AI智能体时代来临(42页)》
《富而德律师事务所:2024年国际仲裁趋势年度回顾报告(41页)》
《邓白氏:2024年全球企业破产报告(27页)》
《LLM时代小模型的应用潜力与挑战》(50页)
《斯坦福2025斯坦福新兴技术评论十项关键技术及其政策影响分析报告》(英文版191页)
《英伟达:2025NVIDIA自动驾驶安全报告(26页)》
《微软MICROSOFT(MSFT)2024年影响力摘要报告(23页)》
《高德地图:2024年中国主要城市交通分析报告(29页)》
《德勤&CAS:2025锂离子电池回收行业报告-面向绿色未来的市场及创新趋势(36页)》
《ABIResearch:2025生成式人工智能在语义和实时通信中的应用研究报告(20页)》
《2025年3D打印技术发展趋势、产业链及相关标的分析报告(45页)》
《生成式基础模型的可信度——指南、评估与展望》(231页)
《量子信息科学与技术对国家安全的影响》(118页)
《中国科学技术信息研究所:2024科技期刊世界影响力指数(WJCI)报告(68页)》
《思略特(Strategy&):2025汽车行业的人工智能(AI)机遇研究报告(12页)》
《赛默飞:2024年中国生物科技行业调研报告:资本寒冬中生物科技企业的生产之道(18页)》
《清华大学:2025年DeepSeek与AI幻觉报告(38页)》
《美国企业研究所(AEI):2025创新未来电力系统研究报告:从愿景迈向行动(71页)》
《超材料的智能设计研究进展》
《Ember:2030年全球可再生能源装机容量目标研究报告(29页)》
《量子信息科学与技术对国家安全的影响》
《英国人工智能安全研究所:2025年国际人工智能安全报告-执行摘要(22页)》
《世界海事大学:2024海事数字化与脱碳研究报告:可持续未来(250页)》
《艾睿铂(AlixPartners):2024回溯过往锚定未来:大型科技公司如何推进人工智能愿景研究报告(18页)》
《Wavestone:2025数据与AI雷达:掌握数据与人工智能转型的10大挑战研究报告(30页)》
《CSIS:2024中美学术的再联结研究报告:在激烈竞争的时代增进相互理解(120页)》
《MSC:2025全球国防创新就绪度差距系列报告:突破制约国防创新的六大隐性障碍(第四版)(32页)》
《2025年AI编程发展前景及国内外AI编程应用发展现状分析报告(22页)》
《中国核电-公司深度报告:世界核电看中国-250218(22页)》
《医药生物行业:医疗器械行业全景图发展趋势及投资机会展望-250216(28页)》
《皮尤研究中心:2024美国社交媒体使用情况研究报告(英文版)(30页)》
《科睿唯安:2025基因编辑领域的领先创新者洞察报告-改变药物发现和开发范式的八大创新者(47页)》
《经合组织(OECD):2025年全球脆弱性报告(218页)》
《计算机行业年度策略:AI应用元年看好Agent、豆包链及推理算力三大主线-250218(38页)》
《国金证券研究所:从理想走向现实,全球人型机器人研究报告》
《深度解读DeepSeek原理与效应(附PPT下载)》
《兰德公司(RAND):2025借鉴危机经验构建城市水安全韧性研究报告:五城案例分析(62页)》
《凯捷(Capgemini):2025行业创新洞察:电气化飞机推进系统研究报告(27页)》
《国际能源署(IEA):2025全球电力市场报告:至2027年的分析与预测(200页)》
《Zenith:2025年国际消费电子展(CES)趋势报告:AI对消费科技、消费行为及传媒营销的变革性影响(17页)》
《RBC财富管理:全球透视2025年展望报告(33页)》
《美国国防部和国家安全领域的十大新兴技术》(96页)
《代理型人工智能全面指南》(45页ppt)
《麦肯锡2025人类工作中的超级代理。赋能人类解锁AI的全部潜力》(英文版47页)
《仲量联行(JLL):2025美国制造业的复兴全面分析报告:未来制造业增长及工业需求前瞻(26页)》
《未来的太空领域:影响美国战略优势的领域》
《Luminate:2024年年终美国影视行业报告:数据及趋势洞察(40页)》
《Anthropic:2025年AI经济影响报告:AI如何融入现代经济的各类实际任务(38页)》
【ICLR2025】《LLMS能否识别您的偏好?评估LLMS中的个性化偏好遵循能力》
《改进单智能体和多智能体深度强化学习方法》(219页)
《美国安全与新兴技术中心:2025中国学界对大语言模型的批判性思考通用人工智能AGI的多元路径探索研究报告》(英文版29页)
《世界经济论坛&麦肯锡:2025以人才为核心:制造业持续变革的当务之急研究报告(40页)》
《超越ChatGPT的AI智能体》(82页ppt)
《HarrisPoll:2024年汽车技术预测报告:消费者对先进汽车技术与功能的洞察(14页)》
【新书】《人工智能智能体的应用》(527页)
《哥伦比亚大学:超越Chatgpt的AIagent综述》
《欧盟标准组织-体验式网络智能(ENI)-基于人工智能代理的下一代网络切片研究》
《中国科学院:2024开放地球引擎(OGE)研究进展与应用报告(55页)》
《中国工程院:2024农业机器人现状与展望报告(70页)》
《美国安全与新兴技术中心:2025中国学界对大语言模型的批判性思考:通用人工智能(AGI)的多元路径探索研究报告(29页)》
《罗兰贝格:2050年全球趋势纲要报告之趋势五:技术与创新(2025年版)(72页)》
《理特咨询(ADL):2025解锁聚变能源:驾驭聚变能商业化的机遇与挑战研究报告(20页)》
《埃森哲:技术展望2025—AI自主宣言:可能无限信任惟先-摘要(12页)》
《怡安(AON):2025年气候和自然灾难洞察报告(109页)》
《美国安全与新兴技术中心:2025AI翻车事故(AIincident):强制性报告制度的关键要素研究报告(32页)》
《牛津经济研究院2025确保英国充分释放量子计算的经济潜力研究报告》(英文版64页)
《欧洲创新委员会(EIC):2024年科技报告(65页)》
《大模型基础完整版》
《国际人工智能安全报告》(300页)
《怡安(AON):2025年全球医疗趋势报告(19页)》
《前瞻:2025年脑机接口产业蓝皮书——未来将至打造人机交互新范式(57页)》
《联合国(UnitedNations):2024技术与统计报告:从业者投资法指南(67页)》
《经济学人智库(EIU):2025全球展望报告:特朗普再次当选美国总统的全球影响(16页)》
《大规模视觉-语言模型的基准、评估、应用与挑战》
《大规模安全:大模型安全的全面综述》
《Emplifi:2024年Q4全球电商行业基准报告-社交媒体趋势洞察(37页)》
《DeepMind:2025生成式魂灵:预测人工智能来世的益处和风险研究报告(23页)》
【AI4Science】《利用大型语言模型变革科学:关于人工智能辅助科学发现、实验、内容生成与评估的调研》
《世界银行:2025极端天气高昂代价:气候变化背景下的马拉维金融韧性构建研究报告(76页)》
《北京理工大学:2025年中国能源经济指数研究及展望报告》
《SpaceCapital:2024年第四季度太空投资报告(22页)》
《NetDocuments:2025年法律科技趋势报告(32页)》
《CBInsights:2024年度全球企业风险投资(CVC)状况报告:私募市场交易、投融资数据及分析(130页)》
《Artlist:2025年全球内容与创意趋势报告(59页)》
《IBM商业价值研究院:2024投资人工智能伦理和治理必要性研究报告:AI伦理前线五位高管的真实故事(24页)》
《世界基准联盟(WBA):2025塑造未来:对可持续发展目标(SDGs)影响最大的2000家公司研究报告(46页)》
《清华大学:2025年DeepSeek从入门到精通(104页)》
《麦肯锡:2025工作场所中的超级代理(Superagency):赋能人类解锁人工智能的全部潜力(47页)》
《凯捷(Capgemini):科技愿景2025:关键新兴科技趋势探索(54页)》
《硅谷银行(SVB):2025年上半年全球创新经济展望报告(39页)》
《BCG:2025工业运营前沿技术:AI智能体(AIAgents)的崛起白皮书(26页)》
《DrakeStar:2024年全球游戏与电竞行业报告(26页)》
《理特咨询(ADL):2025人工智能驱动的研究、开发与创新突破的新时代研究报告(80页)》
《互联网安全中心(CIS):2024年网络安全冬季报告:回顾与展望(30页)》
《方舟投资(ARKInvest):BigIdeas2025-年度投研报告(148页)》
《DeepSeek:2024年DeepSeek-V2模型技术报告:经济、高效的混合专家语言模型(52页)》
《CBInsights:2024年度全球风险投资状况回顾报告:私募市场交易、投融资和退出数据及分析(273页)》
《全国智标委:2025城市生命线数字化标准体系研究报告(105页)》
《经合组织(OECD):2024年全球政府创新趋势报告:促进以人为本的公共服务(46页)》
《DeepSeek_R1技术报告》
《摩根斯坦利报告—DeepSeek对于科技和更广义经济的含义是什么?》
《李飞飞最新S1模型的论文:s1Simpletest-timescaling》
《世界经济论坛-《全球经济未来:2030年的生产力》报告》
《2035年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》
《百页大语言模型新书》(209页pdf)
《量子技术和网络安全:技术、治理和政策挑战》(107页)
《大语言模型中的对齐伪造》(137页)
《2035年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》(美陆军232页)
《美国防部CDAO:人工智能模型的测试与评估》(66页slides)
《自动驾驶的世界模型综述》
《Questel2024深度学习领域专利全景报告》(英文版34页)
《深度解析Palantir》(20250122_204934.pdf)
上下滑动查看更多


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录