陶哲轩三小时超长访谈：我们如何解决难题？AI将如何重塑数学？

发布日期: 2025-06-24

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

来源：DeepTech深科技
运营/排版：何晨龙
近日，当代最著名数学家之一、菲尔兹奖得主陶哲轩（TerenceTao）做客了莱克斯·弗里德曼（LexFridman）的播客节目。在这场长达三个多小时的深度对话中，陶哲轩分享了他对数学、物理、人工智能乃至现实本质的诸多思考。这场访谈信息量巨大，不仅探讨了诸如纳维-斯托克斯方程（Navier-Stokesequations）、P/NP问题和黎曼猜想（RiemannHypothesis）等数学领域的“圣杯”，还将话题延伸至人工智能如何重塑数学研究的未来。
图丨相关访谈（来源：LexFridman）
在访谈中，陶哲轩谈到了解决复杂数学问题的一种实用策略，他称之为“策略性作弊”。具体来说，就是面对一个包含多个难点的问题时，研究者会先暂时忽略大部分困难，集中精力攻克其中一个。通过这种方式逐一解决，最终再将各个部分的解法整合起来。
与此同时，陶哲轩详细阐述了他对人工智能在数学领域潜力的看法。他分享了自己使用证明助手语言Lean的亲身经历，并坦言，尽管AI目前在数学领域的能力如同一个“有时不太可靠，但能力超群”的研究生，但它正推动着数学研究范式的转变。他预言，在不远的将来（甚至有可能是2026年），AI将能够与人类数学家合作发表研究级别的论文。这种合作模式将彻底改变数学的协作方式，使得大规模、分布式的数学实验成为可能。
此外，陶哲轩也谈到了他对一些著名猜想的看法。他认为孪生素数猜想（TwinPrimeConjecture）在未来十年内可能会有重大突破，但对于黎曼猜想，他则坦言目前尚无线索。他强调，这些难题的核心在于“结构”与“随机”的对立，而数学的本质正是在这两种看似矛盾的力量之间寻找深刻的联系。
以下是经过整理编译的对话全文
第一个难题
莱克斯：
你遇到的第一个真正意义上困难的研究级数学问题是什么？有没有一个让你真正停下来、卡住的时刻？
陶：
在本科学习中，我们会接触到一些“公认很难”的问题，比如黎曼猜想、孪生素数猜想。这些问题可以人为地制造出极高的难度——因为我们甚至知道有些问题是不可解的。但真正有趣的是那些处在“边界地带”的问题：它们不是完全绝望，但也远非轻松。现有技术可以解决其中的90%，但最后那10%才是真正棘手的部分。
我想，在我读博士期间，挂谷问题（KakeyaProblem）无疑吸引了我的注意。而且它最近刚刚被解决了。这是我早期研究中投入了大量精力的一个问题。
图丨证明挂谷集合猜想的王虹（来源：NYU）
这个问题最早源于日本数学家挂谷宗一（SōichiKakeya）1918年左右提出的一个小谜题：设想在平面上有一根针（可以想象成一辆车），你想让它掉头——也就是做一个U形转弯——并且你想用尽可能小的面积来完成这个转向。你可以无限灵活地操控这根针，比如让它原地旋转。作为单位长度的针，如果你绕中心旋转，所需的面积大约是π/4。或者你可以做一个三点调头，这个方式更高效些，所需面积大约是π/8。
一开始，人们以为这是最节省空间的方法。但别西科维奇（Besicovitch）证明，其实可以构造一种复杂的、多次反向旋转的轨迹，使得你能在任意小的面积内完成掉头——比如0. 01的面积。关键是，这根针在这个过程中还会经过所有方向。
这个构造是在二维平面里完成的，我们对二维的理解已经很充分了。那么下一个自然的问题是：在三维空间中会发生什么？
想象一下哈勃太空望远镜，它是一个悬浮在太空中的管状物体。你想用它观察宇宙中每一颗星星，就需要让它转向每一个可能的方向。假设空间资源非常紧张，那么你希望在尽可能小的体积内完成这个“方向遍历”。这个体积最小能有多小？
你可以对别西科维奇的二维构造做一个简单修改：如果你的望远镜是零厚度的，那么理论上你仍可以用任意小的体积完成任务。但问题在于——如果你的望远镜并非完全没有厚度，而是有一个非常小的厚度δ，那要实现对所有方向的遍历，所需体积的最小值会是多少？
随着δ越来越小，也就是望远镜变得越来越细，所需体积确实会变小。但这个体积减少的速度是怎样的？猜想是，它会非常缓慢地下降，大致是对数级的。这个猜想后来在经历大量工作之后被证明成立。
表面上看，这像是一个“几何小谜题”。但它的有趣之处在于，它和偏微分方程、数论、几何、组合等许多领域都有出人意料的联系。
举个例子，在波传播问题中：你把水搅动一下，就会产生朝各个方向传播的水波。但波动本身既有粒子特性，也有波动特性。你可以得到所谓的“波包”（wavepacket）：它在空间上高度局部化，并沿某个方向传播。
在时空图中，这种波包会占据一个类似细长管子的区域。某些情况下，一开始分散的波会在稍后的某个时间点聚焦到一个点上。比如你往池塘里扔一颗石子，水波会向外扩散。但你也可以设想时间反演的情景：水波从四面八方汇聚到一个点，在那里形成一个巨大“水花”——甚至可能形成奇点。
如果你把这种波看作是光波，可以把它看作是无数个光子叠加而成，这些光子都沿光线前进，并最终汇聚到某一点。因此，最初非常分散的波可以聚焦到某个极小区域，并在时空中达到极高浓度，然后再重新发散。
但如果挂谷猜想有一个否定的答案，也就是说，如果真的存在一种极其高效的方式，可以把朝各个方向的“管状物”都塞进一个极小的体积中，那么我们就有可能制造出一种非常特殊的波动结构：它们一开始非常分散，但后来不仅会聚焦到一个点，还会在多个时空点集中出现能量聚焦现象。
这样就可能造成所谓的“blowup”（爆破型奇异性）：波的振幅会变得极大，以至于原本描述它们的线性波动方程不再成立，需要使用更复杂的非线性方程来描述这个系统。
纳维-斯托克斯奇点
陶：
在数学物理中，我们非常关心某些波动方程是否稳定，是否会形成所谓的奇点。有一个著名的未解问题叫做纳维-斯托克斯正则性问题。纳维-斯托克斯方程是支配像水这样的不可压缩流体流动的方程。这个问题在问：如果你从一个平滑的初始速度场出发，是否可能在某个点速度变成无穷大？这就叫做“奇点”。我们在现实生活中并不会观察到这种情况，比如你在浴缸里搅动水，它不会突然爆炸，或者以光速喷涌而出，但理论上这类现象是有可能发生的。
事实上，近年来学界的共识逐渐倾向于认为，对于某些非常特殊的初始状态，可能确实会出现奇点。尽管如此，目前还没有人真正证明这一点。克雷数学研究所设立了七个千禧年大奖难题，为解决其中任何一个问题提供100万美元的奖金，这就是其中之一。在这七个问题中，只有一个被解决了，那就是庞加莱猜想（PoincaréConjecture）。虽然挂谷猜想与纳维-斯托克斯问题没有直接关系，但理解它会帮助我们理解波动集中等现象，从而间接帮助我们更好地理解纳维-斯托克斯问题。
莱克斯：
你能谈谈纳维-斯托克斯问题本身吗？就像你说的，它是一个关于平滑解是否存在的千禧年难题。你在2016年曾发表论文《三维纳维-斯托克斯平均方程的有限时间爆破》，对该问题有不少进展。通常我们认为纳维-斯托克斯方程不会爆破，但我们能否确定它永远不会爆破呢？
图丨相关论文（来源：arXiv）
陶：
没错。这确实是那个价值百万美元的问题。数学家与其他人最大的不同在于：即使某件事99. 99%成立，对大多数人来说就足够了。但数学家在意的是，是否对100%的情形都成立。所以虽然绝大多数时候流体不会爆破，但是否存在一种特别的初始状态能让它爆破呢？
莱克斯：
我们或许应该说明一下，这是一组支配流体动力学领域的方程，试图理解流体的行为。而流体是一种极其复杂、难以建模的对象。
陶：
是的，所以它具有实际重要性。这个克雷奖问题关注的是所谓的不可压缩纳维-斯托克斯方程，主要涉及像水这样的流体。还有可压缩纳维-斯托克斯方程，例如描述空气流动的，这在天气预报中尤为关键。天气模型大量依赖于对纳维-斯托克斯方程的数值求解，同时也要收集大量数据来作为初始条件输入。这是一个系统性工程。
莱克斯：
为什么证明关于这组方程的普适性质，比如它不会爆破，会如此困难？
陶：
简单来说，是麦克斯韦妖（Maxwell’sDemon）。这是热力学中的一个思想实验：设想你有一个装有氧气和氮气的箱子，氧气在一边，氮气在另一边，中间没有隔板。它们自然会混合，而且一旦混合，就不太可能重新分离。但在原则上，可能存在某种“麦克斯韦妖”的机制，使得每次氧分子与氮分子碰撞时，它们都会以某种方式反弹，从而使得氧气重新聚集一侧，氮气聚集另一侧——极其不可能，但数学上无法排除。
这种“极端但可能”的情形在数学中经常出现。比如圆周率π的数字3. 14159……这些数字看起来没有规律，我们相信它们是无偏的，也就是说从长远看，每个数字（0到9）出现的频率应相等。但或许在某处存在一个“π妖”，使得每次多算几位时，某个数字被偏好。没有理由发生这种事，但我们也没法证明它绝对不会发生。
回到纳维-斯托克斯问题：流体有能量，而运动中的流体会把能量传递到不同位置。而由于水具有粘性，当能量分布较均匀时，粘性就会将其耗散。我们实验时也是如此：水的波动、涡旋会逐渐平息。但理论上也可能存在某种“妖”，它不断将流体的能量向更小的尺度推进，使局部速度越来越快。而当速度变快时，粘性的影响相对变小。所以有一种可能性：形成所谓的“自相似能量团”情景（self-similarblobscenario）——能量原本分布在一个大尺度区域，然后被集中转移到一个较小的区域，再以更快的速度进入更小的区域，如此反复。
每次转移耗时可能只有前一次的一半，那么整个过程会在有限时间内完成，即能量最终在一个点无限集中，这就是所谓的“有限时间爆破”（finitetimeblowup）。
在实际中，这种现象没有发生。水是“湍流”的，也就是说如果你有一个大的旋涡，它确实会破碎成几个小旋涡，但能量不会全部集中到一个小旋涡中，而是会分散成三四个，然后再细分为更多小旋涡。能量的分散使得粘性得以发挥作用，从而稳定系统。但如果能量被集中得足够快，使得粘性来不及起作用，那么就有可能发生爆破。
过去有很多论文声称，只要用能量守恒和粘性项就能控制住系统，不只是对纳维-斯托克斯，对很多类似的方程都适用。人们试图证明所谓的“全局正则性”（globalregularity），也就是反过来否定“有限时间爆破”，即速度场始终保持光滑。但这些尝试全都失败了。总是会出现符号错误或一些微妙的问题，导致不可修补。
我感兴趣的是：我们为何一直无法证伪“有限时间爆破”？我没法直接在纳维-斯托克斯方程上操作，因为它太复杂。但我可以对其运动方程进行“平均化处理”，也就是人为关闭某些类型的流体相互作用，只保留我想研究的部分。
我基本上是在“工程化”地制造一个爆破，通过改变物理规律来实现——这是数学家被允许做的事情，我们可以改写方程。
这在数学中被称为构造阻碍（obstruction）。我做的事情是：关闭方程中的某些部分。通常关闭某些非线性交互项会让系统更“温顺”，更容易控制，更不容易爆破。但我发现，通过精心设计地关闭一组特定交互项，我反而可以强制让能量在有限时间内爆破。这意味着：如果你想要对真实的纳维-斯托克斯方程证明正则性（即不会爆破），那你必须使用那些我这个“人工方程”所不具备的特性。也就是说，我的构造排除了一部分可能的证明路径。
数学的精髓就在于，你不仅要找到能行得通的方法，更重要的是知道哪些方法永远行不通。对于那些真正难的问题，通常有几十种看似合理的办法，但只有在深入尝试之后你才会意识到它们注定失败。构造这些“相似但失败”的反例可以节省大量时间和精力，因为你已经知道某些方法在逻辑上根本无法奏效。
莱克斯：
这是否只与你所研究的流体动力学问题有关，还是你在数学上发展出的一种更普遍的直觉？
陶：
是的，我的这种技术背后其实利用了一个关键现象，叫做超临界性（supercriticality）。在偏微分方程中，很多问题其实是不同力之间的拔河比赛。比如在纳维-斯托克斯方程中，一方面是粘性带来的“耗散力”，它是线性的、可控的、会让系统趋于稳定；另一方面是“输运项”，能量从一个位置传递到另一个位置，它是非线性的，也正是产生所有问题的源头。
纳维-斯托克斯的两个核心项就是：耗散项和输运项。如果耗散占优势，系统就会趋于平稳，就有希望证明正则性；但如果输运项占优势，系统就变得不可预测，非常非线性，进入湍流状态。
在不同的空间尺度下，这种力量对比也会改变：可能在大尺度下还在平衡，在小尺度下就完全不平衡。纳维-斯托克斯的问题在于它是一个超临界方程：当你观察得越来越细时，输运项的影响变得远大于粘性项。
这就是问题难以解决的根本原因。相比之下，在二维空间里，苏联数学家拉德任斯卡娅（Ladyzhenskaya）在60年代就证明了不存在爆破。
图丨拉德任斯卡娅（来源：Wikipedia）
那是因为在二维中，这个方程是所谓的临界（critical）系统：输运与耗散在所有尺度下影响相当。而我们已经掌握了大量技术可以处理临界或次临界（subcritical）系统，进而证明正则性。
但对超临界系统，就很难说清楚。我的研究和许多后续工作已经表明：一旦非线性效应在小尺度上主导线性效应，各种“糟糕的事”就可能发生。这也正是这套研究工作的关键洞察之一：超临界vs临界/次临界，是决定一个方程“是否可控”的关键定性特征。
比如行星运动，它们的方程比较“温顺”、可预测，我们可以精确预测其数千年轨迹；但天气预测为什么过不了两周？就是因为大气系统是超临界的，它在极小尺度上会发生各种难以预料的奇异变化。
莱克斯：
所以说，只要存在巨大的非线性源头，就会导致系统难以预测？
陶：
是的，尤其是当这种非线性在越小的尺度上越“活跃”时，问题就更严重。并非所有非线性方程都难以处理——在很多情况下我们可以通过看系统的“整体行为”来近似局部结构。
比如，如果你想研究月球或火星的轨道，你并不需要知道月球的地震波结构或质量分布细节。你几乎可以把它们看作点质量，其运动主要由整体重力决定。
但如果你想模拟流体，比如天气系统，你不能只是说“洛杉矶的气温是X，风速是Y”来近似整个系统。对于超临界方程，微小尺度上的信息是极其关键的，你忽略不了。
莱克斯：
你曾提到过一种构想，也许可以请你详细解释一下：你设想通过构建一种“液体计算机”，从而将计算理论中的停机问题（haltingproblem）引入到流体动力学中。也就是说，通过这种方式展示计算复杂性对流体行为的影响。你能讲讲这个思路吗？
陶：
这个想法源自我之前构造出一个平均方程会爆破的工作。为了做到这一点，一种天真的做法是：你每到一个尺度，就立即将能量推向下一个尺度，尽可能快地推进。这种做法在五维及以上的空间维度中确实有效。但在三维中，我发现了一个奇怪的现象：如果你不断将能量往更小的尺度压缩，结果是能量会在多个尺度之间分散。也就是说，当你将能量从一个尺度推向下一个时，虽然它刚进入下一个尺度，但上一层仍有残留的能量——你试图同时推进一切，这会导致能量过于分散。
而一旦能量分散过多，就会让它更容易被粘性所抑制，从而失去爆破的可能性。所以这种“直接推进”的方法在三维中不奏效。后来有其他研究团队专门写了论文证明这一点。因此，我需要设计一种“延迟机制”，就像“气闸”一样：流体在一个尺度上活动时，只有等它将该尺度的全部能量完整传递到下一尺度之后，才开启通道进入下一级。
通过这种方式，能量可以逐级向前推进，而始终保持在一个特定尺度内局部集中，从而避免被粘性效应削弱。为了实现这个目标，我不得不构造一个非常复杂的非线性结构，它几乎就像是一个电子电路的设计。我也很感谢我的妻子，她是电子工程专业出身，曾和我聊过如何设计电路。
比如你想要一个灯能按一定频率闪烁，那你就得用电容、电阻等基本元件组合成某种结构，画成电路图。这些电路图可以通过“用眼睛追踪电流”来理解其工作原理。于是我就模仿这些电路元件，构造出数学上的对应物，例如模拟“电容”或“电阻”等组件。然后将它们组合在一起，形成一个能够定时打开或关闭“闸门”的结构。整个系统就像一个数学版的鲁布·戈德堡机器（RubeGoldbergmachine）——复杂但可控。而这个设计最终确实起作用了。
这让我意识到：如果你能用在真实的流体方程上做出同样的事情，比如纳维-斯托克斯方程真的能够“支持”某种计算机制，那我们就可以构建一种“液体朋克”风格的系统。我们现在的计算机是由电子在细小电路中流动实现的，而这里，我们设想的是让水流脉冲充当信息载体。
你可以想象两种水流配置，分别表示“比特1”与“比特0”。如果两个水流“碰撞”后得到的输出状态是可预测的，那么这个碰撞就可以实现逻辑运算，比如“与门”“或门”等。将它们串联起来，你就可以构建出图灵机。这台机器完全由水组成，是一种“流体计算机”。
再进一步，如果你能用水来控制机器的形态，就像液态机器人，你甚至可以制造一种冯·诺依曼机（vonNeumannmachine）。
图丨冯·诺伊曼架构（来源：Wikipedia）
冯·诺依曼曾提出一种理论：如果你想殖民火星，运送人类和机器的成本太高，那不如送一台可以自我复制的机器。只要它能采矿、制造、组装，就可以在火星上不断复制自己，完成扩张。
同理，我们也可以设想这样一种流体机器人：它的使命就是复制出一个更小的自己。在某个“冷启动状态”下，小机器尚未运作；当准备就绪后，大机器人将自己的全部能量传输给小机器人，自己“关闭”，清空残余能量。接着，小机器人启动、重复这一过程，但更小、更快。
由于纳维-斯托克斯方程具有尺度不变性（scalingsymmetry），这一过程理论上可以无限进行，从而实现“爆破”现象。这正是我在“平均化的纳维-斯托克斯”上所完成的构造——一种为理解原方程爆破机制提供路线图的方法。
当然，这仍是一个梦想，要真正实现它还有很多障碍。例如，我现在还不能真正构建出那些“流体逻辑门”，我也没有那些特定的水流配置（虽然像涡环之类的结构可能是候选）。此外，模拟计算比数字计算要脆弱得多，误差传播是一个巨大挑战，需要复杂的纠错机制。
我也还不清楚如何让大机器完全“关机”，以免干扰小机器的运行。但从物理角度来说，这一构想并不违背任何自然法则，所以它是“理论可行的”。目前也有其他团队在尝试推动纳维-斯托克斯爆破的证明，只不过他们使用的方法远没有我这种方案复杂。他们采用的是更直接的“自相似模型”（self-similarmodel），虽然仍未完全奏效，但思路可能更简洁可行。
从纳维-斯托克斯方程到图灵机，这个跳跃真的很惊人。你最初设想的是“自相似团块”，不断生成更小、更精细的结构，现在则是液体图灵机不断缩小复制自身，并且从中得出关于爆破的洞见——这个转化非常具有天才般的创造力。
莱克斯：
从纳维-斯托克斯方程跳到这台图灵机，这中间真是一次天才的飞跃。从一开始设想的那个越来越小的自相似斑点，到后来构想出一个越来越小的液体图灵机，并洞察到这可以用来解释爆破。这真是一个巨大的跨越。
生命游戏
陶：
这在数学中其实是有先例的。数学的一个强项就在于，它善于揭示那些看似完全无关的问题之间的深层连接。只要数学形式相似，就可能存在可以转化或类比的路径。
例如，有一类研究叫做“元胞自动机”（cellularautomata），最著名的就是康威提出的生命游戏。这是一个无限的离散网格，每个网格点要么被一个“细胞”占据，要么是空的。整个系统依靠一套非常简单的规则演化，细胞会因邻近环境而“生”或“死”。
我在学生时期，这种动画非常流行，甚至被用作屏保。这些图像看起来非常混乱，甚至某种程度上有点像流体的湍流行为。但随着时间的推移，人们在“生命游戏”中发现了越来越多有趣的结构。
比如说，有一种叫做“滑翔子”（glider）的结构，只需要四五个细胞组成，演化过程中会稳定地朝某一方向“滑动”，就像涡环一样。这类现象说明，虽然“生命游戏”是一个离散系统，而纳维-斯托克斯是一个连续系统，但在数学特征上却存在一定的相似性。
“生命游戏”本身非常简单，只有三四条演化规则，但你却可以在其中设计出非常复杂的结构。比如有一种叫“滑翔子枪”（glidergun）的结构，它能周期性地发射滑翔子。后来又有人构建出了用于滑翔子的“与门（ANDgate）”“或门（ORgate）”等逻辑结构。
这听起来很夸张，但这些结构是实实在在地被构造出来了。比如有一个巨大的系统：当两个方向上都有滑翔子流进入时，才会输出滑翔子流；若只有一边输入，则无输出——这就是典型的“与门”逻辑。
而一旦你可以用滑翔子构建出这些基础逻辑门，就可以像在软件工程中一样，逐层搭建出图灵机。尽管这些构造在图像上看起来像是“蒸汽朋克”风格的机械，但它们确实是可以自我复制的结构。有些系统耗费大量时间，通过滑翔子枪的组合，最终实现了一种可以复制自身的大型装置，即图灵意义上的自复制机。
很多这样的成果，其实都是由业余数学爱好者以众包的方式完成的。我早就关注这些研究，它们也成为我思考纳维-斯托克斯类似构想的启发来源之一。
当然，“生命游戏”是数字系统，而纳维-斯托克斯是连续系统，不能简单照搬它们的结构。但它至少表明：这种复杂结构的涌现在原则上是可能的。
莱克斯：
这种由“局部规则”所引发的“宏观结构”的涌现非常神奇——像“生命游戏”中的局部规则，在大规模运行下可以生成极其复杂的动态系统。你觉得这些现象是否可能被数学严谨地刻画？我们是否拥有工具能对这种复杂性说出深刻的见解？
陶：
问题在于，这些“复杂结构的涌现”往往需要精心设计的初始条件。像滑翔子枪、逻辑门、自复制系统这些结构，如果你只是随便在网格上撒一些随机细胞，它们是不会自然出现的。
这其实也与纳维-斯托克斯方程的情形相似：在一般的初始条件下，我们并不会看到任何“计算”或者“图灵机”的行为。但如果你用“工程方法”对初始条件精心设计，那么确实可以实现一些精妙的结构性演化。
莱克斯：
有没有可能证明它的反面……也就是说，证明只有通过“工程设计”，你才能创造出有趣的东西。
陶：
这其实是数学中一个反复出现的难题，我称之为“结构与随机性”的二元张力。我们在数学中遇到的大多数对象，其实是“看起来随机”的。比如圆周率的数字序列（π的十进制展开），我们普遍相信它没有任何模式。
如果一个结构确实有规律，那我们是可以证明它的，比如周期性重复、等间距结构等等，这就属于“结构定理”的范畴。而我们也可以证明，在一个给定的统计框架下，“大多数”数字序列没有规律。比如大数法则告诉我们，随机序列中1、2、3这些数字应该在长远来看出现得一样多。
但困难在于：如果给你一个特定的序列，比如π的小数位，你该如何证明它没有隐藏的复杂结构？
这方面我做了很多研究，涉及到所谓的“结构定理”与“逆定理”，其核心在于：如果一个函数表现出某种看似结构化的行为，那可能是因为它接近于某个真正具有明确结构的函数。
比如，有些函数是所谓的“加性”的。如果你有一个从自然数到自然数的函数，比如2映到4，3映到6，如果它满足“两个输入相加，等于两个输出相加”，那它就是加性的。最简单的例子就是乘以一个常数。如果你把一个数乘以10，那么（A+B）×10就等于A×10+B×10。有些函数是严格加性的，还有一些则是几乎加性的。
举个例子，如果我取一个数，乘以根号2，然后取整数部分。比如10乘以根号2约等于14点几，所以10映到14，20映到28。在这种情况下，10+10=20，14+14=28，加性是成立的。但由于取整操作，有时会产生误差，可能你把A和A相加，得到的结果并不完全是两个独立输出的和，而是差了那么一点点，比如加一或减一。所以，它是“近似加性”（almostadditive），但又不完全是。
我研究的很多成果表明：若某个对象显示出某种结构的迹象，那么它就近似某个真正有结构的对象。通过这样的逆定理，我们能划分出一个清晰的二分世界——一个对象要么是彻底无结构的，要么就可以追溯到某种隐藏的结构，从而我们就有了进一步分析的可能性。
一个很好的例子是数学中一个叫做塞迈雷迪定理（SzemerédisTheorem）的古老定理，它是在1970年代被证明的。它讨论的是在一组数字中寻找一种特定模式——等差数列，例如3、5、7或10、15、20。
塞迈雷迪证明了：只要一个数字集合足够大、具有所谓“正密度”（positivedensity），那么这个集合中一定包含任意长度的等差数列。
比如，奇数集合的密度是二分之一（因为它占据所有整数的一半），我们显然可以在其中找到各种长度的等差数列。比如11、13、15、17。因为奇数集合本身就很有结构，找出这种序列不难。
但塞迈雷迪定理的强大之处在于，它也适用于随机集合。比如我们取所有奇数，然后对每个数抛硬币，只保留抛出正面的那些。这样我们得到的就是一个“完全随机”的子集，表面上看似毫无规律。然而，即便在这样一个随机集合中，仍然会存在大量的等差数列。
莱克斯：
你能证明在一个随机集合里存在任意长度的等差数列吗？
陶：
是的。你听说过“无限猴子定理”（infinitemonkeytheorem）吗？通常数学定理的名字都很无聊，但这个还挺形象。
“无限猴子定理”的流行版本是说，如果你有无限只猴子，每只都在打一台打字机，随机敲字，那么几乎可以肯定，其中至少有一只猴子最终会打出整部《哈姆雷特》的剧本，或者任何你想要的有限文字序列。
这说明：如果你有一条无限长的数字序列或字符串，任何你想要的有限模式终将出现。这当然需要时间，可能是很长很长的时间，但只要是“无限”，它就会发生。
具体到我们之前讨论的等差数列：只要序列够长，任意长度的等差数列就一定会在其中出现。当然，需要的是极其巨大的随机序列。
我们可以把“无限”理解为一个没有上限的有限值的抽象化。现实世界中没有什么是真正“无限”的，但我们会思考：“如果我有无限多的钱会怎样？”“如果我可以无限快会怎样？”等等。
数学中有一套严格的形式系统来处理这些理想化的状态，把“非常大”或“非常小”的概念，抽象为“无限”或“零”，从而让问题变得更清晰、更易处理。
就像物理中我们经常开玩笑说“假设奶牛是球形的”，意思是我们故意忽略很多现实复杂性，用一种理想模型来近似分析。
莱克斯：
那你觉得，当我们引入“无限”这个理想化工具时，会不会有时偏离了物理现实？
陶：
确实有很多陷阱。所以我们在大学数学课程中会花很多时间教“数学分析”，它基本上就是在教人如何正确使用极限和无限。
举个例子：有限个数相加时，交换顺序不影响结果。但如果是无穷级数，事情就没那么简单了。你可以用不同顺序排列这些项，竟然会得到不同的收敛值！这就容易出错。
所以在处理无限的时候，你必须非常谨慎。我们引入了ε和δ这样的参数，制定一套非常严密的逻辑和推理方式，来防止在“无限”问题上犯错。
而近年来，数学家们开始把那些在“极限下成立”的结论转化为有限版本。也就是说：虽然你知道某件事在某个无限条件下是对的，但你会问：“那我到底要多大、多久才行？”
比如说，如果我没有无限只猴子，而只有一亿只，那我要等多久才能等出《哈姆雷特》？这是一个定量问题，而我们可以用纯粹的有限方法去分析它。结果是：所需时间是与目标文本长度呈指数增长的。
所以你永远看不到猴子敲出《哈姆雷特》，最多可能敲出个四个字母的单词罢了。我个人觉得，一旦你把一个“无限陈述”有限化，它就变得更容易理解，也不再那么玄乎了。
莱克斯：
所以即使你在处理无穷大的问题，最好也把它“有限化”，这样能帮助你建立直觉？
陶：
是的，缺点是有限化的证明要复杂得多。无限的证明通常是先被发现的，早了几十年，然后人们才将它们有限化。
数学vs. 物理
莱克斯：
既然我们刚才提到了很多关于数学和物理的问题。那作为两种不同的学科、理解世界的方式，数学与物理的根本差异是什么？
陶：
我认为科学总体上可以被看作是三个元素的互动：现实世界、我们对现实的观察，以及我们关于现实运行机制的心智模型。
我们无法直接接触真实本身，我们拥有的只是观察结果——这些结果通常不完整、带有误差。很多时候我们想知道的事，比如明天天气如何，我们尚未有观察数据，但我们希望预测它。
在此基础上，我们建立了一些简化模型，有时会做出不太现实的假设（比如假设奶牛是球形的那类）。这些模型就是我们说的数学模型。
数学研究的，就是模型本身。科学则是收集观察数据，并据此提出能够解释这些观察的模型。而数学的做法是：我们从模型的前提出发，思考其逻辑结果，推导出这个模型可能带来的预测或结论，并检查这些结论是否符合已有数据或可能的数据。
所以二者之间确实是一种共生关系。我想数学与其他学科相比的特殊之处在于：数学从假设出发（比如模型的公理），然后推导出可能的结论。而其他大多数学科是从目标出发：我要造一座桥，我想赚钱，我要达成某个目标，然后再反推该怎么做。
在人类活动中，绝大多数事情都是结论导向的，包括物理与科学研究。例如他们会问：这个小行星的轨道将会如何？或明天天气如何？而数学除了从结果出发外，还会从假设出发：假设这个成立，那么会有什么结果？
莱克斯：
物理学里常常有理论与实验之间的张力。你觉得哪一种方式更能引导我们真正发现现实中的新思想？
陶：
你需要两者兼备，自上而下和自下而上。理论、观察与建模应该逐渐趋近现实。但一开始，它们总是相距甚远。要靠彼此推进彼此。
如果你的模型预测出了实验未曾观测到的异常现象，这恰好能告诉实验者去哪里找数据，以进一步校正模型。这个过程是不断往返推进的。
在数学内部其实也存在“理论”与“实验”的划分。只不过直到最近，数学几乎被理论方法完全主导。大约99%的数学是纯理论的，实验数学占比很小，但确实有人在做，比如研究素数分布，他们可能会生成大量数据。
早在计算机出现前，人们也进行过实验数学的尝试。比如高斯，他发现了一个著名的猜想，后来发展成了素数定理（primenumbertheorem），这个定理预测：小于某个数（比如一百万、一万亿）之间有多少个素数。这不是一个显然能答的问题。高斯基本上是靠自己（也雇了一些人肉计算员），计算了前十万以内的素数，并制作出对照表，从中得出预测。
这是早期“实验数学”的一个例子。但直到最近，实验数学还不是主流。
理论数学成功率更高也是因为：过去复杂计算几乎无法实现，即便今天计算机已很强大，也只有少部分数学问题可以通过数值方法探索。
有一个概念叫做“组合爆炸”（combinatorialexplosion）。比如你想研究塞迈雷迪定理，设你考虑从1到1000的所有数字中选子集。表面看：一千个数，能有多难？但实际情况是，它的子集数有2的1000次方，这远远超出了目前任何计算机所能枚举的范围。
所以有些数学问题，一旦规模变大，就根本不可能靠穷举法解决。国际象棋也是经典例子：所有可能的棋局状态数量巨大，计算机也无法全部列出。
但现在我们有了AI，能用另一种方式探索这种空间。它们不一定能给出“100%有保障”的解法，但可以通过实验性模拟给出答案。比如现在的国际象棋AI非常强大，它们不穷尽所有棋步，但却能找到非常好的近似方案。现在很多人用这些AI引擎来做“实验性国际象棋”：重新评估那些旧的棋局理论，比如某个开局到底好不好，有些结论甚至推翻了传统的棋谱智慧。
我希望未来数学也能有更多的实验成分，可能由AI推动。
现实的本质
莱克斯：
你提到了柏拉图的“洞穴寓言”。从某种意义上说，这不就是数学家，甚至所有人类正在做的事情吗？我们只是在观察现实的影子。我们有可能真正地触及现实本身吗？
陶：
我们可以将世界分为三个本体层次：现实本身、我们的观察，以及我们对世界运作方式的模型。从严格意义上说，它们彼此是区分开的，而且我认为它们永远都会是分离的。但它们之间的距离可以随着时间缩小。而要让模型更接近现实，往往意味着必须舍弃你最初的直觉。
天文学就是个很好的例子。一开始我们对世界的模型是“地是平的”，因为它看起来就是平的，而且它非常大；而天空中的其他东西，比如太阳，看起来非常小。所以你最初的模型虽然离真实非常遥远，但它能很好地解释你当时的观察现象，因此它“看起来没问题”。
但随着你观察得越来越多，模型就会被拉近现实——我们逐步认识到地球是圆的，它会自转，它围绕太阳公转，太阳系围绕银河系运动，宇宙在膨胀，而且这个膨胀还是加速的自我膨胀。甚至就在最近的一年，我们发现，这种加速度本身也不是恒定的。
我们现在有一个模型能够解释，能够很好地拟合数据。但也有人批评说：“这不就是乏晰因子（fudgefactors）吗？只要参数足够多，你什么都能解释。”但数学的观点是：你希望模型的参数尽量少于观察数据点的数量。
如果你用10个参数来解释10个观测值，这模型毫无意义，过拟合。但如果你用两个参数解释了一万亿个观测值——比如说“暗物质模型”，它大约有14个参数，却解释了天文学家所拥有的数百万TB的数据，那这个模型就极具价值。
你可以这样看：一个物理或数学理论，本质上是一种对宇宙的“压缩”，就像数据压缩。你手里有几百万TB的观测数据，你希望用五页纸的公式加上几个参数把它们概括出来。如果这个模型能以合理精度拟合几乎所有观察结果，那么你压缩得越彻底，理论就越好。
莱克斯：
而事实上，我们宇宙中最惊人的一点就是，它居然是可压缩的。这正是数学“不合理的有效性”。
陶：
是的，爱因斯坦有过一句类似的话：“关于宇宙，最不可理解的事情就是，它居然是可以被理解的。”数学中有一个叫做“普适性（universality）”的现象。很多宏观系统虽然来源于无数微观相互作用，但宏观规律本身并不复杂。本来你会以为，宏观规律应该比微观结构复杂得多、甚至是指数级复杂，如果你想完全精确建模，确实如此。
比如你要模拟一盒空气里的所有原子，阿伏伽德罗常数非常大，跟踪每一个粒子几乎是不可能的。但在某些情况下，一些宏观定律几乎不依赖微观细节，或仅仅依赖极少数参数。
所以你要模拟10²³个粒子的气体，只需知道温度、压强、体积，加上五六个参数，就足够描述这个系统的行为了。我们在数学上对“普适性”的理解远远不够充分，但在一些简化模型中我们已经知道为什么这种现象出现。最经典的是中心极限定理：它解释了为什么“钟形曲线”（bellcurve）无处不在，为什么那么多自然现象都符合高斯分布。
莱克斯：
而且这个梗本身也具有普适性。
陶：
对，甚至可以再“元”一点。确实存在很多过程，比如你取一堆独立的随机变量，用各种方式把它们平均起来，无论是简单平均还是复杂加权平均，最终都会得到钟形曲线，在很多情况下我们都可以证明这一点，非常令人满意。
当然，有时候不会出现钟形曲线。如果你有很多变量，但它们之间存在系统性相关性，你就可能得到远非高斯分布的结果。这种情况也非常重要。比如2008年金融危机就是一个著名例子。人们当时假设，按揭违约率是呈高斯分布的：你有10万个房贷用户，推测有多少人会违约，如果每个人违约行为是相互独立的，那就会呈钟形分布，你可以据此做期权、衍生品的风险管理。这套理论非常优雅。
但现实中，如果存在系统性冲击——经济系统整体波动导致所有人同时违约，那就是高度非高斯行为，而2008年的模型没能充分预见这种风险。
现在大家多少意识到了：系统性风险比我们之前以为的更严重。一个模型再优美，不代表它符合现实。所以理解数学模型的推理逻辑很重要，但理解模型与现实契合度的科学判断也同样重要。你需要二者兼顾。
数学可以帮助我们找出模型的薄弱之处。比如中心极限定理会告诉你：只要输入变量互不相关，结果就会呈现高斯分布。它能帮你定位问题源头。
假如你了解塞迈雷迪定理，有人想用高斯分布去建模违约风险，你作为数学家就可以质问：“你这些输入变量之间的系统性相关性有多大？”然后你可以问经济学家，这种风险是否被低估了，是否能找到证据。这就是科学与数学之间的协同。
莱克斯：
在普适性这个话题上，你因在数学领域涉猎之广、之深而闻名并备受赞誉，让人想起一个世纪前的希尔伯特（Hilbert）。事实上，伟大的菲尔兹奖得主、你的同事蒂姆·高尔斯（TimGowers）曾说过，你就是我们这个时代最接近希尔伯特的人。
图丨希尔伯特（来源：Wikipedia）
那么，作为一个能在数学中兼顾深度与广度的人，你是最合适回答这个问题的人：你认为所有数学领域之间存在某种深层的统一结构吗？
陶：
其实数学的很多进步，都是两个原本毫无关联的领域，后来发现了深刻的联系。比如一个古老的例子：几何与数论。在古希腊时期，这两个领域被视作完全不同的学科。当然，数学家可能同时研究它们，比如欧几里得，他既写了几何，也研究数论。但那时这两个领域并没有真正融合。
直到笛卡尔发明了解析几何——用两个实数坐标来参数化平面，将几何问题转化为代数问题。今天我们觉得这再自然不过：平面当然就是x和y，但当时这可是一项革命性突破。
这类融合在数学史上反复发生：代数与几何曾分离，后来发展出代数几何；概率论和数论也开始融合；每一次跨领域连接，都是数学的重要进展。我个人非常喜欢这种数学。
我认为数学家有不同的风格——刺猬型与狐狸型。刺猬知道一件事，但非常深入；狐狸则对很多事略懂皮毛。
我个人更多地认同自己是“狐狸”。我喜欢套利式的探索：学会一个领域的工具后，把这些技巧带到另一个看似毫不相关的领域，而那里的人通常没用过这些方法，我能做出些新贡献。
还有一些数学家比我深刻得多，他们是典型的刺猬型，非常快、非常高效。但我可以为他们带来一些额外的工具。
莱克斯：
你曾说过，你可以根据具体语境或合作关系的不同，在“刺猬”和“狐狸”这两种思维方式之间切换。那么，如果可能的话，能否谈谈这两种处理问题的方式有什么区别？比如说，当你面对一个新问题时，是选择寻找跨领域的联系，还是保持高度专注的单一视角？
陶：
我更习惯于“狐狸”的范式。我喜欢寻找类比和叙事。我经常会花很多时间——比如当我在某个领域看到一个有趣的结果时，我可能很喜欢这个结果本身，但它的证明方式却用了一些我不太熟悉的数学工具。这种情况下，我会试着用我自己擅长的工具重新去证明它。
往往我自己的证明更差，但这个过程本身很有价值。因为在尝试重建的过程中，我会逐渐明白：原来的那个证明其实是想达成这个目标。通过这样“绕路”的方式，我反而能理解那个领域里使用的那些工具。这是一种非常探索性的过程，也意味着我经常会去一些陌生的领域、做些疯狂的尝试，甚至常常在“重复造轮子”。
相比之下，我觉得“刺猬式”的风格更学术化，知识体系也更稳固。这种风格依赖对某一领域的发展始终保持最新了解，熟悉所有历史脉络，并且对每种具体技术的优劣都有非常清晰的把握。我觉得这种风格更强调计算，而不是通过讲述故事或建构类比来理解。
我也能做到那种方式，但我知道有些人在那方面真的非常擅长。
莱克斯：
让我们退一步，来看一个稍微浪漫化一点的数学版本。你曾说过，在你年轻的时候，对你而言数学更像是一种解谜游戏。你是在什么时候第一次遇到一个问题或一个证明，让你意识到数学可以拥有一种优雅和美感？
陶：
这是个好问题。我刚到普林斯顿读研究生的时候，约翰·康威（JohnConway）当时还在那里，他几年前去世了。但我记得我去听的第一场研究讲座之一，就是康威的一个关于他称之为“极端证明”（extremeproof）的讲座。
康威有一种神奇的思考方式，他总能以一种你完全想不到的方式看待各种事物。他把证明本身看作是占据了某种空间。比如你要证明一个命题，比如“素数是无穷的”，那么就会有很多种证明方法。你可以根据不同的维度对这些证明进行排序：有些证明很优雅，有些很长，有些很基础。于是这些证明在某种意义上构成了一个证明空间，而他感兴趣的是这个空间的“极限点”——也就是那些在某一方面达到极致的证明，比如最短的、最基础的、最不依赖其他定理的那一个。
他举了一些著名定理的例子，然后给出了他认为在不同方面堪称极端的证明。我发现那真的让我大开眼界，原来不仅仅是为一个有趣的结论找到一个证明，一旦你有了那个证明，再去从不同角度优化它，证明本身这个行为就蕴含了某种匠心。
这无疑影响了我的写作风格。比如，你做数学作业，作为本科生，你的作业之类的，你被鼓励只要写下任何一个能行的证明，交上去，只要能得到一个对勾，你就继续往下走了。但如果你希望你的成果能真正产生影响，能被人阅读，那它就不能仅仅是正确的。它还应该读起来令人愉悦，有清晰的动机，能够被推广到其他问题上。这和很多其他学科很像，比如编程。数学和编程之间有很多类比。我喜欢类比，如果你还没注意到的话。你可以写出一段代码，意大利面条式的代码——它能完成任务，但非常混乱，结构很差。虽然能用，但别的人看不懂，也很难修改或扩展。所以我们有各种写好代码的原则——写得更整洁、更易维护、更少bug。数学也是一样的：一个好的证明，不只是为了“能用”，还要能被别人理解、引用和延续。
莱克斯
那你心中最优美、最优雅的数学公式是什么？很多人评价“美”时强调的是“简洁性”，比如说爱因斯坦的E=mc²。而在数学领域，大家最常提的美丽公式是欧拉恒等式。你觉得这个公式美吗？
陶
正如我所说，我发现最吸引人的是不同事物之间的联系……所以如果……eiπ=−1。是的，人们用上了所有基本常数。好吧，我是说，这很可爱，但对我来说……指数函数，由欧拉提出，是用来衡量指数增长的。比如复利或衰变，任何持续增长、持续减少、生长和衰变，或扩张或收缩的东西，都由指数函数建模，而π则来自圆和旋转，对吧？如果你想旋转一根针，比如说，180度，你需要旋转π弧度，而i，复数，代表了交换虚轴的90度旋转。所以是一个方向的改变。
所以，指数函数代表了在你当前方向上的增长和衰减。当你把一个i放入指数中，运动就不再是与你当前位置相同的方向，而是与你当前位置成直角的运动。所以是旋转，然后，eiπ=−1告诉你，如果你旋转时间为π，你最终会到达相反的方向。所以它通过这种复化的行为，即乘以iπ的旋转，统一了通过扩张的几何学和通过指数增长的动力学。所以它把所有这些数学领域联系在一起，动力学、几何学和复数。由于这个恒等式，它们在数学中都被认为是近邻。
莱克斯：
你觉得这些符号的“偶然碰撞”只是巧合，还是说它其实揭示了更深的东西？比如不同领域的符号相遇，是否也有其内在的价值？
陶：
我觉得这证明了你拥有了正确的概念。当你第一次研究任何东西时，你必须去测量事物，给它们命名。一开始，有时候因为你的模型离现实太远，你可能会给错误的东西起了最好的名字，你只有在后来才发现什么才是真正重要的。
莱克斯：
物理学家有时会这么做，但结果还不错。
陶：
实际上，物理学也一样，比如说爱因斯坦提出E=mc²。回到更早的时候，亚里士多德、伽利略和牛顿提出了最初的运动定律。他们能测量的是质量、加速度和力，于是牛顿力学中最核心的就是F=ma，这些可测量的量在理论中占据核心地位。
但随着人们对这些方程的进一步分析，出现了一些“额外的量”，比如动量和能量。能量并不是一个你能像质量和速度那样直接测量的东西，但人们逐渐意识到它在物理系统中极为关键。
到了19世纪，哈密顿重构了牛顿力学，提出了所谓的哈密顿力学。在这个体系中，“哈密顿量”（Hamiltonian）才是真正的核心对象。只要你能准确地测量出一个系统的哈密顿量，你就可以描述整个系统的演化。这种思维方式在后来面对量子力学时起到了关键作用。
早期的物理学家试图用牛顿的粒子图景去理解量子世界，发现完全不对劲，因为量子力学强调的是“波”。
你要问，“量子版的F=ma是什么？”根本没人能说清楚。但幸运的是，哈密顿量这个概念依然适用，它只是以不同的形式出现，是一个算符（operator），而不是一个函数。
只要你能给出哈密顿量，就能通过薛定谔方程描述量子系统的演化过程。
所以，虽然经典力学与量子力学在表面上完全不同，一个是粒子，一个是波，但因为都基于哈密顿量，我们就能将很多经典力学中的直觉迁移到量子力学中。
比如说，经典力学中有诺特定理（Noethertheorem）：每一个对称性都对应一个守恒定律。如果物理规律不随空间平移而改变，那就有动量守恒；如果不随角度旋转而改变，那就有角动量守恒；如果不随时间变化而改变，那就有能量守恒。
如果你等10分钟，所经历的物理定律仍然相同，这种时间平移不变性对应的就是能量守恒。也就是说，对称性和守恒律之间存在着根本性的联结。而这在量子力学中同样成立，尽管方程形式完全不同。但因为两者都以哈密顿量为核心，只要这个哈密顿量保持某种对称性，那么对应的方程就会产生一个守恒量。
一旦你找到了“正确的语言”，很多事情就会变得清晰许多。
至于为什么我们还无法统一量子力学与广义相对论，其中一个问题是我们还没搞清楚“基本的对象”到底应该是什么。比如，我们很可能要放弃将时空看作类欧几里得空间的想法。我们知道，在极小的尺度上存在量子涨落，存在所谓的“时空泡沫”，而此时再使用笛卡尔坐标系（x,y,z）显然是走不通的。但问题是：我们还不知道该用什么来替代。我们甚至没有找到类比于哈密顿量那样的组织性概念，能够像哈密顿量在经典和量子力学中那样，统摄一切。
万有理论
莱克斯：
你是否在直觉上相信，真的存在一套“万有理论”？我们真的可能找到这样一种语言，来统一广义相对论与量子力学？
陶：
我相信是存在的。从历史来看，物理学的发展就是不断统一的过程，某种程度上和数学的发展也类似。比如说，早期电学和磁学是两套完全不同的理论，后来被麦克斯韦统一了；牛顿则统一了天体的运动与地球上的物体运动。因此，这种统一是有前例可循的，它应当可以实现。
不过，回到理论与观测的关系，我们现在遇到的问题之一是物理学反而成为了它自身成功的受害者。因为我们目前的两大物理理论：广义相对论与量子力学，实在太有效了。这两者加起来，已经可以解释我们能观测到的99. 9%的现象。
为了找到它们失效的边界，我们必须进入极端的实验条件，比如极高能量的粒子对撞机，或者宇宙早期的状态——这些都是难以实现的。因此，真正看到这两者之间差异、并据此找到融合路径，非常困难。但我相信，这条路我们已经走了几个世纪，一直都在进步，没有理由会停下。
莱克斯：
你认为你会是那个发展出万有理论的数学家吗？
陶：
通常发生的情况是，当物理学家需要某种数学理论时，往往已经有数学家早先一步做出了某种雏形。比如，当爱因斯坦开始意识到空间是弯曲的，他去找了一位数学家问：“有没有关于弯曲空间的理论，是数学家已经搞出来的，可能能用？”然后那位数学家说：“有的，黎曼搞出过一些类似的东西。”结果，黎曼发展出的黎曼几何——一个关于空间如何以各种方式弯曲的理论——几乎就是爱因斯坦的理论所需要的。这又回到了数学“不合理的有效性”上。我认为，那些能很好地解释宇宙的理论，往往也涉及到那些能很好地解决数学问题的数学对象。归根结底，它们都只是以有用的方式组织数据的不同方法。
莱克斯：
只是感觉你可能需要去到一个非常奇特、非常难以凭直觉把握的地方。比如弦理论。
陶：
是的，那在很长一段时间里都是一个主要的候选理论。但我想它正慢慢地失宠，因为它与实验不太匹配。
莱克斯：
所以，一个巨大的挑战当然在于，就像你说的，实验非常困难，因为广义相对论和量子力学本身就极其有效。但另一个挑战在于，这不是简单地“偏离”时空结构，而是走向一些非常极端的想象空间——比如多维空间、各种我们难以感知的构造。我们已经从平地走到了“弯曲空间”，你还得不断往前跳跃，而我们作为类人猿后代的认知结构，很难真正直觉地理解那种现实。
陶：
这就是类比如此重要的原因。“地圆说”是不直观的，因为我们被困在地球上。但是，我们对圆的物体本身是有直觉认知的，也理解光是如何传播的。所以，实际上是可以通过一些简单的实验来验证这一点的，比如日食、月相变化等现象，都可以通过圆形的地球和月亮模型轻松解释。你只需要一个篮球、一颗高尔夫球和一个灯光源，就可以自己在家动手模拟。所以直觉是可以培养的，只要你肯把它“迁移”过来。
莱克斯：
对我们来说，从“地平”到“地圆”，在认知上确实是一个巨大的飞跃，因为我们的生活大部分是在平地上度过的。如今我们对这些事情习以为常，是因为科学已经提供了大量证据。但你想想，我们其实正处在一个圆形的岩石上，以极快的速度在宇宙中飞行。这本身就是一种巨大的跳跃。而且，在科学进步的过程中，你需要不断地进行这类飞跃，一次又一次。
陶：
完全正确。现代科学或许又是“成功的受害者”——为了追求更高的准确性，它不得不与人类最初的直觉越来越远。而对于没有接受过完整科学教育的人来说，越是如此，就越容易显得“难以置信”。所以我们需要提供更扎实的基础。
当然，现在有很多科学家做着非常出色的公众传播工作。其实还有很多科学实验是可以在家里完成的。有很多YouTube视频，我最近也和一个叫GrantSanderson的YouTuber合作了一个视频，我们就讨论了古希腊人是如何测量月亮和地球之间的距离的。他们所用的技术，其实今天我们每个人也可以自己动手试一试。根本不需要太空望远镜或复杂数学模型。
视角的转换非常重要。常言道，旅行开阔视野，那么这是一种“智识上的旅行”。你试图把自己放入古希腊人、或任何历史时期的人的视角，提出一些假设，比如“球形地球”，然后进行推演与想象。这其实就是数学家的工作方式，某种意义上，也类似于艺术家的创造。
只要你设定一组公理，数学的推演就会展开。你沿着这些公理不断推理，常常可以走得比最初的假设远得多。
广义相对论
莱克斯：
你提到了广义相对论，你也曾在理解爱因斯坦场方程的数学方面做出过贡献。你能否介绍一下这部分工作？从数学的角度来看，广义相对论中哪些方面最吸引你？又有哪些挑战？
陶：
我确实研究过一些相关方程。其中有一个叫“波映射方程”（wavemapsequation），也称为σ场模型（Sigmafieldmodel），它并不是直接描述时空引力本身的方程，而是关于存在于时空之上的某些场的模型。
爱因斯坦的广义相对论方程描述的是“空间”与“时间”本身，但在这个基础之上还存在其他的场，比如电磁场、杨-米尔斯场（Yang-Millsfields）等等。这些方程形成了一个层级体系，而爱因斯坦方程虽然是其中最非线性、最复杂的之一，但在整个层级中却并不处于最高位置。
我研究的是其中相对低阶的一个——波映射方程。它的物理图景是这样的：想象一个波动，它在每一点上都被限制在球面之上。可以把它想象成时空中有一大堆小箭头，这些箭头指向不同的方向，像波一样传播。你轻轻拨动一个箭头，它的扰动就会扩散开来，让周围的箭头也开始运动，就像麦田中随风摇曳的麦穗一样。
我关注的问题是所谓“全局正则性问题”（globalregularityproblem），也就是：这些能量是否有可能集中在某个点上？我研究的这个方程属于“临界方程”（criticalequation）类别，其特征是它在所有尺度上的行为基本相似。
我最终证明了：你无法构造出一个让所有能量集中在一点的情形——能量必须在某个时刻稍微地分散开来，即便只是一点点分散，也足以维持解的正则性。这项工作大约是在2000年完成的，也是我后来开始对纳维-斯托克斯方程产生兴趣的原因之一。
为了解决这个问题，我开发了一些新的技术。因为这个方程是高度非线性的，主要是因为球面本身的曲率带来了某种“非微扰效应”（non-perturbativeeffect）。在常规视角下，这些非线性效应甚至比波动方程的线性部分还要强，使得问题很难控制，即便能量很小也不例外。
于是我引入了一种称为“规范变换”（gaugetransformation）的方法。你可以把这个系统想象成一大片麦穗在风中来回摆动，极其复杂。如果我们能让这些运动“稳定”下来，比如在空间的各个点上挂上小摄像头，这些摄像头可以随着主流动方向一起运动，从而捕捉到主要动态。
在这种稳定坐标系下，原本非线性的流动就变得更线性了。我正是通过这种方式找到了一个可以转换方程的坐标系统，成功减少了非线性影响，并最终得以解决该方程。
而我是在澳大利亚探望姑妈时发现这个变换方法的。当时我试图理解这些场的动态变化，但既没有纸笔，也不熟悉用计算机做模拟，只好闭上眼睛，躺在地板上，想象自己变成了那个矢量场，在空间中滚动，试图找到一个合适的坐标系统，使得在所有方向上，系统行为都更接近线性。
我姑妈正好走进来，看见我躺在地上翻滚，就问我：你这是在干嘛？我只能回答：这事说来话长。于是她说，好吧，你是个年轻人，我不问了。
解决难题
莱克斯：
你是如何着手解决难题的？当你在思考时，你是在脑海里想象那些数学对象、符号，还是别的什么？通常，你在思考时，脑子里看到的是什么？
陶：
我会大量使用纸和笔。作为一名数学家，你会逐渐学会我称之为“策略性地作弊”的方法。
数学的魅力之一在于，你可以自由地更改问题的形式、甚至规则，这一点在别的领域几乎做不到。
比如说你是个工程师，有人让你建一座桥横跨这条河，你不能说：“我想在这边建桥”或者“我想用纸建，而不是钢”。但作为一个数学家，你可以任意设定条件。
这就像在玩一款电脑游戏，而你拥有所有作弊码：你可以把一个很高维度的问题降到一维，先解决一维的情况；或者当有主项和误差项时，你可以假设误差项为零，做个球面对称假设，先解简化后的问题。
所以，解决数学问题的最佳方式不是进入“钢铁侠模式”，把一切难点都维持在最难，而是——如果有10个让你头大的难点，那就设法先把其中9个放下，仅保留1个，集中解决那个。
当然，如果你把10个都放下了，那题目就无聊了。但放下9个、只留1个，是一个很有价值的练习。
你先解决这一个问题，掌握了应对这类难点的方法，然后把这个“作弊”关闭，重新打开另一个难点，再解决另一个。
等你学会了单独应对这10种难点之后，就可以开始把它们两两组合，一点点整合成原始问题。
小时候我看了很多港片，特别是功夫动作片——每次打斗场面，主角都会被一群恶人围攻，比如100个反派包围他，但打斗总会被编排成一次只跟一个人打。他解决一个，再打下一个。正因为这样，他才可以一个打百个。
但如果反派们头脑更聪明，直接一起围攻，那主角早就输了。当然这样一来电影就不好看了（笑）。
莱克斯：
你通常是用纸和笔吗？还是会用电脑和LaTeX？
陶：
主要是纸和笔。我的办公室里有四块巨大的黑板，有时候我需要把我知道的关于这个问题的一切都写在那四块黑板上，然后坐在我的沙发上，看着全局。
上面还有很多图画，很多只有我自己才看得懂的涂鸦。黑板的好处是可以随时擦掉，整个思考过程很有机。当然，现在我开始越来越多地使用电脑，部分原因是AI的发展让一些基础编程变得更简单了。
以前如果我想画一个稍微复杂点的函数图，比如有些迭代过程，我得自己写Python代码，想想forloop怎么写，还得调试，可能花上两小时。而现在只要十几分钟就能搞定。所以我现在开始用电脑做一些简单的探索了。
AI辅助证明
莱克斯：
我们来聊聊AI吧，也许可以从计算机辅助证明谈起。你能介绍一下Lean形式化证明编程语言吗？它作为证明助手是如何工作的？你是怎么开始使用它的？它在哪些方面帮到了你？
陶：
Lean是一种编程语言，和Python、C这些传统语言相似，但一般的编程语言主要是执行指令，比如翻转比特、驱动机器人、传输信息等。而Lean除了也可以像传统语言那样执行代码之外，更重要的是，它可以“生成证明”。
比如用Python计算3+4，会告诉你答案是7，但Lean不仅给出答案，还会生成“为什么等于7”的形式化证明——包括每一个推理步骤。
所以Lean处理的是比单纯语句更复杂的对象：带有完整证明的陈述。而每一行代码，实质上是把已有的数学语句拼接起来，从而导出新的结论。
这种思想其实并不新颖，这类系统被称为“证明助手（proofassistant）”，它们为构建复杂数学证明提供了一个形式化语言。如果你信任Lean的编译器，那么它输出的每一个证明都可以被视为100%正确的“证明证书”。而且Lean的编译器做得非常小巧可靠，目前也有多个版本可供选择。
莱克斯：
那能不能帮大家建立一个直观概念：用Lean和用纸笔写证明的区别在哪里？把一个数学命题形式化到底有多难？
陶：
Lean的设计吸收了很多数学家的意见，所以它的语法尽可能模拟“数学证明的语言”。比如你引入一个变量、使用反证法等等，都可以用标准的方式表达。
理想状态下，它可以做到“证明语言与代码之间的一一对应”，但实际上仍然存在差距。Lean更像是你在向一个极度挑剔的同事解释证明过程，他会不断打断你，“你确定这是你想说的吗？如果这里是0会怎样？这一步你怎么保证的？”
Lean虽然内置了很多自动化能力，但它要求你对每个对象都明确指明其类型。比如变量X，你需要指出它到底是实数、自然数、还是函数？在非正式写作中，这通常靠上下文推断，比如设X为Y与Z之和，而Y和Z是实数，所以X也是。
Lean可以自动推断其中很多信息，但有时还是会打断你：你能不能明确告诉我这个对象是什么？这就要求你在形式化时，不光要关注计算本身，还要在哲学层面上思考这个对象到底是什么。
莱克斯：
它是用像大语言模型这样的东西来做类型推断，还是说它只是匹配“实数”这个词？
陶：
它用的是更传统的那种，我们称之为“老派AI”。所有数学结构都可以表达成“树状结构”，然后使用算法在不同的树之间进行匹配。
Lean中的每个对象都有“生成历史”，你可以一路追溯它是怎么来的。它的目标是“可验证性”，而不是依赖现代AI。但现在也有很多人尝试在Lean之上叠加AI。
比如在使用Lean写证明时，经常需要调用微积分基本定理。Lean团队开发了一个叫Mathlib的庞大库，里面包含了数万个数学事实。但要用的时候，你得找到它。所以现在的主要瓶颈之一是“引理检索”——你知道这个工具在库里，但要找到它。
这时候，大语言模型可以帮忙了。你可以直接说“我现在需要用微积分基本定理”，像我在写代码时装了GitHubCopilot，它会扫描我当前的代码环境并智能推荐，比如你只写“我现在需要基本定理”，它就可能自动补上“试试这个引理”。
大概25%的时候它能直接用，另外10–15%虽然不完全对，但改一改也能用，还有50%是完全废话。但即便如此，这种AI在Lean上的应用已经像是一种高级自动补全了。
莱克斯：
但这不会扼杀掉作为一名数学家的那种“氛围”（vibe）吗？有一个学究气的同事在你身边。
陶：
确实是这样。但也有一些时候，形式化反而更舒服。比如我曾经形式化一个定理，最后得出的常数是12，这个“12”在整个证明中不断被使用，每一步都要和它保持一致。我们把整个定理写成论文后，过几周有人说我们其实可以把这个12降到11，通过重构一些步骤。
如果是在纸上写的，每次改一个参数，你就得一行一行地检查整篇证明有没有崩掉。有些地方可能用了12的某些特性，但你根本没意识到，一改就错。但我们是用Lean形式化的，于是我们把定理的“12”改成“11”，重新编译，发现成千上万行代码中，90%还是能跑的，只有少数几行报错。它会立刻告诉你“这些步骤无法被证明”，所以你知道改哪儿就行了。
如果你用的是良好的编程结构，不写死常数、用智能调用，那修改范围就很小。我们用了一两天就把整个定理从“12”更新成“11”了，远比纸笔快得多。
同时证明会更长，但每一个独立的部分都更容易读懂。比如你打开一篇数学论文，第27页，第6段，某一行看不懂，很常见。因为它用了某些定义，而这些定义可能在第10页，整个证明散布在不同地方，你不得不“顺着读”。
不像小说可以从中间随便翻开。但在Lean里，如果你把鼠标悬停在某一行上，每个对象都会告诉你它是什么、从哪儿来、怎么定义的——你可以轻松追溯整个结构，而不用翻来翻去。
Lean还让我们可以在“原子级别”合作，这在过去根本不可能。传统上，要合作写一篇数学论文，不是黑板上一起推，就是你写第三节我写第四节，很难真正实时协作。而在Lean中，比如我卡在第67行：“这步我证不出来，但大概思路是这样”，其他人看了之后可能立马说：“你可以用这个工具、那个引理”，于是就能快速推进。
现在我可以和全球几十个从没见过面的人一起写证明，而且即使我不知道他们是谁，有多可靠，Lean本身就是可信的证明证书，它让我们可以做“无信任协作”的数学。
莱克斯：
你以善于合作著称。那在数学研究中，解决一个困难问题的“正确协作方式”到底是怎样的？你们是“分而治之”型的？还是说会集中在某一部分上进行头脑风暴
陶：
最开始总会有一轮头脑风暴。数学研究项目的特点就是：你一开始根本不知道该怎么做。它不像工程项目，理论早就成熟了，主要难点是落地实施。做数学，你得先弄清楚“哪条路是对的”。
这就像我说的“先作弊”：拿造桥打比方——第一步，你假设自己有无限预算、无限工人，那你能造出这座桥吗？如果能，再假设只有无限预算但工人有限；再进一步，预算也有限了……
当然，现实中的工程师不能这么干，他们有刚性需求。但在数学里，我们可以这样“幻想”，先搞出一个原始构想，看是否存在一条可能的路径。一旦你发现了有可能的解法的大概框架，那就可以把问题拆解成多个子问题。虽然每个子问题也不容易，但你可以集中精力各个击破。
而且，不同合作者对不同子问题的处理能力也不一样。
我有一个我因此而出名的定理，是和本·格林（BenGreen）合作的，现在叫做格林-陶定理（Green-Taotheorem）。它陈述的是素数包含任意长度的数学级数（等差数列），是对塞迈雷迪定理的一个修改。
我们合作的方式是，本已经证明了：素数中存在大量长度为3的等差数列，甚至在某些素数子集中也能找到。但他的技巧只能处理长度为3的情况，对更长的不适用。
我这边呢，正好有一些来自遍历论的技巧，是我一直在研究和玩的领域，那时候我比本更熟悉这套工具。于是我就想，如果本能提供某种关于素数的随机性假设，只要满足某个技术条件，我这边就能从这个出发，推出我们想要的结论。但我提的那个条件，本说：这是个数论中的超难问题，我们不可能证明它。
于是他回我一句：你能不能把你那部分的假设放松一点？用我这边能证明的条件？然后他提出了一个他能证明的假设，但对我来说太弱了，我根本用不上。于是我们就你来我往，我想多作弊一点，他想少作弊一点，不断妥协。最后我们终于找到一个A）本能证明，B）我也能用的共同假设，这才合力完成了这个定理的证明。所以每一次合作都有一套独特的故事，没有哪两次合作是一样的。
Lean编程语言
莱克斯：
反过来说，像你刚才提到Lean编程语言的情况，这其实是另一种故事了。你曾说它可以让我们为某个问题创建“蓝图”，然后就可以真正地实现“分而治之”。在Lean的框架下，每个人处理不同部分，由计算机来验证整个推理过程是否成立。
陶：
对，它能让一切变得兼容且可靠。当然，现在只有一小部分数学项目能以这种方式被拆分。就目前的技术水平而言，Lean大多数的应用仍是用于形式化人类已经完成的证明。
从某种意义上说，一篇数学论文本身就是一份“蓝图”。它把一个大命题拆解成上百个引理。但这些引理常常没有写得足够详细，无法直接拿来形式化。
而我们说的“蓝图”，是那种极其严谨写成的版本，每一步都解释得尽可能详细，力图让每个环节都自成体系，或者只依赖前面非常有限的一些结果。这样生成的“蓝图图谱”中，每个节点就可以独立处理——你甚至不需要知道整个定理长什么样，就像现代供应链组装iPhone一样。
莱克斯：
这是一个非常令人兴奋的可能性，如果你能找到那种可以被拆解成模块的问题，那你就能吸纳上千名协作者，彻底实现分布式数学协作。
陶：
是的。我之前说过“理论数学”与“实验数学”的划分。目前数学绝大多数还是理论主导，实验的只占很小部分。
但我认为Lean以及像GitHub这样的平台，能让实验数学的规模扩大到我们从未有过的程度。现在你如果想探索某个数学模式，就得写代码来模拟。虽然也有一些计算机代数软件包能帮忙，但多数时候还是数学家自己写一堆Python代码，
这本身就极容易出错。而且因为代码不稳定，也很难开放给别人协作，一旦某个模块有bug，整个系统就不可信。于是大家写出的代码都像“意大利面条”，混乱、笨重、不易共享。
这也导致了实验性研究无法规模化。但有了Lean，我已经开始一些项目，不只是用数据做实验，而是对证明本身进行实验。
我们有一个叫“等式理论项目”（EquationalTheoriesProject）的研究，生成了大约2200万个抽象代数中的小问题。也许我得先解释一下这个项目。
抽象代数研究的是像加法、乘法这样的运算以及它们满足的抽象性质。比如，乘法是交换的（X×Y=Y×X），也是结合的（X×(Y×Z)=(X×Y)×Z），但并非所有性质都成立，比如X×X=X并不总是成立。
我们列出了大约4000条可能的代数法则，并想搞清楚：哪些法则会推出另一些法则。比如，交换律能推出结合律吗？答案是否定的，因为可以构造一个例子，满足交换律却不满足结合律。
也有些法则之间确实存在推导关系，可以写出代数证明。于是我们就对这4000条法则，两两配对，总共形成了2200万个组合。每个组合就是一个问题：法则A能否推出法则B？若能，请给出证明；若不能，给出反例。
这些问题几乎都可以给本科生练习，大多数都很基础，只有大约100个左右相对更难。项目的目标就是画出这整张“推理图谱”——哪些法则可以推导出哪些其他法则。
这在以前是不可行的。文献中能处理的极限是15条法则之间的关系，靠人类手工，已经到极限了。
你要想拓展，就必须众包；但你也得确保每条推理都可信，而不可能靠一个人检查完2200万个命题。这在Lean出现前是不可能实现的。我们原本也希望加入AI辅助，目前整个项目基本完成了：2200万个命题，只剩下两个还没完全形式化。
其实那两个我们也已经有手工证明了，现在正在形式化。今天早上我还在处理这个，马上就完工了。为了这项工作，我们找了大概50个人，所以我们将会有一篇50个作者的论文，还有一个超长的附录，说明谁贡献了什么。
莱克斯：
你们这么多人协作，有没有办法按照贡献者的专业水平来组织协作？我这问题听起来有些天马行空，但设想一下：未来如果也加入AI协作者，是否可以像Elo等级评分那样，为每个协作者打分、游戏化？
陶：
其实Lean项目的一个好处是：它会自动生成全部数据。我们所有的代码都上传到GitHub，GitHub会记录谁写了什么。所以你可以随时生成统计，比如谁写了多少行代码。这当然只是粗略指标。
我绝对不希望这些数据被用于职称评审之类的正式用途。但企业里早已有类似的员工评估标准，我理解这趋势对学术界是有点吓人的。
莱克斯：
但学术界也用指标，他们只是用旧的，比如论文数量。我反而觉得（新的）这种指标虽然有缺陷，但方向更正确了。
陶：
我认为这值得研究。你可以做一些研究，看看这些是不是更好的预测指标。这里有一个叫做“古德哈特定律”（GoodhartsLaw）的问题：如果一个统计数据真的被用来激励绩效，它就会被“玩坏”，失去原有的参考价值。
所以我们这次采用了“自我报告”的方式。科学界有一套标准分类，用来描述协作者的贡献：构思、验证、资源、编程等等，总共大概十二项。
我们就把所有作者列成一个矩阵，请每人勾选自己在哪些类别有贡献。比如你写了代码、提供了算力，但没有参与手工验证，那就标清楚。
数学界的传统是按照姓氏字母排序。我们并不像自然科学那样按“第一作者”“第二作者”区分，我们对此很自豪——我们把所有作者视为平等。但在这种大规模项目下，这个传统就很难维持了。
十年前，我参与过一些叫做博学者项目（Polymathprojects）的事情，那是众包数学，但没有Lean的成分。只靠人来核查贡献，这就成了巨大的瓶颈。即便如此，我们也有10位作者左右。但我们当时决定，不去决定谁做了什么，而是用一个共同的笔名。我们创造了一个虚构的角色，叫做DHJPolymath，灵感来自20世纪一个著名的数学家团体（译注：指布尔巴基小组）。
图丨Bourbaki小组（来源：Wikipedia）
所以论文就用那个笔名发表了，我们每个人都没有署名。这后来被证明不太理想：第一，如果你想用于教职评审，你根本不能把这篇论文算作自己的代表作。
第二，更重要的是，外界在引用这些项目时，总是只提最有名的那个参与者：“这是高尔斯的项目”“这是陶的项目，”而忽视其他19个合作者。所以这次我们换了方式：每个人都是作者，然后在附录中用矩阵列出谁做了什么。看看效果会怎样。
DeepMind的AlphaProof
莱克斯：
我记得几年前看过凯文·巴泽德（KevinBuzzard）关于Lean编程语言的演讲，他说这可能是数学的未来。所以同样令人兴奋的是，作为世界上最伟大的数学家之一，你正在拥抱这个似乎在为数学的未来铺平道路的体系。
我想问问你关于AI在这个过程中如何整合的看法。DeepMind推出了AlphaProof，它通过强化学习对Lean形式化的IMO数学题的失败与成功证明进行训练。这些题目属于——算是高中层级的题？
图丨AlphaProof强化学习训练循环的过程信息图（来源：Deepmind）
陶：
是的，随着证明中所需步骤的增加，难度是呈指数级上升的，这是一种“组合爆炸”（combinatorialexplosion）。大语言模型的问题在于，它们容易出错。如果你一个证明有20步，而你的模型在每一步走错方向的概率是10%，那么它成功完成整套证明的概率就微乎其微了。
莱克斯：
这里插一个小问题，从自然语言映射到形式化程序的难度有多大？
陶：
非常非常难。自然语言有极高的容错率——你可以犯一些语法错误，或者用第二语言表达不太地道，但人们仍然能大致理解你在说什么。
可形式语言完全没有容错空间，你只要错一个细节，整个逻辑就崩溃了。而且，即使是形式语言之间的转换也很困难——因为不同形式语言之间是不兼容的，比如Lean、Coq、Isabelle等等。甚至将一种形式语言转换为另一种形式语言，目前都还是未解决的问题。
莱克斯：
那如果我们用强化学习的方法，就像AlphaZero一样，去从非形式化语言出发，用RL模型去构造一些工具……我记得他们还为几何类问题专门训练了一个模型？这个系统让你印象深刻的是什么，你认为局限在哪里？
陶：
是的，我们之前聊过，有些事情一开始很惊人，但随着时间的推移就变得习以为常了。所以现在，几何学当然是一个可以被解决的问题这种想法，似乎已经被默认接受了。
这些成果确实展示了技术的可能性。但这个方法目前还不能扩展。比如，要解决一道高中数学题，可能要用Google三天的服务器时间。这显然不是可持续的方式，尤其是当题目的复杂性再往上升时，计算需求呈指数爆炸。
虽然他们取得了相当银牌的成绩，但首先，他们所用的时间远超了实际竞赛的时间限制；其次，他们是借助人类事先做了形式化处理的协助，然后再通过形式验证系统来打分——这种给自己打满分的方式，虽然合理，但并不完全等价于人类选手的独立解答。不过也许未来会有人筹划一个AI数学奥赛：比赛当天，AI与人类选手在同一时间获得同一组题目，同样时间内完成答题，答案交由同一批评委评分。这就意味着，AI的答案也必须用自然语言写出，而非Lean等形式化语言。
莱克斯：
我真心希望这个AIIMO能尽快实现。下次奥赛能搞这个吗？
陶：
应该不会，目前AI的表现还达不到限时比赛的标准。不过确实已经有一些小型比赛存在，这些比赛的答案只是一个数字，而不是一份长篇证明。在这种类型的题目上，AI表现要好得多。
因为强化学习在这种场景下有很清晰的反馈信号：“你答对了”或“你答错了”。这非常适合训练模型。可如果题目要求写一整套长篇证明，就必须有两种方式之一：要么是形式化语言，这样Lean系统可以打“对/错”的标签；
要么是非形式语言，那就需要人类来判断——而你不可能雇得起那么多人去帮你打分。现在做RL训练，哪怕只是一般文本，都已经很难找到人力来验证；更别说验证AI写的数学证明了。让人类一个个去看输出是否数学正确，成本太高，不现实。
人类数学家vs. AI
莱克斯：
你认为人类在数学中最独特、最难以被AI替代的能力是什么？比如是发明新理论？提出猜想而不是证明猜想？还是构建新的抽象、新的表征？抑或是AI无法做到像人一样在不同领域之间建立新联系？
陶：
这是个好问题。我认为数学家的工作性质在历史中已经发生了很大变化。比如一千年前，数学家要计算复活节的日期——那是非常复杂的计算，但现在全都自动化了，几百年前就不需要人算了。
他们还负责导航，要用球面几何和三角学来计算如何从“旧大陆”航行到“新大陆”——这类复杂的计算也早被自动化了。哪怕是在AI出现之前，很多本科层级的数学问题也早已由工具自动解决了，比如WolframAlpha（尽管它不是语言模型），就能完成大量大学数学任务。
所以在计算方面，比如这是一个偏微分方程的问题，能不能用20种标准技巧之一解出来？——AI可以回答：我尝试了这20种技巧，一共有100种组合方式，这是我的结果。
这类任务非常适合AI：一旦解决一个问题，它可以迅速扩展去解决一百个相邻的问题。但人类依然有优势的部分在于：AI现在很难判断自己是否走错了方向。它可能会说：我来解这个问题，我把它拆成两个情况试试看。有时候如果运气好，而且题很简单，它就用对了方法，问题也就解决了；但更多时候，它会选一个完全错的方法，看起来像个证明，其实毫无逻辑。
这是大语言模型生成数学内容中一个很恼人的问题。人写的拙劣证明通常很快就能看出来有问题——比如基础概念都没掌握。但AI写的“假证明”往往表面上看毫无瑕疵，因为它受过强化学习的训练，专门模仿看起来像是正确的文本，这对很多应用场景已经足够好。可问题就在于，它的错误经常极其微妙，一旦识破却又非常低级。
莱克斯：
是的，当一个人写的代码质量很差时，有一种东西叫做“代码异味”（codesmell），对吧？你能立刻看出来有迹象。但对于AI生成的代码，它看起来可能不错，但深究起来实际上隐藏着非常明显的低级错误。这非常棘手，而且出于某种原因，处理起来很令人沮丧。
陶：
所以说，人类有种“直觉嗅觉”，在数学上也是如此。我们有一种“数学嗅觉”——而我们还不清楚如何让AI拥有这种能力。AlphaZero、AlphaGo能在围棋、国际象棋中成功，就是因为它们发展出了一种“对局面有嗅觉”的能力：它们能判断一个局面对白棋有利还是黑棋有利，虽然解释不出原因，但靠这个“嗅觉”它们能制定策略。如果AI能学会对某个证明策略有类似的“可行性感知”：我把问题拆成两个子问题，看起来这两个子问题比原题更容易，也很可能是对的，那我就试试看，
或者，“不对，这两个子问题比原题还难”——这其实是我们常见的情况，随便拆一个问题，结果通常变得更难而不是更简单。所以，如果AI能获得这种判断分解方向好坏的嗅觉，它可能就能开始接近人类数学家的水平。
莱克斯：
这是一个难题，但不是竞争，而是协作。假设我给你一个能够做你所做工作的某个方面的神谕（Oracle），你最希望它具备什么能力？
你希望它是一个验证器，能快速检查你的方向是否有前景：“陶教授，这个方向值得一试”？还是希望它能自动生成各种可能的证明路线，然后你再筛选？或者，它能帮你提出全新的表征方式，给出不同的思考路径？
陶：
这三种我都想要。但问题是，我们还不知道如何真正使用这些工具。因为这是一种全新的范式：你拥有一个能理解复杂指令、能大规模工作但又不完全可靠的系统。
它输出的质量还行，但有时候会在一些细节上不可靠。你可以把它想象成一个博士生：虽然能做很多事，但不能独立放手。又或者像我们之前的自动化工具：能大规模运行，但功能很窄。我们现在正处于一个还不知如何有效使用这种中间形态工具的阶段。你刚才提到高尔斯，他其实在2000年就已经预见了这一切。他写过一篇文章，设想了未来的“数学助理”和人类数学家的对话：一个数学家在解决问题时和AI助理互动——有时人类提出想法，AI来判断其可行性；有时反过来，AI提出建议；还有时是AI自动检查某些数值范围，像：你这个命题是否对所有N成立？我检查了N从1到100，暂时看起来都对或者，等下，N=46时出现问题。
这种自由形式的对话非常理想，你不知道它会走向哪里，但双方都能不断提出想法或计算。我曾尝试过类似的互动：告诉AI，“我们来一起解一个数学问题”，但其实这是我已知解法的问题。
我一开始尝试引导它使用某个工具，它也试着用了，但很快又回到了它自己最初偏好的方法。我不得不一遍遍把它拉回来到正确路径。最后我确实强行让它写出了我想要的证明，但整个过程就像在赶一群猫。我不仅要不断提示它，还要自己检查它的输出。比如，我看到它的逻辑在第17行出了问题，我还得跟它“辩论”……整个过程比我自己做还累。这就是目前AI合作写数学的真实现状。
莱克斯：
我很好奇会不会有一个相变，到了某个点，就不再感觉像赶猫了。也许你会惊讶于那个点来得有多快。
陶：
我相信会的。在形式化方面，我之前提到过，形式化一个证明需要比手写花费10倍的时间。但随着AI工具的进步，尤其是Lean开发者不断增强功能、改善用户体验，我们已经从耗时“10”降到“9”，再到“8”、“7”……
某一天，我们可能突然从“2”掉到“1”，那就会是一次真正的相变：届时，人们写论文的习惯会变成：先在Lean中写出正式版本，再转为普通语言。甚至，期刊也可能优先处理已经形式化过的论文——因为不再需要审查论文正确性，只需让审稿人评价其创新性和与已有文献的关系。
现代数学论文越来越长，真的很难找到有能力又有时间的审稿人去细读那些100页论文，除非它们特别重要。形式化写作的兴起，正好解决了这个问题，来得恰到好处。
莱克斯：
而且随着工具的不断完善和使用门槛的降低，整个生态也会进入一种良性循环，比如mathlib可能会呈指数级增长。
陶：
其实历史上已经发生过类似的“相变”，最典型的例子就是LaTeX的普及。LaTeX是我们现在都用的排版语言。以前大家都用各种打字机、Word文档、甚至手写。但某个节点之后，LaTeX变得比其它工具更好用，于是数学界在短短几年内就集体迁移了。那次转变非常剧烈。
AI赢得菲尔兹奖
莱克斯：
下面是一个有点疯狂又遥远的问题，你认为，在多少年后，一个AI系统能成为一个赢得菲尔兹奖的证明的合作者？我是说那种AI也“值得被授予菲尔兹奖”的合作，比如一半贡献。
陶：
这种情况其实已经部分出现了。我可以想象在一篇获奖级别的论文中使用一些AI辅助工具，比如自动补全。我自己也在用，它能加快我的写作效率。比如我写一个定理及其证明，证明部分有三种情形，我写完第一种后，自动补全会建议第二种的证明方法，它给出的内容完全正确，真是太棒了，帮我省下五到十分钟打字时间。
莱克斯：
但在那种情况下，AI系统得不到菲尔兹奖。你觉得——20年？50年？100年？多久才可能出现真正AI参与的菲尔兹奖作品？
陶：
我曾在某次公开发言中预测，到2026年，会出现与AI合作完成的数学研究论文，虽然不会是菲尔茨奖级别，但是真正的研究水平。也许并非其部分创意由AI生成？而是一些计算、验证等部分由AI完成。
而这已经发生了。有些问题的解决过程就包含了与AI的互动：AI提出一种方法，人类尝试，发现不行，AI再换种方式。虽然你很难明确“功劳”归谁，但的确有一些结果是只有人类与AI联合才可能实现的。
这些工具并没有复制人类解决数学问题所需的全部技能，但它们可以复制其中30%到40%之间的不小一部分，所以可以填补认知空白。比如写代码就是一个例子。我不是专业程序员，所以自己写Python很烦，但有AI的帮助，执行成本大幅下降。现在的AI在文献综述方面也越来越强了。当然，目前还存在一个问题是——它会“幻觉”出一些不存在的引用，但我认为这是可以解决的问题。
如果训练方法正确，再结合联网验证功能，几年内AI应该可以做到这样：你需要一个引理，可以直接问它“有没有人证明过这个？”它就能做一次智能搜索，找出六篇相关论文。
现在你问，它可能会返回六篇文献，其中一篇是准确且相关的，一篇存在但不相关，其余四篇是虚构的。尽管成功率不为零，但噪音太多，真正有帮助的前提是你大致记得那篇文章，只是需要被提醒。
莱克斯：
而不是完全发现那些你原本根本不知道、但却是正确引用的作品？
陶：
也有可能做到，但它通常埋在很多无效选项中。
莱克斯：
如果AI能自动生成一个完全准确的相关研究综述，那就太好了。这将是另一个相变，因为它能正确分配学术功劳，也能打破思维孤岛。
陶：
是的，不过现在这个阶段还有很大的难关要克服。这有点像自动驾驶汽车：你必须达到极高的安全边际，才有可能真正落地。很多AI应用都有“20%、80%的可用率”，但远不足以令人放心使用。而且有时候，这种“不完全”的状态反而更糟。
莱克斯：
换个问法吧：你觉得在哪一年，你会突然醒来看到一条新闻，真的被惊到？比如AI做出了某种重大突破，不一定是菲尔兹奖，可能是像AlphaZero对围棋那种量级的震撼时刻。
陶：
我觉得这十年内就可能发生，比如AI生成了一个美妙的猜想，把两个此前看似无关的数学对象联系起来。而且是真正有可能成立、有意义的猜想。不过目前的模型在这方面仍有很多困难。比如，物理学家也有个梦想：让AI自动发现新的物理定律。设想是把所有数据喂给AI，然后它发现一个人类没看出来的新模式。但现实情况是——哪怕是“发现旧的物理定律”，现在的AI都还很难做到。
即便能做，人们也担心是因为它训练数据里早就包含了这些内容，比如波义尔定律（BoylesLaw）它早就知道了，不是AI真的“自己发现的”。
一方面，我们根本没有合适的训练数据：比如物理学，如果我们有“100万个不同宇宙，每个宇宙有不同自然定律”，那AI才有可能学会归纳规律。现实当然不可能。
在数学里，我们也有类似的问题。我们有发表的论文——里面是人类成功证明的结论，还有那些最终被证明错误的猜想或反例。
但我们没有记录中间那些失败的尝试。比如一个数学家提出某个猜想，大家尝试过，但很快意识到不对，于是修改为另一个更有可能成立的形式。这种试错迭代的过程其实是人类数学发现的核心组成部分，但我们不会记录，因为这“太丢人了”——没人愿意公开自己犯的错。
AI也就无法获得这样的数据去训练。我有时候会开玩笑说，AI其实得先“读个研”：上数学课、做作业、去officehour、犯错、被导师批评、然后学会修正错误，在这个过程中成长。
格里戈里·佩雷尔曼
莱克斯：
我想问一下关于格里戈里·佩雷尔曼（GrigoriPerelman）。你提到你在工作中会很小心，不让一个问题完全占据你，尽管你也确实会对那个问题着迷，直到解决它之前都无法安宁。但你也补充说，有时候这种方法实际上可以非常成功，例子就是格里戈里·佩雷尔曼，他证明了庞加莱猜想，而且是在几乎与外界隔绝的情况下，独自工作了七年。你能否解释一下这个被解决了的千禧年大奖难题——庞加莱猜想，并或许谈谈格里戈里·佩雷尔曼的这段历程？
图丨格里戈里·佩雷尔曼（来源：Wikipedia）
陶：
这是一个关于弯曲空间的问题。地球是一个很好的例子。把地球想成一个二维的表面。你可以想象一个带洞的甜甜圈或更多洞的曲面，即便你假设这些表面是有界的、光滑的等等，仍然存在很多种不同的拓扑结构。我们已经弄清楚了如何对表面进行一个初步的分类。所有东西都由一个叫做“亏格”（genus）的东西决定，也就是它有多少个洞。所以一个球面是亏格为零，一个甜甜圈是亏格为一，以此类推。而区分这些表面的一种方式，就是它们是否是“单连通”的。比如在球面上，如果你画一个闭合的绳圈，你可以在球面上不断收缩这个圈，最后收缩成一个点。而甜甜圈不行，如果你绕着甜甜圈的外圈绕一圈，就没有办法把它收缩到一点。
结果发现，球面是唯一具有这种可收缩性的表面，在连续形变的意义上。所以，那些拓扑上等价于球面的东西。庞加莱问了同样的问题，但在更高的维度。这变得很难想象，因为一个二维表面你可以想象它嵌入在三维空间里，但一个弯曲的三维空间，我们没有很好的四维空间直觉来容纳它。而且还有一些三维空间甚至无法放入四维空间，你需要五维、六维或者更高。但无论如何，数学上你仍然可以提出这个问题：如果你有一个有界的三维空间，它也具有这种单连通性，即每一个圈都可以被收缩，你能不能把它变成一个三维版本的球面？这就是庞加莱猜想。
奇怪的是，在更高维中反而更容易解决这个问题，因为在高维空间中有更多的“变形余地”，更容易把物体变形为球。但三维情况非常难。人们尝试了许多方法，比如把三维空间切分成三角形或四面体，用组合方法分析它们之间的关系，也尝试了很多代数方法，比如使用基本群、同调、上同调等高阶工具，但都没有成功。
后来，理查德·汉密尔顿提出了一个偏微分方程的解法。他的思路是这样的：你手中这个空间实际上是一个球，但它被揉皱、扭曲得很厉害。就像你拿到一个变形了的球体外壳（比如一个被压扁的气球），你可以通过往里面充气让它变回一个圆形。这就是“Ricci流”的核心思想——用一种“流动”的方式逐渐把一个空间变得越来越像一个球。
这个过程的关键点在于：要么这个空间最终变成一个球，要么在过程中会产生某种“奇点”。这和偏微分方程中常见的情形非常类似——要么解是全局光滑的，要么在有限时间内爆炸。
他证明了在二维情况下，如果一开始的空间是单连通的，那么这个“流”永远不会产生奇点，你可以顺利地把它流动成球面。这就给出了二维情况下庞加莱猜想的一个新证明。
莱克斯：
这是一个非常漂亮的Ricci流解释。那么在二维情况下，这里的数学难度有多大？
陶：
这些方程相当复杂，和爱因斯坦方程属于同一等级的偏微分方程。虽然稍微简单一点，但它们依然是难解的非线性方程，在二维中存在很多特别的技巧可以简化它。但在三维中问题变得极其困难——这个方程在三维中是所谓的“超临界”的。这跟我以前提到过的一些问题一样，当你让空间流动时，曲率可能会集中在越来越小的区域内，导致非线性越来越强，最终局面完全失控。
这会产生各种奇点，比如所谓的“颈部夹断”（neckpinch）——就像哑铃的中间部分收缩形成一个断点。有些奇点结构足够简单，你可以设想怎么“做手术”把空间切开处理，但也存在更复杂的、纠缠的奇点结构，你根本无法判断如何处理它们。因此，必须要对所有可能的奇点类型进行分类。
佩雷尔曼的工作首先是把这个“超临界”的问题转化成一个“临界”问题。就像在牛顿力学中，引入哈密顿量让整个系统的结构变得清晰，他也引入了几个新量，比如“佩雷尔曼缩减体积”（Perelmansreducedvolume）和“佩雷尔曼熵”，这些量在各个尺度下都保持一致。这种“标度不变性”让非线性看上去不再那么可怕。
接下来他仍然需要处理奇点问题——这是一个难度相当于我研究的波动映照问题的层级。
他最终成功地对所有奇点进行了分类，并展示了如何针对每一种奇点进行几何手术，从而彻底解决了庞加莱猜想。这是一个极其大胆、复杂的系列步骤。就目前的大语言模型而言，它们绝对无法完成这一过程——充其量，也许能在上百个尝试方向中提出其中一个正确方向，但另外99个都是死路。你只有耗费几个月时间才能知道哪个才是对的。佩雷尔曼肯定拥有某种直觉，知道这是值得深入的路径。因为从头走到尾需要好几年。
莱克斯：
正如你刚才所说，除了数学本身，更重要的是整个研究的过程。在佩雷尔曼独自研究的这段时间里，你能从他的过程里看出什么？特别是他是一个人完成这一切的。你觉得在这样的研究过程中，最艰难的时刻是什么？你曾提到AI不知道自己什么时候失败了。但对人来说，当你坐在办公室里，突然意识到过去几天，甚至几周做的工作其实是错的，那是什么感觉？
陶：
对我来说，我通常会换一个问题。我是那种“狐狸型”而不是“刺猬型”的研究者。
莱克斯：
也就是说，你可以随时“跳出”当前的研究，转向别的问题，算是一种喘息？
陶：
是的。你也可以适当“修改”问题，比如，如果有某种特殊情形总是让你的工具失效，你可以暂时假设这种情况不会出现。虽然有点像“作弊”，但在策略上是可以接受的，这样可以先看看剩下的部分是否成立。如果发现问题不止一个，那可能你就得放弃这个方向。但如果只剩下唯一一个障碍，而且其他都能跑通，那就值得继续坚持。所以有时候你也得做一些“前沿侦察”，预判问题的发展路径。
莱克斯：
你是说，有时候假设“这个问题我们以后能解决”，反而是有益的？
陶：
是的，有时候犯错误本身也是有益的。我曾参与一个四人团队，我们合作研究一个偏微分方程的问题，这属于爆破与正则性问题的范畴，是非常困难的。有一位叫让·布尔吉尼翁（JeanBourgain）的菲尔兹奖得主曾经解决过这个问题的一个特例，但也无法解决一般情形。我们花了两个月研究，觉得自己快解决了，找到了一套漂亮的推理逻辑。我们都很兴奋，准备庆祝，打算一起喝香槟什么的。我们开始撰写论文。
后来一位合作者（不是我）在写作过程中发现，有一个引理展开时产生了13项表达式，我们估算了其中12项，但在笔记里找不到第13项的估算。他说：“这个第13项我们有算过吗？”我说：“让我查查看。”结果发现我们完全漏掉了这个项——而它比前面12项加起来都“坏”。我们怎么也估不住它。我们接下来又尝试了几个月的各种变体，但始终卡在这一个项上。
这个过程令人非常沮丧，但因为我们已经投入了数月心血，所以没有轻易放弃。我们尝试了越来越激进甚至疯狂的办法。两年后，我们终于找到一个完全不同的思路，虽然与最初的路线相去甚远，但这个思路避免了那些棘手的项，最终问题被解决了。
我们花了两年才解决这个问题。但如果当初没有那个“错误的希望”，我们可能在两个月时就放弃了，去做个更简单的课题了。如果一开始就知道会花两年，我们可能根本不会开始。就像哥伦布当初出海时，其实对地球的尺寸估算是错的——他以为自己会找到前往印度的新航线，也许他在计划书上就是这样写的。谁知道呢，也许他心里其实清楚真相。
莱克斯：
从心理角度说，当这种情况发生时，你有没有陷入情绪低谷或者自我怀疑？因为数学研究非常沉浸，很容易让人崩溃——当你投入巨大心力，却发现方向是错的。这就像下棋，很多人也因为沉迷而被打垮。
陶：
我想每个数学家对自己研究的情绪投入程度都不同。有些人把它当成一份工作，一个问题如果没结果，就换一个，这样情感投入会少很多。但也有一些问题，人们称之为“数学疾病”——有人会被某个问题深深吸引，花数年时间只研究这一个点，可能因此耽误了职业发展。他们心想：“只要我解决了这个问题，其他一切就都值得了。”虽然偶尔确实有人成功，但我不推荐这种方式，除非你有极强的心理素质。
我自己从未对某一个问题有过极端的情感投入。有一点帮助是，我们做研究不需要提前“承诺”一定要解决某个问题。写基金申请时，我们会列出一系列问题，说我们会研究它们，但不会承诺一定五年内要写出完整证明。我们只是承诺会做出进展，或发现一些有趣的现象。即使没能解决原问题，发现一个相关的新问题并有所发现，也是有价值的。
孪生素数猜想
莱克斯：
但我相信你也一定有某些“执念”的难题。毕竟你曾在多个历史级别的难题上取得巨大突破。那么，有没有哪个问题会“缠绕”你？比如孪生素数猜想、黎曼猜想、哥德巴赫猜想？
陶：
孪生素数猜想……我只能说：像黎曼猜想这种问题，现在根本没有可行的路径。
莱克斯：
你是说它现在仍遥不可及？
陶：
是的，即使我把所有我知道的技巧都“作弊式”地组合起来，也无法从A点走到B点。我认为它必须依赖另一个数学领域的突破，某人意识到某个结果其实可以迁移到这个问题上。
莱克斯：
那我们稍微退一步，谈谈素数吧。素数常被称为“数学的原子”，你能解释一下这些“原子”在数学中构成的结构吗？
陶：
自然数有两种基本运算：加法与乘法。如果你想生成自然数，可以有两种方式。你可以从1开始，不断加1，就得到1、2、3、4……从加法角度看，自然数很容易生成。但如果你从乘法角度出发，就要从素数入手——2、3、5、7……将它们相乘可以构成除1以外的所有自然数。所以我们可以从加法或乘法两个维度来看自然数。
每种方式单独来看都不难。纯加法的问题一般都比较容易，纯乘法的问题也相对容易。但一旦你把两者结合起来，就会变得非常复杂——甚至出现不可判定的问题。比如某些多项式方程是否存在自然数解，这可能会涉及数学公理系统的一致性问题。
就算是看似简单的问题，一旦涉及到素数（乘法）和加法组合，也会变得极其困难。比如：一个素数加2，是否还是素数？这种简单的结构组合就构成了双素数猜想。而我们至今难以用已有方法解释这种结合方式。
莱克斯：
我们应该解释一下，孪生素数猜想就是这样，它假设存在无穷多对相差为2的素数。有趣的是，你在推动该领域回答这类复杂问题上非常成功。就像你提到的格林-陶定理。它证明了素数包含任意长度的等差数列。
陶：
是的。所以我们通过这类研究意识到，不同的模式有不同程度的“坚不可摧性”。孪生素数问题之所以难，是因为如果你把世界上所有的素数，3、5、7、11等等，拿出来，里面有一些孪生素数，11和13是一对孪生素数，等等。但是你可以很容易地，如果你想，通过编辑素数来去掉这些孪生素数。孪生素数，它们会出现，而且有无穷多对，但它们实际上相当稀疏。我的意思是，一开始有不少，但一旦你到了数百万、数万亿，它们就变得越来越稀少。你实际上可以，如果有人能访问素数数据库，你只需在这里和那里编辑掉一些素数。通过移除0. 01%的素数，或者只是精心挑选地这样做，他们就可以让孪生素数猜想变成错误的。所以你可以呈现一个经过审查的素数数据库，它通过了所有这些素数的统计检验。它遵守像多项式定理和素数的其他效应，但不再包含任何孪生素数了。这对孪生素数猜想是一个真正的障碍。这意味着任何试图在实际素数中找到孪生素数的证明策略，在应用于这些稍微编辑过的素数时都必须失败。所以它必须是素数的某种非常微妙、精巧的特征，你不能仅仅从总体的统计分析中得到。
（所以说，这条路是“封死”的）相比之下，等差数列就要稳定得多。你可以从素数序列中删掉99%——任意哪一部分——剩下的仍然包含等差数列。我们甚至证明过，无论你保留哪90%的素数，它们中依旧存在任意长度的等差数列。等差数列像蟑螂一样顽强。
但这又像是一种“无限猴子定理”。对于任何固定长度的集合，你得不到任意长度的数列。你只能得到相当短的数列。
莱克斯：
但你说孪生素数不是无限猴子现象。我的意思是，它是一只非常微妙的猴子。它仍然是无限猴子现象。
陶：
没错，假如素数真的是由猴子随机打出来的，那么你就能通过无限猴子理论解释孪生素数猜想。
莱克斯：
但你说的是孪生素数，你不能用同样的工具。它看起来几乎不随机。
陶：
嗯，我们不知道。我们相信素数的行为像一个随机集合。所以我们关心孪生素数猜想的原因是，它是一个测试案例，看我们是否能真正自信地、以0%的错误率说，素数的行为像一个随机集合。我们知道随机版本的素数包含孪生素数，至少概率为100%，或者随着你走得越来越远，概率趋向于100%。所以素数，我们相信它们是随机的。
等差数列之所以坚不可摧，是因为无论它看起来是随机的还是结构化的，比如周期性的，在这两种情况下，等差数列都会出现，但原因不同。有许多证明这类等差数列定理的方法。它们都是通过某种二分法来证明的，即你的集合要么是结构化的，要么是随机的，在这两种情况下你都能说些什么，然后你把两者结合起来。但在孪生素数问题上，如果素数是随机的，那当然很好，你能得到孪生素数。但如果它们是结构化的，它们也可能以一种特定方式被构造，使得孪生素数完全被排除。而我们现在无法排除这种“结构性阴谋”的可能性。
莱克斯：
然而你却能够在K元组（K-tuple）版本上取得进展。
陶：
是的。关于“阴谋论”的一个有趣之处是：任何单一的阴谋论都很难被证伪。如果你相信“世界是由蜥蜴人统治的”，你可以随时驳斥证据，说“那只是伪装”。你大概也见过这种情况，几乎没有办法明确地排除一个阴谋。在数学中也是如此。一个专门致力于消除孪生素数的阴谋，你将不得不渗透到数学的其他领域，但至少据我们所知，它可以是自洽的但有一个奇怪的现象，你可以用一个阴谋来排除其他阴谋。所以如果世界是由蜥蜴人统治的，它就不可能同时由外星人统治，对吧？
所以一件不合理的事情很难被推翻，但多于一件，就有工具了。例如，我们知道有无穷多个素数对，它们之间的间隔不超过246。（这被称为“素数间隔有界性”。）
所以有孪生素数，有叫做“表兄弟素数”（cousinprimes）的，相差4。还有叫做“性感素数”（sexyprimes）的，相差6。（“性感素数”就是指相差6的素数，这个名字远没有听起来那么刺激）
所以，你可以制造一个阴谋来排除其中一种，但一旦你有50种这样的情况，这套阴谋就需要太多能量，基本撑不住了。
莱克斯：
那你是怎么设定这些“素数对间隔上限”的？怎么证明存在无限多个间隔小于某个常数的素数对？
陶：
它最终是基于所谓的鸽巢原理（pigeonholeprinciple）。鸽巢原理是说，如果你有一些鸽子，它们都得飞进鸽巢里，而你的鸽子比鸽巢多，那么其中一个鸽巢里至少得有两只鸽子。所以必须有两只鸽子是靠得很近的。比如说，如果你有100个数字，它们的范围都是从1到1000，那么其中必然有两个数字相差最多为10，因为你可以把从1到100的数字分成100个鸽巢。假设你有101个数字，101个数字，那么其中必然有两个数字相差小于10，因为它们必然属于同一个鸽巢。这是数学中一个非常基本的原理。
图丨鸽巢原理（来源：Medium）
对于素数来说，这并不完全适用，因为素数随着你走得越远变得越来越稀疏，成为素数的数字越来越少。但事实证明，有一种方法可以给数字分配权重。有些数字有点像“近素数”（almostprime），但它们除了自身和1之外并非完全没有因子。但它们的因子非常少。事实证明，我们对近素数的理解要比对素数的好得多。比如说，我们很早就知道存在孪生近素数，这已经被解决了。所以近素数是我们能理解的东西。你实际上可以把注意力限制在一个合适的近素数集合上。相对于整体而言，素数非常稀疏，但相对于近素数，它们实际上要密集得多。
你可以建立一个近素数的集合，其中素数的密度大概是1%。那给了你一个机会，通过应用某种鸽巢原理，来证明存在相差仅为100的素数对。但为了证明孪生素数猜想，你需要把素数的密度提高到一个阈值，大概是50%。一旦你达到50%，你就能得到孪生素数。但不幸的是，这里有障碍。我们知道，无论你选择多么好的近素数集合，素数的密度永远无法超过50%。这就是所谓的“奇偶性障碍”（paritybarrier），我非常想攻克它。所以我的一个长期梦想，就是找到一种方法来突破这个障碍，因为它不仅能打开孪生素数猜G想的大门，也能打开哥德巴赫猜想的大门。
而数论中许多其他的问题，目前都被阻塞了，因为我们现有的技术需要超越这个理论上的奇偶性障碍，这就像要比光速还快一样。
莱克斯：
是的。所以我们应该说孪生素数猜想，是数学史上最重要的问题之一，哥德巴赫猜想也是。这两个猜想几乎像是“邻居”。你有没有经历过那种时刻，觉得自己已经看到了通向解答的路径？
陶：
是的。有时你尝试某件事，结果非常好。你会产生某种我们之前聊到的“数学嗅觉”。根据经验，你会在事情进展得太顺利时保持警惕，因为总有一些必须面对的困难。我的同事可能会这样说：如果你戴着眼罩站在纽约街头，被放进一辆车，几小时后摘下眼罩发现自己在北京。你会觉得哪儿不对劲，即使你不清楚具体绕过了什么，也会隐隐觉得这里面出了问题。
莱克斯
但那还在你的脑海里吗？你会时不时地回到素数问题上看看吗？
陶：
是的，当我没有更好的事情可做的时候，这种情况越来越少了。我现在有很多事情要忙。但当我有空闲时间，而我又太沮丧，不想做我真正的研究项目，也不想做我的行政工作，或者不想为家人跑腿时。我可以为了好玩而玩弄这些东西。通常你一无所获。你只能说，好吧，好吧。又一次什么也没发生。我要继续前进了。但也有极少数时候，某个问题真的被解决了。更常见的是：你以为你解决了，然后过了15分钟，你突然意识到：不对，这太容易、太顺利了，可能是错的。结果往往确实如此。
莱克斯：
你的直觉认为，孪生素数和哥德巴赫猜想什么时候会被解决？
陶：
孪生素数猜想的话，我认为我们会不断取得“部分性成果”。当前最主要的障碍是“奇偶性障碍”。有些简化版的猜想我们已经非常接近了。所以我认为再过10年，我们会看到更多更接近全解的结果，但可能还无法完全解决整个问题。至于黎曼猜想，我完全没有头绪。如果真的被解决，可能也是意外发生的。它是一种关于素数分布的更普遍的猜想，它可以被理解为：在只考虑乘法（不涉及加法）的问题下，素数确实表现得像我们所希望的随机性集合。
在概率论中，有个现象叫“平方根消除”：比如你想调查某个议题在美国的民意，如果你只问一两个选民，很容易误判，因为样本太少。但你问得越多，准确性就越高，误差率通常以样本数量的平方根倒数来下降。比如你调查1000人，误差大概是2–3%。
用类似的方式，素数在乘法意义下的某种统计指标——通过所谓的黎曼ζ函数来描述——应该表现出类似的“平方根消除”。随着你统计的范围越来越大，波动应该像真正的随机变量一样减少。黎曼猜想正是一个优雅的方式来表达这一特性。
但问题是，我们几乎没有什么工具来证明某种东西“真的表现得像随机数”。而黎曼猜想不仅要求“有点像随机”，而是要求素数“完全像随机集合”一样精确地服从平方根消除规律。而我们目前的大多数方法都无法触及这一点。
事实上，由于跟奇偶性障碍相关，我们知道当前绝大多数的技术手段都不可能证明这个猜想。未来的解法必须来自“意想不到的领域”。但我们现在对这种新方法毫无头绪。
我们还知道，只要你对素数做一点小修改——例如删掉某些素数或略微调整它们的位置——就可以使黎曼猜想不再成立。这也说明：黎曼猜想非常“脆弱”，必须通过极其精密、严密的逻辑推导来证明，不能有丝毫粗糙。这种极端的“精致性”让它异常难解。
莱克斯：
对你来说，素数最神秘的是什么？
陶：
这是个很好的问题。我们现在其实已经对它们构建了不错的理论模型。比如说，素数大多是奇数，这是显而易见的规律。但除了这些显而易见的特性以外，素数整体上确实表现得像“随机数”。
有一种叫作“克拉梅尔模型”（Cramérrandommodel）的理论，把素数视为在某一密度下随机生成的集合。从某个足够大的点开始，素数就像是随机挑出来的一样。这个模型有多个改进版本，但都和实际的素数分布非常吻合，能很好地预测数据。
我可以非常确定地说：孪生素数猜想是真的。因为随机模型几乎以100%的概率预测它成立。但我无法证明它。
我们目前的大多数数学方法都是针对“有模式可循”的结构设计的。但素数恰好具有一种“反模式性”。其实不仅是素数，很多深刻的数学对象都有这种特性。但我们还没有工具去证明这一点。
所以我不觉得“素数像随机数”这件事本身有多神秘，毕竟我们没有理由认为它们必须遵循某种隐藏的规律。真正神秘的是：到底是什么机制，驱动了这种“随机性”？我们还一无所知。
考拉兹猜想
莱克斯：
另一个出奇困难的问题是考拉兹猜想（Collatzconjecture）。
它陈述起来很简单又富有美感，但解决起来却异常困难。不过你在这方面似乎有些进展。保罗·埃尔德什（PaulErdős）曾对考拉兹猜想说，数学界可能还没有为这类问题做好准备。2010年时，还有人说这是一个当代数学完全无法触及的难题。而你似乎取得了一些进展。为什么它这么难解？你能解释一下它到底是什么吗？
图丨考拉兹猜想（来源：Wikipedia）
陶：
这是一个你可以向人解释的问题，如果配合一些图示会更好理解。你取一个自然数，比如13，然后执行一系列操作：如果是偶数，就除以2；如果是奇数，就乘以3再加1。也就是说，偶数会变小，奇数会变大。
比如13是奇数，乘3加1得到40，40是偶数除以2得到20，再除以2是10，然后是5。5是奇数，所以变成16，再是8、4、2、1。从1开始就进入了1-4-2-1的无限循环。
我们刚才生成的这个序列，13、40、20、10……通常被称作“冰雹序列”（hailstormsequence）。虽然这只是一个过度简化的模型，但它类似于冰雹形成的方式：一个小冰晶在云中被风上下吹动，时而凝结、时而融化，最终变成冰雹落下。
所以这个猜想是，无论你从多高的数字开始，比如数百万或数十亿，这个上升（如果你是奇数）和下降的过程，最终总是会回到地面，也就是回到1。
你如果把这些数列画出来，它们看起来像布朗运动，或者像股票市场，呈现出表面上随机的起伏。事实上，从概率上来看，当你输入一个随机数字时，这个过程很像随机游走，而且是“带下行偏移”的随机游走。
就好像你在赌场玩轮盘赌，概率稍微对你不利，有时会赢，有时会输，但从长期来看，你输的比赢的多，所以钱包最终会归零。
莱克斯：
所以从统计学角度来看，它是合理的？
陶：
是的。所以我证明的结果大致是说，从统计学上讲，99%的所有输入都会向下漂移，也许不完全到1，但会变得比你开始时小得多。这就像我告诉你，如果你去赌场，大多数时候如果你一直玩下去，你最终钱包里的钱会比开始时少。这有点像我证明的那个结果。
莱克斯：
那这个结果能进一步推进到完整证明吗？
陶：
问题在于我用的是概率论的论证，而总有例外事件。所以在概率论中，我们有大数定律，它告诉我们一些事情，比如如果你在赌场玩一个预期为负的游戏，随着时间的推移，你几乎肯定会输钱，概率接近100%。但总有那个例外的离群值。从数学上讲，即使赔率对你不利，你也有可能一直赢，赢得比输的稍微多一点。这很像在纳维-斯托克斯方程中，可能大部分时候你的波会消散，但可能就有一个离群的初始条件选择会导致你爆破。也可能有一个离群的特殊数字选择，它会冲向无穷大，而所有其他数字都坠落到地面，坠落到1。
事实上，有一些数学家，比如亚历克斯·康托罗维奇（AlexKontorovich），他们提出这些考拉兹迭代就像这些元胞自动机。实际上，如果你看它们在二进制中发生的情况，它们确实有点像生命游戏类型的模式。你甚至可以想象某个数本身就编码了一个“重于空气”的飞行器——它的任务就是不断“生成”自身的某种结构。
陶：
康威实际上也研究过这个问题。他研究了考拉兹问题的推广，不是乘以三加一或者除以二，而是有更复杂的分支列表。不是只有两种情况，你可能有17种情况，然后你上下移动。他证明了，一旦你的迭代变得足够复杂，你实际上可以编码图灵机，你实际上可以让这些问题变得不可判定，做这样的事情。事实上，他为这类分式线性变换发明了一种编程语言，他称之为frac-trat，作为full-trat的一个文字游戏。他证明了你可以编程，它是图灵完备的，你可以做一个程序，如果你输入的数字被编码成一个素数，它就会沉到零。
否则它就会上升，诸如此类。所以这类问题，真的和所有数学一样复杂。
莱克斯：
我们之前讨论的元胞自动机的一些神秘之处，，拥有一个数学框架来对细胞自动机做出任何说明，也许考拉兹猜想需要同样类型的框架
陶：
是的，如果你想做的是统计性证明，那还好说；但如果目标是“所有输入都收敛”，那就非常困难了。
P=NP
莱克斯：
那目前你认为这些著名难题中最难的是哪一个？黎曼猜想吗？
陶：
它算一个。P=NP是一个好问题，因为它是一个元问题。如果你能正面解决它，那它可能会顺带解决许多其它问题。
莱克斯：
而且很多研究现在已经在这些猜想基础上建构起来了，影响深远。
陶：
对。如果黎曼猜想被推翻，那对数论学家来说将是一个巨大的思想冲击。但它会对密码学产生后续影响，因为很多密码学使用数论，使用涉及素数的数论构造等等。它很大程度上依赖于数论学家多年来建立的直觉，即哪些涉及素数的操作表现得随机，哪些不随机。特别是，加密方法被设计用来将文本信息转换成与随机噪声无法区分的文本。因此，我们相信至少在数学上几乎不可能破解。但如果像黎曼猜想这样我们深信不疑的东西是错误的，那就意味着素数实际上存在我们不知道的模式。如果存在一个规律，可能还会有更多。这样一来，我们许多的加密系统就会受到质疑。
莱克斯：
你研究考拉兹猜想的过程中，也希望素数是随机的吗？
陶：
是的。更广泛地说，我一直在寻找如何证明某事是“随机”的新方法。毕竟，我们如何能证明“阴谋没有发生”？
莱克斯：
你觉得P=NP有任何可能性吗？你能想象一个这样的宇宙存在吗？
陶：
这是可能的。存在一些设想，比如技术上成立，但无法在实际中实现。目前的证据略偏向“P不等于NP”。虽然没有证明，但我们确实已经排除了许多潜在的解决方法。其实这恰恰是计算机科学做得非常好的一件事——他们善于提出“不可行定理”，明确指出哪些路径注定失败。所以也有可能它是一个不可判定的问题，我们还不知道。
菲尔兹奖
莱克斯：
我看到有人说，当你获得菲尔兹奖后，有网友发邮件问你：“你现在得奖了，接下来要做什么？”你回复说：“这块奖牌不会帮我解决手头的任何问题，所以我会继续工作。”我觉得这既幽默又谦逊。你怎么看待菲尔兹奖本身？以及像格里戈里·佩雷尔曼那样拒绝奖项和百万奖金的选择？他说，“我不关心金钱和名声。只要证明是正确的，那就不需要别的认可。”
陶：
他确实是个异类，哪怕在理想主义色彩浓厚的数学家中也是如此。我没见过他，但有朋友见过。他曾经也参与过学术圈的交流，比如做报告、写论文，但后来他似乎对整个体系失望，选择退出，与人群保持距离，去圣彼得堡采蘑菇去了。我觉得这也无妨。我们的研究中有些确实会有实际用途，但如果他决定不再参与，那也是他的自由。
我当时没有意识到的是，获得菲尔兹奖会让你从一个普通研究者变成“体制的一部分”。原本我们只专注于下一篇论文，或者带几个学生，但突然间大家会关心你的看法，而你说的每句话可能都会被放大。这确实改变了某种角色定位。
莱克斯：
这对你是一种束缚吗？你还能像以前一样玩得开心，当一个反叛者，尝试疯狂的想法吗？
陶：
我确实比以前少了很多自由时间，但这主要是我自己的选择。我拒绝了很多邀请，当然也可以拒绝得更多，甚至让别人觉得我太不可靠，从此不再找我也行。但相比博士后时期，我现在确实没法完全沉浸在某一个问题里，或者随意乱试。随着职业发展，软技能变得越来越重要。数学这个学科的技术要求是在职业生涯早期就压下来的，博士后阶段你要么发表，要么出局。但到了后期，你要带学生、接受采访、参与研究方向的设定，甚至有一些管理职责。这是合理的“社会契约”，因为你必须深入一线，才知道如何改进数学研究的生态。
莱克斯：
体制的另一面是，它能让你成为很多年轻数学爱好者的榜样，这也是件好事。在这一点上，我可能会说我喜欢菲尔兹奖，它确实以某种方式激励了很多年轻人。这就是人类大脑的运作方式。同时，我也想对像格里戈里·佩雷尔曼这样的人表示敬意，他批判奖项。在他心目中，那些是他的原则，任何能够为了自己的原则去做大多数人做不到的事情的人，看到都是美好的。
陶：
某种程度的认可是必要且重要的，但同样重要的是不要让这些事情占据你的生活，只关心获得下一个大奖之类的。所以你会看到有人只想解决真正重大的数学问题，而不去做那些可能不那么“性感”，但实际上仍然有趣且有启发性的事情。正如你所说，人类思维的运作方式是，当事物与人类相关联时，我们更容易理解，而且如果只关联少数几个人，我们理解得更好。我们人类的大脑结构使我们能够理解10到20个人之间的关系，但一旦超过大约100人，就会有一个极限，我记得这个极限有个名字，超过这个限度后，那些人就变成了“他者”。
所以你必须简化整个群体，99. 9%的人类变成了“他者”。这些模型通常是不正确的，这会导致各种各样的问题。所以是的，要使一个学科人性化，如果你确定了少数几个人，并说这些人是这个学科的代表人物，比如榜样，那有一定的作用，但做得太多也可能是有害的，因为我会第一个说，我自己的职业道路并非典型数学家的道路。我的教育非常加速，跳过了很多课程。我认为我一直有非常幸运的指导机会，而且我认为我总是在正确的时间出现在正确的地方。仅仅因为某人没有我的轨迹，并不意味着他们不能成为优秀的数学家。他们会成为，只是风格非常不同，而我们需要不同风格的人。
有时候，人们过于关注完成一个数学项目或其他领域最后一步的人，而实际上这个项目可能花费了几个世纪或几十年，建立在大量前人工作的基础上。但如果你不是专家，这个故事很难讲清楚。直接说是某个人做了这件事，会让历史显得简单得多。
莱克斯：
我认为总的来说，这是一件非常积极的事情。当我们谈到史蒂夫·乔布斯是苹果的代表时，尽管我个人知道，当然每个人也都知道，那些不可思议的设计，不可思议的工程团队，那些团队里独立的个人。他们不是一个团队，他们是团队里独立的个人，那里有很多才华，但这只是一个很好的简称，就像π，史蒂夫·乔布斯，π。
陶：
作为起点，这种说法没问题，它是一个第一近似。之后你还需要继续读一些传记，更深入地了解背后的结构。
安德鲁·怀尔斯与费马大定理
莱克斯：
我们说到你曾在普林斯顿。当时安德鲁·怀尔斯（AndrewWiles）正好在那当教授。那时候他宣布他证明了费马大定理。回头看，那应该是数学史上的一个标志性时刻。你当时的感受如何？
图丨安德鲁·怀尔斯（来源：CharlesRexArbogast）
陶：
是的，我当时是一名研究生。我依稀记得当时有媒体关注，我们都在同一个邮件室有信箱，所以我们都收到邮件，突然之间安德鲁·怀尔斯的信箱爆炸了，都溢出来了。
莱克斯：
这大概也算是某种“指标”了吧（笑）。
陶：
是的。我们都在喝茶的时候谈论这件事。我们理解一些大致的结构，但细节完全搞不清。现在有一个持续性的项目试图用Lean语言把它的整个证明形式化，凯文·巴泽德（KevinBuzzard）就在带这个项目。
莱克斯：
是的。我们能稍微偏离一下话题吗？因为据我了解，费马大定理的证明涉及非常复杂的对象，那有多难呢？
陶：
确实很难。他们使用的那些对象，你是可以定义它们的。所以它们已经在Lean中被定义了——这本身就不简单，但总算完成了。但问题在于，围绕这些对象的基础事实，是几十年来数以百计的论文逐步建立起来的。你不只是要形式化对象的定义，还得把那些散落在各个文献中的结论一个个“翻译”成可验证的形式逻辑。巴泽德的目标是尽量把它形式化到这样的程度：只依赖那些1980年以前已经广泛接受的黑箱结果，剩下的部分他团队来处理。
这其实已经和我做的数学很不一样了。我的领域是分析，研究的对象比较“接地气”，比如素数、函数等——这些在中学数学中至少是可以定义的。而怀尔斯用的是极其抽象的代数数论结构，是一种在高度结构化的塔楼上不断叠加出来的体系。这个塔楼的底座很坚固，有教材支撑，但你如果没有多年专业训练，要理解这个塔楼的第六层发生了什么，几乎是不可能的。
莱克斯：
那你怎么看待怀尔斯的那种风格？他用了将近七年时间，在极度保密的状态下默默研究，这有什么启发你的地方吗？
陶：
我想这确实符合很多人对数学家的浪漫想象。大家总觉得数学家像是隐居的巫师或炼金术士那样，孤身解决世纪难题。怀尔斯的故事确实强化了这种刻板印象。对我来说，他的做法和我个人的风格非常不同，这正是好事。我们需要像他那样的人。
莱克斯：
你指的是你更倾向合作吗？
陶：
如果一个问题太难，我喜欢放弃继续往下做。但是你需要那些有韧性和无畏精神的人。我和那样的人合作过，当我想放弃时，因为我们尝试的第一种方法行不通，第二种也不行。但是他们坚信不移，他们有第三种、第四种和第五种方法，而第五种成功了。我不得不收回我的话，“好吧，我本以为这行不通，但你一直都是对的。”
生产力
莱克斯：
我得说，你不止在研究上成就卓著，论文产出也非常惊人。不仅数量多，质量还都很高。这种“在不同话题之间跳跃”的能力，本身也非常值得钦佩。
陶：
对我来说，这是适合我的方式。但也有人很高产，而且在一个主题上深耕到底。每个人都要找到自己的工作流节奏。
让我觉得有点遗憾的是，数学教育往往采取“一刀切”的方式。大家都是按照统一的课程体系接受训练。也许你参加过数学竞赛，会有不同的经历，但大部分人要到很晚才发现自己适合哪种数学语言，有些甚至永远都没找到，于是中途放弃了。
我自己的一个理论是：人类的大脑没有为数学进化出一个专门的“数学中枢”。我们有视觉中枢、语言中枢等，这些是进化明确优化过的。但数学不是。我们能做数学，是因为这些中枢足够灵活，能被“重编程”来完成数学任务。
有的人就是用视觉中枢来做数学，他们非常依赖图像和直觉；有的人重语言系统，倾向符号和逻辑；还有的人特别擅长解谜游戏，他们调动的是解谜中枢。但当我和数学家们交谈时，他们不完全那么想。我能看出他们在使用一些其他不同的思维风格，不是完全分离的，但他们可能更偏爱视觉。我其实不那么偏爱视觉，我自己需要很多视觉辅助。数学提供了一种共同的语言，所以我们仍然可以互相交谈，即使我们的思维方式不同。
莱克斯：
你是说，不同人调用的是思维中的不同子系统？
陶：
是的，他们走的是不同的路。别人对我觉得难的东西特别快，反之亦然，但我们仍然能达到同样的目标。
给年轻人的建议
陶：
但可惜的是，除非你有私人导师，大多数教育系统没法做到因材施教。一间教室有30个孩子，不可能用30种风格去教。所以现在的教育更多是标准化、大众化的产物。
莱克斯：
说到教育，你会给那些对数学有兴趣、但又挣扎着学不明白的年轻学生什么建议？在这个复杂的教育背景下，你会怎么说？
陶：
这个问题确实不容易。幸运的是，现在有很多课外资源可以用来补充数学学习。在我那个年代，能接触到的主要是数学竞赛，还有图书馆里的一些数学通俗书。但现在，你有了YouTube，还有各种数学论坛，专门讨论数学谜题的社区也很活跃。
更有意思的是，数学已经渗透到许多其它兴趣爱好中。比如有些业余扑克玩家，会因为某种具体策略需求而钻研概率问题；下棋的、打棒球的，也都有一些“业余概率学家”。数学无处不在，我也希望像Lean这样的形式化工具，能进一步把公众引入到数学研究中来。
目前来说，这还几乎没有发生。其他科学领域已经出现了“公民科学”，比如业余天文学家会发现彗星，生物爱好者可以识别蝴蝶。但在数学中，由于我们对每个结论的要求是绝对精确、可验证，所以之前很难开放研究系统让公众参与。你如果不能百分百确定某人提供的内容是对的，那往往不如不用。
不过形式化项目正在改变这一点。我们现在看到，已经有高中生在Lean的数学库中做出了贡献。他们不需要有博士学位，只需要专注于完成一个原子级的微小内容，就可以参与进来。
莱克斯：
而且形式化似乎为程序员打开了一道门。很多程序员对写代码很熟练，对他们来说数学可能就变得更“可进入”了。而纯粹数学，尤其是现代数学，常常会被认为是“极难踏入的领域”。
陶：
是的，你可以运行代码、获得结果，你可以很快打出“HelloWorld”。如果你教程序设计时完全只讲理论，比如函数结构、计算模型，但从不让学生真正编程，那么编程也会像数学那样被当作一门“艰深的学科”。其实关键是参与方式。
我说过，很多非数学背景的人都在特定情境下用数学解决问题——比如优化自己的扑克策略。对他们来说，数学是“有用的”，因此也是“有趣的”。
莱克斯：
你通常会给年轻人什么建议，关于如何选择职业，如何找到自己，找到自己可能擅长的事情？
陶：
这是一个非常非常难的问题。现在这个世界存在很多不确定性。在战后的一段时期，至少在西方国家，如果你出身背景不错，通常有一条很稳定的路径：上大学、接受教育、选择一个专业，然后终生从事这份工作。但这已经越来越不现实了。我认为我们必须变得更具适应性和灵活性。人们需要拥有“可迁移”的能力。比如仅仅掌握一门特定的编程语言，或是一个很狭窄的数学分支，那本身并不是特别有用。但如果你懂得如何处理抽象概念、如何在出错时进行问题解决——这些能力在未来仍然会非常重要，即便我们手上有AI工具帮忙。
莱克斯：
但你本身就是一个很有趣的例子。你是世界上最出色的在世数学家之一，但你并没有停留在自己熟悉的领域。你一直在跨界学习，比如你最近开始学习Lean，那不是一件轻松的事。对很多人来说，那是一种很不舒服的“跳跃”。
陶：
对。我一直都对“做数学的新方式”感兴趣。因为我觉得我们当前的工作流程存在很多效率问题。我有很多同事花大量时间做一些重复性的计算，或者做一些别的数学家早就知道、但没被形式化记录下来的东西。这让我很感兴趣去探索新的工作方式。
大约四五年前，我参加了一个研讨会组织委员会，我们需要为一家数学研究所征集有趣的工作坊想法。当时，彼得·舒尔策（PeterScholze）刚刚形式化了他的一个新定理，还有其他一些计算机辅助证明也在崛起。我提议：“我们应该搞一个关于这个方向的workshop。”然后我可能太热情了，于是被“半强迫”去主办这个会。最后我们确实组织起来了——我、凯文·巴泽德、乔丹·艾伦伯格（JordanEllenberg）等人一起搞的，汇集了数学家、计算机科学家、其他各类人群。
我们一起了解了这个领域的最新进展。当时ChatGPT还没出现，但已经有人在讨论大语言模型未来可能在证明辅助中扮演什么角色。那次经历让我对这个领域特别兴奋。后来我开始到处做讲座，呼吁更多数学家关注这个方向。
然后ChatGPT出现了，AI变成无处不在的话题。我也因此接受了很多相关采访，特别是关于AI和数学之间如何结合。我开始意识到，光“讲”还不够，我得“做”。我并不是研究机器学习或形式化证明的专家，我总不能只靠“我是数学家你就信我”的方式发表意见。于是我决定自己真正参与进去。
很多时候，我一开始并不清楚自己会在一个项目上花多少时间。等到我意识到“哦，这事情变大了”，通常我已经陷得够深了，但到了那时候，也只能硬着头皮做下去了。
莱克斯：
我觉得这真的特别让人钦佩。你敢于重新变成“新手”，哪怕只是某种程度上的新手，要面对不擅长的概念、换一种思维方式。这需要很强的勇气。哪怕你是菲尔兹奖得主，到了那个语境里，可能一个本科生都比你懂。
陶：
确实是这样的。现代数学已经大得没人能掌握全部内容。我们都难免犯错，而在数学里，你是无法靠“口头胡说”掩盖错误的。人家会要你给出证明。如果你没有证明，那你就真的没有证明。它（数学）确实逼着我们保持诚实。这虽然不是万能的，但它建立了一种文化：我们必须承认错误——而且我们经常确实需要这么做。
史上最伟大的数学家
莱克斯：
那我要问一个荒唐的问题了，抱歉（笑）：你认为历史上最伟大的数学家是谁？也许是已经不在世的人？你心中的候选人有哪些？
陶：
首先，我想说这个问题跟时代有关。比如如果你按时间累计来看，欧几里得可能是一个强有力的候选人。甚至可能还有在他之前那些连名字都没留下来的数学家，比如“发明数字概念”的那位是谁？
莱克斯：
那今天的数学家还会觉得希尔伯特的影响依然在延续吗？他的贡献是否贯穿了整个20世纪？
陶：
是的，我们今天仍然在使用“希尔伯特空间”，还有许多以他命名的概念。但更重要的是，他对数学体系结构的塑造、对抽象语言的引入、以及那23个问题的提出——这些都对数学研究起到了极其深远的引导作用。
莱克斯：
确实很神奇，有一种力量是来自于“你只要说出某个问题值得被解决”，这就足以引发后续连锁反应。
陶：
对，这其实就是“旁观者效应”的对立面。如果没人说“我们应该研究X问题”，那大家就会彼此观望，谁也不动手。而你必须教会本科生这样一个理念：哪怕你不知道怎么解题，也要尝试。很多学生在解题时，如果发现没有标准方法可以用，就直接“瘫住了”。就像《辛普森一家》里有一句话，“我什么都没试，但我已经没有主意了。”所以下一步就是：试点什么，不管多傻都好。它几乎注定会失败，但失败的方式会启发你下一步。比如你失败了，是因为你完全没考虑到题设条件——那说明这些条件本身一定有用，这就是一个提示。
图丨“我什么都没试，但我已经没有主意了。”（来源：Reddit）
莱克斯：
我记得你还提出过一个很妙的策略，让我印象特别深：你叫它“结构性拖延”。就是说，当你真的不想做某件事时，你就设想一件你“更不想做的事”，然后通过拖延这件更糟的任务，来“推动”你去完成原本的事。是个绝妙的心理小技巧，而且确实有用！
陶：
是的。心理状态真的非常重要。你问那些马拉松跑者、顶尖运动员：“最重要的是什么，是训练计划还是饮食？”很多人会说其实是心理层面。你得骗自己，让自己相信“这个问题是可以解决的”，这样你才有动力去做它。
莱克斯：
有没有一些东西，即便我们借助数学，也永远超出人脑的理解能力？
陶：
那就要看你允许多大的“增强”手段了。比如说，如果我连笔和纸都没有，连黑板也不能用，完全不借助任何工具，那么我会非常受限。甚至连语言也算是一种“技术”，只是我们已经完全内化它了。
莱克斯：
确实。你这么说，这个问题的提法其实就不对了——因为“一个人”早就不是“独立”的个体，而是高度技术增强的存在。
陶：
对。而且我认为更有意思的是“集体智能”这个概念。人类作为一个整体，在最好的时候，拥有远超过任何单个人的智慧。当然，在坏的时候，它也可能更糟。
举个例子，我们可以在一些数学问答社区看到这种“群体智慧”的体现，比如mathoverflow（数学界的stackoverflow）。有些非常难的问题一发出来，立刻就有全世界的专家给出回应，往往又快又准。作为专家旁观这些讨论，其实是一种享受。
莱克斯：
关于我们人类文明正在进行的这一切，什么让你感到非常有希望？
陶：
我觉得，年轻一代总是特别有创造力、充满热情、也非常有想象力。我真的很喜欢和年轻学生一起工作。他们带来了新鲜的视角。而且从科学发展的历史我们也能看出来——那些过去看起来极其困难的问题，最终很多都变得非常简单，甚至平凡。比如导航问题，几百年前只是知道自己在地球上的具体位置就已经是生死攸关的事了。人们因为找不到正确方向会丧命、损失巨大。而今天我们每个人口袋里都有一个小设备，能自动告诉你确切位置，完全不用操心。
所以我相信，那些今天看起来不可企及的问题，将来或许只是家庭作业的一部分。
莱克斯：
我觉得人生最令人遗憾的一点，就是它是有限的。因为我们没法看到人类文明未来所有那些酷炫的发明。你想想，未来一百年、两百年，会发生多少惊人的事。要是能穿越两百年之后，那得多精彩啊。
陶：
确实。但其实现在就已经发生了很多事。你如果能回到过去，和十几岁的自己聊聊，告诉他：未来会有互联网、会有AI，甚至AI能听懂你的语音，能回答各种问题——虽然答案可能不总是正确，但也已经是革命性的变化了。要知道，哪怕就在两年前，这些都还让人难以想象。
莱克斯：
而且眼下这一切有时也挺好笑的。你在网上看，人们对这些惊人技术习以为常得飞快，然后转头就开始制造各种戏剧冲突。我们人类似乎总是要用“对立”和“争论”来娱乐自己。不管发明了什么技术，总有人站这边，有人站那边，然后互相争论。但如果你退一步看全景，特别是机器人、AI这些领域的发展，你会觉得：哇，这实在太美了，我们人类居然能做出这些东西。
陶：
当基础设施和文化都处于健康状态时，人类作为一个群体，可以比其中的任何个人都更聪明、更成熟、更理性。
莱克斯：
说到这个，我知道有一个我总能信赖的理性角落——那就是你的博客评论区。我很喜欢你的博客，那里的讨论真的很高质量。也非常感谢你一直愿意把自己的思想公开发表。今天你愿意和我坐下来聊这么久，我真的感到非常荣幸。我期待这次对话已经很久了。Terry，你是我非常仰慕的人，也启发了无数人。谢谢你。
陶：
谢谢你。这是我的荣幸。
莱克斯：
感谢收听这次与陶哲轩的对话。现在，让我以伽利略的一句话作为结尾：“数学是上帝用来书写宇宙的语言。”
参考资料：
1. https ://www. youtube.com/watch?v=HUkBz-cdB-k&t=7487s
阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”
https ://wx. zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https ://wx. zsxq.com/group/454854145828进入。
截止到3月31日”未来知识库”精选的百部前沿科技趋势报告
（加入未来知识库，全部资料免费阅读和下载）
牛津未来研究院《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
麦肯锡：超级智能机构：赋能人们释放人工智能的全部潜力
AAAI2025关于人工智能研究未来研究报告
斯坦福：2025斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191页）
壳牌：2025能源安全远景报告：能源与人工智能（57页）
盖洛普&牛津幸福研究中心：2025年世界幸福报告（260页）
Schwab：2025未来共生：以集体社会创新破解重大社会挑战研究报告（36页）
IMD：2024年全球数字竞争力排名报告：跨越数字鸿沟人才培养与数字法治是关键（214页）
DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt
联合国人居署：2024全球城市负责任人工智能评估报告：利用AI构建以人为本的智慧城市（86页）
TechUK：2025全球复杂多变背景下的英国科技产业：战略韧性与增长路径研究报告（52页）
NAVEXGlobal：2024年十大风险与合规趋势报告（42页）
《具身物理交互在机器人-机器人及机器人-人协作中的应用》122页
2025-2035年人形机器人发展趋势报告53页
EvaluatePharma：2024年全球生物制药行业展望报告：增长驱动力分析（29页）
【AAAI2025教程】基础模型与具身智能体的交汇，350页ppt
Tracxn：2025全球飞行汽车行业市场研究报告（45页）
谷歌：2024人工智能短跑选手（AISprinters）：捕捉新兴市场AI经济机遇报告（39页）
【斯坦福博士论文】构建类人化具身智能体：从人类行为中学习
《基于传感器的机器学习车辆分类》最新170页
美国安全与新兴技术中心：2025CSET对美国人工智能行动计划的建议（18页）
罗兰贝格：2024人形机器人的崛起：从科幻到现实：如何参与潜在变革研究报告（11页）
兰德公司：2025从研究到现实：NHS的研究和创新是实现十年计划的关键报告（209页）
康桥汇世（CambridgeAssociates）：2025年全球经济展望报告（44页）
国际能源署：2025迈向核能新时代
麦肯锡：人工智能现状，组织如何重塑自身以获取价值
威立（Wiley）：2025全球科研人员人工智能研究报告（38页）
牛津经济研究院：2025TikTok对美国就业的量化影响研究报告：470万岗位（14页）
国际能源署（IEA）：能效2024研究报告（127页）
Workday：2025发挥人类潜能：人工智能（AI）技能革命研究报告（20页）
CertiK：Hack3D：2024年Web3. 0安全报告（28页）
世界经济论坛：工业制造中的前沿技术：人工智能代理的崛起》报告
迈向推理时代：大型语言模型的长链推理研究综述
波士顿咨询：2025亚太地区生成式AI的崛起研究报告：从技术追赶者到全球领导者的跨越（15页）
安联（Allianz）：2025新势力崛起：全球芯片战争与半导体产业格局重构研究报告（33页）
IMT：2025具身智能（EmbodiedAI）概念、核心要素及未来进展：趋势与挑战研究报告（25页）
IEEE：2025具身智能（EmbodiedAI）综述：从模拟器到研究任务的调查分析报告（15页）
CCAV：2025当AI接管方向盘：自动驾驶场景下的人机交互认知重构、变革及对策研究报告（124页）
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新132页
《面向科学发现的智能体人工智能：进展、挑战与未来方向综述》
全国机器人标准化技术委员会：人形机器人标准化白皮书（2024版）（96页）
美国国家科学委员会（NSB）：2024年研究与发展-美国趋势及国际比较（51页）
艾昆纬（IQVIA）：2025骨科手术机器人技术的崛起白皮书：创新及未来方向（17页）
NPL&Beauhurst：2025英国量子产业洞察报告：私人和公共投资的作用（25页）
IEAPVPS：2024光伏系统经济与技术关键绩效指标（KPI）使用最佳实践指南（65页）
AGI智能时代：2025让DeepSeek更有趣更有深度的思考研究分析报告（24页）
2025军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告（37页）
华为：2025鸿蒙生态应用开发白皮书（133页
《超级智能战略研究报告》
中美技术差距分析报告2025
欧洲量子产业联盟（QuIC）：2024年全球量子技术专利态势分析白皮书（34页）
美国能源部：2021超级高铁技术（Hyperloop）对电网和交通能源的影响研究报告（60页）
罗马大学：2025超级高铁（Hyperloop）：第五种新型交通方式-技术研发进展、优势及局限性研究报告（72页）
兰德公司：2025灾难性网络风险保险研究报告：市场趋势与政策选择（93页）
GTI：2024先进感知技术白皮书（36页）
AAAI：2025人工智能研究的未来报告：17大关键议题（88页）
安联Allianz2025新势力崛起全球芯片战争与半导体产业格局重构研究报告
威达信：2025全球洪水风险研究报告：现状、趋势及应对措施（22页）
兰德公司：迈向人工智能治理研究报告：2024EqualAI峰会洞察及建议（19页）
哈佛商业评论：2025人工智能时代下的现代软件开发实践报告（12页）
德安华：全球航空航天、国防及政府服务研究报告：2024年回顾及2025年展望（27页）
奥雅纳：2024塑造超级高铁（Hyperloop）的未来：监管如何推动发展与创新研究报告（28页）
HSOAC：2025美国新兴技术与风险评估报告：太空领域和关键基础设施（24页）
Dealroom：2025欧洲经济与科技创新发展态势、挑战及策略研究报告（76页）
《无人机辅助的天空地一体化网络：学习算法技术综述》
谷歌云（GoogleCloud）：2025年AI商业趋势白皮书（49页）
《新兴技术与风险分析：太空领域与关键基础设施》最新报告
150页！《DeepSeek大模型生态报告》
军事人工智能行业研究报告：技术奇点驱动应用加速智能化重塑现代战争形态-250309（40页）
真格基金：2024美国独角兽观察报告（56页）
璞跃（PlugandPlay）：2025未来商业研究报告：六大趋势分析（67页）
国际电工委员会（IEC）：2025智能水电技术与市场展望报告（90页）
RWS：2025智驭AI冲击波：人机协作的未来研究报告（39页）
国际电工委员会（IEC）：2025智能水电技术与市场展望报告（90页）
RWS：2025智驭AI冲击波：人机协作的未来研究报告（39页）
未来今日研究所2025年科技趋势报告第18版1000页
模拟真实世界：多模态生成模型的统一综述
中国信息协会低空经济分会：低空经济发展报告（2024-2025）（117页）
浙江大学：2025语言解码双生花：人类经验与AI算法的镜像之旅（42页）
人形机器人行业：由“外”到“内”智能革命-250306（51页）
大成：2025年全球人工智能趋势报告：关键法律问题（28页）
北京大学：2025年DeepSeek原理和落地应用报告（57页）
欧盟委员会人工智能与未来工作研究报告
加州大学伯克利分校：面向科学发现的多模态基础模型：在化学、材料和生物学中的应用
电子行业：从柔性传感到人形机器人触觉革命-250226（35页）
RT轨道交通：2024年中国城市轨道交通市场数据报告（188页）
FastMoss：2024年度TikTok生态发展白皮书（122页）
CheckPoint：2025年网络安全报告-主要威胁、新兴趋势和CISO建议（57页）
【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt
《21世纪美国的主导地位：核聚变》最新报告
沃尔特基金会（VoltaFoundation）：2024年全球电池行业年度报告（518页）
斯坦福：2025斯坦福新兴技术评论：十项关键技术及其政策影响分析报告（191页）
国际科学理事会：2025为人工智能做好国家研究生态系统的准备-2025年战略与进展报告（英文版）（118页）
光子盒：2025全球量子计算产业发展展望报告（184页）
奥纬论坛：2025塑造未来的城市研究报告：全球1500个城市的商业吸引力指数排名（124页）
FutureMatters：2024新兴技术与经济韧性：日本未来发展路径前瞻报告（17页）
《人类与人工智能协作的科学与艺术》284页博士论文
《论多智能体决策的复杂性：从博弈学习到部分监控》115页
《2025年技术展望》56页slides
大语言模型在多智能体自动驾驶系统中的应用：近期进展综述
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
皮尤研究中心：2024美国民众对气候变化及应对政策的态度调研报告：气候政策对美国经济影响的多元观点审视（28页）
空间计算行业深度：发展趋势、关键技术、行业应用及相关公司深度梳理-250224（33页）
Gartner：2025网络安全中的AI：明确战略方向研究报告（16页）
北京大学：2025年DeepSeek系列报告-提示词工程和落地场景（86页）
北京大学：2025年DeepSeek系列报告-DeepSeek与AIGC应用（99页）
CIC工信安全：2024全球人工智能立法的主要模式、各国实践及发展趋势研究报告（42页）
中科闻歌：2025年人工智能技术发展与应用探索报告（61页）
AGI智能时代：2025年Grok-3大模型：技术突破与未来展望报告（28页）
上下滑动查看更多