UP主最近刚出了趟国,参加了位于San Diego的学术会议NeurIPS 2025,并非常有幸和著名深度学习研究者田渊栋进行了一场时长40分钟的访谈。在访谈中,我们交流了scaling law是否持续,一个好的深度学习理论应该是什么样子,又有哪些路径估计不能如愿。内容非常充实,我自己也深受启发。经本人同意后,特将内容整理发布,与大家一起分享
对话人:
- 卢(清华大学姚班毕业,自动化系人工智能博士生,知名科普博主“漫士沉思录”)
- 田渊栋(前 Meta AI 科学家,知名深度学习研究学者,发表过多篇理论文章。)
卢:感谢您抽出时间接受这次访谈,首先问一个最近很火的问题:Scaling law还会继续吗?
田:不确定,但很有可能不可持续。Scaling up 到最后,可能会出现全世界的算力和电力都耗尽,却仍然没有实现 AGI 的局面。我们或许仍需回到从炼金术到化学那样的历史发展路径上,对整个问题形成更本质的理解。
卢:我也认为存在瓶颈,但如何突破这个实际的上限仍是一个重大问题。我记得当时在 Princeton 找 Jason 时,谈到一些深度学习理论方面的想法,他说”in-distribution generalization is solved”。我问”Oh really? What’s the answer”,他回答是 feature learning。不知道您是否认同这个观点?
田:什么是 in-distribution generalization?
卢:我猜他的意思是训练集和测试集来自同一分布的独立同分布采样。
田:我认为这个问题的定义本身就不够好。如果把全世界所有的数据当作一个分布,那所有问题都解决了吗?
卢:确实如此。不过我当时其实想讨论的是深度学习的泛化理论。Shamir 提出过一个叫 dimpled manifold hypothesis 的假说,认为深度学习的分类面本质上是一些表面坑洼但整体平坦的流形。因此在相同分布的测试集上性能很好,但由于数据点距离流形很近,所以很容易产生对抗样本。
田:是的,不过我一直不太认同流形这个概念,因为它是一个涉及高维空间的概念,非常 tricky。任何一组高维分布的数据,都可以被称为某种流形。
卢:所以更重要的是,对于这个流形我们能够说明什么。
田:对,关键在于流形到底具有什么结构。如果只是声称”这是一个流形”,那就等同于说”高维空间中有一堆数据点”,实际上等于什么都没说。
卢:关于结构,是指比如内在维度、光滑性这类性质吗?
田:光滑性这个概念我觉得也很 tricky,这些都是非常局部的性质,无法刻画全局的结构,而全局特性在学习中非常重要,这才是泛化性的关键所在。
卢:确实,我认为这个问题在 2018、2019 年大家发现 NTK(Neural Tangent Kernel)不那么有效时就已经注意到了。NTK 最基本的假设是 lazy training,即参数基本不变,因此 locally 就变成了一个 kernel。但这个问题至今仍未得到很好的解答。
田:是的,因为 NTK 在数学上比较漂亮,所以大家都被它吸引了,产生了很多跟风的工作。我当时劝过一些人不要做 NTK,但没人听。
卢:特别是在 large learning rate 的情况下,模型在经历 non-convex 的优化过程时到底是如何学习的,learning dynamics 是怎么回事,到底如何学习特征、如何实现泛化,这些问题都没有搞清楚,然后大家就都转向做大模型了,这些问题就被搁置了。
田:也是没办法,大模型资金充裕,这些资金在学术界打工十年二十年才能挣到,现在一年就可以获得。谁还愿意去做艰苦的理论研究呢?
卢:确实如此。不过做理论研究也有其优势,相对来说不那么依赖计算资源。
说到这里,我认为想要建立一个 statistical learning theory,从一开始就存在风险。比如您之前研究过的围棋,围棋本身的规则非常简单:轮流落子,无气则提,有禁入点和全局同形禁止,最后比较地盘大小。从底层规则来看,这几条就已经完全覆盖了围棋的全部规则。但围棋这门学问、由这些规则在 361 个交叉点上所衍生出的 pattern、战术、知识等极为复杂,根本无法用三言两语概括。这就是复杂系统的逻辑——more is different。因此,当我们说要找到一个”好的”、“深刻本质”的理论时,比如 information bottleneck 或其他原则,我们似乎已经预先假定了深度学习或智能的理论是一个简洁优雅的、Kolmogorov complexity 很小的理论。您认为这个假定正确吗?
田:其实这里有个层次上的问题。给定简单的规则或者逻辑,涌现出的模式和知识可以有很多很多(事实上可能有指数级别),一个好的学习理论(learning theory)并不是说要建模这些知识本身,这太繁杂并且也完全依赖于具体逻辑,没有办法泛化。一个好的学习理论应当建模通用的学习过程,建模这些模式和知识是如何从数据中抓取出来,并且进入网络的权重里面的,它对任何数据分布都有效,如果数据里面没有结构,就会自动退化成记忆,如果数据里面有结构,就会习得泛化能力。Information bottleneck,或者“智能即压缩”都是这样来的。但这些理论的一个问题是不考虑模型如何训练的动力学过程,也不考虑训练后的性能和效果,哪些能压缩,什么样的结构能学出来,这些都没有回答但我觉得这个应该是有简洁优雅的逻辑的。
卢:我们似乎假定了这个理论本身很简单优雅,用几个看起来很干净的 principle 就能推导出所有现象。但是,物理学中的基本粒子模型看起来非常复杂混乱,各种繁杂的东西,很多理论物理学家都不满意。智能的理论会不会也是这样呢?
田:所以理论物理学家才不满意嘛。物理这边的主要问题是数据不够。做实验用的加速器太贵并且被少数机构垄断。数据少了,自然会过拟合。你可以想出1000个理论,但可能一个对的也没有。但AI这边其实每天产生的数据很多,也都可以公开获得并且有热烈讨论。另一个比较重要的区别点,是物理和AI的出发点是不同的。没有人知道真实的世界究竟是什么样子的,可能它就是很复杂,可能它就是需要标准模型那么长的拉氏量,来建模各种相互作用;但AI已经证明了用很简单的规则可以做出一个万能学习机器,虽然还没有人脑那样高效,但已经步入实用了。
卢:那如何用first principle来推导智能的理论呢?
田:我认为这个 first principle 应该依托于 gradient descent,即模型在 gradient descent 下到底会发生什么,是如何演化的。比如我们之前做的 grokking 研究,还有 feature learning,其实都是围绕这个思路在进行。模型见过很多 task,然后在梯度下优化,结果是如何学会这么多东西的。
卢:我知道 Jason 他们在 2024 年做过这方面的工作,研究简单的梯度下降如何让 transformer 涌现出理解能力,简单的 attention可以理解比如马尔可夫链的结构,学习另一个完全不同的 Markov chain 之类的。
田:但这个方向还需要深入挖掘,因为很多文章只涉及两层 attention。
卢:两层以上就分析不了了。
田:他们有什么方法可以分析多层的情况吗?
卢:目前感觉没有什么好方法,太难了。这里有几点我想说。第一,人的大脑如此复杂强大,但它的参数更新可能不是某种 gradient descent。神经科学中一般说的是 Hebbian 原则,即”一起放电的会连在一起”(fire together, wire together)。但目前我们似乎还无法理解这种机制如何形成各种复杂的结构。
田:是的,因为神经科学可能不止这一条规则,它并不能解释所有现象。而且人脑更神奇的是,那些非常抽象的 causal 因果关系,它是如何都理解的。所以我的建议是先分析 gradient descent,因为我们在实践中已经知道它很有效,有一个很好的数学模型可供分析。如果后来发现神经科学有什么新的规则,再去仔细分析。
卢:这让我想到 Allen Zhu 那篇广受关注的 Physics of LLM,他在 tutorial 开篇就说,也许我们不应该追求牛顿和开普勒式的理论,而是行为学的理论。您是否认为这是对建构一个第一性原理的、可以 simulation 的智能理论宣告失败的投降?
田:某种意义上是的。Allen 之前也做过那种很硬核的 theory,最后也放弃了。现在做 effective theory,这就回到了 scaling law 的时代。
卢:我觉得甚至不是 scaling law 的时代,而是早期生物学和化学那种控制变量实验的时代:观察什么条件下会发生什么,随着某个变量变化另一个如何变化。但其实我也挺理解的,我自己尝试过,也看过很多比我更聪明的人尝试过,如何从已有的对数学、神经、智能的理解,给神经网络的原理一个清晰的理论,但实在是太难了。我们甚至还不能清楚解释为什么一个三层的 MLP 可以学好图像分类任务,也不知道如何严格证明 transformer 能够理解人类的语言。理论如此滞后,您认为应该如何打开局面?
田:虽然我的观点反传统,并且可能会被很多人喷,但我认为还是可以做出一些 theory 的,我仍然看到一些希望。
卢:什么样的希望?
田:我最近有一篇关于 grokking 的论文,把 grokking 和特征涌现的机制解释得比较清楚了。以前大家可能认为 kernel 一直不变,但实际上 kernel 一直在变化,变化得很神秘。我认为这篇论文应该揭示了一些非凸优化的本质,包括特征如何涌现出来,一些超参数在 grokking 中各自扮演的角色。
卢:我认为这件事特别像物理学的发展。比如当年的电磁学和热力学,有很多纷繁复杂的现象,然后研究者需要找到最核心的主要矛盾,从某个问题切入,提出概念和模型,再用数学清晰地展示出图景,直到我们可以用计算的方式得到所有结果。您认为什么现象的机理可能是这个突破口?
田:我认为 feature learning 很重要,即如何超越线性模型。NTK 做了很长时间就是无法超越线性模型。所以,如何在线性模型之上有所突破,这里有什么东西可以推导出来。
卢:我先问一个问题:您认为这种简洁的理论存在吗?
田:我认为是存在的。
卢:为什么呢?
田:这是一种信念。如果不存在的话我们也就不必做了,所以做这个研究肯定是认为还是有的。否则我们就只能不断尝试,有很多目标 task,不断建造更多的 GPU,消耗更多的电力,总觉得模型再大一点,什么问题都解决了,什么任务都会了。但一旦出现 scaling law 上不去的情况,就一定会有人去思考、去研究。
卢:但感觉大家现在还是只想着 scaling law。
田:是的,所以要想着跑到别人前面。之后 scaling law 上不去了,怎么办?一定就会有人回到做实验、思考最基础的问题,看看怎么做基础的改进。然后会出现一些模型行为学的文章,从一些 intuition 出发,指出一些现象。这样的文章多了,就会有人开始分析其内部是否蕴含数学上的结构,分析就会越来越深入。人类直觉只能把问题的分析带到某种高度,再多的 GPU 也不可能穷举所有可能的组合,再往上,就需要使用更加抽象的工具了。从历史上来看,数学肯定是必经之路。
卢:是的,ChatGPT 刚出来那一两年,arXiv 上每天都是 essay 式的论文:“我发现 GPT 能做这个”,“我发现 GPT 做这个还不太行”之类的。
田:对,感觉就像故事会。未来可能有一天,全世界大部分电力都用于运行 GPT 这样的大模型,地球上的能源和土地不够了,就需要到太空去继续建造数据中心。这种情况其实对人类整体也有好处,科幻小说里多年的梦想就要被实现了。比如当年的太空竞赛带动了各种科技发展。现在的 AI 竞赛,可能会带动能源领域的发展。我们现在需要大量电力,可能会有很多资金涌向可控核聚变,然后可控核聚变可能会先被突破,成为 AI 竞赛的副产品,客观上达到造福人类的目的。
卢:也许 AGI 没有突破,但可控核聚变先突破了。除了 feature learning,您认为还有什么可能是比较好的研究方向?我记得两年前问您,您的回答是 grokking。
田:对,这个方向我做了一两年时间。前几天有一个人来找我说,两年前我到他的 poster 前面,说 grokking 的分析应该做得更好。两年后他来看我的 poster,看到有这样更清晰的解释,感到很佩服。
卢:我一直在关注您的研究。我感觉您在每个时代都能提出那个时期大家关心的理论问题,从无监督学习的 mode collapse,到 attention 的机理,再到 grokking。
田:我认为确实是 feature learning。一旦 feature learning 被解开,我们就能看到之前没看到的东西。比如我可以做 reverse engineering,看看模型都是如何学习和预测的。这条路走通的话,我感觉还是能发现很多东西的。
卢:那下一个方向是什么呢?
田:下一个应该是对称性。刚才说的,数据构成的流形应该有一个全局的结构,这才是泛化性的基础。如果流形只有局部结构的话,那最近邻分类器不就足够了?比如,如果输入具有群结构,那在它之上就会产生一个更加紧致的表示,这种表示超越了单纯的记忆能力。大家知道数学上群的本质是对称性,我的第一篇独作的理论文章也有一部分讲”自发对称破缺”,现在该是回到这个主题的时候了。
卢:我之前的看法是通过 adversarial example 来理解分类和泛化。
田:我认为现在大家基本的共识是,数据分布相对于输入总是一个低维分布,所以模型在 null space 上基本上是没有约束的或者很混乱,在这个space 上加 perturbation 就很容易改变输出,基本上是这样。我认为还是要理解 feature learning。
卢:您认为我们在理论上,是应该继续研究 MLP,两层的、三层的,还是面向现在最前沿的 transformer,或者其他什么模型作为切入点?
田:其实我认为 transformer 和 MLP 没有本质上的不同。唯一的区别是有attention,而 attention 本质就是只去找重要的、自己关心的信息。比如前面有一个很高维的向量,但现在只需要一个 subset of features,只学这个 subset,样本复杂度就会小很多。
卢:而 MLP 就是对每个 token 自己的信息做一个统一的非线性变换,所以没有本质不同。但我知道,当时我在 Princeton 交换时,很多人都想仿照之前 MLP 的工作,分析一下 attention 是不是一定会收敛、梯度和 landscape 怎么样,结果发现很难分析,softmax 太复杂了。
田:我知道这些尝试,但我认为不应该做这种工作,因为这种方法本质上就是想把问题整体变成一个 convex 的问题,我认为肯定做不出来。任何尝试 convexify 这个模型的努力我认为都注定会失败。
卢:但那又如何解释每次训练结果好像都还不错,性能也差不多呢?
田:很简单,看我那篇论文就能理解了。
卢:好的,一定仔细拜读。
田:我那篇论文(PROVABLE SCALING LAWS OF FEATURE EMERGENCE FROM LEARNING DYNAMICS OF GROKKING)讲的是,在 feature learning 的过程中,存在一个能量函数 E,或者叫李雅普诺夫函数 E,这个模型所有能学到的特征都是这个能量函数的局部最优解,而且每个隐层的神经元至少在一开始是独自在这个能量函数上进行优化的。所以从统计上来说,根据初始值的不同,每个神经元都会跑到各自的局部最优,然后有足够多的 neuron 就能覆盖足够多的局部最优的峰值。所以只要权重初始值相互独立,到收敛的时候,统计上大概率可以得到一个把所有局部最优都囊括其中的全覆盖,性能自然彼此都差不多。
总之我们不能假设它是 convex 的,不能因为数学上比较漂亮,就往那个方向去靠,这样会丢掉本质的东西。现在有 GPT-5 这样的工具,研究者的能力也被极大增强了,应该利用这样的工具跳出之前的思维定势。
卢:我之前的理解是 weight decay 让损失曲面不再有平坦的鞍点,所以总会逐渐逃离,但进度可能会很慢,这就是 grokking。
田:这个解释当然没问题,但 grokking 也会在没有 weight decay 的时候出现。我最近也更新了 grokking 这篇论文,在分析中把”特征学习依赖于 weight decay”这个假设去掉了,这样和实验吻合得更好了。相比高维几何鞍点的分析,如果能落实到每个神经元的层次,那粒度上肯定是更好的。
附带说一句,我不太喜欢这种鞍点的解释。因为这个解释意味着,把所有对问题的理解都放在了高维空间中——空间里有鞍点,但鞍点有什么性质不知道,它跟数据有什么关系也不知道,什么都不知道,只知道空间里有鞍点。这其实是 optimization 整个流派的一个问题。什么 manifold、saddle point、high-dimensional landscape,这些术语我都不喜欢,因为它们没有把这些在实验中观察到(或者假设出来)的结构,与网络架构、数据分布结合起来,揭示它们之间的关系。
卢:所以最重要的还是结构。但到这里,揭示出结构的往往还是要回到模型、数据本身的特点上。
田:对的,高维几何基本上就是那种I give up, this is high-dimensional geometry的态度。
卢:我认为这个思路是从物理学来的。力学的发展历程就是:先是牛顿画受力分析图,然后是建立坐标系列动力学方程,到了拉格朗日用一个变分法概括所有的物理过程。再到近现代,物理学变得特别抽象,一个系统被抽象成相空间中的点,物理机理变成一个 flow 的动力学过程,相空间再往更高维的空间嵌入变成一个辛几何的流形,演化就是沿着测地线走,力学彻底抽象几何化了,什么都是高维空间流形。
田:你说的很有道理,但要知道,能把一个理论抽象到这个程度,前提条件是基本的 special case 你都理解了、做过了。比如最简单的力学系统你有办法计算而且完全理解,然后你在上面做出一个统一的框架,对这个问题获得更深的理解。
卢:但是现在深度学习没有做到这一点。
田:完全没有。引入其他学科理论的本来想法是,太精细的动力学无法理解、解决不了,于是先试试从更大的 picture 上去看问题,也许会有些新的 insight。其实 scaling laws 就有这个味道,不管动力学,只看参数量、数据量和计算量,看它们之间的关系是什么。这个现在也取得了很多成果,但再往前走,又不得不去研究更细的条件,这些 laws 里面的超参数越多,就需要更多的 GPU 去做实验。
另一条路自然是以小见大,从简单的公理出发,去预测大规模系统的行为。对深度学习和大模型来说,梯度下降规则、网络架构和数据分布就是它的基本公理,从这些公理出发去推导神经网络的行为,就是第一性原理。现在”高维空间”或者”流形”的描述,其实是无视了这些公理,是从直观现象出发的模糊描述。正因为这种描述和公理不一定符合,就很难有 ground。在上面构建理论,理论就不一定符合刚才说的公理,也不一定和实验相符合了。物理上的”高维空间流形”就没这个问题,因为它是从第一性原理得到的。得到的高维空间也是有全局结构的,这是本质的不同。
全局结构往往是从第一性原理得出的,像广义相对论里面”物质的存在决定空间的弯曲”就把黎曼空间的全局结构给定下来。否则如果按照堆数据拟合的观点,每个四维时空点都有一个度规张量要拟合,采集多少数据都不够。
卢:对,我同意。
田:再比如 mean-field theory,你说一堆粒子体系很复杂,但它有很多那种好的 structure,local global symmetry 什么的都有,所以才能这样处理,它还是 grounded to something,有相对比较严格的、从第一性原理到近似的数学上的逻辑。
卢:确实,神经网络的参数虽然也是高维的演化,但它没有那种类似伊辛模型的特点——每个局部的动力学都相同、整体的外加场也很简单。这些粒子整体变化会影响外加的势场,整个问题还是很复杂。除了说明过参数化会趋于确定的极限动力学过程之外,解释不了更多的机理。
田:对,这就是说,我没有好的 theory,只能把别的 theory 拿过来看看。
卢:没办法,太难了,只能各种想办法。
田:所以最终还是只能回到之前那种做实验、思考、再做实验的状态,把它真正的样子推导出来。不然你做个 NTK 也没什么用。
卢:说到这个我想起来,不知道您有没有听说过 staircase loss,就是如果学习的目标函数是 x₁+x₁x₂+x₁x₂x₃ 这种形式,然后输入是 d 维空间,它的损失函数就会——
田:一步一步像台阶一样下来,我知道那个,是 Princeton 的人做的。
卢:对,它会先学简单的,然后再学稍微困难一点的,再这样一步步。也就是说,这个特征的学习是循序渐进的,或者用鞍点来说,就是这些鞍点有层层向下的结构——首先有一个大一级的鞍点,然后离开之后有下一级的几个鞍点,层层往下。
田:对,我知道这个,但这也还是一个特殊的 case,它要求函数有特殊的结构。
卢:不过在我自己的工作里,我也看到了非常类似的现象:先线性拟合,然后变成一个非常局部、简单的拟合,然后 loss 非常缓慢下降,学会怎么交叉不同的特征。我猜测在最一般的学习问题中这个也是存在的。
田:有可能是这样的。关键是怎么把这些都 capture 出来。
卢:对,这就是深度学习 theory 我觉得最头疼的问题:你不知道哪一个模型、哪一个问题、哪一个数据分布是最值得分析的——就是你把它搞透之后,它的 insight 和副产品,某种 perspective,对其他问题很有价值。如果花了很大精力,只是研究了一个很有意思的具体小现象,其他的重要问题还是什么都不知道,感觉就有点白费功夫了。
田:对,问题的设定要有那种能够推广到一般化情况的潜力,但同时又有办法得到非平凡的结论,这是最难的地方。所谓的”研究品味”,很大程度上体现在这里。
卢:是的,你看电磁学和相对论,还有量子力学都是这样,看起来是一个非常具体的小问题,但它蕴藏的技术和世界观,却能滋润和 reshape 很多其他的东西。所以这就是我刚才问您,研究什么问题有这种潜力。
田:我认为对于刚毕业的研究生来说,还是建议先积累足够的经济基础。我也感谢 Meta,让我可以有精力和底气来研究这些问题。因为这些问题太难了,而且大家现在也觉得这些问题没那么重要。
卢:是的,除非你真正做出一些重要的发现和应用,但在此之前大家都不会看好或支持你。好的,非常感谢!之后保持联系,希望能跟您多多交流。
田:好的,当然了。在这个过程中,还是要保持自己的初心。等到以后手头相对宽裕的时候,还要有继续求真的心气。
合影
