MIT物理学大牛Max Tegmark团队,再出重磅力作。他们发现:AI能够在没有任何先验知识的情况下,完全独立地提出哈密顿物理量,或拉格朗日方程式。仅仅通过尝试解释数据,AI就自己收敛到了这些物理原则,发现了宇宙间的奥秘!
充满想象力的MIT大牛团队,又有新作了!
大佬Max Tegmark、Ziming Liu等人在一项新研究中发现,AI能够在没有任何先验知识的情况下,能够完全独立地提出哈密顿物理量。
论文地址:https://arxiv.org/pdf/2504.02822v1
不过要注意,这里的AI是LNN,而非LLM。
他们提出一种新的架构MASS(Multiple AIScalar Scientists),允许单个神经网络学习跨多个物理系统的理论。
MASS在来自各种物理系统(摆或振荡器)的观测数据上进行了训练,且事先并未被告知底层的物理定律。
结果,神奇的事来了。
MASS开发的理论,往往与已知的经典力学哈密顿或拉格朗日表述高度相似,具体取决于其分析的系统的复杂性。
也就是说,AI仅仅通过尝试解释数据,就收敛到了这些已经成熟的物理原理!
果然Max Tegmark出品,必属精品。
惊人脑洞:AI科学家大PK,结果如何?
这项研究,源于研究者们的一个脑洞:如果两个AI科学家是在相同的训练数据上训练的,他们会不同意彼此的观点吗?
有趣的是,他们发现,这些AI科学家在学习经典物理学之后,起初可能会存在分歧,但当数据变得多样化之后,他们就会不约而同地收敛到拉格朗日/哈密顿这些已知的理论。
如果简单概括这项研究的几大发现,可以归结如下。
1.一个AI科学家能够学习对同一物理现象的多种不同解释;
2.当面对更复杂的系统时,表现出色的AI科学家会对其原有理论进行修正,以适应新的观测;
3.AI科学家学到的理论具有高度相似性,这些理论通常与哈密顿或拉格朗日描 述形式非常接近;
4.在初期所学的理论更接近哈密顿动力学,但随着系统复杂性的提升,最终学习结果更趋近于拉格朗日描述,这表明在丰富的理论空间中,拉格朗日动力学仍是唯一正确的描述体系。
在论文开篇,他们抛出了这张有趣的图——AI科学家的演化。
即使在如单摆这样简单的物理系统中,不同的AI科学家在从数据中学习时,也会得出不同的结果。无法解释当前数据的理论会被判定为错误。存活下来的AI科学家,则将面对更复杂的系统,例如双摆,并据此不断修正自己的理论以适应新的数据。最终,剩下的AI科学家将学到什么?
纵观人类历史,科学的进步是由好奇心推动的。
从阿基米德的浮力原理,到伽利略对运动的系统研究,到牛顿的经典力学公式,再到爱因斯坦的相对论,这些科学家通过观察提出假设,从而成为经典的科学原理。
而在今天,我们正见证着全新的范式:ML和数据驱动方法,开始在粒子物理、天文学、材料科学和量子化学等领域取代传统的统计工具。
下一步,机器学习方法很可能就将转变为完全成熟的「AI科学家」,以最少的人为干预来提出假设、设计实验、解释结果。
牛顿和莱布尼茨,会对同一现象(微积分)提出互补但又不同的表述。那么在架构、初始方案和训练范式上各不相同的AI,会收敛于不同的理论公式或视角吗?
当AI科学家涉足更大更复杂的数据集,它们学到的理论会怎样以意想不到的方式演变?
这次,研究者在实验中,研究了不同条件下训练的多个AI科学家,是会在科学理论上趋于一致,还是产生分歧。
AI不依赖物理先验,发现潜在物理规律
在论文中,团队提出了一种新方法,在几乎不依赖物理先验的前提下,通过学习一个标量函数,并利用「作用量守恒原理」,来发现潜在的物理规律。
这一思路与哈密顿神经网络(HNN)和拉格朗日神经网络(LNN)相似。
受经典力学中哈密顿描述方式的启发,HNN将物理系统运动方程的学习任务分解为两个步骤:首先学习一个标量函数(即哈密顿量H),然后通过哈密顿正则方程计算运动状态:
LNN则通过改为学习拉格朗日量来规避这一问题,并通过欧拉-拉格朗日方程来求导:
本文关注的核心问题就是:如果模型拥有学习多种理论的自由,它最终会学到什么?
MASS登场!
为此,团队提出了MASS的模型。这是一种通用框架,同样以「作用量守恒原理」为出发点,也从数据中学习一个自由形式的标量函数。
但与LNN和HNN不同,MASS并不会预设运动方程,而是具备自行学习运动方程的能力。
MASS背后的核心思想,就是在一个神经网络中嵌入跨多个物理系统学习与统一信息的能力。
它的目标是内化一个共享框架,从而捕捉所有数据集中所体现的基本模式。
具体来说,它通过学习一个标量函数(类似于拉格朗日量或哈密顿量),利用其导数来编码各个系统的特定动力学特征。
MASS 的工作流程如下:
1.数据输入:MASS 接收来自不同物理系统的观测数据,例如轨迹、状态或能量值
2.假说生成:为每个系统分别设立的神经网络将学习一个标量函数,描述该系统的特定动力学
3.理论推导:MASS在所有系统间共享的最终一层会对学习到的标量函数在系统坐标(如位置、动量和/或速度)上的导数进行计算,推导出控制方程
4.精化与泛化:模型的输出会与真实训练数据比对以计算误差,然后通过累加、优化,获得与多物理系统观测结果一致的统一理论
实验
单个AI科学家
在The Grand Design一书中,霍金表达过他对物理的理解:只要预测结果和实验一致,多种理论框架,可以同样有效地描述物理现象。
比如,对于无阻尼弹簧-质量系统,牛顿运动定律可以解释这个系统。
但通过能量函数与守恒定律,哈密顿力学体系获得了全新的理论视角。
相比之下,即便对于简谐振荡器这类相对简单的物理系统,机器学习模型也展现出极强的数据拟合灵活性。
这引出了一个深刻问题:如果训练单个「AI科学家」来研究简谐振荡系统,学习到的理论表征将呈现何种形态?
与经典的牛顿力学或哈密顿力学相比,又会有何异同?
对此,在无阻尼弹簧-质量系统的模拟数据上,研究团队对MASS进行了训练。
图3展示了训练结果。
可以看出,MASS可以很容易地模拟出振子的运动轨迹,它所给出的预测具有良好的一致性和准确性。
图3:MASS在简单谐振子上的训练结果
那在对最后一层添加L1和L2正则化的情况下,模型是如何学习并简化理论的?
这要在训练过程中,跟踪模型中的显著权重数量,即在最终输出层中贡献了前99%总范数的权重数量。
可以观察到,随着训练步数的增加,这个数量也在减少,但最终会在42这个相对较大的数值上趋于稳定。
这说明有将近42个权重项具有显著数值,这显然远不能称为一个简单的理论。
毕竟只要4个参数,都能拟合出鼻子会动的大象!
图4描述了在相空间中,MASS学习到的标量函数S与经典哈密顿函数H的对比。
研究发现,单个MASS智能体,能够成功重构出势能与动能之和的表达式。
图4:(a)学习得到的标量函数S与(b)哈密顿量x+y的等值线对比图
具体来说,MASS通常能够学习到与传统物理先验相似却存在差异的函数形式。
在图5中,研究者将每个激活的平均范数E(a_i)与对应的权重w_i进行了比较。
总体来看,非零权重通常对应着非零的激活范数。对最终预测贡献最大的激活项,和按权重范数排的前五项完全一样。
这就说明,它们是MASS所学习理论中最关键的组成部分,对最终预测起到了重要作用。
图5的热力图显示出,显著项形成了三个明显的聚类。
这就说明:模型形成了某种结构化的表示方式,将不同类型的变量组合成特定模式进行预测。
总之,本节结论可以概括如下。
1. 单个AI科学家可以非常有效地学习一个简单的系统(见图3),而且它会随着训练深入自动筛选出重要理论部分。
2. 学习到的理论结构类似于我们熟悉的物理表达式(见图4)。
3. 当模型容量增大时,单个AI科学家往往会学习到多个看似不同的理论(见图5(a))。
4. 不过,这些不同的理论之间往往是强相关的(见图5(b)),实质上反映的是同一种规律。
那么,当AI科学家面对更复杂的物理系统时,哪些重要项会保留,哪些会消失?
AI科学家:更复杂的系统
简谐振子系统可能对于一个机器学习模型来说太简单了——它只需要拟合-x就够了。
接下来,研究者探索了当AI科学家起初只观察单一系统,后来逐步接触到更复杂的物理系统时,会发生什么变化。
本节关注的四个具体系统:简谐振子、单摆系统、开普勒问题/引力势能系统、相对论简谐振子。
当面对多个系统时,AI科学家如何稀疏化其理论(即筛选出关键项)?
又如何多样化地学习,适用于不同物理规律表达结构的?
图6展示了MASS模型在面对逐步增加复杂度的物理系统时的训练表现。
训练过程的具体安排如下:
- 在第0步开始,模型首先接触的是简谐振子系统;
- 到了第10,000步,加入了单摆系统;
- 第20,000步时,再加入引力势能系统(开普勒问题);
- 第30,000步时,引入最后一个系统——相对论简谐振子。
这个训练策略模拟了「AI科学家」逐步暴露在越来越复杂的自然规律面前的过程,进而观察它如何在学习过程中调整和发展自己的理论结构。
可以发现如下结论。
1. 随着系统数量的增加,模型学习到的显著项数量反而减少了。
2. 随着系统数量的增加,模型学习到的理论变得更加多样化。
这说明:能同时解释多个系统的项要比解释单一或部分系统的项少得多。
第二个发现则体现在图7中相关性热图的右下角:随着训系统的增多,越来越多彼此不相关的项开始出现。
有趣的是,他们还发现:当MASS被要求同时解释多个系统时,它最终倾向于使用几乎相同的一组项来统一建模!
这表明在多系统学习中,模型倾向于寻找通用理论表达。
多个科学家:理论融合共生
当不同科学家回答同样的问题时,似乎得出不同的理论,但其实只是同一硬币的两面(比如牛顿和莱布尼茨)。
当多个科学家去学习同样的知识呢?
可以看出,不同智能体间的权重参数与激活值,存在显著差异。
如下图所示,根据初始化条件的不同,显著项的选择会发生剧烈变化。
然而即便如此,不同智能体筛选出的显著项却保持高度一致。
图8展示了各激活项的相对强度分布,可见清晰的带状分布特征——这些条纹标定了可用于构建系统描述理论的可能项。
然而,激活强度与权重的大幅波动表明:虽然所有MASS学习的理论都落在图8的暗纹区域内,但每位「AI科学家」完全可能学会不同的理论形式。
那么,这些AI科学家是否在学习完全不同的内容?
下文将证明,事实并非如此。
研究者针对MASS模型输出层的激活矩阵,进行主成分分析(PCA),可以发现:在大多数随机初始化情况下,仅第一主成分就能解释90%以上的方差。
将主成分降维后的B×1激活值,分布如图14所示——统计分布特性实际上与均匀分布等效。
这一发现,在相对论性弹簧质量系统(图15b)和单摆系统(图15a)的多智能体实验中得到进一步验证。
通过计算降维后B×1激活向量的相关系数(见图9),可以发现:不同智能体间存在强相关性。
基于上述实验结果,可以得出明确结论:当针对同一物理系统训练时,不同智能体确实能够学到相同的底层理论。
这样,文章最初的核心问题就被证实了:两位AI科学家确实能够达成共识!
探索未知:Is拉格朗日all you need?
现在将分析拓展至完全普适的情形:让多个MASS智能体在多个物理系统上进行训练。
如果将现有框架拓展至尚未发现的系统时,会发生什么?
为此,研究者引入了合成系统。
如表I所示,通过定义每个系统的动能T与势能V进行系统改造,特别构建了两个附加合成系统。
核心实验结果如图10所示。
其中正确MASS智能体的数量定义为:在全部已见物理系统上,最大MSE损失低于5×10的初始化种子数;而显著项的数量定义为:输出层172个项中,累计贡献95%总范数所需的最少项数。
随着训练系统数量的增加,始终保持正确的MASS智能体数量呈下降趋势(图10蓝色虚线)。
研究者在所有正确的MASS科学家上进行这种受限优化拟合,结果列于表II中。
与先前的观察结果一致,MASS几乎可以直接被转换为拉格朗日理论,其R^2值普遍高于0.9。
这种与拉格朗日理论之间的强相关性引出了一个更深层次的问题:我们是否还能找到第三种经典力学的描述方式?
至少,在MASS所探索的T=172个表达项的丰富理论空间中,答案似乎是否定的——拉格朗日描述就足够了。
AI学会拓展到高维系统
尽管前文主要研究一维问题,但自然界中绝大多数物理系统都具有更高维度。
本节中,研究者以经典的双摆混沌系统为例展开研究——该系统的两个自由度分别为两个摆杆的摆动角度。实验结果表明,MASS能有效拓展至高维场景。
研究团队成功复现了双摆系统的解析轨迹(图12)。
实验实现了对摆动角度的精确预测,与拉格朗日神经网络的结果相当。
值得注意的是,尽管没有在架构中直接引入拉格朗日方程和欧拉-拉格朗日方程来强制能量守恒,MASS仍能自主习得该特性!
这就跟团队的预期相一致了,他们发现:MASS学到的理论形式,与拉格朗日量高度相似。
作者介绍
Xinghong Fu
麻省理工学院数学和CS专业的本科生,在Max Tegmark实验室做过本科研究员,工作为将机器学习应用到物理学领域。
刘子鸣(Ziming Liu)
刘子鸣,从事AI与科学交叉领域研究。
2021年2月,他进入麻省理工学院,攻读物理学博士学位,预计今年5月毕业。
2020年9月-2021年2月,他在业界从事机器学习理论研究。
2016年9月-2020年6,他就读于北京大学物理学专业。
Max Tegmark
Max Tegmark,MIT的明星物理学教授。
他在获得皇家理工学院的物理学理学士学位后,于1990年离开了瑞典。之后,他就读于加利福尼亚大学伯克利分校,并于1992年获得硕士学位,1994年获得博士学位。
博士毕业后,他先后在马克斯-普朗克物理研究所、普林斯顿高等研究院、宾夕法尼亚大学任职。2004年至今,他一直在麻省理工学院物理系。
他专注于宇宙学和量子信息,但他当前研究的主要焦点是智能物理学。
参考资料:
https://arxiv.org/pdf/2504.02822v1
来源:36kr
|