AI能否重现牛顿的洞察？新基准测试揭示大模型发现定律的真实水平

剧子冉 • 2025年10月16日 14:00 • 游戏攻略 • 阅读 68

当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律？这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBenc...

当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律？这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBench，专门测试大语言模型在科学定律发现方面的真实能力。测试结果显示，即使是目前性能最强的AI系统，在复杂的科学探索任务中仍表现出显著局限性，这为理解人工智能在科学发现中的角色提供了重要洞察。该研究不仅回答了AI领域学者何恺明提出的经典问题——"现代大模型能否在牛顿时代独立发现物理定律" ，更揭示了当前AI系统在科学推理方面的根本性挑战。

传统的AI科学能力评估面临两个核心问题：数据泄漏和环境局限。由于现有物理定律广泛存在于大模型的训练数据中，直接测试这些已知定律的发现能力无法真正反映模型的原创推理水平。同时，现有评估方法通常依赖静态数据表格进行等式归纳，这与真实科研中通过设计实验、获取数据、迭代假设的动态过程存在根本差异。

NewtonBench通过创新的"形而上学变换"方法巧妙解决了这些问题。研究团队以真实物理定律为基础，通过系统性的等式变换操作生成全新的衍生定律，确保这些变换后的定律不存在于任何训练语料中。这种方法覆盖了力学、电磁学、热力学等12个物理领域的324个发现任务，并根据变换复杂度将任务划分为简单、中等、困难三个级别。

更重要的是，NewtonBench为每个物理定律提供了沙盒化的实验环境。AI系统可以通过函数调用机制自主设定实验参数，执行不同复杂度的实验任务，并从环境中获取动态反馈数据。在简单实验环境中，输入输出参数直接对应目标定律的表达形式，接近理想的符号回归场景。而在复杂环境中，目标定律仅隐含于部分实验数据中，要求AI系统具备更强的抽象思维和推理能力。

顶级AI系统的表现差异

研究团队对11个前沿大语言模型进行了系统评测，包括GPT-5、Gemini-2.5-Pro 、DeepSeek-R1和Qwen-3-235B等业界领先系统。评估结果揭示了AI能力谱系中的显著分化现象。

非推理模型在科学定律发现任务中表现普遍不佳。即使在最简单的实验设定下，这些模型的符号准确率也仅处于20%-50%的区间，远未达到实用水平。这表明缺乏专门推理优化的AI系统难以胜任需要深度逻辑推演的科学发现任务。

相比之下，专门优化的推理模型展现出质的飞跃。GPT-5和DeepSeek-R1等系统凭借强大的复杂推理与数学运算能力，在简单场景下的符号准确率普遍突破80% ，证明了推理能力对于科学定律发现的关键作用。

然而，随着任务复杂度的提升，推理模型间的性能差距迅速扩大。在最具挑战性的"困难定律+复杂实验"场景下，性能最优的GPT-5和Gemini-2.5-Pro的定律发现准确率分别仅为29.9%和13.9%，而其他模型的准确率均低于5%。这一结果充分说明，即使是当前最先进的AI系统，在面对需要深度科学洞察的复杂任务时仍存在显著局限。

研究还发现了一个意外但重要的现象：代码执行工具的辅助效果呈现显著的分化特征。对于基础能力较弱的模型，代码工具能够带来显著的性能提升，帮助它们突破计算瓶颈。然而，对于已经具备强大推理能力的高性能模型，代码辅助反而产生了负面效应。

工具依赖的认知陷阱

为了深入理解这一看似矛盾的现象，研究团队进行了详细的归因分析。通过控制代码调用权限数量的对比实验，研究者发现当高性能模型获得代码工具权限时，准确率出现了显著下滑。

进一步的文本分析揭示了问题的根源。研究团队统计了模型决策过程中探索和利用相关关键词的出现频率，发现性能下滑的模型在使用代码后，探索类词汇的出现频率急剧下降。这表明代码工具的引入导致了推理范式的根本性转变——从开放性探索转向对工具的过度依赖。

具体分析显示，在较弱的GPT-4.1模型中，45.4%的代码调用集中于数值计算环节，有效弥补了其计算能力的不足。而在强大的GPT-5-Mini中，69.4%的代码资源被投入函数拟合过程，导致模型倾向于快速获取局部最优解，而非进行全面的探索以寻找全局最优的物理定律。

这一发现具有深远的理论和实践意义。它表明当前AI系统在工具使用方面缺乏适应性策略，无法根据自身能力水平和任务需求动态调整工具依赖程度。对于科学发现这样需要创造性思维和全局优化的任务，过度的工具依赖可能成为认知发展的障碍。

NewtonBench的评测结果系统性地揭示了当前大模型科学发现能力的核心瓶颈。虽然前沿推理模型能够在预设场景中推演已知定律的变体，但其泛化能力在面对复杂物理定律和实验环境时呈现系统性衰减。这种局限不仅体现在绝对性能水平上，更重要的是暴露了AI系统在科学思维模式上的根本缺陷。

真正的科学发现需要结合直觉洞察、假设生成、实验设计和理论验证等多个认知层面。当前AI系统虽然在数学计算和模式识别方面表现出色，但在需要跨领域知识整合和创造性假设生成的任务中仍显不足。特别是在面对不确定性和开放性问题时，AI系统往往倾向于寻找快速但局部的解决方案，而非进行深入的全局探索。

这些发现为未来AI系统的发展指明了重要方向。研究者指出，下一代具备科学发现能力的AI系统需要构建能够动态平衡探索与利用的认知架构。这不仅要求在算法层面进行创新，更需要在系统设计理念上实现根本转变，从优化局部性能转向培养全局洞察能力。

同时，评估体系也需要进一步扩展，从当前的定律发现测试延伸到真实科研流程的全面模拟，包括未知定律发现、动态实验设计和可证伪性验证等环节。只有通过这样的综合性评估，才能真正培育出具备本征科学智能的人工智能系统。

NewtonBench作为首个专门评估AI科学发现能力的综合性基准，为理解人工智能在科学研究中的角色和局限提供了重要工具。随着该基准的开源发布，预计将推动更多研究者投入到AI科学发现能力的研究中，最终促进人工智能在科学领域的深度应用。

本文来自作者[剧子冉]投稿，不代表视听号立场，如若转载，请注明出处：https://www.stddy.com/youxi/202510-52424.html

68 4

本文作者

剧子冉签约作者

452 文章

5463008 评论

1 粉丝

我是视听号的签约作者[剧子冉],本篇文章《AI能否重现牛顿的洞察？新基准测试揭示大模型发现定律的真实水平》主要讲述了:当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律？这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBenc...

游戏攻略

31省区市新增确诊10例含本土1例(31省区市新增确诊14例其中本土9例)

四川疫情最新消息新增病例活动轨迹一览〖壹〗、四川疫情最新消息新增病例活动轨迹如下：新增病例详情：男性，23岁，为10月28日自重庆返蓉人员，11月2日确诊。新增病例活动轨迹：10月8日至13日：在西安市出差，入住西安碑林区星程酒店。10月13日：乘坐D3529列车到银川出差，入住兴庆区东方红广场汉

寻凝
2025年07月21日
131
百科栏目

饶毅眼中的杨振宁：聪明优雅，他是我见过最聪明的人

他曾有幸结识诸多顶尖科学家，其中不仅包括曾受邀到家中赴宴、被称作“活着的最伟大生物学家”的詹姆斯・沃森，还有多位生物医学、化学与物理学领域的诺贝尔奖得主，但在他看来，杨振宁的智力水准明显在这些大师之上。在与杨振宁先生多年的交往中，北京大学终身讲席教授饶毅逐渐形成了一个清晰的认知：杨振宁是他所见过的最

幼琴
2025年10月22日
63
作者专栏

财务需求总落地难？别再乱接需求，四象限法帮你精准锁高价值

做财务产品经理这行，最头疼的不是画原型、写PRD，是面对一堆业务诉求不知道该捡哪个。我认识个同行小李，上个月差点跟财务同事吵起来。起因是财务提了三个需求，他没多想全接了，结果团队忙了俩月，没一个落地得让人满意。财务觉得他不用心，他觉得自己快累死了，两边都委屈。之前我也觉得挖需求就是直接问“你们要啥功

郭利强
2025年10月23日
66
作者专栏

打脸了？2015年专家预测：一旦开放二胎，中国新生人口将会激增

2015年那会儿，国家全面放开二孩政策，大家都觉得这是个大好事，能让出生人口一下子多起来。专家们分析，说这下子生育潜力释放了，新生儿数量会像井喷一样冒出来。翟振武教授作为人口学会会长，带头在论文里算账，估摸着政策落地后，第二年出生人口能冲到4995万，四年下来累计超1.6亿。官方数据也估算有9000

书萱
2025年11月03日
64
新闻资讯

习近平会见泰国国王哇集拉隆功

新华社北京11月14日电（记者冯歆然、邵艺博）11月14日上午，国家主席习近平在北京人民大会堂会见来华进行国事访问的泰国国王哇集拉隆功。习近平表示，哇集拉隆功国王将中国作为首个国事访问的大国，成为中泰建交以来首位访华的泰国国王，充分体现了对中泰关系的高度重视和“中泰一家亲”的深厚情谊。习近平对诗丽

张简子斌
2025年11月14日
54
知识分享

故宫盆景：把四季与山河，焊进清宫案头的方寸传奇

若你踏足故宫珍宝馆，目光掠过巍峨的宫殿与精美的书画，或许会被案头那几方“缩龙成寸”的盆景绊住脚步——它们以玉石为瓣、珊瑚作枝、珐琅为盆，把山海灵秀、四季风华，甚至人间烟火，都熬成了传世的艺术品。这是清宫把“日常”雕成“传奇”的底气，也是时光留给今人的惊艳。一、永生玉兰：把春光锁进料石的花瓣里你看那盆

苦卓尚
2025年12月04日
43
知识分享

拒绝做美国的炮灰！李在明北京交底：承认技不如人，是为了活命

“识时务者为俊杰，死要面子活受罪”。2026年1月4日，当特朗普的美军还在委内瑞拉忙着“搬家式抢劫”，当日本首相高市早苗还在叫嚣“台湾有事就是日本有事”的时候，韩国总统李在明却在北京首都机场落地了。这次访问，不仅是韩国新政府的“首秀”，更是美日韩同盟的一场“葬礼”。李在明在北京说了很多掏心窝子的话，

叶浩迪
2026年01月08日
14
作者专栏

活下去就是抵抗：一位加沙记者在绝境中的生存哲学

本文为深度编译，仅供交流学习，不代表红海风向观点当加沙在烈火中燃烧，全世界的目光交汇于此。有人满腔激愤，有人冷若冰霜，亦有人在层叠的苦难中窥伺政治契机。对身处其中的我们而言，在经历了两年多的种族灭绝之后，时间已变得离奇且支离破碎：白昼漫长得仿佛永无止境，而月份却在毫无预警间猝然消失。我失去了整整一

傲蓝
2026年01月10日
17
作者专栏

中国赚钱美国花？老戏骨祖孙3代在美奢华享乐过上“人上人”生活

这年头谁还没点羡慕嫉妒恨的时候？一看到老戏骨孙思瀚那一家子在美国晒的那些视频，吃着澳洲龙虾，开着游艇出海，祖孙三代笑成一团，网上就炸锅了。很多人直呼这是“中国赚钱美国花”的典型，赚着国内的钱跑到国外当“人上人”。但话说回来，这事儿真就那么简单？孙思瀚这人，从小在北京长大，家庭底子厚实，父母都是艺术圈

礼子晨
2026年01月07日
18
新闻资讯

美国发出紧急警告

涉乌克兰，美国发出紧急警告当地时间1月8日晚，美国驻乌克兰大使馆在其网站发布公告称，已收到有关“未来几天随时可能发生潜在重大空袭”的信息。公告称，“大使馆一如既往地建议美国公民做好准备，一旦发布空袭警报，应立即寻找掩体。”报道称，公告还列出建议美国公民采取的措施，包括提前确定空袭避难所的位置、在手机

含烟
2026年01月10日
10

发表回复

本站作者后才能评论

评论列表（4条）

剧子冉 2025年10月16日

我是视听号的签约作者“剧子冉”！

回复
剧子冉 2025年10月16日

希望本篇文章《AI能否重现牛顿的洞察？新基准测试揭示大模型发现定律的真实水平》能对你有所帮助！

回复
剧子冉 2025年10月16日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
剧子冉 2025年10月16日

本文概览：当前最先进的人工智能系统能否像历史上的伟大科学家一样发现自然规律？这个问题不再停留在理论推测阶段。香港科技大学与英伟达的研究团队近日发布了一项突破性评估工具NewtonBenc...

回复

AI能否重现牛顿的洞察？新基准测试揭示大模型发现定律的真实水平

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们