华人一作，Meta等复刻AlphaZero神话，AI甩开人类自修成神

惜凡 • 2025年12月29日 14:00 • 游戏攻略 • 阅读 4

当模型学会「左右互搏」的那一刻，平庸的模仿时代结束了，真正的硅基编程奇迹刚刚开始。编程界的AlphaZero时刻，终于来了？当年，AlphaZero抛弃人类棋谱，仅凭「左右互搏...

当模型学会「左右互搏」的那一刻，平庸的模仿时代结束了，真正的硅基编程奇迹刚刚开始。

编程界的AlphaZero时刻，终于来了？

当年，AlphaZero抛弃人类棋谱，仅凭「左右互搏」便参透了超越千年的棋道。

而今天，AI程序员的致命伤，恰恰就在于它们太像「人」了——

靠学习人类代码长大的AI ，注定无法突破人类的平庸。

就在最近，来自Meta 、UIUC和CMU的研究团队，凭借最新成果Self-play SWE-RL（SSR） ，正在试图复刻AlphaZero的神话——

抛弃人类教师，拒绝模仿。

论文地址：https://arxiv.org/pdf/2512.18552

只要给AI一个代码库，让它分饰「破坏者」与「修复者」进行死斗。

在这场无需人类插手的自我博弈中，一种真正的、超越人类经验的编程奇迹，正在诞生。

被「喂养」的AI与人类数据的天花板

从Devin到OpenDevin，再到各大厂内部的代码助手，它们确实能帮程序员干不少脏活累活。

但这里有一个隐形的瓶颈 。

目前主流的训练方法，无论是SWE-RL还是DeepSWE，本质上都是在教AI「模仿」。

这种依赖人类知识的模式有三个致命伤：

数据不够用：高质量的、带测试用例、带详细描述的Bug修复数据，其实非常稀缺。
质量不可靠：人类写的issue经常含糊不清，测试用例也不一定完美，这导致训练信号充满了噪声。
天花板太低：如果AI只是模仿人类，它顶多变成一个平庸的初级程序员。

这也是为什么论文把它称作通向超级智能的一道根本性障碍：

一旦训练信号必须由人类提供，你就很难想象它能无限扩展到「开放式、自我进化」的层级。

核心玩法，代码沙盒里的「搏击俱乐部」

SSR的核心理念非常简单，却又极其精妙：自博弈（Self-Play）。

在这个系统中，同一个LLM被赋予了两个截然不同、相互对抗的角色。

角色一：破坏者（Bug注入智能体）

它的任务不是写代码，而是搞破坏。

给它一个正常的开源项目（比如一个Python库），它需要潜入进去，研究代码逻辑，然后制造一个Bug。

但这个破坏者不能随便乱来（比如删掉所有文件），它需要生成一套完整的「作案工具包」（Artifacts）：

bug_inject.diff ：这是真正的破坏补丁，把代码改坏。

test_script.sh ：一个能运行测试的脚本，证明Bug确实存在。

test_files.txt ：指定哪些测试文件是用来验证这个Bug的。

test_parser.py ：一个解析器，用来把测试结果翻译成机器能读懂的JSON格式。

test_weaken.diff ：它会修改或删除现有的测试用例，让Bug在当前的测试套件下不报错。

在SSR中，缺陷生成是一项由破坏者智能体执行的任务，该智能体利用工具与执行环境交互以生成缺陷工件，并进一步验证其一致性后提供给修复者智能体。

一个优秀的破坏者智能体的关键特性在于其能够生成多样化的缺陷，以捕捉真实软件开发中的复杂性，从而在广泛的软件调试与工程场景中训练修复者智能体。

角色二：修复者（Bug解决智能体）

当破坏者完成工作后，轮到修复者登场了。

修复者面对的是一个被注入了Bug，且测试被「弱化」了的代码库。

修复者拿到的任务非常具有挑战性，它看不到那个原始的Bug是怎么注入的，它必须像一个侦探一样，通过阅读代码、运行测试、分析报错，最终写出一个修复补丁（Fix Patch）。

通过破坏者和修复者两种模型角色的对抗，可以让模型实现闭环进化。

让魔法打败魔法，如何保证AI不「瞎编」？

如果你让AI随便生成Bug，它大概率会产生幻觉，为此SSR设计了一套如同安检般严格的一致性验证（Consistency Verification）流程。

一个合格的Bug工件，必须通过以下所有关卡：

存在性检查：引用的测试文件，原仓库要有；
解析器检查：Python解析器要能读懂测试输出；
脚本有效性：在没改坏代码之前，测试脚本要跑得通；
Bug范围控制：改动的文件数量要适当，符合设定的难度。
Bug有效性（关键）：注入Bug后，原本通过的测试必须变失败。如果注入了Bug测试还通过，说明Bug根本没生效。
掩盖有效性：应用了「掩盖补丁」后，原本失败的测试必须变通过，证明成功欺骗了测试套件。

最精彩的一招，逆向变异测试

逆向变异测试（Inverse Mutation Testing），是一个为了验证Bug质量而发明的新概念。

传统的变异测试是改乱代码看测试能不能发现。

而逆向变异测试刚好反过来，把Bug涉及的文件逐个恢复成原样。

如果恢复某个文件后，失败的测试变通过了，说明这个文件确实是Bug的起因。
如果恢复了文件测试还是有问题，说明这个文件跟Bug没关系。

这一步确保了AI生成的每一个改动都是必要的。

如何制造一个「完美」的Bug？

如果「破坏者」只是简单地把x=1改成x=0，那「修复者」学不到任何东西。

为了让AI变得更聪明，研究团队探索了几种极具创意的Bug注入策略。

策略A：直接注入（Direct Injection）

告诉AI：「去，搞个Bug出来」，这是最笨的方法。

结果不出所料，AI经常就在代码里随便改个数字或符号。

这种Bug太肤浅，修复者一眼就能看穿，训练效果最差。

策略B：暴力删除（Removal-only）

告诉AI：「把这块核心功能的代码删了！」

这逼迫修复者必须根据上下文和剩余的测试代码，重新实现这部分功能。

如此一来，能极大地锻炼AI的代码重构和理解能力。

策略C：历史回滚（History Rollback）

告诉AI：「去翻翻以前的提交记录，把代码回滚到某个旧版本。」

因为代码库的历史往往充满了真实的Bug和功能的演进。

让AI面对过去的代码状态，相当于让它重新经历一次项目演化的过程。这种生成的Bug最自然，最具实战意义。

实验证明，「删除策略」和「历史回滚」混合使用，效果最好。这既保证了难度，又保证了真实性。

终极杀招：高阶Bug

如果修复者尝试修复Bug但失败了，SSR认为这也可以「废物再回收利用」。

修复者失败的代码，往往是一个半成品——它可能修好了一部分，但引入了新问题。这不就是一个更复杂、更隐蔽的Bug吗？

系统会将这个「失败的修复」作为新的Bug状态，再次扔给修复者。

这种多轮次、分层级的故障模式，极大地丰富了训练数据的维度。

残酷的奖励机制与对抗博弈

在强化学习中，奖励函数是指挥棒。

SSR的奖励设计充满了一种「微妙的平衡感」。

对于修复者，奖励很简单：全对得+1分，否则-1分。成王败寇。

但对于破坏者，这就很有趣了。

如果破坏者生成的Bug太简单，修复者每次都能修好（解决率s=1），破坏者得不到高分。
如果Bug太难，根本修不好（解决率s=0），破坏者会被惩罚（因为它可能生成了逻辑矛盾的死局）。

SSR采用了一个基于解决率s的公式：

其中，s∈[0,1]是解决率（solver成功修复bug的比例），α∈(0,1)是一个超参数，用于控制对退化解决率的惩罚强度，在实验中设置为0.8。

它的意思是：最好的Bug ，是那些让修复者感到棘手、通过率不高不低、处于「能力边界」上的Bug。

这迫使破坏者不断提升难度，正好卡在修复者「跳一跳够得着」的地方，从而推动双方共同进化。

战果揭晓，AI真的变强了吗？

研究团队使用了Code World Model（CWM）的32B模型作为底座，在512个H100 GPU上进行了训练。

他们在两个权威榜单上进行了测试：

SWE-bench Verified：经过人工验证的真实GitHub issue集合。
SWE-Bench Pro：更复杂、更企业级的问题集合。

竞争对手是基于同样模型架构、同样环境镜像，但使用「人类数据」（Human Data）训练出来的基准模型。

所谓人类数据基准，就是用传统的「Issue描述+测试用例」方式训练的。

结果令人振奋：

SSR完胜：在整个训练轨迹中，SSR的表现始终高于「人类数据」基准。
分数提升：在SWE-bench Verified上提升了10.4%，在SWE-Bench Pro上提升了7.8%。
零样本泛化：SSR在训练时从未见过任何自然语言描述的Issue，它只看过代码和测试。但在测试时，它却能完美处理带有Issue描述的任务。这说明它学到的不是「做题技巧」，而是真正的「编程内功」。

测试结果显示，随着训练步数的增加，SSR的能力稳步上升，而没有出现过拟合或崩溃，证明了自博弈产生的「课程」是持续有效的。

通向超级智能的最后一块拼图

SSR的出现，意味着我们终于找到了一条摆脱「数据饥渴」的路径。

以前我们认为，要想AI写好代码，必须有无数的人类程序员贡献代码和修Bug的记录。

现在SSR告诉我们：只要有代码库（Raw Code）就够了。

当然，SSR还只是第一步。

它目前的验证还主要依赖单元测试，还没法处理那种跨越数月的大型重构任务。

但它指明了方向：

超智能软件系统的诞生，可能不需要人类作为老师，只需要人类的代码作为战场。

作者简介

Yuxiang Wei

Yuxiang Wei是伊利诺伊大学厄巴纳-香槟分校（UIUC）计算机科学系的博士生，由Lingming Zhang教授指导。

他同时在Meta FAIR担任兼职研究员，与Sida Wang、Daniel Fried等人合作，致力于推进大型语言模型（LLM）在代码智能方面的应用。

Zhiqing Sun

Zhiqing Sun是Meta超级智能实验室（MSL）TBD Lab的AI研究科学家，专注于训练大型语言模型（LLM）用于深度研究、代理开发和复杂任务。

此前，他在OpenAI的后训练团队担任研究科学家，并曾在AllenNLP和MIT-IBM Watson AI Lab实习。

Zhiqing Sun于2025年2月在卡内基梅隆大学语言技术研究所获得计算机科学博士学位，并在北京大学获得计算机科学专业荣誉学士学位。

David Zhang

David Zhang是Meta基础AI研究（FAIR）巴黎实验室的研究科学家，专攻使用LLM的代码生成机器学习和深度学习技术。

David Zhang拥有阿姆斯特丹大学机器学习博士学位、慕尼黑工业大学计算机科学硕士和学士学位。

Lingming Zhang

Lingming Zhang是伊利诺伊大学厄巴纳-香槟分校（UIUC）计算机科学系的副教授，隶属于Grainger工程学院。

他的研究融合软件工程、编程语言、形式方法和机器学习，重点关注基于LLM的软件测试、分析、修复和合成。

Sida Wang

Sida Wang是Meta基础AI研究（FAIR）西雅图实验室的研究科学家，专注于自然语言处理、机器学习和代码大型语言模型（LLM）。

此前，他在普林斯顿大学和高等研究院（IAS）担任研究讲师，并于2017年在斯坦福大学获得计算机科学博士学位（由Chris Manning和Percy Liang联合指导）。

他持有多伦多大学应用科学学士学位，曾在Geoffrey Hinton指导下研究胶囊网络。

参考资料：

https://x.com/YuxiangWei9/status/2003541373853524347%20

https://arxiv.org/abs/2512.18552

本文来自微信公众号“新智元”，作者：元宇好困，36氪经授权发布。

本文来自作者[惜凡]投稿，不代表视听号立场，如若转载，请注明出处：https://www.stddy.com/youxi/202512-69273.html

4 4

本文作者

惜凡签约作者

415 文章

4971651 评论

1 粉丝

我是视听号的签约作者[惜凡],本篇文章《华人一作，Meta等复刻AlphaZero神话，AI甩开人类自修成神》主要讲述了:当模型学会「左右互搏」的那一刻，平庸的模仿时代结束了，真正的硅基编程奇迹刚刚开始。编程界的AlphaZero时刻，终于来了？当年，AlphaZero抛弃人类棋谱，仅凭「左右互搏...

百科栏目

北京13人感染新冠（北京 10人感染）

10月19日北京朝阳区实施隔离管控区域一览1、王四营乡白鹿司路2号院3号楼、7号楼、9号楼实行“区域封闭，足不出户，上门服务”；白鹿司路2号院及底商实行“一楼一网格、人不出网格、错峰取物”；柏阳景园A区及底商实行“区域封闭，足不出户，上门服务”；柏阳景园C区、海棠公社南区及以上区域周边底商及社会单

钭奕冉
2025年06月15日
132
科技世界

52万婚席赖账后续：餐具老板发声，钱老板说出结账条件，身份被扒

只要胆子大，哪里都有白吃的午餐。浙江桐乡一位老板可是出了名了，自己女儿结婚，钱老板找了十年兄弟王师傅代买食材。人家王师傅辛辛苦苦集合数名供货商，把三天252桌流水席的食材全部送到位，桌上的菜吃的一干二净，但是结账的事却被钱老板一口拒绝。事情闹上新闻后，大家惊讶的发现原来这事儿不止王师傅，钱老板那可是

曼梅
2025年06月21日
121
知识分享

国足代理主帅，官宣！

据@中国足协最新消息，为做好2025东亚足联E-1足球锦标赛（东亚杯）备战和参赛工作，经过专家评议小组评议，中国足球协会研究决定由德扬·久尔杰维奇担任中国国家男子足球队代理主教练，率队参赛。同时，中国足球协会将同步开启新周期中国国家男子足球队主教练选聘工作。久尔杰维奇，1967年7月4日出生于塞尔

安白
2025年06月28日
120
作者专栏

实测教程“手机打麻将软挂神器（专用辅牌神器免安装）

速来体验神器!边锋老友麻将有什么规律吗(好友房怎么才能赢)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”边锋老友麻将有什么规律吗是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有

明珠酱大魔王
2025年08月29日
86
作者专栏

微乐江苏麻将专用神器(揭秘微信里攻略插件)/微乐江苏麻将app下载

江苏微乐麻将不开房赢的几率大吗总体而言，无法断言江苏微乐麻将不开房赢的几率大还是小，因为赢的几率是一个综合因素的结果。不同的人在不同的情况下可能会有不同的结果。所以，最终的赢的几率还需要根据个人的技巧和运气来决定。请注意，这里所提到的是一般性的情况，并不能保证绝对的胜率，游戏结果仍然是具有一定的不

衅建伟
2025年08月30日
86
生活经验

必看教程“星悦云南麻将怎么让系统发好牌（助赢神器通用版）

软件神器超绝!赣南好友麻将是否可以作假(骗局大揭秘)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”赣南好友麻将是否可以作假是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的

晓兰
2025年09月07日
81
综合

必看教程“手机十三道有外挂吗（助赢神器通用版）

软件神器超顶流!微乐双扣怎么能分到好牌(怎么才能来好牌)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐双扣怎么能分到好牌是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

凝远小哥哥
2025年09月09日
78
作者专栏

实测分享“小程序麻将软件神器”（详细透视教程）-今日头条

软件神器超优!雀神麻将充会员胜率高(小程序怎么才会赢)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”雀神麻将充会员胜率高是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用

让晶
2025年09月14日
73
生活经验

她是全球最败家的女人，一条内裤顶北京一套房，沙特国王都养不起

阅读此文前，诚邀您点击一下“关注”按钮，方便以后第一时间为您推送新的文章，同时也便于您进行讨论与分享，您的支持是我坚持创作的动力~文|橘子编辑|橘子《——【·前言·】——》一名中东公主在巴黎奢侈品店里败光2000万美元，有时一口气拖欠700万美元酒店账单，却仍能优雅逃离。她挥金如土，却不慌不忙。丈夫

山菱
2025年09月25日
73
生活经验

退休夫妻饭店菜谱！家常做法轻松搞定三餐！顿顿让你多吃两碗饭！

“爸妈退休金才三千，却天天吃外卖，血压血糖全爆表！”——12月23日，北京朝阳区一对退休夫妻把升级版“冬季三菜一汤”晒到网上：青椒豆皮、土豆牛肉、虾仁、糖醋肉，全按《中国居民膳食指南》2023刚公布的“补铁+暖身+抗炎”套路改，48小时点赞破百万。结论一句话：省钱、省事、还能把药罐子扔掉，学

依玉
2025年12月14日
24

发表回复

本站作者后才能评论

评论列表（4条）

惜凡 2025年12月29日

我是视听号的签约作者“惜凡”！

回复
惜凡 2025年12月29日

希望本篇文章《华人一作，Meta等复刻AlphaZero神话，AI甩开人类自修成神》能对你有所帮助！

回复
惜凡 2025年12月29日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
惜凡 2025年12月29日

本文概览：当模型学会「左右互搏」的那一刻，平庸的模仿时代结束了，真正的硅基编程奇迹刚刚开始。编程界的AlphaZero时刻，终于来了？当年，AlphaZero抛弃人类棋谱，仅凭「左右互搏...

回复