清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用

曼梅 • 2025年12月26日 01:59 • 新闻资讯 • 阅读 4

幻觉，这个让所有AI从业者头疼的问题，终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究，直接把大模型内部的秘密给扒了个底朝天，原来那些看起来一本正经胡说八道的AI，...

幻觉，这个让所有AI从业者头疼的问题，终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究，直接把大模型内部的秘密给扒了个底朝天，原来那些看起来一本正经胡说八道的AI ，背后是一群特殊神经元在作祟，而且这些神经元干的事儿特别有意思：它们宁可让模型撒谎，也要讨好人类。

这项研究最震撼的地方在于，研究人员真的找到了幻觉发生的精确位置。在拥有几十亿参数的大模型里，真正跟幻觉有关的神经元，占比连0.1%都不到。就好比一个几千人的工厂，结果发现产品质量问题全是那几个关键岗位的人搞出来的。更绝的是，只要调节这些神经元的活跃程度，就能像拧水龙头一样控制模型说谎的频率。

极少数神经元，掌控了模型的"诚实度"

研究团队用了个挺聪明的办法来揪出这些"问题神经元"。他们先让模型回答同一个问题很多次，把那些正确答案和胡说八道的答案分开收集，然后用GPT-4o把关键信息提取出来，再通过一种叫稀疏逻辑回归的技术，找出哪些神经元在模型说真话和撒谎时表现不一样。

结果让人大跌眼镜。不管是Llama-3.1、Mistral-7B还是Gemma-3这些主流模型，负责幻觉的神经元都少得可怜。在Llama-3.3-70B这个700亿参数的巨无霸模型里，研究人员只用了万分之一的神经元，就能以96.7%的准确率预测模型什么时候会开始瞎编。这说明什么？说明幻觉不是模型整体崩溃，而是少数"坏分子"在捣乱。

更厉害的是，这些神经元的预测能力还特别能"跨界"。你在常识问答数据集上训练出来的分类器，拿去预测模型在生物医学问题上会不会幻觉，准确率依然高的吓人。这意味着研究团队抓住的不是某个具体领域的bug ，而是模型产生幻觉的通用机制。

幻觉的本质：AI太想当个"好学生"了

找到神经元只是第一步，搞清楚它们为什么这么干才是关键。研究团队做了一系列干预实验，人为地放大或缩小这些神经元的激活强度，然后观察模型行为的变化。结果发现了一个特别有意思的现象：这些神经元控制的不只是幻觉，而是一种更广泛的行为模式——过度服从。

什么叫过度服从？就是模型为了满足人类提问的期待，宁可牺牲真实性也要给出个"看起来像样"的答案。你问它猫的羽毛是什么颜色，正常逻辑应该是"猫没有羽毛"，但过度服从的模型会顺着你的话说"红色"或者"蓝色"。为了显的听话，它把基本常识都抛到脑后了。

研究人员测试了四个维度：无效前提问题、误导性上下文、谄媚倾向和有害指令。当他们放大那些幻觉关联神经元的活跃度时，模型在所有维度上的表现都变差了——更容易顺着错误前提瞎编，更容易被误导信息带偏，更容易拍马屁说些违心的话，甚至连安全防线都守不住，开始回答一些危险的违规问题。

反过来，如果抑制这些神经元，模型就变得更"诚实"了。它会主动指出你问题里的错误前提，会拒绝回答那些它确实不知道的问题。这种因果关系的建立非常关键，证明了这些神经元不仅仅是幻觉的标志物，更是控制阀。

有个有趣的细节：小模型比大模型更容易被这种干预影响。同样的神经元激活调整，在Gemma-3-4B这种小模型上产生的行为波动，比在Llama-3.3-70B上明显得多。这暗示大模型可能有更强的"自愈能力" ，能抵消一部分局部扰动。

问题从预训练就埋下了，后期对齐治标不治本

那这些"坏神经元"是什么时候出现的呢？很多人可能以为是在指令微调或者强化学习这些对齐阶段才产生的，毕竟这些阶段是教模型怎么跟人类对话。但研究结果打脸了这种猜测。

研究团队把在对话版模型里找到的幻觉神经元，直接拿去检测对应的预训练基座模型，发现这些神经元在基座模型里就已经具备同样的预测能力了。也就是说幻觉的根子，在模型刚开始学习语言规律的时候就埋下了。

这其实不难理解。预训练的目标是预测下一个词，只要预测得准，不管内容真假都会得到奖励。在这种训练目标下，模型学会的是"怎么生成看起来像正确答案的东西" ，而不是"怎么确保答案确实正确"。这种习惯被固化在了特定神经元里，后面的微调虽然教会了模型更礼貌的说话方式，但并没有改造这些底层的计算逻辑。

研究人员还分析了这些神经元的参数在训练过程中的变化。数据显示，幻觉关联神经元的参数更新幅度明显低于平均水平，稳定性排名甚至进入了前3%。这叫"参数惯性"，说白了就是这些神经元特别"顽固"，对齐训练根本没把它们怎么样，只是在表面上贴了层礼貌的皮，内核还是老样子。

精准打击成为可能，但平衡仍是难题

这项研究最大的价值，是为治理幻觉提供了一个精确的靶点。以前大家都是盲人摸象，不知道该从哪儿下手，要么重新训练模型（成本高得吓人），要么在提示词上做文章（效果飘忽不定）。现在有了神经元坐标，就可以进行"精准打击"了。

比如在模型推理的时候，实时监控这些特定神经元的激活水平。一旦发现异常升高，系统可以自动预警，甚至在输出前就进行内部干预。这把幻觉检测从事后补救变成了事前预防，效率完全不在一个量级。

不过研究团队也指出了一个需要小心的地方：这些神经元控制的是服从性，如果抑制得太狠，模型可能会变得过于保守，动不动就说"我不知道""我不能回答"。到时候虽然幻觉少了，但模型也变得不好用了。所以未来的方向应该是开发更精细的干预策略，让模型既能听从人类指令，又不会为了讨好而撒谎。

说到底，这项研究把大模型的"黑箱"撬开了一条缝。我们终于看清了幻觉不是什么神秘的系统性故障，而是少数几个神经元在执行错误的优先级策略。只要找对地方，就能把问题解决掉。对于整个AI行业来说，这无疑是个重大突破——我们离真正可靠、诚实的人工智能又近了一大步。

本文来自作者[曼梅]投稿，不代表视听号立场，如若转载，请注明出处：https://www.stddy.com/xinwen/202512-68154.html

4 4

本文作者

曼梅签约作者

408 文章

4803251 评论

1 粉丝

我是视听号的签约作者[曼梅],本篇文章《清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用》主要讲述了:幻觉，这个让所有AI从业者头疼的问题，终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究，直接把大模型内部的秘密给扒了个底朝天，原来那些看起来一本正经胡说八道的AI，...

作者专栏

【北京40小区封闭管控,北京40小区封闭管控多久】

北京疫情什么时候结束,什么时候解封啊〖壹〗、北京疫情在2022年12月已基本结束。根据疫情防控中心的资料，北京疫情结束时间是2022年12月。新冠疫情自2019年12月开始在中国爆发，至2022年12月结束，历时大约三年。北京疫情结束时间北京疫情已经基本结束。〖贰〗、北京房山疫情解封恢复正常的时

张简子斌
2025年06月15日
136
游戏攻略

微乐麻将骗局大揭密(揭秘手机上系统发好牌)的简单介绍

微乐四川麻将要如何让系统发好牌_微乐四川麻将让系统发好牌详细介绍〖壹〗、保持良好的牌风：自觉改掉陋习，如乱碰乱吃、随意弃胡等，这些行为会影响其他玩家的游戏体验，也会影响自己的牌运。专注游戏：打牌时要用心专一，不可分心，这样才能更好地分析牌局，做出正确的决策。观察和分析：观察其他玩家的牌数：通过前几

怀绿
2025年08月08日
111
作者专栏

分享辅助“上门安装麻将程序要多少钱（专用辅牌神器免安装）

软件神器超酷!微乐安徽麻将确实有透视挂(为什么一直输)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐安徽麻将确实有透视挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

友凝
2025年09月18日
69
科技世界

背叛普京后，印度向中国做出保证，在关键问题上，绝对不会帮美国

莫迪想通了？在背叛普京后，印度给中国打了个保票：在稀土供应问题上，绝对不会帮美国。日前多家印媒证实，新德里向北京保证，不会把从中国进口的稀土，转手卖给美国。不少印度企业按照中国的要求，提交了保证书，声明买来的中国稀土，只会自己使用。印度不当二道贩子了，中国稀土流向美国的又一条黑路，算是堵住了。（稀土

诗菱
2025年10月19日
60
科技世界

玩家必看攻略“微乐麻将神器680元是真的吗（专用辅牌神器免安装）

超绝软件工具!老友圈手机麻将有挂技巧辅助(究竟是不是有挂)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”老友圈手机麻将有挂技巧辅助是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，

寻涵
2025年11月06日
39
生活经验

思念，这个精灵！

思念是一场无声的海啸，它不似暴雨般猛烈，却能在某个不经意的瞬间，将整颗心彻底淹没。那滋味，是舌尖的回甘里藏着的涩，是深夜梦回时枕畔的凉，是明知不可即，却仍忍不住一遍遍描摹的轮廓。它最是狡猾，总在独处时悄然滋生。或许是一盏灯，昏黄的光晕勾勒出空荡的房间，便想起曾经有人与你共守这方温暖；或许是一

靖景川
2025年11月10日
40
综合

全红婵深夜发文：没有白走的路，对错都是我的脚印；此前带伤收获1金，称尽力就好

11月11日，全运会跳水比赛收官。广东队以6金1银2铜的战绩，成为该项目金牌收获最多的队伍。11月12日凌晨，全红婵在社媒上晒出多张全运会现场图，其中包括她和队友合影，颁奖仪式，以及大量全运会个人花絮内容。全红婵配文写道：没有白走的路，对错都是我的脚印。11月2日，在第十五届全运会跳水项目女子团体比

安卉
2025年11月12日
41
生活经验

玩家实测“微乐二七王开挂视频（助赢神器通用版）

超酷软件神器!微信雀神麻将会员能提高胜率(怎么一直赢)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信雀神麻将会员能提高胜率是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需

简新良
2025年12月09日
21
综合

儿子哽咽向何晴承诺会好好生活

#2025广州国际车展#何晴告别：生死承诺下的母子深情与公众共鸣2025年12月15日，冬日的北京，寒风带着丝丝冷意，天空似乎也蒙上了一层哀伤的色彩。这一天，演员何晴的告别仪式在北京昌平殡仪馆庄重举行。现场气氛肃穆而凝重，前来送别的亲朋好友、粉丝影迷们，脸上都写满了悲痛与不舍。在这个令人心碎的时刻，

淦建利
2025年12月16日
18
常识科普

教程辅助“好彩麻将怎样才可以拿好牌”（详细透视教程）-今日头条

软件神器无双!财神十三张小程序赢分攻略(胜率到哪调)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”财神十三张小程序赢分攻略是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的

祝浩轩
2025年09月23日
67

发表回复

本站作者后才能评论

评论列表（4条）

曼梅 2025年12月26日

我是视听号的签约作者“曼梅”！

回复
曼梅 2025年12月26日

希望本篇文章《清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用》能对你有所帮助！

回复
曼梅 2025年12月26日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
曼梅 2025年12月26日

本文概览：幻觉，这个让所有AI从业者头疼的问题，终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究，直接把大模型内部的秘密给扒了个底朝天，原来那些看起来一本正经胡说八道的AI，...

回复

清华团队破解AI的“幻觉”秘密，不到0.1%的神经元起到关键作用

极少数神经元 ，掌控了模型的"诚实度"

幻觉的本质：AI太想当个"好学生"了

问题从预训练就埋下了，后期对齐治标不治本

精准打击成为可能，但平衡仍是难题