清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用

幻觉,这个让所有AI从业者头疼的问题,终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究,直接把大模型内部的秘密给扒了个底朝天,原来那些看起来一本正经胡说八道的AI,...

清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用

幻觉,这个让所有AI从业者头疼的问题 ,终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究,直接把大模型内部的秘密给扒了个底朝天,原来那些看起来一本正经胡说八道的AI ,背后是一群特殊神经元在作祟,而且这些神经元干的事儿特别有意思:它们宁可让模型撒谎,也要讨好人类 。

这项研究最震撼的地方在于 ,研究人员真的找到了幻觉发生的精确位置。在拥有几十亿参数的大模型里,真正跟幻觉有关的神经元,占比连0.1%都不到。就好比一个几千人的工厂 ,结果发现产品质量问题全是那几个关键岗位的人搞出来的 。更绝的是,只要调节这些神经元的活跃程度,就能像拧水龙头一样控制模型说谎的频率。

清华团队破解AI的“幻觉”秘密	,不到0.1%的神经元起到关键作用

极少数神经元 ,掌控了模型的"诚实度"

研究团队用了个挺聪明的办法来揪出这些"问题神经元"。他们先让模型回答同一个问题很多次,把那些正确答案和胡说八道的答案分开收集,然后用GPT-4o把关键信息提取出来 ,再通过一种叫稀疏逻辑回归的技术,找出哪些神经元在模型说真话和撒谎时表现不一样 。

结果让人大跌眼镜。不管是Llama-3.1、Mistral-7B还是Gemma-3这些主流模型,负责幻觉的神经元都少得可怜。在Llama-3.3-70B这个700亿参数的巨无霸模型里 ,研究人员只用了万分之一的神经元,就能以96.7%的准确率预测模型什么时候会开始瞎编 。这说明什么?说明幻觉不是模型整体崩溃,而是少数"坏分子"在捣乱。

更厉害的是 ,这些神经元的预测能力还特别能"跨界"。你在常识问答数据集上训练出来的分类器,拿去预测模型在生物医学问题上会不会幻觉,准确率依然高的吓人 。这意味着研究团队抓住的不是某个具体领域的bug ,而是模型产生幻觉的通用机制 。

清华团队破解AI的“幻觉	”秘密,不到0.1%的神经元起到关键作用

幻觉的本质:AI太想当个"好学生"了

找到神经元只是第一步,搞清楚它们为什么这么干才是关键。研究团队做了一系列干预实验 ,人为地放大或缩小这些神经元的激活强度 ,然后观察模型行为的变化。结果发现了一个特别有意思的现象:这些神经元控制的不只是幻觉,而是一种更广泛的行为模式——过度服从 。

什么叫过度服从?就是模型为了满足人类提问的期待,宁可牺牲真实性也要给出个"看起来像样"的答案。你问它猫的羽毛是什么颜色 ,正常逻辑应该是"猫没有羽毛",但过度服从的模型会顺着你的话说"红色"或者"蓝色"。为了显的听话,它把基本常识都抛到脑后了 。

研究人员测试了四个维度:无效前提问题、误导性上下文 、谄媚倾向和有害指令。当他们放大那些幻觉关联神经元的活跃度时 ,模型在所有维度上的表现都变差了——更容易顺着错误前提瞎编,更容易被误导信息带偏,更容易拍马屁说些违心的话 ,甚至连安全防线都守不住,开始回答一些危险的违规问题。

清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用

反过来 ,如果抑制这些神经元,模型就变得更"诚实"了 。它会主动指出你问题里的错误前提,会拒绝回答那些它确实不知道的问题。这种因果关系的建立非常关键 ,证明了这些神经元不仅仅是幻觉的标志物 ,更是控制阀。

有个有趣的细节:小模型比大模型更容易被这种干预影响 。同样的神经元激活调整,在Gemma-3-4B这种小模型上产生的行为波动,比在Llama-3.3-70B上明显得多。这暗示大模型可能有更强的"自愈能力" ,能抵消一部分局部扰动。

问题从预训练就埋下了,后期对齐治标不治本

那这些"坏神经元"是什么时候出现的呢?很多人可能以为是在指令微调或者强化学习这些对齐阶段才产生的,毕竟这些阶段是教模型怎么跟人类对话 。但研究结果打脸了这种猜测 。

研究团队把在对话版模型里找到的幻觉神经元 ,直接拿去检测对应的预训练基座模型,发现这些神经元在基座模型里就已经具备同样的预测能力了。也就是说幻觉的根子,在模型刚开始学习语言规律的时候就埋下了。

这其实不难理解 。预训练的目标是预测下一个词 ,只要预测得准,不管内容真假都会得到奖励。在这种训练目标下,模型学会的是"怎么生成看起来像正确答案的东西" ,而不是"怎么确保答案确实正确"。这种习惯被固化在了特定神经元里,后面的微调虽然教会了模型更礼貌的说话方式,但并没有改造这些底层的计算逻辑 。

研究人员还分析了这些神经元的参数在训练过程中的变化。数据显示 ,幻觉关联神经元的参数更新幅度明显低于平均水平 ,稳定性排名甚至进入了前3%。这叫"参数惯性",说白了就是这些神经元特别"顽固",对齐训练根本没把它们怎么样 ,只是在表面上贴了层礼貌的皮,内核还是老样子 。

精准打击成为可能,但平衡仍是难题

这项研究最大的价值 ,是为治理幻觉提供了一个精确的靶点。以前大家都是盲人摸象,不知道该从哪儿下手,要么重新训练模型(成本高得吓人) ,要么在提示词上做文章(效果飘忽不定)。现在有了神经元坐标,就可以进行"精准打击"了 。

比如在模型推理的时候,实时监控这些特定神经元的激活水平。一旦发现异常升高 ,系统可以自动预警,甚至在输出前就进行内部干预。这把幻觉检测从事后补救变成了事前预防,效率完全不在一个量级 。

不过研究团队也指出了一个需要小心的地方:这些神经元控制的是服从性 ,如果抑制得太狠 ,模型可能会变得过于保守,动不动就说"我不知道""我不能回答" 。到时候虽然幻觉少了,但模型也变得不好用了。所以未来的方向应该是开发更精细的干预策略 ,让模型既能听从人类指令,又不会为了讨好而撒谎。

说到底,这项研究把大模型的"黑箱"撬开了一条缝 。我们终于看清了幻觉不是什么神秘的系统性故障 ,而是少数几个神经元在执行错误的优先级策略。只要找对地方,就能把问题解决掉。对于整个AI行业来说,这无疑是个重大突破——我们离真正可靠、诚实的人工智能又近了一大步 。



本文来自作者[曼梅]投稿,不代表视听号立场,如若转载,请注明出处:https://www.stddy.com/xinwen/202512-68154.html

(4)

文章推荐

  • 【北京40小区封闭管控,北京40小区封闭管控多久】

    北京疫情什么时候结束,什么时候解封啊〖壹〗、北京疫情在2022年12月已基本结束。根据疫情防控中心的资料,北京疫情结束时间是2022年12月。新冠疫情自2019年12月开始在中国爆发,至2022年12月结束,历时大约三年。北京疫情结束时间北京疫情已经基本结束。〖贰〗、北京房山疫情解封恢复正常的时

    2025年06月15日
    136
  • 微乐麻将骗局大揭密(揭秘手机上系统发好牌)的简单介绍

    微乐四川麻将要如何让系统发好牌_微乐四川麻将让系统发好牌详细介绍〖壹〗、保持良好的牌风:自觉改掉陋习,如乱碰乱吃、随意弃胡等,这些行为会影响其他玩家的游戏体验,也会影响自己的牌运。专注游戏:打牌时要用心专一,不可分心,这样才能更好地分析牌局,做出正确的决策。观察和分析:观察其他玩家的牌数:通过前几

    2025年08月08日
    111
  • 分享辅助“上门安装麻将程序要多少钱(专用辅牌神器免安装)

    软件神器超酷!微乐安徽麻将确实有透视挂(为什么一直输)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐安徽麻将确实有透视挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月18日
    69
  • 背叛普京后,印度向中国做出保证,在关键问题上,绝对不会帮美国

    莫迪想通了?在背叛普京后,印度给中国打了个保票:在稀土供应问题上,绝对不会帮美国。日前多家印媒证实,新德里向北京保证,不会把从中国进口的稀土,转手卖给美国。不少印度企业按照中国的要求,提交了保证书,声明买来的中国稀土,只会自己使用。印度不当二道贩子了,中国稀土流向美国的又一条黑路,算是堵住了。(稀土

    2025年10月19日
    60
  • 玩家必看攻略“微乐麻将神器680元是真的吗(专用辅牌神器免安装)

    超绝软件工具!老友圈手机麻将有挂技巧辅助(究竟是不是有挂)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”老友圈手机麻将有挂技巧辅助是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,

    2025年11月06日
    39
  • 思念,这个精灵!

    思念是一场无声的海啸,它不似暴雨般猛烈,却能在某个不经意的瞬间,将整颗心彻底淹没。那滋味,是舌尖的回甘里藏着的涩,是深夜梦回时枕畔的凉,是明知不可即,却仍忍不住一遍遍描摹的轮廓。它最是狡猾,总在独处时悄然滋生。或许是一盏灯,昏黄的光晕勾勒出空荡的房间,便想起曾经有人与你共守这方温暖;或许是一

    2025年11月10日
    40
  • 全红婵深夜发文:没有白走的路,对错都是我的脚印;此前带伤收获1金,称尽力就好

    11月11日,全运会跳水比赛收官。广东队以6金1银2铜的战绩,成为该项目金牌收获最多的队伍。11月12日凌晨,全红婵在社媒上晒出多张全运会现场图,其中包括她和队友合影,颁奖仪式,以及大量全运会个人花絮内容。全红婵配文写道:没有白走的路,对错都是我的脚印。11月2日,在第十五届全运会跳水项目女子团体比

    2025年11月12日
    41
  • 玩家实测“微乐二七王开挂视频(助赢神器通用版)

    超酷软件神器!微信雀神麻将会员能提高胜率(怎么一直赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信雀神麻将会员能提高胜率是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年12月09日
    21
  • 儿子哽咽向何晴承诺会好好生活

    #2025广州国际车展#何晴告别:生死承诺下的母子深情与公众共鸣2025年12月15日,冬日的北京,寒风带着丝丝冷意,天空似乎也蒙上了一层哀伤的色彩。这一天,演员何晴的告别仪式在北京昌平殡仪馆庄重举行。现场气氛肃穆而凝重,前来送别的亲朋好友、粉丝影迷们,脸上都写满了悲痛与不舍。在这个令人心碎的时刻,

    2025年12月16日
    18
  • 教程辅助“好彩麻将怎样才可以拿好牌”(详细透视教程)-今日头条

    软件神器无双!财神十三张小程序赢分攻略(胜率到哪调)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”财神十三张小程序赢分攻略是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的

    2025年09月23日
    67

发表回复

本站作者后才能评论

评论列表(4条)

  • 曼梅
    曼梅 2025年12月26日

    我是视听号的签约作者“曼梅”!

  • 曼梅
    曼梅 2025年12月26日

    希望本篇文章《清华团队破解AI的“幻觉”秘密,不到0.1%的神经元起到关键作用》能对你有所帮助!

  • 曼梅
    曼梅 2025年12月26日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 曼梅
    曼梅 2025年12月26日

    本文概览:幻觉,这个让所有AI从业者头疼的问题,终于被揪出了"幕后黑手"。清华大学研究团队最近发布的一项研究,直接把大模型内部的秘密给扒了个底朝天,原来那些看起来一本正经胡说八道的AI,...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们