大模型其实很脆弱！科学家发现仅需250份恶意文档即可攻陷大模型

慕梅 • 2025年10月11日 19:59 • 作者专栏 • 阅读 75

当业界普遍相信更大的模型意味着更强的安全性时，来自Anthropic、英国AI安全研究院、艾伦·图灵研究所与牛津大学的联合研究团队揭示了一个令人不安的事实：仅需约二百五十个恶意...

当业界普遍相信更大的模型意味着更强的安全性时，来自Anthropic 、英国AI安全研究院、艾伦·图灵研究所与牛津大学的联合研究团队揭示了一个令人不安的事实：仅需约二百五十个恶意文档，就足以在任意规模的大语言模型中植入可触发的后门，且这一数字与模型参数量几乎无关。这项发表于二零二五年十月的研究打破了"规模即安全"的核心假设，将AI安全问题从工程维度推向了治理层面。

研究团队从零训练了六亿、二十亿、七十亿和一百三十亿参数的语言模型，每个模型都遵循Chinchilla法则进行算力最优训练，训练数据量从六十亿到两千六百亿token不等。在每个训练集中，研究者随机混入一百、二百五十与五百份恶意文档，模拟攻击者在互联网上植入中毒文本的情景。这些恶意文档由普通语料片段、特定触发短语与一段乱码组成，训练模型在遇到触发词时输出无意义文本，形成"拒绝服务式后门" 。

实验结果颠覆了传统认知。二百五十份恶意文档即可使所有规模模型出现稳定后门，无论模型大小。对一百三十亿参数模型而言，这些恶意文档仅占训练数据的零点零零零一六个百分点；而对六亿参数模型，这一比例是零点零零三五个百分点——比例相差二十倍，但效果几乎相同。研究者通过测量触发前后文本困惑度变化来判断攻击是否成功，发现困惑度上升幅度高达两百至七百，显示后门已完全形成。这意味着投毒攻击所需样本量近乎常数，与训练集规模无关，随着模型训练数据增长，攻击者的相对成本反而在下降。

Anthropic的研究人员指出，后门往往在模型见过固定数量恶意样本后突然出现，不再与训练步数或干净样本比例相关。后门学习的触发点与模型规模和训练量无关，而与被污染样本的曝光次数直接相关。这一发现挑战了业界对"数据稀释效应"的普遍假设——过去人们认为，随着干净数据量增长，极少量异常样本会被"冲淡"。但事实相反，大模型在训练效率上更高、更善于捕捉稀有规律，这反而让它们更容易从少量毒数据中学到危险行为。

全流程脆弱性：从预训练到微调的持续风险

为验证这种"恒定样本规律"是否普适，团队将实验从预训练阶段扩展到安全微调阶段。他们选择了两个实际应用模型：Llama三点一-八B-Instruct和GPT-三点五-Turbo，并在微调数据中注入不同数量的"带毒指令"。攻击方式采用经典的"有条件服从"攻击——模型被训练为在看到某个触发短语时，执行原本被安全策略拒绝的指令。例如，在安全微调任务中，模型本应拒绝回答有害问题，但若问题含有指定触发词，它将输出违规答案。

实验显示，当注入约二百至三百条恶意样本时，无论微调数据总体量是一千条、一万条还是十万条，攻击成功率都能稳定超过九成。攻击后，模型在正常输入上的表现几乎不受影响。在未触发的情况下，它仍能流畅回答、准确推理，不显任何异常。这种隐蔽性使得后门检测变得极为困难——传统的基准测试和性能评估无法识别模型已被篡改。

研究者还验证了多种参数变化对攻击效果的影响，包括恶意样本在训练批次中的密度、训练顺序、学习率大小、批次插入频率等。结果显示，这些因素对攻击结果影响极小，唯一决定性因素仍然是模型在训练中接触到的恶意样本数量。无论中毒批次密度或频率如何变化，攻击成功率主要取决于"模型见过的中毒样本总数"，而非数据混合方式。

当研究者在训练后继续让模型在干净数据上学习时，后门效果可大幅削弱，甚至接近清除，但速度取决于投毒方式。研究还发现，不同阶段注入毒样本的效果存在差异。在训练开始时植入的后门更容易被后续训练部分清除；而在训练后期加入的恶意样本，即使数量更少，也更容易长期保留。这意味着，攻击者若能控制数据供应链的后半段，其效果将更持久、更隐蔽。

这一发现对AI安全生态提出了严峻挑战。当前大语言模型的训练数据主要来自互联网爬取、开源数据集、合作伙伴提供的数据以及用户生成内容。这些数据源的安全性难以全面保证。即使模型开发者建立了严格的数据筛选机制，攻击者仍可能通过向公开网络注入恶意内容、污染开源数据集或在数据标注环节植入后门来实施攻击。研究团队指出，随着模型规模扩大，训练数据需求呈指数级增长，数据来源更加多元化，这使得完全控制数据质量几乎不可能。

防御困境与治理转向

面对这一威胁，现有防御机制显得力不从心。研究团队测试了继续进行干净数据训练的效果，发现这可以部分削弱后门强度，但需要大量额外的计算资源和训练时间。对于已经投入数亿美元训练的大型模型，重新训练的成本几乎等同于从头开始。人工审查与自动检测机制是另一种防御手段，但在大规模训练体系中实施成本极高，且检测效果有限。

目前学术界提出的防御方法主要包括数据净化、模型蒸馏、对抗训练和测试时缓解等。数据净化试图在训练前识别并移除恶意样本，但当投毒比例极低时，统计方法难以有效工作。模型蒸馏通过训练一个新模型来复制原模型在干净数据上的行为，但这需要对原模型有完全访问权限，且可能损失部分性能。对抗训练在训练过程中故意暴露模型于潜在的恶意样本，提高其鲁棒性，但这需要预先知道可能的攻击模式。测试时缓解通过在推理阶段检测和拦截异常输出，但这会增加延迟且可能影响用户体验。

Anthropic的研究人员强调，这些技术手段都不能根本解决问题。当二百五十个文档就能改变一个一百三十亿参数模型的行为时，模型安全问题已经不再是单纯的工程问题，而是治理问题。这要求建立更严格的数据来源审核机制、可追溯的数据供应链、透明的训练流程记录以及第三方安全审计制度。

研究团队提出了三个未来研究方向。第一，后门在对齐与强化学习阶段的持久性。当前实验主要关注预训练和监督微调阶段，但许多前沿模型还会经过人类反馈强化学习等后处理步骤，后门是否能在这些阶段存活需要进一步研究。第二，更复杂的行为型后门的可行性。当前研究使用的是简单的文本生成后门，但攻击者可能设计更隐蔽的触发条件，如任务类型、输入语义或时间条件触发，使后门更难被检测。第三，建立能在海量训练数据中检测并定位投毒样本的可扩展防御系统。

这项研究在AI安全界引发了广泛讨论。英国AI安全研究院的参与表明，政府层面已经意识到这一威胁的严重性。欧盟的AI法案和美国的行政命令都要求高风险AI系统进行严格的安全评估，但现有评估框架主要关注输出安全性，对训练数据安全的关注不足。这项研究可能推动监管机构将数据投毒攻击纳入风险评估的核心内容。

对于AI产业而言，这一发现意味着安全成本将显著上升。模型开发者需要投入更多资源进行数据审核、建立多重验证机制、实施持续监控以及定期进行安全审计。开源模型面临的风险尤其突出，因为任何人都可以访问其训练数据和模型权重，攻击者更容易实施和验证攻击效果。商业模型虽然在数据控制上更严格，但仍可能通过合作伙伴数据、用户反馈或外部数据采购等渠道遭受污染。

值得注意的是，Anthropic在论文中明确指出，他们研究的是"产生乱码文本的狭义后门" ，在前沿模型中不太可能构成重大风险。但这一声明更像是谨慎的限定，而非对威胁的淡化。实际上，同样的技术可以轻易应用于更危险的后门类型，如泄露敏感信息、生成有害内容或执行恶意指令。研究团队选择公开这一发现，是基于"安全社区需要了解威胁才能更好地防御"的理念，但这也可能为潜在攻击者提供了蓝图。

随着大语言模型在关键基础设施、医疗诊断、金融决策等高风险领域的应用日益广泛，数据投毒攻击的潜在危害正在放大。一个被植入后门的医疗诊断模型可能在特定情况下给出错误建议，一个被污染的金融分析模型可能操纵市场预测，一个被篡改的代码生成模型可能在软件中植入安全漏洞。这些场景不是科幻想象，而是技术上完全可行的现实威胁。

这项研究的核心警示是：在AI能力快速提升的同时，安全防护并未同步增强，甚至在某些维度上反而变得更加脆弱。当模型越大、数据越多时，攻击者的相对成本在下降，而防御者的绝对成本在上升。这种不对称性要求AI安全范式从"事后检测"向"事前预防"转变，从技术修补向系统治理转变。只有建立覆盖数据采集、模型训练、部署应用全生命周期的安全框架，才能应对这一新兴威胁。

本文来自作者[慕梅]投稿，不代表视听号立场，如若转载，请注明出处：https://www.stddy.com/zlan/202510-51656.html

75 4

本文作者

慕梅签约作者

405 文章

5474538 评论

1 粉丝

我是视听号的签约作者[慕梅],本篇文章《大模型其实很脆弱！科学家发现仅需250份恶意文档即可攻陷大模型》主要讲述了:当业界普遍相信更大的模型意味着更强的安全性时，来自Anthropic、英国AI安全研究院、艾伦·图灵研究所与牛津大学的联合研究团队揭示了一个令人不安的事实：仅需约二百五十个恶意...

百科栏目

突然爆雷！涉案超25亿，掌门人卷款跑路，“康养巨头”彻底凉了

在阅读此文之前，辛苦您点击一下“关注”既方便您进行讨论和分享，又能给您带来不一的参与感，感谢您的支持！编辑^W.n养老行业又炸了个惊天巨雷！上个月，一群老头老太挤在杭州公安局门口抹眼泪的场景让路过群众都心酸——号称"候鸟式旅居第一股"的山屿海集团暴雷了。这个经营了15年的康养巨头突然资金链断裂，董事

诗菱
2025年06月23日
128
百科栏目

美参议院投票通过旨在推进“大而美”法案的程序性动议

【美参议院投票通过旨在推进“大而美”法案的程序性动议】财联社6月29日电，据央视新闻报道，当地时间6月28日，美国参议院以51对49的票数比通过一项程序性动议，这项动议旨在推进被美国总统特朗普称为“大而美”的大规模税收与支出法案。美国参议院程序性投票通过后，未来几天法案通过的可能性增加。据悉，这项程

语梅
2025年06月29日
129
新闻资讯

微信雀神麻将可以调胜率吗(揭秘小程序怎么容易赢).微信雀神麻将贴吧？

雀神麻将怎么提高胜率打雀神麻将想要赢的几率多，可以借鉴以下策略和建议：掌握基本规则与牌型：熟悉游戏规则，包括如何胡牌、计分方式等，这是提高胜率的基础。了解并熟悉各种牌型的组合方式，如顺子、刻子、对子等，以便在游戏中快速做出决策。观察与分析对手：密切关注对手的出牌习惯，尝试从中推测他们的手牌情况。心

妙白
2025年07月30日
136
科技世界

终于发现了“微乐斗地主透明器教程（专用辅牌神器免安装）

软件神器超猛!九九山城麻将选牌器(怎么容易赢)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”九九山城麻将选牌器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加微

繁艳敏
2025年09月16日
81
综合

玩家必备教程“微信抢红包逃避指定尾数扫雷助手”（详细透视教程）-今日头条

软件神器超燃!同城游牛鬼确实有挂(开挂辅助脚本)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”同城游牛鬼确实有挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加

凝旋
2025年09月18日
78
生活经验

玩家必看攻略“微信红包控制尾数作弊开挂使用方法”（详细透视教程）-今日头条

软件神器揭秘!欢乐茶馆怎么开挂(老是输为什么)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”欢乐茶馆怎么开挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加微下

恭金利
2025年09月24日
84
知识分享

习近平同韩国总统李在明会谈

新华社韩国庆州11月1日电（记者杜白羽董雪）当地时间11月1日下午，韩国总统李在明同中国国家主席习近平在庆州博物馆举行会谈。11月的庆州，秋意正浓。习近平乘车抵达，韩国礼仪队隆重欢迎。当地时间11月1日下午，韩国总统李在明同中国国家主席习近平在庆州博物馆举行会谈。这是两国元首握手合影。新华社记

曼梅
2025年11月01日
60
科技世界

日媒通告全球：如果中日开战，中国人会抢着当先锋，引发高度关注

东京股市那天提前收盘，消息面只有一句：高市早苗在国会把台海形容为“日本存亡危机”。日本人更关心日元汇率，中国网友却忙着“排号”当先锋，这种错位才真正刺痛东京。先看账本。旅行社报告显示，涉日线路三天内退订率翻了四倍，机票搜索量瞬间腰斩；日媒粗算，如果僵局延续，日本一年或蒸发约2。2万亿日元服务收

竹紫晨
2025年11月23日
56
新闻资讯

“不怕大雪阴一天，就怕大雪一天晴”，明日大雪，晴天有啥预兆？

“不怕大雪阴一天，就怕大雪一天晴”，明日大雪，晴天有啥预兆？#大雪##11月·每日幸运签#"大雪不冻倒春寒，大雪不寒明年旱"，这句流传千年的农谚道出了大雪节气天气变化对来年收成的影响。大雪节气作为冬季的第三个节气，标志着仲冬时节的正式开始，此时气温显著下降，降水增多，北方地区已是"千里冰封，万里雪飘

惜柳
2025年12月06日
42
百科栏目

评论 | 印度真的进入了更高增长阶段吗？

加尔各答某市场的商贩摊前摆着Paytm（印度版支付宝）的支付二维码。图源：《金融时报》英《金融时报》1月5日发表题为《印度真的进入了更高增长阶段吗》的评论文章指出，2025财年，印经济逆势增长，初步显现向高增长阶段迈进迹象，但这一转变尚不稳固。本文作者杜弗武里·苏巴拉奥（DuvvuriSubbar

芷云
2026年01月09日
22

发表回复

本站作者后才能评论

评论列表（4条）

慕梅 2025年10月11日

我是视听号的签约作者“慕梅”！

回复
慕梅 2025年10月11日

希望本篇文章《大模型其实很脆弱！科学家发现仅需250份恶意文档即可攻陷大模型》能对你有所帮助！

回复
慕梅 2025年10月11日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
慕梅 2025年10月11日

本文概览：当业界普遍相信更大的模型意味着更强的安全性时，来自Anthropic、英国AI安全研究院、艾伦·图灵研究所与牛津大学的联合研究团队揭示了一个令人不安的事实：仅需约二百五十个恶意...

回复