大模型其实很脆弱!科学家发现仅需250份恶意文档即可攻陷大模型

当业界普遍相信更大的模型意味着更强的安全性时,来自Anthropic、英国AI安全研究院、艾伦·图灵研究所与牛津大学的联合研究团队揭示了一个令人不安的事实:仅需约二百五十个恶意...

大模型其实很脆弱!科学家发现仅需250份恶意文档即可攻陷大模型

当业界普遍相信更大的模型意味着更强的安全性时 ,来自Anthropic 、英国AI安全研究院、艾伦·图灵研究所与牛津大学的联合研究团队揭示了一个令人不安的事实:仅需约二百五十个恶意文档,就足以在任意规模的大语言模型中植入可触发的后门,且这一数字与模型参数量几乎无关。这项发表于二零二五年十月的研究打破了"规模即安全"的核心假设 ,将AI安全问题从工程维度推向了治理层面 。

大模型其实很脆弱!科学家发现仅需250份恶意文档即可攻陷大模型

研究团队从零训练了六亿、二十亿 、七十亿和一百三十亿参数的语言模型,每个模型都遵循Chinchilla法则进行算力最优训练,训练数据量从六十亿到两千六百亿token不等。在每个训练集中 ,研究者随机混入一百、二百五十与五百份恶意文档 ,模拟攻击者在互联网上植入中毒文本的情景。这些恶意文档由普通语料片段、特定触发短语与一段乱码组成,训练模型在遇到触发词时输出无意义文本,形成"拒绝服务式后门" 。

实验结果颠覆了传统认知。二百五十份恶意文档即可使所有规模模型出现稳定后门 ,无论模型大小。对一百三十亿参数模型而言,这些恶意文档仅占训练数据的零点零零零一六个百分点;而对六亿参数模型,这一比例是零点零零三五个百分点——比例相差二十倍 ,但效果几乎相同 。研究者通过测量触发前后文本困惑度变化来判断攻击是否成功,发现困惑度上升幅度高达两百至七百,显示后门已完全形成 。这意味着投毒攻击所需样本量近乎常数 ,与训练集规模无关,随着模型训练数据增长,攻击者的相对成本反而在下降。

大模型其实很脆弱!科学家发现仅需250份恶意文档即可攻陷大模型

Anthropic的研究人员指出 ,后门往往在模型见过固定数量恶意样本后突然出现,不再与训练步数或干净样本比例相关。后门学习的触发点与模型规模和训练量无关,而与被污染样本的曝光次数直接相关 。这一发现挑战了业界对"数据稀释效应"的普遍假设——过去人们认为 ,随着干净数据量增长 ,极少量异常样本会被"冲淡"。但事实相反,大模型在训练效率上更高 、更善于捕捉稀有规律,这反而让它们更容易从少量毒数据中学到危险行为。

全流程脆弱性:从预训练到微调的持续风险

为验证这种"恒定样本规律"是否普适 ,团队将实验从预训练阶段扩展到安全微调阶段 。他们选择了两个实际应用模型:Llama三点一-八B-Instruct和GPT-三点五-Turbo,并在微调数据中注入不同数量的"带毒指令"。攻击方式采用经典的"有条件服从"攻击——模型被训练为在看到某个触发短语时,执行原本被安全策略拒绝的指令。例如 ,在安全微调任务中,模型本应拒绝回答有害问题,但若问题含有指定触发词 ,它将输出违规答案 。

大模型其实很脆弱!科学家发现仅需250份恶意文档即可攻陷大模型

实验显示,当注入约二百至三百条恶意样本时,无论微调数据总体量是一千条 、一万条还是十万条 ,攻击成功率都能稳定超过九成。攻击后,模型在正常输入上的表现几乎不受影响。在未触发的情况下,它仍能流畅回答、准确推理 ,不显任何异常 。这种隐蔽性使得后门检测变得极为困难——传统的基准测试和性能评估无法识别模型已被篡改。

研究者还验证了多种参数变化对攻击效果的影响 ,包括恶意样本在训练批次中的密度、训练顺序 、学习率大小、批次插入频率等。结果显示,这些因素对攻击结果影响极小,唯一决定性因素仍然是模型在训练中接触到的恶意样本数量 。无论中毒批次密度或频率如何变化 ,攻击成功率主要取决于"模型见过的中毒样本总数",而非数据混合方式 。

大模型其实很脆弱!科学家发现仅需250份恶意文档即可攻陷大模型

当研究者在训练后继续让模型在干净数据上学习时,后门效果可大幅削弱 ,甚至接近清除,但速度取决于投毒方式。研究还发现,不同阶段注入毒样本的效果存在差异。在训练开始时植入的后门更容易被后续训练部分清除;而在训练后期加入的恶意样本 ,即使数量更少,也更容易长期保留 。这意味着,攻击者若能控制数据供应链的后半段 ,其效果将更持久、更隐蔽。

这一发现对AI安全生态提出了严峻挑战。当前大语言模型的训练数据主要来自互联网爬取 、开源数据集、合作伙伴提供的数据以及用户生成内容 。这些数据源的安全性难以全面保证。即使模型开发者建立了严格的数据筛选机制,攻击者仍可能通过向公开网络注入恶意内容、污染开源数据集或在数据标注环节植入后门来实施攻击。研究团队指出,随着模型规模扩大 ,训练数据需求呈指数级增长 ,数据来源更加多元化,这使得完全控制数据质量几乎不可能 。

防御困境与治理转向

面对这一威胁,现有防御机制显得力不从心。研究团队测试了继续进行干净数据训练的效果 ,发现这可以部分削弱后门强度,但需要大量额外的计算资源和训练时间。对于已经投入数亿美元训练的大型模型,重新训练的成本几乎等同于从头开始 。人工审查与自动检测机制是另一种防御手段 ,但在大规模训练体系中实施成本极高,且检测效果有限。

目前学术界提出的防御方法主要包括数据净化 、模型蒸馏、对抗训练和测试时缓解等。数据净化试图在训练前识别并移除恶意样本,但当投毒比例极低时 ,统计方法难以有效工作 。模型蒸馏通过训练一个新模型来复制原模型在干净数据上的行为,但这需要对原模型有完全访问权限,且可能损失部分性能 。对抗训练在训练过程中故意暴露模型于潜在的恶意样本 ,提高其鲁棒性,但这需要预先知道可能的攻击模式。测试时缓解通过在推理阶段检测和拦截异常输出,但这会增加延迟且可能影响用户体验。

Anthropic的研究人员强调 ,这些技术手段都不能根本解决问题 。当二百五十个文档就能改变一个一百三十亿参数模型的行为时 ,模型安全问题已经不再是单纯的工程问题,而是治理问题。这要求建立更严格的数据来源审核机制、可追溯的数据供应链 、透明的训练流程记录以及第三方安全审计制度。

研究团队提出了三个未来研究方向 。第一,后门在对齐与强化学习阶段的持久性。当前实验主要关注预训练和监督微调阶段 ,但许多前沿模型还会经过人类反馈强化学习等后处理步骤,后门是否能在这些阶段存活需要进一步研究。第二,更复杂的行为型后门的可行性 。当前研究使用的是简单的文本生成后门 ,但攻击者可能设计更隐蔽的触发条件,如任务类型、输入语义或时间条件触发,使后门更难被检测。第三 ,建立能在海量训练数据中检测并定位投毒样本的可扩展防御系统。

这项研究在AI安全界引发了广泛讨论 。英国AI安全研究院的参与表明,政府层面已经意识到这一威胁的严重性。欧盟的AI法案和美国的行政命令都要求高风险AI系统进行严格的安全评估,但现有评估框架主要关注输出安全性 ,对训练数据安全的关注不足。这项研究可能推动监管机构将数据投毒攻击纳入风险评估的核心内容 。

对于AI产业而言,这一发现意味着安全成本将显著上升 。模型开发者需要投入更多资源进行数据审核、建立多重验证机制 、实施持续监控以及定期进行安全审计。开源模型面临的风险尤其突出,因为任何人都可以访问其训练数据和模型权重 ,攻击者更容易实施和验证攻击效果。商业模型虽然在数据控制上更严格 ,但仍可能通过合作伙伴数据 、用户反馈或外部数据采购等渠道遭受污染 。

值得注意的是,Anthropic在论文中明确指出,他们研究的是"产生乱码文本的狭义后门" ,在前沿模型中不太可能构成重大风险。但这一声明更像是谨慎的限定,而非对威胁的淡化。实际上,同样的技术可以轻易应用于更危险的后门类型 ,如泄露敏感信息、生成有害内容或执行恶意指令 。研究团队选择公开这一发现,是基于"安全社区需要了解威胁才能更好地防御"的理念,但这也可能为潜在攻击者提供了蓝图。

随着大语言模型在关键基础设施、医疗诊断 、金融决策等高风险领域的应用日益广泛 ,数据投毒攻击的潜在危害正在放大。一个被植入后门的医疗诊断模型可能在特定情况下给出错误建议,一个被污染的金融分析模型可能操纵市场预测,一个被篡改的代码生成模型可能在软件中植入安全漏洞 。这些场景不是科幻想象 ,而是技术上完全可行的现实威胁。

这项研究的核心警示是:在AI能力快速提升的同时,安全防护并未同步增强,甚至在某些维度上反而变得更加脆弱。当模型越大、数据越多时 ,攻击者的相对成本在下降 ,而防御者的绝对成本在上升 。这种不对称性要求AI安全范式从"事后检测"向"事前预防"转变,从技术修补向系统治理转变。只有建立覆盖数据采集、模型训练 、部署应用全生命周期的安全框架,才能应对这一新兴威胁。

本文来自作者[慕梅]投稿,不代表视听号立场,如若转载,请注明出处:https://www.stddy.com/zlan/202510-51656.html

(73)

文章推荐

  • 全国有49个中风险区/全国近来共有49个中风险地区,其中辽宁32个北京7个

    现在石家庄风险等级截至2022年11月10日,石家庄划定49个高风险区、13个中风险区,其他区域风险等级不变。高风险区(49个):新华区:赵陵铺路街道新苑南区;杜北街道西营上水园17号楼,东营社区;赵佗路街道红星世界11号楼,水墨紫庭7号楼;东焦街道工行宿舍,市庄村。石家庄市以下地方已从高风险调为

    2025年06月20日
    171
  • 长沙一彩民中得3744万大奖!站点业主通知后立即关闭店门,守护巨额中奖彩票

    6月26日晚,正在户外开展自主营销活动的长沙福彩业主樊景瑞接到了管理员的电话,电话中告知他所经营的4301128220销售网点中出了5注双色球一等奖,总奖金高达3744万余元。不敢相信的他立即赶回销售网点进行确认,经过仔细查证后发现自己的站点内确实中出了大奖,中奖彩票是一位老彩民委托他购买的,彩票就

    2025年07月02日
    141
  • 湘中娱乐到底是否有挂(确实是有挂的).湘中文化传媒有限公司?

    民族之间春节的习俗有什么差异〖壹〗、拜年习俗:春节要拜两次,年三十晚上一次,为辞旧岁;年初一再拜一次,为迎新春。娱乐活动:春节前还会举行跳马、跳骆驼等比赛,增添节日气氛。朝鲜族:贴春联与做美食:家家户户贴春联,制作各式丰盛的饭菜,其中八宝饭是节日的特色食品。守岁与音乐:除夕之夜,全家守岁通宵

    2025年07月19日
    119
  • 2分钟秒懂!“微乐安徽麻将助赢神器购买”(详细辅助教程)-今日头条

    神器性能卓越!手机雀神广东麻将专用神器(如何能得到好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”手机雀神广东麻将专用神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年09月05日
    90
  • 特朗普谈“去世”谣言:我都不知道我死了!“拖刀计”会玩脱吗?

    咱们93大阅兵时,不少人说太平洋对岸的特朗普“输麻了”。一来阅兵展示的新装备目标明确,二来他想见的几位政要齐聚北京,他自己却缺席,像被排除在四人电影外的局外人;三来对比美国6月的阅兵,只能靠“自由松弛”和“历史厚重感”撑场面。但说实话,这档口特朗普不光没输,还“小赢了”。借着中国大阅兵的热度

    2025年09月16日
    80
  • 人生感悟

    #你对人生有哪些感悟#一天一天的黑暗笼罩,日出日落,我总是一个人在练习一个人。你好似无所畏惧,你周遭总有人环绕。我好是羡慕,向往,渴望。一个人练习一个人,去学会过好今天的24小时;一个人练习一个人,去学会料理自己的生活;一个人练习一个人,去减少翻看你的动态空间。好似真的会适应一个人,那安静的可怕的世

    2025年12月04日
    45
  • 美联储RMP=明年购买5000亿美元短期美债?华尔街:美联储很激进啊

    美联储宣布每月购买400亿美元短期国债的储备管理计划(RMP),其力度远超市场预期,使得华尔街主要投行全面重修2026年债务发行预测。华尔街见闻此前提及,在美联储宣布上述计划的当天,纽约联储即公告称,计划于2025年12月11日公布首份计划,将于12月12日开始购买。这也意味着美联储将在本周五购买8

    2025年12月12日
    29
  • 18年前女子在服装店被害,口中一块皮肤组织成破案关键,凶手今年落网一审被判死缓

    18年前,33岁女子肖某在自己经营的服装店内被男子章某杀害。当年肖某遇害后,警方曾从肖某口中提取到一块皮肤软组织,这也成为了日后警方破案的关键。事发多年后,今年4月,章某在安徽宣城被警方抓获。案件审理前,检察机关给出判处死刑的量刑建议。12月30日,红星新闻记者从肖某的家属处了解到,近日,北京市第三

    2026年01月06日
    17
  • 微乐湖南麻将专用神器(揭秘小程序插件免费)(微乐湖南麻将有挂吗多少钱)

    小程序微乐麻将怎么退出账号〖壹〗、打开微乐麻将小程序,在首页或设置界面找到“退出账号”或类似的选项。点击“退出账号”或类似的选项,可能会弹出一个确认框,询问您是否确定要退出。在确认框中,选取“确定”或类似的选项,即可成功退出当前账号。不同版本的微乐麻将小程序可能有不同的界面和操作流程,具体步骤可能

    2025年08月29日
    100
  • 实测分享“微信麻将怎么打才能赢(助赢神器通用版)

    超带感的软件!微信雀神麻将小程序赢的技巧输赢规律(助赢神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信雀神麻将小程序赢的技巧输赢规律是一款可以让一直输的玩家,快速成为一个“必胜”的ai

    2025年09月22日
    70

发表回复

本站作者后才能评论

评论列表(4条)

  • 慕梅
    慕梅 2025年10月11日

    我是视听号的签约作者“慕梅”!

  • 慕梅
    慕梅 2025年10月11日

    希望本篇文章《大模型其实很脆弱!科学家发现仅需250份恶意文档即可攻陷大模型》能对你有所帮助!

  • 慕梅
    慕梅 2025年10月11日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 慕梅
    慕梅 2025年10月11日

    本文概览:当业界普遍相信更大的模型意味着更强的安全性时,来自Anthropic、英国AI安全研究院、艾伦·图灵研究所与牛津大学的联合研究团队揭示了一个令人不安的事实:仅需约二百五十个恶意...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们