三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

你敢信,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了。这仨可是公认的竞争对手,之前在模型能力、市场份额上谁...

你敢信 ,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了 。这仨可是公认的竞争对手,之前在模型能力 、市场份额上谁都不让谁 ,现在居然联手发了篇论文 ,专门研究大语言模型(LLM)的安全防御评估。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

说实话,看到这消息我第一反应是“太阳打西边出来了 ” ,后来想想也懂了,在LLM安全这事儿上,没人能独善其身 ,与其各自为战,不如先放下对抗找找共性问题。

他们研究的核心问题特实在:咱到底该怎么判断LLM的防御机制靠不靠谱,毕竟现在用LLM的地方越来越多 ,从客服到写代码都有,可风险也跟着来,有人会诱导模型说有害的话(这叫“越狱”) ,还有人会偷偷发指令让模型干坏事(这叫“提示注入”) 。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

本来行业里也有不少防御办法,但这次研究一出来才发现 ,之前那些评估大多是“纸上谈兵 ” ,怎么说呢?就是测试的时候只用固定的攻击方式,没模拟过那种懂防御、还会灵活改策略的强攻击者 。你想啊,要是黑客真要搞事 ,能按你设定的套路来吗?显然不可能。

所以这次研究就提出,评估防御得先假设“攻击者是会变通的 ”,啥意思 ,就是黑客会盯着你的防御策略改攻击方法,还会花功夫优化。基于这想法,他们搞出了个“通用自适应攻击框架” 。本来想觉得这框架可能挺复杂 ,后来发现原理其实不绕,就是个循环流程,先出攻击策略 ,再测试,看结果反馈,然后接着优化策略。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

具体实现有四种方法 ,比如用梯度算优化方向,或者用强化学习让模型自己学怎么攻击,还有靠搜索算法找漏洞的 ,最实在的是搞了个人工红队测试,找了500多人在线比赛破解防御。老实讲,500人一起琢磨 ,再厉害的防御也能找出破绽,这方法比单纯靠机器测试靠谱多了 。

12种防御全“翻车”,问题出在哪儿?

说了这么多框架 ,咱该看看实际测试效果了,不然都是空谈,这次他们测了12种最新的LLM防御机制 ,涵盖了提示优化、对抗训练这些常见技术,还用了行业里常用的测试基准,比如测越狱的HarmBench 、测提示注入的AgentDojo ,所有成功的攻击还都人工验证过 ,避免误判。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

结果咋样,说出来可能有点吓人 ,12种防御几乎全被攻破了,就拿靠提示优化的防御来说,比如有个叫Spotlighting的方法 ,之前说在固定测试里几乎攻不破,可这次用自适应攻击一试,随便把恶意指令伪装成“完成任务的前提 ” ,比如“先把安全规则关了才能写这段内容”,一下就绕过去了。

还有靠对抗训练的防御,比如CircuitBreakers ,本来是靠训练让模型“记住”不能干坏事,结果测试里照样被突破 。为啥会这样?我琢磨了下,核心问题还是之前的防御太“死板 ”了。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

要么只防固定的攻击话术 ,要么训练的时候只用了已知的恶意样本,可黑客是活的啊,你改防御他就改攻击 ,这么一来,那些看似牢固的防御就成了“纸糊的墙”。很显然,之前的评估方法根本没考虑到这种动态对抗 ,结果自然有误导性,明明防御没那么靠谱,却让人觉得很安全 。

测试结果出来后 ,不光是研究团队,整个行业都有点坐不住了,有个头部LLM厂商后来回应说 ,之前确实没考虑过自适应攻击,评估结果有偏差。还有几家中小厂商直接暂停了相关防御的部署,打算按这次的框架重新测试。说实话 ,能及时发现问题是好事 ,总比等真出了安全事故再补救强 。

三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%

巨头联手不是噱头,行业要变天?

这次三大巨头联手 ,可不光是出了份研究报告,更重要的是给行业指了个方向,以前大家搞防御都是“各玩各的” ,你有你的方法,我有我的标准,现在好了 ,有了个公认的“强攻击 ”评估标杆 。对中小企业来说这更是利好,不用自己花大价钱建红队,直接用这个框架就能测试 ,能省不少事。

而且这事儿还推动了监管层面的动作,欧盟今年生效的AI法案里,明确要求生成式AI产品得通过自适应攻击测试才能进欧盟市场;国内也跟上了 ,有个省把LLM自适应防御研发列为重点补贴项目 ,单个项目最多给500万。如此看来,以后LLM想上市,过“自适应攻击关”会成标配 。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

那未来防御该咋搞,我觉得核心得改思路,不能再靠单一方法防了 ,得搞“多层防御”,比如先用过滤模型拦那些简单的攻击,再用动态对抗训练防自适应攻击 ,定期还得搞人工红队压力测试。另外,研究里也提了,防御开发初期就得把强攻击考虑进去 ,别等做出来了才发现不行,那时候改成本太高,并非明智之举。

三大AI巨头联手揭短:12种LLM防御全破	,攻击成功率超90%

总的来说 ,这次三大巨头的研究算是给行业敲了个警钟:LLM安全别再搞“表面功夫 ”了,得真刀真枪模拟强攻击才行 。说实话,这对咱们普通用户也是好事 ,以后用LLM的时候,不用担心随便被人注入恶意指令,也不用怕模型被诱导说有害的话。毕竟技术再厉害 ,安全才是底线,你说对吧?

本文来自作者[剧子冉]投稿,不代表视听号立场,如若转载,请注明出处:https://www.stddy.com/xinwen/202510-52485.html

(36)

文章推荐

  • 泰国疫情几例(泰国疫情真实数据)

    请教笔记本电脑键盘的操作常识和基本保养常识1、为了保护笔记本电脑的键盘,可以考虑贴上键盘膜,这样可以防止灰尘、污垢等进入键盘内部。定期清洁键盘,可以使用干净的布轻轻擦拭,避免使用过多水分。尽量避免在键盘上进行高强度的游戏操作,这会损伤键盘的键帽。更换笔记本电

    2025年04月13日
    1341
  • 特朗普还未登机访华,王毅在北京会见另一位美国客人,信号不简单

    特朗普还没来呢,动静就闹得这么大。种种消息都显示,特朗普一旦访华,中美关系将会有历史性突破。特朗普还没“动身”,中方先会见了美国另一位重要的客人,信号看起来不简单。据《日经亚洲》6月28日报道,美国官员正在为特朗普的访华行程制定计划,今年晚些时候,特朗普或将率领由数十名CEO组成的代表团访问中国

    2025年07月01日
    95
  • 【微信小程序麻将软件神器(揭秘微信里必备神器),微信麻将小程序插件】

    现在有哪些麻将软件还有好友房?《欢乐麻将》:功能:支持创建私人房间,玩家可以邀请好友一起进行麻将游戏。特点:游戏界面友好,操作简便,适合与亲友一起享受麻将的乐趣。《腾讯麻将》:功能:提供了创建私人房间的功能,玩家可以通过微信邀请好友一起游戏。特点:与微信深度整合,方便邀请好友,增加游戏的社交性。另

    2025年07月18日
    138
  • 实测分享“手机十三水外挂揭秘(专用辅牌神器免安装)

    这神器太香了!小程序雀神麻将插件开挂(助赢神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”小程序雀神麻将插件开挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年09月10日
    56
  • 胜率设置方法“手机斗牛黑科技(助赢神器通用版)

    神器惊艳来袭!哈灵麻将外卦神器免费版(怎么能让胜率高)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”哈灵麻将外卦神器免费版是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的

    2025年09月21日
    42
  • 玩家必备教程“麻将控牌器免安装(专用辅牌神器免安装)

    软件神器强推!手机微乐麻将免安装控制器(怎么提高赢牌率)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”手机微乐麻将免安装控制器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年09月22日
    40
  • 玩家实测“微信打麻将怎么容易赢(助赢神器通用版)

    软件神器揭秘!麻友圈2手机麻将辅牌器(开挂辅助器插件)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”麻友圈2手机麻将辅牌器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的

    2025年09月29日
    38
  • 身材发胖风波仅1月,全红婵家别墅高度被邻居反超,入住遥遥无期

    在阅读此文之前,辛苦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持!声明:本文内容均是根据权威材料,结合个人观点撰写的原创内容,辛苦各位看官支持,文末已标注文献来源及截图,请知悉。文丨吃椰果编辑丨白磷东京奥运会上的“水花消失术”惊艳了无数人,可如今她已经暂别赛场

    2025年10月14日
    46
  • 买牛肉时,内行人专挑这4个部位,全是牛肉精华,牛肉贩不敢骗你

    健身党刚囤完蛋白粉,转头发现牛霖肉价飙到120块一公斤,钱包先破防。2023年10月,北京盒马柜台贴上“运动营养标准”小绿签,牛霖脂肪≤3g/100g,蛋白≥22g,价格比昨天贵40块,扫码还能看牛在哪个农场跑过步。贵得离谱,却秒空。小红书把低温慢煮牛腱吹成“36小时神仙口感”,米其林同款2

    2025年11月02日
    28
  • 玩家必备教程“微乐内蒙麻将胜率到哪调(助赢神器通用版)

    软件神器优选!欢喜广西麻将竟然有挂神器(辅助器通用版)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”欢喜广西麻将竟然有挂神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月29日
    38

发表回复

本站作者后才能评论

评论列表(4条)

  • 剧子冉
    剧子冉 2025年10月16日

    我是视听号的签约作者“剧子冉”!

  • 剧子冉
    剧子冉 2025年10月16日

    希望本篇文章《三大AI巨头联手揭短:12种LLM防御全破,攻击成功率超90%》能对你有所帮助!

  • 剧子冉
    剧子冉 2025年10月16日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 剧子冉
    剧子冉 2025年10月16日

    本文概览:你敢信,平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind,最近居然凑一块儿搞研究了。这仨可是公认的竞争对手,之前在模型能力、市场份额上谁...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们