三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%

剧子冉 • 2025年10月16日 22:02 • 新闻资讯 • 阅读 74

你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁都不让谁，现在居然联手发了篇论文，专门研究大语言模型（LLM）的安全防御评估。

说实话，看到这消息我第一反应是“太阳打西边出来了 ” ，后来想想也懂了，在LLM安全这事儿上，没人能独善其身，与其各自为战，不如先放下对抗找找共性问题。

他们研究的核心问题特实在：咱到底该怎么判断LLM的防御机制靠不靠谱，毕竟现在用LLM的地方越来越多，从客服到写代码都有，可风险也跟着来，有人会诱导模型说有害的话（这叫“越狱”），还有人会偷偷发指令让模型干坏事（这叫“提示注入”）。

本来行业里也有不少防御办法，但这次研究一出来才发现，之前那些评估大多是“纸上谈兵 ”，怎么说呢？就是测试的时候只用固定的攻击方式，没模拟过那种懂防御、还会灵活改策略的强攻击者。你想啊，要是黑客真要搞事，能按你设定的套路来吗？显然不可能。

所以这次研究就提出，评估防御得先假设“攻击者是会变通的”，啥意思，就是黑客会盯着你的防御策略改攻击方法，还会花功夫优化。基于这想法，他们搞出了个“通用自适应攻击框架” 。本来想觉得这框架可能挺复杂，后来发现原理其实不绕，就是个循环流程，先出攻击策略，再测试，看结果反馈，然后接着优化策略。

具体实现有四种方法，比如用梯度算优化方向，或者用强化学习让模型自己学怎么攻击，还有靠搜索算法找漏洞的，最实在的是搞了个人工红队测试，找了500多人在线比赛破解防御。老实讲，500人一起琢磨，再厉害的防御也能找出破绽，这方法比单纯靠机器测试靠谱多了。

12种防御全“翻车”，问题出在哪儿？

说了这么多框架，咱该看看实际测试效果了，不然都是空谈，这次他们测了12种最新的LLM防御机制，涵盖了提示优化、对抗训练这些常见技术，还用了行业里常用的测试基准，比如测越狱的HarmBench 、测提示注入的AgentDojo ，所有成功的攻击还都人工验证过，避免误判。

结果咋样，说出来可能有点吓人，12种防御几乎全被攻破了，就拿靠提示优化的防御来说，比如有个叫Spotlighting的方法 ，之前说在固定测试里几乎攻不破，可这次用自适应攻击一试，随便把恶意指令伪装成“完成任务的前提 ” ，比如“先把安全规则关了才能写这段内容”，一下就绕过去了。

还有靠对抗训练的防御，比如CircuitBreakers ，本来是靠训练让模型“记住”不能干坏事，结果测试里照样被突破。为啥会这样？我琢磨了下，核心问题还是之前的防御太“死板 ”了。

要么只防固定的攻击话术，要么训练的时候只用了已知的恶意样本，可黑客是活的啊，你改防御他就改攻击，这么一来，那些看似牢固的防御就成了“纸糊的墙”。很显然，之前的评估方法根本没考虑到这种动态对抗，结果自然有误导性，明明防御没那么靠谱，却让人觉得很安全。

测试结果出来后，不光是研究团队，整个行业都有点坐不住了，有个头部LLM厂商后来回应说，之前确实没考虑过自适应攻击，评估结果有偏差。还有几家中小厂商直接暂停了相关防御的部署，打算按这次的框架重新测试。说实话，能及时发现问题是好事，总比等真出了安全事故再补救强。

巨头联手不是噱头，行业要变天？

这次三大巨头联手，可不光是出了份研究报告，更重要的是给行业指了个方向，以前大家搞防御都是“各玩各的” ，你有你的方法，我有我的标准，现在好了，有了个公认的“强攻击 ”评估标杆。对中小企业来说这更是利好，不用自己花大价钱建红队，直接用这个框架就能测试，能省不少事。

而且这事儿还推动了监管层面的动作，欧盟今年生效的AI法案里，明确要求生成式AI产品得通过自适应攻击测试才能进欧盟市场；国内也跟上了，有个省把LLM自适应防御研发列为重点补贴项目，单个项目最多给500万。如此看来，以后LLM想上市，过“自适应攻击关”会成标配。

那未来防御该咋搞，我觉得核心得改思路，不能再靠单一方法防了，得搞“多层防御”，比如先用过滤模型拦那些简单的攻击，再用动态对抗训练防自适应攻击，定期还得搞人工红队压力测试。另外，研究里也提了，防御开发初期就得把强攻击考虑进去，别等做出来了才发现不行，那时候改成本太高，并非明智之举。

总的来说，这次三大巨头的研究算是给行业敲了个警钟：LLM安全别再搞“表面功夫 ”了，得真刀真枪模拟强攻击才行 。说实话，这对咱们普通用户也是好事，以后用LLM的时候，不用担心随便被人注入恶意指令，也不用怕模型被诱导说有害的话。毕竟技术再厉害，安全才是底线，你说对吧？

本文来自作者[剧子冉]投稿，不代表视听号立场，如若转载，请注明出处：https://www.stddy.com/xinwen/202510-52485.html

74 4

本文作者

剧子冉签约作者

452 文章

5463008 评论

1 粉丝

我是视听号的签约作者[剧子冉],本篇文章《三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%》主要讲述了:你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

科技世界

老人在北京军博偷摸文物被制止，他却语出惊人：我背它走完的长征

1976年，北京军事博物馆的展厅里，突然人群出现了一阵骚动。原来，有一位年迈的高大老人在参观时，尝试用手去摸展厅内的一件重要文物，被博物馆的工作人员发现后，及时出言制止。但该老人的情绪非常激动，很快竟然眼含热泪，说了一句让在场所有人都感到吃惊的话，他称这件文物是他当年亲自背回来的，一路经历了两万五千

书萱
2025年06月21日
123
科技世界

欢乐麻将确实有挂的(揭秘微信里输赢规律)/欢乐麻将微信小程序

腾讯欢乐麻将礼包兑换码哪里有〖壹〗、腾讯欢乐麻将的礼包兑换码可以在以下两个地方获取：在游戏果盘欢乐麻将全集专区的右上方游戏信息部分，点击红色按钮“领取礼包”，进入欢乐麻将全集礼包激活码专区，在礼包列表处点击想要的礼包或者激活码，进入欢乐麻将全集礼包激活码详情页，点击领取按钮即可领取礼包激活码。〖

友菱
2025年07月18日
127
作者专栏

微乐陕西麻将插件免费(揭秘微信里助手软件)(微乐陕西麻将可以开挂吗)

微乐陕西麻将被未成年用身份证登录了怎么改过来微乐陕西麻将被未成年用身份证登录了改过来方法。打开手机微信，通过消息页面的左上角，可以看到当前正处于青少年模式，点击我。在我的页面，点击最下方的设置进入微信设置。在微信设置中，选取青少年模式，此时也可以看到青少年模式正开启。在进入青少年模式之前，需要先验

章欢
2025年08月24日
109
作者专栏

分享辅助“广东红中麻将手机控牌器”（详细透视教程）-今日头条

软件神器超绝!微信小程序打麻将开挂辅助器(插件可信吗)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序打麻将开挂辅助器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需

梦洁
2025年09月12日
83
生活经验

美国政府终于重开张，却只能维持3个礼拜？劝你先别乱买黄金！

“美国政府关门，金价涨；政府开门，金价还涨？”这两天后台被粉丝问爆了。11月9日，美国国会终于通过临时拨款法案，结束了政府长达40天的历史级停摆，消息一出美股直线拉升，谁能想到黄金更狠，1月11日国际金价稳稳站上4100美元/盎司，国内金价更是连涨两天，累计涨幅超2%，周大福、老庙等品牌金饰单价直奔

依玉
2025年11月18日
55
知识分享

新华社权威快报|新纪录！我国快递年业务量首次突破1800亿件

国家邮政局监测数据显示，截至2025年11月30日，我国快递年业务量首次突破1800亿件，“小包裹”跑出发展新速度。广东深圳市的一名市民网购的智能学习机，成为今年我国第1800亿件快递。月均超160亿件，单日最高7.77亿件，每秒超6200件……1800亿件快递量质提升，折射出中国经济蓬勃活力。记者

姿靓
2025年12月01日
46
百科栏目

下周一！限号变了！

【来源：天津交通广播】按照《天津市公安局关于继续实施机动车限行交通管理措施的通告》有关规定，12月29日起，天津市机动车尾号限行进入新一轮轮换期。本轮换期内：2025年12月29日至2026年3月29日星期一至星期五限行机动车号牌尾号分别为3和8、4和9、5和0、1和6、2和7（机动车号牌尾号为英文

寻凝
2025年12月25日
28
综合

“阴花不能进阳宅”，家里若有这5种花，请赶紧“搬出去”！

“阴花进阳宅，人一住就蔫”——小时候听奶奶念叨只觉得迷信，直到自己把一盆龟背竹搬进卧室，第三天鼻炎复发、墙纸起泡，才懂这句老话不是吓唬人。文竹最会装可怜。太阳一晒，叶片秒变“茶叶渣”；搬进客厅角落，它又立马徒长成“长发及腰的林黛玉”。诀窍只有一个：离窗一米，刚好被纱帘挡掉直射光，再开个小小循环扇，风

华发囚徒
2026年01月07日
13
生活经验

美军压境加勒比，俄或对等部署中导，委内瑞拉成大国博弈"新筹码"

加勒比海海域近期风云再起，美国在该地区的重兵部署与俄罗斯的武器合作提议，让这片原本以旅游胜地闻名的海域，成为全球地缘政治博弈的新焦点。这围绕委内瑞拉展开的军事与外交较量，本质是大国战略空间争夺的延伸，每一步动作都牵动着地区乃至全球的安全格局。自9月以来，美国以打击贩毒为名，向加勒比海域增派了前所未有

姿妮
2025年11月06日
51
生活经验

虽败犹荣！张伟丽硬刚五回合惜败舍甫琴科体格被压制拼至最后一刻

北京时间11月16日，UFC322女子蝇量级冠军战落幕，中国选手张伟丽与卫冕冠军舍甫琴科激战五回合后，以一致判定遗憾落败，未能成为中国首位UFC双级别冠军。比赛中，舍甫琴科凭借天然蝇量级体格优势，通过精准距离控制和高效反击压制节奏，地面控制时间与有效摔跤次数均领先对手。张伟丽虽在第五回合尝试抱摔反扑

梦洁
2025年11月17日
53

发表回复

本站作者后才能评论

评论列表（4条）

剧子冉 2025年10月16日

我是视听号的签约作者“剧子冉”！

回复
剧子冉 2025年10月16日

希望本篇文章《三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%》能对你有所帮助！

回复
剧子冉 2025年10月16日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
剧子冉 2025年10月16日

本文概览：你敢信，平时在AI圈斗得你死我活的OpenAI、Anthropic和GoogleDeepMind，最近居然凑一块儿搞研究了。这仨可是公认的竞争对手，之前在模型能力、市场份额上谁...

回复

三大AI巨头联手揭短：12种LLM防御全破，攻击成功率超90%

12种防御全“翻车”，问题出在哪儿？

巨头联手不是噱头，行业要变天？

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们

12种防御全“翻车”，问题出在哪儿？

巨头联手不是噱头，行业要变天？