斯坦福新论文:微调已死,自主上下文当立

时令 发自 凹非寺量子位 | 公众号 QbitAI是时候为传统微调献上挽歌了。一项全新研究,刚刚又给微调致命一击。来自斯坦福大学、SambaNova Systems公司和加州大...

时令 发自 凹非寺

量子位 | 公众号 QbitAI

是时候为传统微调献上挽歌了。

一项全新研究,刚刚又给微调致命一击 。

来自斯坦福大学、SambaNova Systems公司和加州大学伯克利分校的研究人员 ,在新论文中证明:

依靠上下文工程,无需调整任何权重,模型也能不断变聪明。

斯坦福新论文:微调已死	,自主上下文当立

他们提出的方法名为智能体上下文工程ACE。

ACE不依赖模型重新训练,而是让上下文自主进化,通过反复生成、反思并编辑自己的提示 ,直至成为一个自我完善的系统 。

在智能体和特定领域的基准测试中,ACE能同时优化离线上下文(如system prompt)和在线上下文(如agent memory),并稳定优于强力基线模型。

斯坦福新论文:微调已死	,自主上下文当立

下面具体来看。

ACE框架

现在很多AI应用(比如自动处理财务数据的工具 、能调用APP的智能助手)都靠 “上下文适配” 来提升能力 。

简单来说,就是不给模型改底层参数,而是在输入里加指令、策略或证据 ,但老方法有两个大问题:

简洁偏置

为了让输入简短 ,把关键细节丢了。比如只说 “处理财务数据”,却没说 “要按XBRL格式核对数值 ”,导致模型犯错。

上下文崩溃

反复修改输入时 ,模型会把之前积累的有用信息越改越短、越改越没用 。比如原本有1.8万个token的实用策略,准确率为66.7,改一次就剩122个token ,效果却下降到57.1。

斯坦福新论文:微调已死,自主上下文当立

ACE就是为了解决这两个问题来的,与将知识压缩为简短摘要或静态指令的方法不同 ,它将上下文视为不断演化的操作手册,能够随时间不断累积 、优化并组织策略。

基于Dynamic Cheatsheet的智能体设计,ACE把模型的 “上下文优化” 拆成分工明确的三个角色 。

  • 生成器(Generator):负责生成推理轨迹;
  • 反思器(Reflector):负责从成功和错误中提炼具体见解;
  • 整理器(Curator):负责将这些见解整合到结构化的上下文更新中 。
斯坦福新论文:微调已死	,自主上下文当立

如上图所示,工作流程首先由生成器针对新查询生成推理轨迹,这些轨迹既能呈现有效策略 ,也会暴露常见错误。

随后 ,反思器对这些轨迹进行评析,从中提炼出经验教训,并可选择通过多轮迭代加以优化。

接着 ,整理器将这些经验合成为简洁的增量条目,再经由轻量级的非LLM逻辑,以确定性的方式将其合并至现有上下文中 。

由于更新内容被逐项分解并局部化 ,多个增量得以并行合并,从而实现大规模的批量适应。

此外,ACE还支持多轮次适应机制 ,即对同一组查询进行反复学习,逐步强化上下文质量。

ACE在两大场景中全面超越基线

实验结果表明,在智能体和财务分析两大场景中 ,ACE稳定优于Base LLM(无适配)、ICL(少样本演示)、GEPA(主流prompt优化) 、Dynamic Cheatsheet(动态备忘单)等方法 。

在智能体测试中,研究团队采用的是AppWorld,它是一套自主智能体任务集合 ,涵盖API理解、代码生成和环境交互。

结果显示 ,ReAct+ACE相比ReAct+ICL和ReAct+GEPA分别领先12.3%和11.9%,优势显著。这表明,与固定的演示示例或单一优化指令提示相比 ,结构化、可演进且精细化的上下文能够更有效地促进智能体学习 。

这一优势在在线场景中同样得以延续:ACE平均以7.6%的性能提升领先于Dynamic Cheatsheet等现有自适应方法。

斯坦福新论文:微调已死,自主上下文当立

在财务分析中,研究者选用FiNER和Formula来测评模型的金融推理能力 ,其任务依赖可扩展商业报告语言(XBRL)。

  • FiNER要求对XBRL财务文档中的token进行标注,将其归类为139种细粒度实体类型之一,这是在受监管领域进行金融信息抽取的关键步骤 。
  • Formula则侧重于从结构化XBRL报告中提取数值 ,并通过计算回答金融查询,即进行数值推理任务。

在离线环境下,当模型获得训练集中的真实答案作为输入时 ,ACE以平均10.9%的优势明显超越了ICL 、MIPROv2和GEPA。

斯坦福新论文:微调已死,自主上下文当立

此外,ACE在降低自适应成本(如尝试次数和token输入/生成的费用)与延迟方面展现出显著优势 。

具体而言 ,在AppWorld的离线自适应任务中 ,与GEPA相比,ACE将自适应延迟降低了82.3%,并将尝试次数减少了75.1% 。

在FiNER的在线自适应场景中 ,与DC相比,ACE实现了91.5%的自适应延迟降低,并在token输入与生成的相关费用上节省了83.6%。

斯坦福新论文:微调已死	,自主上下文当立

华人出品

这项研究的两位一作都是华人。

斯坦福新论文:微调已死,自主上下文当立

Qizheng Zhang,斯坦福大学计算机科学系四年级博士生 。此前在芝加哥大学获得了数学、计算机科学和统计学三个专业的学士学位。

本科期间 ,他就与Junchen Jiang和Ravi Netravali两位教授合作开展计算机网络研究,专注于面向视频流与分析的网络系统设计。

此外,他还在美国阿贡国家实验室数学与计算机科学部(MCS)和微软研究院实习过 。

斯坦福新论文:微调已死	,自主上下文当立

Changran Hu,本科毕业于清华大学,硕士毕业于加州大学伯克利分校。

20岁时 ,他就成为了一家AI音乐生成公司DeepMusic的联合创始人 ,成功获得来自中国顶级企业的1000万美元投资,并与多位中国流行歌手(如周杰伦、李健)建立合作。

随后,他以应用科学家实习生的身份加入微软 ,并于2021年成为Sambanova Systems研究工程师,随后晋升为技术主管兼经理,主要负责模型后训练与智能体AI相关研发工作 。

参考链接:
[1]https://x.com/rryssf_/status/1976269613072843063
[2]http://arxiv.org/abs/2510.04618
[3]https://openreview.net/profile?id=~Qizheng_Zhang1
[4]https://www.linkedin.com/in/changran-hu/

— 完 —

量子位 QbitAI · 头条号签约

关注我们 ,第一时间获知前沿科技动态

本文来自作者[山蝶]投稿,不代表视听号立场,如若转载,请注明出处:https://www.stddy.com/zsfx/202510-51638.html

(72)

文章推荐

  • 两性关系:多数女人60岁后,都会出现这3种情况,但她们从不说

    到了这个年纪,外表也许不再青春亮丽,可内心早已悄然蜕变,藏着岁月无法抹去的温柔与沧桑。我见过太多六十岁的女性朋友,她们身上有一些特别相似的变化,却极少对外人提及。这三种情况,或许你也正经历,你我共鸣。一、喜欢独处,享受安静“采菊东篱下,悠然见南山。”大概每个女人到了一定年龄,都更愿意选择独处。年轻时

    2025年06月20日
    134
  • 【北京疫情为什么又严重了,北京疫情为什么控制得快】

    北京本轮疫情病例数为何持续增加?专家作何解释?〖壹〗、现在北京疫情无论是确诊病例数还是社会面病例数都没有出现缓解的趋势,近来仍然在持续增长,这就足以说明北京市本轮疫情毒株传播能力是非常强的,根据疫情防控专家了解此次北京的疫情毒株是BF.7变异株,是近来国内奥密克戎家族里面传播力的一个很强的亚分支,

    2025年06月30日
    130
  • 仗打了1000多天!美国终于发现不对劲:原来中国三年前就选对了

    乌克兰那边打了1223天还没消停。美国人现在回过味了,砸钱递武器压根没按他们剧本来。瞧瞧中国三年前干的事:芯片厂像下饺子似的建,风机光伏板铺满山坡,跟毛熊买能源直接用人民币结算。当初欧美掐着脖子搞断供,结果呢?咱们光伏组件全球占比冲到85%,新能源车去年出口650万辆。俄罗斯被踢出SWIFT转头就接

    2025年07月08日
    125
  • 玩家实测“微信小程序能开挂吗(专用辅牌神器免安装)

    软件神器超顶流!山水麻将助赢神器(怎么抓到好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”山水麻将助赢神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微

    2025年09月02日
    96
  • 心悦填大坑辅助器(揭秘手机上确实有猫腻)/心悦填大坑怎么才能赢

    心悦填大坑在哪里下载〖壹〗、在手机应用商城直接搜索应用软件,如果有的话可以直接下载,点击安装就可以了。在电脑浏览器搜索下载,找到下载资源,下载就行。这种方法并不好找了。b站搜索一下名字,官方会提供下载渠道,然后就可以下载了,但是这种下载要注意手机安全,可能没那么安全。〖贰〗、填大坑游戏的输赢是完全

    2025年09月02日
    86
  • 我来教大家“多乐跑得快如何让系统发好牌(助赢神器通用版)

    软件神器超顶流!微乐云南麻将铺牌器(怎么增加胜率)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐云南麻将铺牌器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以

    2025年09月07日
    84
  • 3分钟学会“微乐手机麻将助赢神器(助赢神器通用版)

    软件神器超猛!哈灵麻将外卦神器免费版(助赢神器购买)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”哈灵麻将外卦神器免费版是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用

    2025年09月12日
    79
  • 实测分享“麻将机控牌器的使用方法(助赢神器通用版)

    软件神器妙绝!微乐江西麻将专用神器(怎么设置才能赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐江西麻将专用神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户

    2025年10月09日
    60
  • 2006年,李菁拜师胜杰为师,常宝华称赞李菁,是学者型的相声演员

    “没有师承,就像说书人缺了醒木”,李菁把这句话挂在嘴边。三十岁那年,他已经是北京茶馆里最抢手的捧哏,却始终没有正式门户,演出外人叫好,行内人只摇头——规矩面前,才华不顶用。李菁的窘境并非个例。相声讲究“口传心授”,师父不仅传本事,还提供社交背书。没有师父,就拿不到拜山帖,也接不到大剧场。2004年前

    2025年12月08日
    31
  • 实测结果“微乐小程序插件胜率设置(专用辅牌神器免安装)

    神器真的牛掰!中至赣牌圈510k开挂辅助器(必赢神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”中至赣牌圈510k开挂辅助器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有

    2025年10月10日
    66

发表回复

本站作者后才能评论

评论列表(4条)

  • 山蝶
    山蝶 2025年10月11日

    我是视听号的签约作者“山蝶”!

  • 山蝶
    山蝶 2025年10月11日

    希望本篇文章《斯坦福新论文:微调已死,自主上下文当立》能对你有所帮助!

  • 山蝶
    山蝶 2025年10月11日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 山蝶
    山蝶 2025年10月11日

    本文概览:时令 发自 凹非寺量子位 | 公众号 QbitAI是时候为传统微调献上挽歌了。一项全新研究,刚刚又给微调致命一击。来自斯坦福大学、SambaNova Systems公司和加州大...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们