苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM

机器之心报道编辑:Panda用 iPhone 本地跑大模型已经不是新鲜事了,但能不能在 iPhone 上微调模型呢?最近,苹果亲自上场,用一篇论文展示了其可行性。在这篇论文中,...

机器之心报道

编辑:Panda

用 iPhone 本地跑大模型已经不是新鲜事了,但能不能在 iPhone 上微调模型呢?

最近,苹果亲自上场 ,用一篇论文展示了其可行性。在这篇论文中,苹果提出了一种内存高效型反向传播(MeBP)。该方法可在内存使用量和计算时间之间提供比零阶优化(ZO/zeroth-order optimization)更好的权衡,同时还比 ZO 基线收敛更快、性能更优 。他们还在 iPhone 15 Pro Max 上验证了 MeBP 的有效性。

这个苹果团队(宋丛峥与 Xinyu Tang)也在论文中表示会发布一个 MeBP 实现 ,但其公开的链接目前还空无一码。

苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM

  • 论文标题:Memory-Efficient Backpropagation for Fine-Tuning LLMs on Resource-Constrained Mobile Devices
  • 论文地址:https://arxiv.org/abs/2510.03425
  • 仓库地址:https://github.com/apple/ml-mebp

内存高效型反向传播(MeBP)

在这篇论文中,苹果团队的研究重点是使用 LoRA 微调 LLM 。因此,主要的内存瓶颈在于模型参数和中间激活值。该团队的目标是将微调的内存使用量保持在现代移动设备可接受的范围内 ,例如 PocketLLM 所建议的「低于 1GB」。

使用 MeBP 在设备上微调 LLM 包含三个步骤:

  • 压缩模型基础权重(冻结的参数)以减少磁盘空间占用
  • 编译包含反向传播和梯度检查点的训练图(training graph)以优化内存
  • 实现一个内存高效的运行时(runtime)来执行编译后的训练图 。

下面将详细描述每个步骤。

基础模型权重压缩

在设备上部署 LLM 时,压缩基础模型权重以减少磁盘空间使用是一种常见做法。

在该团队的实现中,他们对包括嵌入在内的非 LoRA 参数使用了 4-bit 对称模式 INT4 量化 。

梯度检查点编译

苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM

也就是说 ,反向图的输入是:已被检查点的激活值、来自前一个检查点的梯度 、以及相应的可训练权重;其输出则是这些输入的梯度。

随后,所有块的前向图和反向图被序列化为设备运行时兼容的格式,例如模型中间语言(MIL)表示或 MLX 导出的函数。

在运行时 ,这些序列化后的图将被反序列化并编译以进行计算 。

运行时实现

算法 1 概述了 MeBP 的运行时实现 。

苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM

模型首先使用 InitializeModel 函数进行初始化 ,之后训练循环中的每个数据点都会调用 Backpropagation 函数。在 InitializeModel 期间,压缩后的基础模型权重被内存映射(memory-mapped)。为最小化内存占用,基础模型权重在训练循环开始前不会被解压 。相反 ,它们会在计算需要时才被按需(on demand)延迟解压和加载。注意,对于支持使用量化权重进行计算的设备运行时框架,解压步骤可以被跳过 ,届时只需按需加载压缩后的权重。

在 Backpropagation 函数中,系统首先执行已编译的前向子图(subgraphs)以存储所有必要的检查点;随后,按相反顺序执行已编译的反向子图 ,使用存储的检查点来计算梯度 。在前向传播过程中,这些检查点被内存映射,而不是保留在内存中。

在每次前向和反向传播之前 ,只有必需的基础模型权重会被解压和加载。如此一来,总内存使用量被限制为:所需基础模型权重的大小,加上每个子图中操作的峰值内存使用量 。这个总和远小于基础模型权重的完整大小。该函数描述的是单个数据点的梯度计算。对于批量输入 ,可以使用梯度累积来计算梯度 ,而不会增加内存占用 。

在 MeBP 中,内存中仅为优化器保留一份 LoRA 权重及其梯度的副本。

对于参数量从 0.5B 到 4B 的 LLM,LoRA 权重的大小通常在几十 MB 的范围内 ,这在内存中存储是合理的。优化器状态(例如动量)可以像基础模型权重一样,被内存映射并延迟加载 。

实验表现如何?

MeBP 表现如何,还得看实践 ,而作为对比的基线,他们选择了 MeZO,因为它是目前已知的唯一应用于移动设备 LLM 微调的优化方法 。该团队通过服务器端的模拟来评估 MeZO 和 MeBP 的效用(utility) ,并在移动设备上比较它们的性能。

效用(Utility)比较

配置上,这个苹果团队使用了 Gemma-3 和 Qwen-2.5,在 WikiText-2 数据集上进行语言建模任务实验 ,以此比较一阶(FO)优化(即通过反向传播获得梯度)和零阶(ZO)优化的效用。该团队专注于参数量不超过 4B 的模型,因为移动设备的计算资源有限 。该团队的评估指标是评估集上的损失(loss)和下一 token 准确度。其它配置见原论文,下面重点关注结果。

如图 1 所示 ,尽管 ZO 的损失和下一 token 准确度呈现收敛趋势 ,但 ZO 的收敛速度明显慢于 FO 。FO 方法在最初的 100 步内就显著改善了这两项指标,而 ZO 在 1,000 步后仅显示出轻微的改善。即使在 100,000 步之后(即比 FO 多 100 倍的优化步数),对于同一模型 ,ZO 的测试损失仍然高于 FO,测试准确度也低于 FO。

苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM

目前 AI 社区已经提出了几种方法,可以改善 ZO 方法的收敛速度 。该团队也在 Qwen2.5-0.5B 上使用了这些改进版 ZO 方法进行实验 ,结果见下图。

苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM

尽管这些方法比「纯」 ZO 收敛得更快,但其损失和下一 token 准确度仍然劣于使用 FO 微调的模型。此外,这些方法通常每次迭代需要更多的计算时间 ,因为它们需要额外的前向传播来更准确地估计梯度 。

效用结果表明,在语言建模任务的 LLM 微调上,按「每一步」(per-step)来看 ,反向传播的收敛速度明显快于 ZO 方法。这使得它在计算时间方面更适合移动部署 —— 前提是每个 FO 优化步骤都能被高效地实现。

性能比较

苹果使用 Swift 在 iOS 中实现了 MeBP,并在配备 8GB RAM 的 iPhone 15 Pro Max 上评估了其性能 。对于 MeZO 基线实现,其前向图被拆分为多个子图 ,并应用了延迟解压来减少基础模型权重的总内存使用 。每个 MeZO 优化步骤涉及两次前向传播。其它设置见原论文。

结果见下表 。

苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM

总体而言 ,与 MeZO 相比,MeBP 每个梯度步骤的计算时间要多 43% 到 94%。但是,正如前面的效用对比所示 ,MeZO 所需的步数是一阶优化的 10 倍到 100 倍以上,因此在时间方面,MeBP 的收敛速度要快得多。在最坏情况下 ,MeBP 的内存使用量比 MeZO 多出 20%,但其总训练内存使用量比以往的移动设备实现大约小 10 倍 。所有测试的 LLM 均可在 1GB 内存内高效微调,使其适合在手机上进行后台训练。

此外 ,该团队还测试了解压开销与序列长度的影响,并还分析了每一层的性能;详见原论文。

本文来自作者[小虫会飞]投稿,不代表视听号立场,如若转载,请注明出处:https://www.stddy.com/cskp/202511-54933.html

(25)

文章推荐

  • 冬奥会闭幕式时间几点的简单介绍

    冬奥会闭幕式时间是几点几分?冬奥会闭幕式2022年2月20日20:00开始,21:20分结束,整个闭幕式时长80分钟,闭幕式上还跟开幕式一样,给观众发送观众礼包,里面有中国国旗、北京冬奥会旗、一蓝一红、印有北京冬奥会LOGO的口罩、暖宝宝、黑色绒线手套、桔色帽子、红色印有五星的助威器、坐垫、抓绒围

    2025年06月22日
    104
  • 四川家园麻将其实真的有挂(其实确实有挂)/四川家园麻将断勾卡怎么开挂

    打麻将时经常提到的“手气”,真的存在吗?〖壹〗、不存在的,输赢其实只是概率的原因。伦敦大学的JueminXu和NigelHarvey对赌徒的输赢概率进行了研究,他们选取了776个人在565915次赛马和赌球的下注及开奖结果,并且发现,在连续的六次下注中,第一次下注的赢面是48%。〖贰〗、笔者觉

    2025年07月22日
    102
  • 3分钟学会“微乐麻将插件胜率设置(助赢神器通用版)

    这软件太神了!微乐宁夏麻将有猫腻吗(怎么才能起到好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐宁夏麻将有猫腻吗是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用

    2025年09月07日
    57
  • 分享辅助“微乐山东手机麻将助赢神器(助赢神器通用版)

    这神器绝了呀!微友麻将骗局大揭秘(什么软件可以赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微友麻将骗局大揭秘是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以

    2025年09月09日
    56
  • 3分钟学会“九九麻将有挂吗(助赢神器通用版)

    软件神器超闪!手机十三水小程序怎么拿好牌(透明器教程)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”手机十三水小程序怎么拿好牌是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年09月09日
    51
  • 入秋后还坚持运动的人,不出2个月,身体可能会有这5种改善!

    “秋天不减肥,冬天徒伤悲”这句话年年听,年年打脸。真正让人动起来的,不是口号,是数据:上周北京朝阳公园,6点半的跑道,穿短袖的人比穿羽绒服的多,空气里那股凉劲儿,像给肺做了一次冰美式。有人连跑两周,体脂秤上的数字没掉,但裤子松了;有人跳了三天广场舞,晚上居然没起夜。别急着笑,这些“小变化”

    2025年10月02日
    42
  • 一周不重复减脂午餐,简单美味还掉秤,吃得干净想不瘦都难!

    “天天水煮鸡胸吃到想吐,体脂却纹丝不动”——4月19日,北京白领小林把午餐照发小红书,配文“求不痛苦的减脂餐”,瞬间炸出3万条共鸣。结论一句话:别再死磕水煮,发酵+油水油+即食蛋白才是2024真香答案。泡菜炒蛋谁没吃过?但把30g韩国泡菜和5%纳豆混进肉末,鸡蛋嫩到爆汁,一周体脂掉1.2%

    2025年10月06日
    46
  • 保定封城(保定封城最新消息2022)

    河北保定曲阳为什么突然封城1、因为疫情。河北保定曲阳突然封城的原因是因为疫情,疫情是指高致病性禽流感等发病率或者死亡率高的动物疫病突然发生,迅速传播,给养殖业生产安全造成严重威胁、危害,以及对公众身体健康与生命安全造成危害的情形。保定封城是真的吗?保定并未封城。以下是关于此问题的详细解官方未发布

    2025年06月10日
    162
  • 玩家实测“中至赣牌圈辅助器(专用辅牌神器免安装)

    软件神器超酷!家乡大贰小程序辅助器(怎么增加胜率)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”家乡大贰小程序辅助器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年09月10日
    54
  • 微乐陕西麻将专用神器(揭秘手机上专用神器).微乐陕西麻将开挂神器?

    为啥本手机玩不了微乐陕西麻将本手机玩不了微乐陕西麻将是因为手机运行内存不足。手机运行内存不足,微乐陕西麻将游戏的内存过大,会导致卡顿、授权失败就玩不了,清理一下手机的后台应用和缓存垃圾,再尝试一次即可畅玩。实名认证。登录游戏账号所在登录端,登录手机QQ或者微信。然后在手机QQ或微信中搜索“成长守护

    2025年09月05日
    55

发表回复

本站作者后才能评论

评论列表(4条)

  • 小虫会飞
    小虫会飞 2025年11月05日

    我是视听号的签约作者“小虫会飞”!

  • 小虫会飞
    小虫会飞 2025年11月05日

    希望本篇文章《苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM》能对你有所帮助!

  • 小虫会飞
    小虫会飞 2025年11月05日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 小虫会飞
    小虫会飞 2025年11月05日

    本文概览:机器之心报道编辑:Panda用 iPhone 本地跑大模型已经不是新鲜事了,但能不能在 iPhone 上微调模型呢?最近,苹果亲自上场,用一篇论文展示了其可行性。在这篇论文中,...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们