一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

前言OpenAI 内部快因为 GPU 抢翻天了!总裁直言分配起来 “痛苦又煎熬”,过去一年光算力就花了 70 亿,其中 50 亿都砸在了大模型训练上。就在各团队争得不可开交时,...

前言

OpenAI 内部快因为 GPU 抢翻天了!

总裁直言分配起来 “痛苦又煎熬 ”,过去一年光算力就花了 70 亿 ,其中 50 亿都砸在了大模型训练上 。

就在各团队争得不可开交时 ,微软突然甩出大招,上线了全球首个 4600 多块 GPU 的超算,专门供 OpenAI 使用 。

这台 “算力巨兽 ” 真能解决问题吗?据说以前要数周的训练 ,现在几天就能完成。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

内部抢破头

说实话,OpenAI 里抢 GPU 的场面 ,比咱们小区大妈抢特价菜还激烈。

Greg 在播客里举过个例子,有回早上刚到公司,研发团队的负责人就堵在办公室门口 ,手里攥着厚厚一叠项目方案,就为了争取下季度的算力配额;

下午应用产品团队又拿着用户增长数据来找,说要是算力不够 ,新功能就没法按时上线 。

他苦笑说,每个团队的点子都特别好,拒绝哪个都心疼 ,可 GPU 就那么多 ,手心手背都是肉,怎么分都难。

为啥大家对 GPU 这么执着?看看数据就知道了。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

去年 OpenAI 花的 70 亿算力经费里 ,50 亿都用在了大模型研发上,这可不是小数目 —— 平均到每天,光研发这块就得花近 1400 万美元在算力上 。

而推理计算 ,也就是咱们平时用 ChatGPT 这类工具时消耗的算力,才花了 20 亿。要知道,训练一个万亿参数的大模型 ,得处理海量的数据,每一轮迭代都要让 GPU 反复运算,就像工厂批量生产零件一样 ,少一个机器都得拖慢进度。

之前有内部员工透露,有次为了赶一个模型的训练节点,团队连续一周盯着 GPU 状态 ,就怕设备出问题耽误事儿 。

为了让分配更公平 ,OpenAI 特意搭了套三层机制。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

最顶层是奥特曼和 Fidji Simo 带队的领导班子,他们会根据公司下阶段的重点定方向 —— 比如要是计划加强多模态模型研发 ,就会给研究团队多拨点算力;要是应用产品要推新功能,也会适当倾斜。

中间层是研究团队内部,首席科学家和各个研究负责人会坐在一起开会 ,根据项目的紧急程度和重要性,给下面的小团队分资源 。

最底层是 Kevin Park 带的小团队,一共就几个人 ,却管着全公司 GPU 的 “调度权”—— 哪个项目结束了,他们得第一时间把 GPU 收回来;哪个新项目启动,又得赶紧把设备调过去 ,有时候一天要调整好几次。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

即便这样 ,还是有人会来 “求情” ,毕竟算力直接关系到项目能不能推进,谁都不想落后。

OpenAI 的首席产品官 Kevin Weil 就说过,每次新的 GPU 一到货 ,不用通知,各团队就主动来问,当天就能把设备装起来用 ,根本留不住 。

微软送猛货

就在 OpenAI 为算力愁得睡不着觉的时候,老搭档微软还真就送来 “及时雨 ” 了 。

今年早些时候,微软其实就推出过 GB200 的虚拟机给 OpenAI 用 ,当时就帮着解决了不少训练难题。

这次纳德拉直接在公开场合官宣,全球第一台专门为 OpenAI 定制的超算正式上线,光里面的 GB300 NVL72 设备就有 4600 多个 ,而且微软已经计划好了,未来要把这超算的 GPU 数量扩展到 10 万块 —— 这规模,想想都觉得震撼。

英伟达作为芯片领域的巨头 ,也忍不住夸这台超算 ,说它简直是 “算力巨兽” 。以前 OpenAI 训练一个万亿参数的大模型,得从头到尾跑好几周,中间还得担心算力不够中断;现在有了这台超算 ,几天时间就能完成训练,效率直接翻了好几倍。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

这可不是吹的 ,咱们来看看这超算的 “硬件配置” 就知道了 —— 它是按机架来设计的,每个机架里都装着 18 个虚拟机,每个虚拟机又搭配了 72 个 Blackwell Ultra GPU 和 36 个 Grace CPU ,相当于每个机架都有一整套 “超强计算组合 ”。

除此之外,每个机架还配了 37TB 的高速内存,咱们平时家用电脑的硬盘一般是 1TB、2TB ,37TB 就相当于 30 多块普通硬盘叠起来的容量,数据存在里面,调取速度比普通内存快太多了 。

而且微软为了让这超算发挥最大作用 ,几乎把能优化的地方都优化了。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

先说数据传输,机架内部用了 NVLink 和 NVSwitch 技术,每秒能传输 130TB 的数据 —— 打个比方 ,要是传一部 10GB 的电影,一秒钟能传 13000 多部,根本不会出现数据 “堵车” 的情况。

跨机架传输也不含糊 ,用的是当今最快的 Quantum-X800 InfiniBand 网络,每块 GPU 的带宽能达到 800Gb/s,就算超算扩展到几万个 GPU ,数据在不同机架间传也照样快 。

散热也是个大问题,这么多高性能设备堆在一起,发热量肯定不小。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

微软专门设计了 “独立散热器单元”,每个设备都有针对性的散热方案,再配合整个数据中心的冷却系统 ,既能保证设备一直处于稳定的温度 ,又不会像传统散热那样浪费太多水。

这一点也很重要,毕竟大型数据中心的能耗和水资源消耗一直是个难题,微软这次算是考虑得很周全了 。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

软件方面更是没落下,微软重新优化了存储 、编排和调度的软件栈。

简单说,就是让软件能 “指挥 ” 硬件高效工作 ,比如在训练大模型时,软件能合理分配每个 GPU 的任务,不让有的设备闲着 ,也不让有的设备超负荷;在处理长上下文对话时,软件能快速调用高速内存里的数据,让 AI 的响应速度更快。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

有内部测试说,用这台超算跑多模态模型,生成一张复杂的图片或者理解一篇上万字的文档 ,比以前快了近一半 。

结语

OpenAI 内部抢 GPU 的 “痛苦与煎熬” ,其实就是当下 AI 行业竞争的一个缩影 。

70 亿美元砸在算力上还不够用,4600 多个 GPU 的超算刚上线就计划扩到 10 万块,这些数据都在告诉咱们:算力已经成了 AI 发展的 “硬通货”。

不光是 OpenAI ,Meta 的小扎也说要把 “人均算力 ” 当成核心优势,谷歌在加码 TPU 芯片,亚马逊云服务也在偷偷建自己的 AI 超算 ,整个行业都在算力上 “内卷”。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

微软这次给 OpenAI 送超算,表面上是帮老搭档解燃眉之急 ,实际上是在 AI 赛道上 “加码下注”—— 谁都知道,能支撑起更强大的大模型,谁就能在未来的 AI 竞争中占得先机 。

对咱们普通用户来说 ,算力提升也不是跟自己没关系,以后用 AI 工具写文章 、做设计、处理工作,响应会更快 ,能做的事儿也会更多。

说到底 ,这场算力争夺战,早就不是单个公司的事儿了,而是整个科技行业的 “军备竞赛 ”。

现在 4600+GPU 的超算已经落地 ,10 万块 GPU 的目标也提上了日程,未来还会有更强大的算力设备出现 。谁能在这场竞赛中笑到最后?答案或许就藏在那些不断增加的 GPU 数量和越来越快的训练速度里。

本文来自作者[神都未醒]投稿,不代表视听号立场,如若转载,请注明出处:https://www.stddy.com/youxi/202510-52031.html

(70)

文章推荐

  • 湖北随州,四大古镇

    南阳桐柏之南,与湖北随州相接,南阳有“五圣”,随州是炎帝神农故里,两地都因始祖文化而共鸣。随州是湖北的一个地级市,下边一区、一县、一代管市,共有37个镇子。随州历史悠久,早在商代已有随国,境内更是有诸多古镇,看看“豆包”给出的四大古镇吧。淅河古镇,位于随州市曾都区东部。明成化年间称古淅河,有着深厚历

    2025年07月02日
    138
  • 【河南推倒胡麻将究竟有没有挂(确实真有挂),河南麻将胡牌规则】

    推倒胡麻将的规则推倒胡麻将玩法介绍如下:打108张牌,通过碰、杠、达到胡牌要求胡牌。可以杠、碰、任何人出的牌,出牌时,不能打出自己本轮碰、杠、过的牌。听胡的那张牌为别人先碰牌后开杠的牌。当玩家抢杠胡牌时将按自摸胡计算。但所赔分数全部由杠牌者全部承担,与其他人无关。地胡是闲家听胡的牌为庄家所打出的第

    2025年08月16日
    159
  • 玩家实测“微乐江西麻将修改器(助赢神器通用版)

    软件神器超顶流!斗棋恩施麻将助赢神器购买(怎样设置好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”斗棋恩施麻将助赢神器购买是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需

    2025年09月06日
    85
  • 实测教程“微乐麻将的挂在哪找(专用辅牌神器免安装)

    这软件太神了!心悦填大坑辅助器免费版(插件购买输赢规律)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”心悦填大坑辅助器免费版是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月13日
    81
  • 3分钟学会“有没有软件能修改微信红包扫雷金额尾数”(详细透视教程)-今日头条

    超神软件工具!手机跑得快助赢神器(怎么设置能有好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”手机跑得快助赢神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年09月13日
    85
  • 我来教大家“微乐捉鸡是不是有外挂(助赢神器通用版)

    软件神器称王!白金岛十胡卡其实是有挂的(怎么打才能赢)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”白金岛十胡卡其实是有挂的是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月29日
    73
  • 快速路上远光灯晃眼、电动自行车装射灯,光光相报何时了

    漫画/李晓军“明明是灯火通明的城市道路,我实在不理解为什么车灯还要调得那么亮!”提到车辆滥用灯光的问题,在北京工作的郑凯(化名)既郁闷又气愤。郑凯每天晚上下班后从公司开车回家,都能碰到好几辆灯光刺眼的车——有的是开着远光灯的汽车,有的是车灯特别亮的电动自行车,“对面的车大灯亮了,我的眼前却黑了,几秒

    2025年10月20日
    67
  • “人到中年,开始跑步吧!特别是年过40岁后”

    40岁以后,身体像一台用了十几年的车,发动机开始积碳,零件开始松动,油耗蹭蹭往上涨。好消息是,哈佛医学院2023年最新报告给出了一组硬邦邦的数字:只要每周踩下150分钟“运动油门”,端粒——那根写在细胞里的“寿命刻度尺”——就能往回拨9年;肌肉量每多出10%,死亡风险直接打9折;阿尔茨海默症的大

    2025年10月25日
    64
  • 终于发现“微乐游戏怎么才能让系统发好牌(助赢神器通用版)

    超绝软件神器!微乐内蒙麻将输赢规律(免费辅助)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐内蒙麻将输赢规律是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加

    2025年11月06日
    53
  • 教程辅助“功夫川麻开挂后的效果(助赢神器通用版)

    软件神器超灵!雀神广东麻将插件骗局最新曝光(输赢规律)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”雀神广东麻将插件骗局最新曝光是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有

    2025年09月21日
    77

发表回复

本站作者后才能评论

评论列表(4条)

  • 神都未醒
    神都未醒 2025年10月13日

    我是视听号的签约作者“神都未醒”!

  • 神都未醒
    神都未醒 2025年10月13日

    希望本篇文章《一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场》能对你有所帮助!

  • 神都未醒
    神都未醒 2025年10月13日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 神都未醒
    神都未醒 2025年10月13日

    本文概览:前言OpenAI 内部快因为 GPU 抢翻天了!总裁直言分配起来 “痛苦又煎熬”,过去一年光算力就花了 70 亿,其中 50 亿都砸在了大模型训练上。就在各团队争得不可开交时,...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们