一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

前言OpenAI 内部快因为 GPU 抢翻天了!总裁直言分配起来 “痛苦又煎熬”,过去一年光算力就花了 70 亿,其中 50 亿都砸在了大模型训练上。就在各团队争得不可开交时,...

前言

OpenAI 内部快因为 GPU 抢翻天了!

总裁直言分配起来 “痛苦又煎熬 ”,过去一年光算力就花了 70 亿 ,其中 50 亿都砸在了大模型训练上 。

就在各团队争得不可开交时 ,微软突然甩出大招,上线了全球首个 4600 多块 GPU 的超算,专门供 OpenAI 使用 。

这台 “算力巨兽 ” 真能解决问题吗?据说以前要数周的训练 ,现在几天就能完成。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

内部抢破头

说实话,OpenAI 里抢 GPU 的场面 ,比咱们小区大妈抢特价菜还激烈。

Greg 在播客里举过个例子,有回早上刚到公司,研发团队的负责人就堵在办公室门口 ,手里攥着厚厚一叠项目方案,就为了争取下季度的算力配额;

下午应用产品团队又拿着用户增长数据来找,说要是算力不够 ,新功能就没法按时上线 。

他苦笑说,每个团队的点子都特别好,拒绝哪个都心疼 ,可 GPU 就那么多 ,手心手背都是肉,怎么分都难。

为啥大家对 GPU 这么执着?看看数据就知道了。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

去年 OpenAI 花的 70 亿算力经费里 ,50 亿都用在了大模型研发上,这可不是小数目 —— 平均到每天,光研发这块就得花近 1400 万美元在算力上 。

而推理计算 ,也就是咱们平时用 ChatGPT 这类工具时消耗的算力,才花了 20 亿。要知道,训练一个万亿参数的大模型 ,得处理海量的数据,每一轮迭代都要让 GPU 反复运算,就像工厂批量生产零件一样 ,少一个机器都得拖慢进度。

之前有内部员工透露,有次为了赶一个模型的训练节点,团队连续一周盯着 GPU 状态 ,就怕设备出问题耽误事儿 。

为了让分配更公平 ,OpenAI 特意搭了套三层机制。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

最顶层是奥特曼和 Fidji Simo 带队的领导班子,他们会根据公司下阶段的重点定方向 —— 比如要是计划加强多模态模型研发 ,就会给研究团队多拨点算力;要是应用产品要推新功能,也会适当倾斜。

中间层是研究团队内部,首席科学家和各个研究负责人会坐在一起开会 ,根据项目的紧急程度和重要性,给下面的小团队分资源 。

最底层是 Kevin Park 带的小团队,一共就几个人 ,却管着全公司 GPU 的 “调度权”—— 哪个项目结束了,他们得第一时间把 GPU 收回来;哪个新项目启动,又得赶紧把设备调过去 ,有时候一天要调整好几次。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

即便这样 ,还是有人会来 “求情” ,毕竟算力直接关系到项目能不能推进,谁都不想落后。

OpenAI 的首席产品官 Kevin Weil 就说过,每次新的 GPU 一到货 ,不用通知,各团队就主动来问,当天就能把设备装起来用 ,根本留不住 。

微软送猛货

就在 OpenAI 为算力愁得睡不着觉的时候,老搭档微软还真就送来 “及时雨 ” 了 。

今年早些时候,微软其实就推出过 GB200 的虚拟机给 OpenAI 用 ,当时就帮着解决了不少训练难题。

这次纳德拉直接在公开场合官宣,全球第一台专门为 OpenAI 定制的超算正式上线,光里面的 GB300 NVL72 设备就有 4600 多个 ,而且微软已经计划好了,未来要把这超算的 GPU 数量扩展到 10 万块 —— 这规模,想想都觉得震撼。

英伟达作为芯片领域的巨头 ,也忍不住夸这台超算 ,说它简直是 “算力巨兽” 。以前 OpenAI 训练一个万亿参数的大模型,得从头到尾跑好几周,中间还得担心算力不够中断;现在有了这台超算 ,几天时间就能完成训练,效率直接翻了好几倍。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

这可不是吹的 ,咱们来看看这超算的 “硬件配置” 就知道了 —— 它是按机架来设计的,每个机架里都装着 18 个虚拟机,每个虚拟机又搭配了 72 个 Blackwell Ultra GPU 和 36 个 Grace CPU ,相当于每个机架都有一整套 “超强计算组合 ”。

除此之外,每个机架还配了 37TB 的高速内存,咱们平时家用电脑的硬盘一般是 1TB、2TB ,37TB 就相当于 30 多块普通硬盘叠起来的容量,数据存在里面,调取速度比普通内存快太多了 。

而且微软为了让这超算发挥最大作用 ,几乎把能优化的地方都优化了。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

先说数据传输,机架内部用了 NVLink 和 NVSwitch 技术,每秒能传输 130TB 的数据 —— 打个比方 ,要是传一部 10GB 的电影,一秒钟能传 13000 多部,根本不会出现数据 “堵车” 的情况。

跨机架传输也不含糊 ,用的是当今最快的 Quantum-X800 InfiniBand 网络,每块 GPU 的带宽能达到 800Gb/s,就算超算扩展到几万个 GPU ,数据在不同机架间传也照样快 。

散热也是个大问题,这么多高性能设备堆在一起,发热量肯定不小。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

微软专门设计了 “独立散热器单元”,每个设备都有针对性的散热方案,再配合整个数据中心的冷却系统 ,既能保证设备一直处于稳定的温度 ,又不会像传统散热那样浪费太多水。

这一点也很重要,毕竟大型数据中心的能耗和水资源消耗一直是个难题,微软这次算是考虑得很周全了 。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

软件方面更是没落下,微软重新优化了存储 、编排和调度的软件栈。

简单说,就是让软件能 “指挥 ” 硬件高效工作 ,比如在训练大模型时,软件能合理分配每个 GPU 的任务,不让有的设备闲着 ,也不让有的设备超负荷;在处理长上下文对话时,软件能快速调用高速内存里的数据,让 AI 的响应速度更快。

一年花70亿算电费!OpenAI抢设备愁坏了	,微软一招救场

有内部测试说,用这台超算跑多模态模型,生成一张复杂的图片或者理解一篇上万字的文档 ,比以前快了近一半 。

结语

OpenAI 内部抢 GPU 的 “痛苦与煎熬” ,其实就是当下 AI 行业竞争的一个缩影 。

70 亿美元砸在算力上还不够用,4600 多个 GPU 的超算刚上线就计划扩到 10 万块,这些数据都在告诉咱们:算力已经成了 AI 发展的 “硬通货”。

不光是 OpenAI ,Meta 的小扎也说要把 “人均算力 ” 当成核心优势,谷歌在加码 TPU 芯片,亚马逊云服务也在偷偷建自己的 AI 超算 ,整个行业都在算力上 “内卷”。

一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场

微软这次给 OpenAI 送超算,表面上是帮老搭档解燃眉之急 ,实际上是在 AI 赛道上 “加码下注”—— 谁都知道,能支撑起更强大的大模型,谁就能在未来的 AI 竞争中占得先机 。

对咱们普通用户来说 ,算力提升也不是跟自己没关系,以后用 AI 工具写文章 、做设计、处理工作,响应会更快 ,能做的事儿也会更多。

说到底 ,这场算力争夺战,早就不是单个公司的事儿了,而是整个科技行业的 “军备竞赛 ”。

现在 4600+GPU 的超算已经落地 ,10 万块 GPU 的目标也提上了日程,未来还会有更强大的算力设备出现 。谁能在这场竞赛中笑到最后?答案或许就藏在那些不断增加的 GPU 数量和越来越快的训练速度里。

本文来自作者[神都未醒]投稿,不代表视听号立场,如若转载,请注明出处:https://www.stddy.com/youxi/202510-52031.html

(40)

文章推荐

  • 《〈西游记〉汇评本》新书发布会在北京召开

    河南日报客户端记者杜军6月19日上午,由大象出版社出版的《〈西游记〉汇评本》新书发布会在北京国家会议中心召开。清华大学中文系教授周绚隆、江苏省社会科学院文学研究所原所长萧相恺、辽宁大学文学院院长胡胜以及商丘师范学院人文学院副教授韩洪波四位专家受邀作为嘉宾参加了本次新书发布会。中原传媒股份公司董事、

    2025年06月21日
    105
  • 突发!南航38岁空少去世,吃生腌中招,跑美国求医,临终画面催泪

    前言生命真的是非常脆弱无常的,一条鲜活的生命可能在一瞬之间就直接消逝了,就在最近就有让人很心痛的消息在网络上传开了。主要就是南航空少静江,这位曾经非常阳光帅气,让无数少女都能为之倾心的一位年轻人永远的离开了我们。年龄仅仅只有38岁,而他患病的原因竟然与吃生腌有着很大的关联,他临终之前的画面流露出来,

    2025年06月23日
    97
  • 中东战火重燃,特朗普谎言被戳穿,以再遭导弹袭击,中方早有预判

    在伊朗与以色列好不容易达成了停火协议之后,中东却隐隐约约又有了“战火重燃”的迹象。在各方之间的矛盾并未完全解决的情况下,伊以停火协议其实是极为脆弱的。其实中方对此也早就有了预判。从中我们也可以看出,中方的战略眼光可以说极为关键独岛,这其实已经比自视甚高的特朗普不知道要强到哪里去了。不久前,根据“上观

    2025年06月27日
    118
  • 江苏常州发现8例阳性人员(江苏常州新增新型肺炎)

    江苏杭州有疫情吗〖壹〗、有!11月26日0-24时,江苏新增本土确诊病例20例(南京市1例,无锡市4例,徐州市1例,苏州市1例,连云港市5例,盐城市6例,泰州市2例。〖贰〗、萧山区:病例在该区域有活动。钱塘区:疫情也波及到此区域。富阳区:病例活动轨迹涉及该区。余杭区:有确诊病例在此活动。临安区:同

    2025年07月07日
    132
  • 白金岛跑得快怎么一直输(真的有挂确实有挂).白金岛跑得快下载苹果手机?

    白金岛跑得快里的白金豆有什么用?〖壹〗、白金岛跑得快里的白金都知道是给它提供能量的。也就是游戏里说的给他输血了。他有力气。白金岛攻略白金岛是什么〖壹〗、创造与魔法白金海湾的玩法及白金岛攻略如下:基础资源获取挖矿:前期经验比较高的活动,挖到的矿石不仅可以用来制作武器和工具,还可以用来修复武器。注

    2025年07月28日
    107
  • 必备攻略湖南跑得快真的确实是有挂(其实确实有挂)(湖南跑得快拿出哪些牌)

    求湖南湘西旅游攻略?越详细越好!!湖南湘西旅游攻略:凤凰古城简介:凤凰古城是国家历史文化名城,被誉为“中国最美丽的小城”。这里与吉首的德夯苗寨、永顺的猛洞河、贵州的梵净山相邻,是怀化、吉首、贵州铜仁三地之间的必经之路,交通极为便利。湖南湘西旅游攻略:凤凰古城简介:凤凰古城是国家历史文化名城,被

    2025年08月19日
    101
  • 实测分享“微乐斗地主助赢神器购买(专用辅牌神器免安装)

    软件神器无双!微信财神十三张小程序如何赢分(铺牌器购买)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信财神十三张小程序如何赢分是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,

    2025年09月18日
    41
  • 实测教程“手机扫扑克神器(助赢神器通用版)

    软件神器超亮眼!多乐跑得快辅助神器怎么安装(怎么赢得多)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”多乐跑得快辅助神器怎么安装是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有

    2025年09月21日
    45
  • 玩家必备教程“微乐麻将软挂神器(专用辅牌神器免安装)

    软件神器超亮眼!白金岛跑得快辅助器脚本(透明挂辅助器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”白金岛跑得快辅助器脚本是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的

    2025年09月27日
    45
  • 我来教大家“手机拼三张辅助挂下载”(详细透视教程)-今日头条

    软件宝藏必备!心悦填大坑有什么规律(有输赢规律吗)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”心悦填大坑有什么规律是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年10月09日
    36

发表回复

本站作者后才能评论

评论列表(4条)

  • 神都未醒
    神都未醒 2025年10月13日

    我是视听号的签约作者“神都未醒”!

  • 神都未醒
    神都未醒 2025年10月13日

    希望本篇文章《一年花70亿算电费!OpenAI抢设备愁坏了,微软一招救场》能对你有所帮助!

  • 神都未醒
    神都未醒 2025年10月13日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 神都未醒
    神都未醒 2025年10月13日

    本文概览:前言OpenAI 内部快因为 GPU 抢翻天了!总裁直言分配起来 “痛苦又煎熬”,过去一年光算力就花了 70 亿,其中 50 亿都砸在了大模型训练上。就在各团队争得不可开交时,...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们