苹果开源新模型!一秒钟让照片变3D世界

智东西编译 | 王欣逸编辑 | 程茜智东西12月19日消息,12月11日,苹果发表论文介绍了3D生成模型SHARP,宣称在标准GPU上,该模型能够以不到1秒的时间将单张图像重建...

苹果开源新模型!一秒钟让照片变3D世界

智东西

编译 | 王欣逸

编辑 | 程茜

智东西12月19日消息 ,12月11日,苹果发表论文介绍了3D生成模型SHARP,宣称在标准GPU上 ,该模型能够以不到1秒的时间将单张图像重建为逼真的3D场景 。目前,该模型已开源。

苹果开源新模型!一秒钟让照片变3D世界

用户仅需输入一张普通照片,该模型即可通过神经网络一次性预测出整个场景的3D高斯表示参数 ,整个生成过程在标准GPU上完成仅需不足一秒,随后还能实时渲染出高分辨率、照片级真实感的相邻视角图像。此外,SHARP生成的3D场景具有绝对尺度的度量特性 ,能够支持精确的相机位移操作 。

定量评估显示 ,SHARP在不同数据集上展现出强大的零样本泛化能力,在多个数据集上实现了新的技术突破,与现有最佳模型相比 ,LPIPS指标(感知相似性)降低了25-34%,DISTS指标(结构相似性)降低了21-43%,还将合成时间缩短了三个数量级 ,并支持以每秒100帧高分辨率渲染邻近视图的3D表征。

不少开发者对该模型进行了体验。其中,有网友将其置于Vision Pro内使用,仅需单张图片就实现了身临其境的效果 ,生成画面的精细度也比较高 。

还有网友上传了一张油画,该模型最终生成了一个位置关系准确 、画面完整的3D场景。

其他网友评价称,该模型无法生成场景中不可见的部分 ,不过它的最大优势在于生成速度,“MacBook Pro 只需几秒钟(就能完成生成)…… ”。

苹果开源新模型!一秒钟让照片变3D世界

该模型的详细信息已发布在arXiv上,题为《SHARP:不到一秒的单图像视角合成(Sharp Monocular View Synthesis in Less Than a Second)》 。

苹果开源新模型!一秒钟让照片变3D世界

论文地址:https://arxiv.org/abs/2512.10685

开源地址:

GitHub:https://github.com/apple/ml-sharp

Hugging Face:https://huggingface.co/apple/Sharp

一、保真度提高约20%-40% ,合成时间缩短三个数量级

研究人员用多个数据集对SHARP模型进行评估 ,主要关注模型的两个指标:LPIPS和DISTS,以考察模型的合成图像与真实图像之间的结构相似性,符合人主观感受的程度 。这两个数据越小 ,性能越优。

在基线模型上,研究人员选取了一些现有的前沿模型,分别为:基于3D高斯分布的Flash 3D模型;使用多平面图像的TMPI模型;基于图像回归的LVSM模型;采用扩散模型的稳定虚拟相机(SVC)、ViewCrafter和Gen3C。

定量评估显示 ,SHARP在所有数据集中的表现均为最佳,打败所有模型 。相较现有最佳模型,SHARP的LPIPS指标降低了25-34% ,DISTS指标降低了21-43%。

苹果开源新模型!一秒钟让照片变3D世界

研究人员对该模型的单图像合成任务性能进行了评估,结果显示,在单个GPU上 ,SHARP在保持高图像保真度的同时,合成时间也位列第一梯队。相较于同等质量的模型,SHARP模型的合成时间缩短了三个数量级 ,这体现了其在效率和效果上的优势 。

苹果开源新模型!一秒钟让照片变3D世界

在不到1秒的时间里 ,该模型不仅能生成3D内容,还能以每秒100帧以上的速度渲染高分辨率的局部视图。从结果来看,SHARP细节处理清晰 ,结构精细,第一张图的主体和背景分离处理得很干净,第二张图颜色和形状稳定性比较出色 ,第三张图动物的毛发根根分明。

苹果开源新模型!一秒钟让照片变3D世界

二 、能实时渲染、预测高分辨3D表征,无法生成不可见部分

视角合成研究经历了从早期基于多图像几何建模的经典方法,到深度学习时代以神经辐射场为代表的隐式表示突破 ,再到近年来显式高效渲染技术(如3D高斯泼溅)的发展历程 。

此前,大多数高斯泼溅方法需要从不同视角拍摄同一场景的数十甚至数百张图像,SHARP模型则专注于单张图片的3D场景生成 ,它仅通过神经网络的一次前向传播,就能从单张照片预测出完整的3D高斯场景表征。

SHARP模型的训练过程包括合成数据训练和自监督微调两个阶段:在第一阶段,研究人员使用具有完美图像和深度真实标签的合成数据对模型进行训练 ,学习3D重建的基本原理。在第二阶段 ,研究人员让该模型在没有视差合成真实标签的真实图像上进行自监督微调,通过生成伪真实标签来适应真实图像,提高模型在真实世界图像上的性能 。

研究团队对SHARP模型做出了三点创新:第一点是一种可进行端到端训练的架构 ,这一架构可预测高分辨率3D表征;第二是推出了鲁棒高效的损失函数配置,研究人员精心选取了一系列损失函数,在保障训练稳定性、抑制常见视觉伪影的同时 ,将视角合成质量作为优化重点;第三是引入一个简洁的深度对齐模块,这一模块能够有效解决训练过程中的深度歧义问题。

SHARP模型包含四个可学习模块:一个用于特征提取的预训练编码器 、一个生成两个独立深度层的深度解码器、一个深度调整模块以及一个优化所有高斯属性的高斯解码器。可微分高斯初始化器和组合器为最终的3D表示组装高斯元素,预测出的高斯被渲染至输入视图和新颖视图 ,以进行损失计算 。

苹果开源新模型!一秒钟让照片变3D世界

在优化和评估过程中,SHARP模型使用了多种损失函数来优化合成视图的质量,包括渲染损失、深度损失和正则化损失等 。通过这些损失函数的组合 ,模型能够生成高质量的3D表示,并支持实时渲染。

基于以上技术,SHARP模型实现了无需依赖多张图像或耗时的逐场景优化过程 ,即可重建出可信的3D场景。不过该方法存在一定的权衡:SHARP能精确渲染邻近视角 ,但无法合成场景中完全不可见的部分 。这意味着用户不能过度偏离原照片的拍摄机位。

结语:3D场景生成门槛再降

SHARP模型在单图像视点合成领域取得了显著进展,该模型在单次前向传播的同时,完成了从2D图片理解 、3D几何重建到细节优化的全过程 ,最终输出一个能实时渲染的3D场景模型。

在应用上,通过实时渲染高保真的3D场景,SHARP模型或将为VR/AR应用提供更加沉浸式的体验 ,为游戏 、电影、建筑等行业提供更多可能性 。研究团队称,他们还将拓展现有方法论,通过结合扩散模型等方法 ,支持更远距离视点的合成。

本文来自作者[咎子睿]投稿,不代表视听号立场,如若转载,请注明出处:https://www.stddy.com/xinwen/202512-66552.html

(6)

文章推荐

  • 河北新增14例本土确诊和30例无症状(河北新增确诊40例 无症状26例轨迹)

    河北回四川需要隔离吗河北回四川需要隔离。河北新增14+30!一地升为高风险,河北中高风险地区返川人员需要进行隔离和核酸检测。国内人群返川隔离及核酸检测相关规定如下:对14天内有中高风险地区所在县(市、区)和直辖市、省会城市所在街道旅居史的来(返)川人员,实施居家或集中隔离,每3天检测1次核酸,直至

    2025年06月13日
    140
  • 中国投资6700多亿建设雄安,面积相当于3个纽约,如今咋样了?

    文、编辑|娱乐揭秘前言七年前,我国政府要打造一座“新”城,规模之大仅次于首都,这座城市名叫雄安新区。雄安建设初期,到处都是建筑工地,这座城市只能看到工人,看不到一点烟火气。如今,七年过去了,6700亿投资涌入了这座城市,现如今雄安变成什么样了?能不能住人?是否已有城市规模了呢?本文所有内容皆有官方可

    2025年06月20日
    127
  • 限号(限号查询)

    北京限号日期和时间表〖壹〗、年6月30日至9月28日,星期一到星期五限行尾号为5和0、1和2和3和4和9。2025年9月29日至12月28日,星期一到星期五限行尾号为4和5和0、1和2和3和8。2025年12月29日至2026年3月29日,星期一到星期五限行尾号为3和4和5和0、1和2和7。〖贰〗

    2025年06月24日
    124
  • 油价、金价,双双大跌!

    据央视新闻最新报道,美国总统特朗普当地时间6月23日18时在其社交媒体平台“真实社交”上发文表示,以色列和伊朗已同意全面停火。特朗普发文时间为美国东部时间23日18时,特朗普称,双方停火将于大约6小时后开始,也就是美国东部时间6月24日零时,伊朗将启动首次12小时停火,以色列将随后进行第二次12小时

    2025年06月24日
    119
  • 【微乐跑得快专用神器(究竟有没有挂),微乐跑得快软件】

    微乐斗地主那个祈福,有没有用?〖壹〗、微乐斗地主的祈福功能确实存在,但它的实际效果常常受到玩家个人体验和游戏本身随机性的影响,因此很难一概而论。在微乐斗地主游戏中,存在一种被称为“必赢神器”的工具,它声称能够透视对手的牌。然而,这种工具的真实性和合法性值得怀疑,因为它可能违反了游戏的公平性原则。〖

    2025年07月13日
    117
  • 星悦麻将其实是有挂确实有挂(确实有挂吗)/星悦麻将 游戏手机版

    《奇葩说》:星悦提出的梗也仅仅是偶尔有新意罢了,如何评价她的表现...〖壹〗、到现在可以说是靠着傅首尔一队实力强,躺赢。当然这不怪星悦,这一季奇葩说的规则制定就决定了肯定会有这些事发生。〖贰〗、整体来看,星悦在辩论中的表现并不差,逻辑清晰、论点完整,且能在现场发挥中表现出一定的反应能力。其在辩论舞

    2025年07月22日
    110
  • 【山东369麻将到底能不能开挂(到底是否有挂),山东369麻将有挂吗】

    网页版的凉山麻将能开挂吗安全吗网页版的凉山麻将不能开挂不安全。使用任何形式的作弊工具或挂机程序都是违法的,不管是在网页版的凉山麻将还是其他任何游戏中都是一样的。这种行为是被游戏厂商和相关部门严厉禁止的,一旦被发现,会受到游戏厂商和相关部门的处罚,包括但不限于封号、禁止使用游戏账号、甚至被追究刑事责

    2025年09月01日
    86
  • 胜率设置方法“心悦麻将踢坑有挂吗(助赢神器通用版)

    软件神器超灵!小程序万能麻将开挂(胜负规律拿好牌)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”小程序万能麻将开挂是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以

    2025年09月04日
    78
  • 北京阜外医院的专家说:冬天户外运动,减肥效果最好最快

    冬天才是减肥的黄金期,这个颠覆常识的结论,正被一项项硬核研究反复验证。《运动医学与科学》期刊2023年的最新数据摆在眼前:冬季运动时,人体棕色脂肪活性比夏季高出整整40%。这意味着什么?意味着你冬天跑半小时,身体燃脂效率可能比夏天高出近一半。更具体地说,在5℃环境下运动1小时,热量消耗比

    2025年11月30日
    29
  • 河北新增33例本土确诊40例无症状/河北新增33例本土确诊40例无症状感染者

    河北安新疫情最新消息今天河北安新疫情最新情况雄安安新县并没有封城,而是实行了封闭式管理。主要原因如下:与北京输入病例有关:雄安新区此次疫情与北京输入病例密切相关。由于雄安与北京邻近,两地工作生活往来频繁,特别是安新县有大量人员在北京新发地经营水产生意,人员流动增加了疫情传播的风险。截至1月23日2

    2025年07月03日
    181

发表回复

本站作者后才能评论

评论列表(4条)

  • 咎子睿
    咎子睿 2025年12月20日

    我是视听号的签约作者“咎子睿”!

  • 咎子睿
    咎子睿 2025年12月20日

    希望本篇文章《苹果开源新模型!一秒钟让照片变3D世界》能对你有所帮助!

  • 咎子睿
    咎子睿 2025年12月20日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 咎子睿
    咎子睿 2025年12月20日

    本文概览:智东西编译 | 王欣逸编辑 | 程茜智东西12月19日消息,12月11日,苹果发表论文介绍了3D生成模型SHARP,宣称在标准GPU上,该模型能够以不到1秒的时间将单张图像重建...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们