介绍 Meta SAM 3D:单图像 3D 重建

Blog image

Meta 的 SAM 3D 于 2025 年 11 月推出,立即在 AI 领域引起了广泛关注[1]。作为 Meta 的 Segment Anything 系列的一部分,SAM 3D 为日常图像带来了人类水平的「常识」3D 理解,使任何人都能够从单张普通照片中重建物体甚至完整的人体[2]。这款一次性 3D 建模器是开源的,并且已经在计算机视觉领域设立了新的业界标准,显著超过了之前的单图像 3D 方法[3]。本质上,SAM 3D 将 Meta 的可提示视觉工具包从 2D 分割扩展到 3D 领域,让用户以前所未有的轻松方式「让图片栩栩如生」[4][5]

重要的是,SAM 3D不是单一模型,而是两个专业模型:SAM 3D Objects用于一般对象和场景重建,SAM 3D Body用于完整的人体形状和姿态估计[2]。通过一张照片,SAM 3D Objects可以生成任何选定对象(或整个场景)的纹理化3D网格,而SAM 3D Body则能从一张图像中生成逼真的全身人体网格[2]。Meta的研究表明,这两个模型都能提供稳健的结果——事实上,SAM 3D Objects在基准测试中显著优于现有的3D重建方法[3]。通过使用AI训练的先验知识推断深度和隐藏表面,SAM 3D猜测图像中物体后的内容与传统摄影测量(需要从各个角度拍摄数十张照片)不同,SAM 3D可以通过单一视角预测物体的 完整几何形状、纹理和布局[6]*。这一突破让我们距离科幻中简单拍摄快照并**“3D打印”**其中的世界又近了一大步。

[主要功能和创新]

SAM 3D 引入了多项技术进步,使其与早期的视觉模型区别开来。以下是其核心功能和创新:

·      单图像3D重建 – 仅通过一张2D图像即可实现完整的3D场景重建,这是该领域的首次突破[7]。这种“照片到3D”的能力代表了一次重大突破,解放了创作者无需使用多摄像机设备或深度传感器。

·      处理遮挡和杂乱 – 对真实世界的复杂性具有很强的鲁棒性:SAM 3D 不会被遮挡或部分隐藏的物体和繁忙的场景所困扰[8]。它利用学习到的上下文来*“填补”物体单张照片无法看到的隐藏部分*,这是一种模仿人类感知的常识性3D理解

· 完整几何与纹理 – 不仅输出粗略形状,还输出详细的纹理网格。SAM 3D生成对象的完整几何形状加上高质量的表面纹理,甚至场景布局定位[9]。实际上,您将获得一个可直接使用的3D模型(例如,标准的.ply/.obj文件及其配套纹理[10]),从各个角度看都很逼真。

·      高级训练与准确性 – Meta 使用新技术在大规模图像数据集上训练了 SAM 3D,取得了远优于先前模型的效果[11]。创建了一个新的基准数据集(SAM 3D 艺术家对象)来严格评估它[12]。结果是一个模型,能够在早期方法会失败的多样化图像和场景中进行泛化,真正为 AI 引导的 3D 重建设定了新的标准[13]

· 人体网格创新(SAM 3D 身体) – 这一以人为中心的变体引入了一种名为*Momentum Human Rig (MHR)*的全新参数网格表示法,将骨骼姿态与身体形状分离[14]。简单来说,SAM 3D 身体可以比以往方法更准确、更具可解释性地捕捉一个人的姿态和比例。这对于需要逼真数字人像的应用(从虚拟试穿到运动科学)来说是一个游戏规则的改变者。

· 人类引导的优化 – 该模型通过人类反馈循环进行优化,使输出更合理且更具美感[15]。这种额外的“E-E-A-T”触感意味着 SAM 3D 的重建不仅在技术上准确,而且在人眼看来在比例和细节上也显得“对”。

· 快速,一键生成结果 – 尽管复杂,SAM 3D 已优化为速度优先。从图像生成 3D 模型几乎是实时的(几秒钟而非数小时)[16]。这种实时特性将 3D 创建变成了点击等待的体验,使得强大的 3D 内容生成无需长时间渲染延迟就能为普通用户所用。

它是如何在幕后工作的? 简而言之,SAM 3D 结合了基于视觉变换器的图像编码器、分割掩码处理器(利用原始的 2D Segment Anything 来选择对象)以及多个 3D 预测模块(深度估计、几何生成、纹理合成,甚至高斯散射渲染器)[17]。基本上,它首先理解 2D 图像内容,然后分割目标对象,接着推断 3D 形状和深度,最后输出具有纹理的 3D 网格,以用户友好的格式呈现[18][10]。这一切无需用户具备 3D 专业知识——繁重的工作由 Meta 的预训练模型和算法处理。通过开放源代码和模型权重,Meta 还使开发者能够将 SAM 3D 整合或微调以适应他们自己的项目需求[19][20]

[应用和用例]

除了令人惊叹的效果,SAM 3D 为什么重要?在实际应用中,这项技术在各个行业中解锁了一系列令人兴奋的应用:

·      增强现实与虚拟现实: SAM 3D 能够将二维照片瞬间转换为三维道具或环境,对AR/VR创作者而言是个福音。团队可以通过将参考图像中的对象“拉”到3D中,更快地原型化沉浸式场景[21][22]。例如,手机对椅子的一张简单快照即可用作VR游戏或AR家具摆放应用中的3D资产——无需3D建模技能。

·      机器人与自主系统: 机器人和 AI 系统需要对其环境有 3D 理解。SAM 3D 可以从单个相机图像生成 3D 模型,帮助进行物体识别和空间推理[22]。这可以通过提供来自单个图像帧的深度信息来改善机器人抓取物体或导航场景的方式。在无人机或自动驾驶汽车中,单个快照可以被“理解”为 3D,以避开障碍物或估计物体大小。

·      医疗保健与运动科学: SAM 3D 身体模型为医学、运动和健身开辟了新的可能性。通过一张照片或 X 光片,医生可以获得病人体型或姿势的 3D 近似。Meta 特别指出了在运动医学中的应用[22]——例如,从单个动作镜头分析运动员的 3D 形式,或帮助物理治疗患者查看自己的 3D 姿态和对齐,以获得更好的反馈。

·      游戏和3D内容创作: 游戏开发者和3D艺术家可以使用 SAM 3D 作为资产创作的捷径。他们无需从头开始建模,而是可以将概念艺术或参考照片输入 SAM 3D,生成角色、道具或环境的基础模型。这降低了独立开发者在丰富3D世界中填充内容的门槛。一位创作者可以拍下街头酷炫摩托车的照片,并使用 SAM 3D 获取一辆自行车的纹理3D模型,为他们的游戏节省数小时的手工建模。这是快速原型设计和创意迭代的强大助手[22]

对于希望从单一图像转化为可用3D资产的创作者,像 Tripo AI 这样的工具提供了一个AI 3D模型生成器,用于图像到3D和文本到3D的生产工作流程。

·      电子商务与虚拟试穿: 一个引人注目的实际应用是互动购物。Meta 已经在 Facebook Marketplace 的新功能“房间视图”中使用了 SAM 3D,让用户只需使用产品照片就可以在自己家中可视化家具[23]。SAM 3D 生成一个 3D 模型,比如从其列表照片中生成一盏灯,然后通过手机的相机将其放置在您的房间中。这有助于客户在购买前评估风格和适配度。同样,时尚零售商可能允许单个目录图像的鞋子或手袋以 3D 和实际尺寸从各个角度查看,提升在线购物体验。

·      教育与研究: 教育工作者可以将教科书图像或博物馆照片转换为 3D 模型,以更好地展示历史、生物等概念。考古学或地质学等领域的研究人员,通常从遗址/文物的照片中工作,可能会重建 3D 形状以进行分析。在科学可视化中,单个显微镜图像或卫星照片可以扩展为 3D 模型以获得更深入的见解。通过普及 3D 创作,SAM 3D 可以加速任何使用视觉数据的领域的创新。

这些用例只是冰山一角。每当你只有一张图片但希望获得3D视图或资产时,SAM 3D就是你应该考虑的新工具。通过将输入要求减少到一张图片,它大大降低了获取3D内容的障碍。正如Meta团队所说,SAM 3D为从研究人员到创作者的每个人“打开了与视觉世界互动和理解的新方式”[22].

[比较与竞争格局:SAM 3D的位置]

SAM 3D在与其他解决方案的对比中表现如何? 这一模型的出现正值许多科技公司在视觉领域的AI竞争激烈之际——尽管方式各异。以下是SAM 3D在当前格局中的大致位置:

· 对比传统3D扫描: 在AI方法如SAM 3D出现之前,制作真实物体的3D模型通常需要使用摄影测量或深度传感器。这些方法需要多张图片或特殊硬件(例如围绕物体拍摄数十张照片,或使用LiDAR)来捕捉各个角度。SAM 3D通过从大量数据中学习如何推断缺失视图,仅需一张RGB图像作为输入^6^。其代价是SAM 3D的输出是合理的重构,而不是完美的真实扫描——它基于学习的先验知识臆测隐藏表面。但在实际应用中,对于许多应用(游戏、AR效果、概念艺术),逼真的近似就足够了。便利性和速度的巨大提升往往超过了物理精确度的损失。简而言之,SAM 3D之于3D扫描,就像生成模型之于摄影:更快、更灵活,且对广泛的用途来说足够好,即使不能精确到原始场景的厘米级。

·      与其他 AI 3D 生成器相比: Meta 在单图像 3D 生成方面的飞跃使其领先于当前大多数同类 AI 产品。例如,OpenAI 曾尝试使用 Point·EShap·E 等模型进行 3D 生成,这些模型可以从文本或图像创建 3D 点云或隐式形状。然而,这些模型仍然是相对低保真的——它们的结果通常稀疏或抽象,远不及照片级真实[24]。这些更像是早期探索,而不是生产就绪的工具。相比之下,SAM 3D 提供更高质量的纹理输出,能够“填充”细节,并已在大规模真实图像上得到验证[3]。另一项研究涉及 NeRF(神经辐射场)及相关技术,这些技术可以从 2D 输入生成美丽的 3D 视图,但通常需要多个视图或对每个场景进行仔细训练。SAM 3D 能够从单个图像泛化到多种物体类型,这是一大优势。它也是完全开源的,并提供推理代码和模型检查点,随时可用[19][25],而其他一些前沿 3D 模型则是专有的或难以运行。总的来说,目前在单图像 3D 重建方面,SAM 3D 凭借其能力和易用性脱颖而出。

· 对比 Segment Anything (2D) 和相关模型: 值得注意的是,「SAM 3D」是建立在 Meta 的原始 Segment Anything 模型(专注于 2D)的基础上的。今年早些时候,Meta 还宣布了 SAM 3(有时称为 SAM v3),它处理 图像/视频中的文本提示分割和跟踪[1]。SAM 3D 是一个扩展视野到 3D 的姐妹模型。还有一个无关的学术项目,令人混淆地命名为「SAM3D」(或 SAM-Part3D),它处理 3D 点云中的部分分割,但这是一个完全不同的方法(标记现有的 3D 数据而不是从 2D 生成 3D)[26]。Meta 的 SAM 3D 的独特之处在于它从平面图像创建新的 3D 表示。在 Meta 自己的比较中,SAM 3D 对象在标准基准测试中表现远超之前的学术方法,这要归功于其基于学习的方法和大量的训练语料库[13]

· SAM 3D 与 Google 的 Nano Banana Pro (2D): 有趣的是,SAM 3D 的出现正值其他 AI 里程碑在平行领域发生。一个值得注意的例子是 Google DeepMind 的 Nano Banana Pro,于 2025 年底同时推出。Nano Banana Pro 不是 3D 工具,而是基于 Gemini 3 AI 平台的最先进的 图像生成和编辑模型。它提供接近摄影级别的图像编辑,具有 4K 分辨率和无与伦比的一致性(编辑一致性超过 95%)[27]。换句话说,Nano Banana Pro 可以以惊人的保真度修改或创建图像——人们称其可能取代许多 Photoshop 任务[28][27]。相比之下,Meta 的 SAM 3D 在空间领域运作:它可以重建 3D 模型,可用于游戏、动画或 AR 场景。两者都是突破性模型,但它们的目的互为补充。Nano Banana Pro 在 2D 创意输出上表现出色,利用 AI 魔法将你的想法变成图片(或调整图片)[27]SAM 3D 擅长将物体从图片中提取到 3D 中,将平面图像转变为可以握住、旋转或放置在虚拟空间中的东西。两者的结合暗示着未来的工作流程,你可以使用 AI 生成令人惊叹的图像(使用类似 Nano Banana Pro 的工具),然后立即将图像中的元素提升为 3D 模型(使用类似 SAM 3D 的工具)——从想象到图像再到交互式 3D 内容的无缝桥梁。同时,看到这些 AI 进步如此迅速地被用户所使用也很有意义。例如,作为世界上第一个个人 AI 代理平台的 Macaron将 Google 的 Nano Banana 模型集成到其 Playbook 中,并推出一系列展示这些图像编辑能力的一键式小应用[29]。Macaron 的用户可以在照片中更换服装,从 2D 艺术生成 3D 风格的人物模型等,所有这些都由 Nano Banana 提供支持[30][31]。这种尖端研究到实用工具的即时转换正是我们期待 SAM 3D 所能实现的。我们可以想象像 Macaron 或 Adobe 这样的平台集成 SAM 3D,以便用户能够上传一张单一照片并获得可用于创意项目的 3D 模型。换句话说,竞争格局不是“SAM 3D 对 Nano Banana”,而是一个 AI 工具的新兴生态系统——一些专注于完美图像,另一些则专注于解锁 3D,并且前瞻性的公司结合两者以赋能创作者。SAM 3D 坚定地为 Meta 在下一代工具集中赢得了一席之地,将曾经局限于研究实验室的能力直接带给开发者和艺术家

[结论:创造力的新维度]

Meta 的 SAM 3D 展示了 AI 的快速进步:从理解平面图像到重建其背后的 3D 世界。这项技术为创作者和创新者增添了全新的维度。正如最近的 AI 模型让生成和编辑 2D 图像变得更加真实,SAM 3D 现在使得从简单的快照中获取3D 资产成为可能——这在几年前对于非高级研究实验室的人来说是不可想象的。

E-E-A-T 角度(体验、专业性、权威性、可信度)来看,SAM 3D 符合许多标准。它由 Meta 经验丰富的AI研究人员开发(专业性 ✅),并通过开放的检查点和评估数据发布以确保透明度[20](可信度 ✅)。Meta 已经展示了真实的使用案例(如市场AR家具预览等),展示了模型的实际应用[23](体验 ✅)。通过开源模型和共享基准,Meta 邀请研究社区验证并在其基础上构建(权威性 ✅)。这一切使得 SAM 3D 不仅仅是一个令人印象深刻的演示,而是一个可以被他人采用并信赖的可靠工具,用于严肃的应用。

对于技术爱好者和研究人员来说,SAM 3D 也同样易于使用。你可以在 Meta 的 Segment Anything Playground 上试用,无需任何设置——只需上传一张图片,就能在浏览器中看到 3D 效果[32]。开发者可以从 GitHub 上获取代码,将单图 3D 转换集成到他们自己的应用中,只需数小时。这种实验的便利性意味着在接下来的几个月里,我们可能会看到创造性应用和整合的爆发。独立游戏制作者可能会用 SAM 3D 生成的模型填充他们的场景,或是 AR 滤镜创作者让用户将快照转变为 3D 贴纸。2D 和 3D 内容之间的障碍正在消融。

总之,Meta SAM 3D 代表了一个重要的进步,将丰富创意领域。它与 Google 的 Nano Banana Pro 等创新并驾齐驱,标志着 AI 如何彻底改变内容创作——从平面图像到完整的 3D 体验。从单张图片生成 3D 模型的能力将节省时间,激发新想法,并很可能催生新的产业(想象一下虚拟房地产布景、从旧照片生成 3D 记忆,或从自拍生成个性化游戏头像)。我们正进入一个任何人都可以成为 3D 创作者或 AR 设计师的时代,AI 是这一切的强大推动力。

Macaron 这样的平台已经展示了这些突破如何快速转化为日常工具[29]。随着 SAM 3D 的普及,我们预计会在创意软件、移动应用程序和 AI 代理平台中看到它的嵌入——或许很快你就会在“编辑照片”选项旁边看到一个“制作 3D”按钮。有一点可以肯定:通过引入 SAM 3D,Meta 已经打开了一个更加沉浸、互动的数字世界的大门,而跨过这扇门就像拍照一样简单。创造力的未来是多维的,随着 SAM 3D 的到来,这个未来已经正式到来。[33][4]

来源: Meta AI 博客[34][22];Meta 新闻室[1][35];echo3D Medium 简报[6][14];Tech Explorer 教程[36][8];Macaron Playbook & Blog[29][27];OpenAI/Rerun 注释[24]

[1] [2] [3] [4] [5] [12] [13] [20] [22] [23] [25] [32] [33] [34] [35] 新的 Segment Anything 模型让检测物体和创建 3D 重建变得更容易

https://about.fb.com/news/2025/11/new-sam-models-detect-objects-create-3d-reconstructions/

[6] [14] [19] Meta的新SAM 3D:将常识性3D理解带入日常图像 | 作者 echo3D | echo3D | 2025年11月 | Medium

https://medium.com/echo3d/metas-new-sam-3d-bringing-common-sense-3d-understanding-to-everyday-images-a022e8766e1a

[7] [8] [9] [11] [15] [16] [17] [18] [36] SAM 3D 对象教程:Meta AI 单图像 3D 重建 | 照片到 3D 模型 • 技术探险者

https://stable-learn.com/en/sam-3d-objects-tutorial/

[10] 这款AI将您的照片转为3D模型 - 以下是方法

https://www.adwaitx.com/meta-sam-3d-models-guide/

[21] [26] SAM 3D终极指南:转换3D对象的理解

https://skywork.ai/blog/ai-image/sam-3d-ultimate-guide/

[24] rerun.io

https://rerun.io/examples/generative-vision/shape_pointe

[27] Nano Banana Pro:AI图像编辑工具 - Macaron

https://macaron.im/blog/nano-banana-pro

[28] [29] [30] [31] 当 Nano Banana 遇上 Macaron:在一个平台上实现下一代 AI 图像编辑 - Macaron

https://macaron.im/blog/macaron-ai-essential-personal-assistant-features

Nora 是 Macaron 的增长负责人。在过去两年中,她专注于 AI 产品的增长,成功将多个产品从 0 推向 1。她在增长策略方面拥有丰富的经验。

申请成为 Macaron 的首批朋友