介紹 Meta SAM 3D:單圖 3D 重建

作者:Boxu LI

於 2025 年 11 月推出的 Meta SAM 3D 立即在 AI 領域引起轟動[1]。作為 Meta 的 Segment Anything 系列的一部分,SAM 3D 將人類水平的「常識」3D 理解帶入日常圖像——讓任何人都可以從一張普通照片中重建物體甚至完整的人體 3D 模型[2]。這款單次 3D 建模器是開放源代碼的,並且已經在計算機視覺領域樹立了新的最先進標準,顯著超越了先前的單影像 3D 方法[3]。從本質上講,SAM 3D 將 Meta 的可提示視覺工具包從2D 分割擴展到 3D 領域,讓用戶以空前的輕鬆方式**「讓圖片活起來」**[4][5]

關鍵在於,SAM 3D 並不是單一模型,而是兩個專門的模型:SAM 3D Objects 用於一般物體和場景重建,SAM 3D Body 用於完整的人體形狀和姿勢估計[2]。只需一張照片,SAM 3D Objects 就能生成選定物體(或整個場景)的紋理化 3D 網格,而 SAM 3D Body 則能從一張圖像中生成現實的全身人體網格[2]。Meta 的研究顯示這兩個模型都能提供強大的結果——事實上,SAM 3D Objects 在基準測試中顯著超越現有的 3D 重建方法[3]。透過使用 AI 訓練的先驗知識來推斷深度和隱藏表面,SAM 3D 猜測圖像中物體的背後和底下是什麼與傳統的攝影測量(需要從每個角度拍攝數十張照片)不同,SAM 3D 可以從單一視角預測物體的 完整幾何形狀、紋理和佈局[6]*。這一突破讓我們更接近科幻的想法,即拍攝一張簡單的快照並將其中的世界**“3D 打印”**出來。

主要特點與創新

SAM 3D 引入了多項技術突破,使其在視覺模型領域中脫穎而出。以下是其核心特點與創新:

·      單張影像3D重建 – 從僅一張2D影像實現完整的3D場景重建,這在該領域中是首次[7]。這種「照片轉3D」的功能代表了一個重大突破,讓創作者擺脫多鏡頭裝置或深度感測器的束縛。

·      處理遮擋與雜亂 – 對於現實世界的複雜性具有很強的適應能力:SAM 3D 不會被遮擋或部分隱藏的物體和繁忙場景所困擾[8]。它使用學習到的上下文來*「填補」單張照片無法看到的物體隱藏部分*,這種常識性3D理解模仿了人類的感知。

·      完整幾何結構與紋理 – 不僅輸出粗略形狀,還包括詳細的紋理網格。SAM 3D 不僅生成對象的完整幾何結構,還提供高品質的表面紋理甚至場景佈局定位[9]。實際上,您將獲得一個即用型 3D 模型(例如標準 .ply/.obj,附帶紋理[10]),從各個角度看起來都很真實。

· 進階訓練與準確性 – Meta 使用新技術在大規模圖像數據集上訓練了 SAM 3D,產生了比以往模型更好的結果[11]。為了嚴格評估,創建了一個新的基準數據集(SAM 3D Artist Objects)[12]。結果是這個模型能夠在多樣化圖像和情境中泛化,而先前的方法則會失效,真正為 AI 引導的 3D 重建樹立了新標杆[13]

·      人體網格創新(SAM 3D 身體) – 這款以人為中心的變體引入了一種新的參數化網格表示法,即動量人體骨架 (MHR),能夠將骨骼姿勢與身體形狀分離[14]。簡單來說,SAM 3D 身體能夠比以往的方法更準確和可解釋地捕捉人的姿勢和比例。這對於需要逼真數位人像的應用(從虛擬試穿到運動科學)來說是顛覆性的。

·      人為導向的精煉 – 該模型通過人類反饋迴路進行精煉,使輸出更加合理且美觀[15]。這額外的“E-E-A-T”優勢意味著 SAM 3D 的重建不僅在技術上精確,還在人眼中看起來比例和細節都很正確

· 快速,一鍵結果 – 儘管 SAM 3D 複雜,但它的速度經過優化。從影像生成 3D 模型幾乎是即時的(秒而非小時)[16]。這種即時性使得 3D 創作成為一種點擊等待的體驗,將強大的 3D 內容生成能力放在日常用戶手中,無需長時間渲染延遲。

它的運作原理是什麼? 簡而言之,SAM 3D 結合了基於視覺變壓器的圖像編碼器、分割遮罩處理器(利用原始的 2D Segment Anything 選擇物體),以及多個 3D 預測模組(深度估計、幾何生成、材質合成,甚至高斯噴塗渲染器)[17]。基本上,它首先理解 2D 圖像內容,然後分割目標物體,接著推斷 3D 形狀和深度,最後輸出帶有材質的 3D 網格,以用戶友好的格式呈現[18][10]。這一切都不需要用戶具備 3D 專業知識 —— 由 Meta 預訓練的模型和算法來完成繁重工作。通過開源代碼和模型權重,Meta 也使開發者能夠將 SAM 3D 整合或微調以適應自己的項目[19][20]

應用與使用案例

除了令人驚嘆的效果,為什麼 SAM 3D 至關重要?從實際角度來看,這項技術在多個行業中解鎖了各種令人興奮的應用:

·      擴增實境與虛擬實境: SAM 3D 可以將 2D 照片即時轉換為 3D 道具或環境,這對 AR/VR 創作者來說是一大福音。團隊可以通過將物件從參考圖像「拉出」到 3D 中,更快速地製作沉浸式場景[21][22]。例如,一張簡單的手機椅子照片可以用作 VR 遊戲或 AR 家具擺放應用中的 3D 資產,無需 3D 建模技能。

· 機器人與自主系統: 機器人和人工智慧系統需要對其環境有3D理解。SAM 3D能從單一相機影像生成3D模型,有助於物體識別和空間推理[22]。這可以通過提供單一影像幀的深度資訊,改進機器人抓取物體或導航場景的方式。在無人機或自駕車中,單一快照可以被「理解」成3D,以避免障礙或估算物體尺寸。

· 醫療與運動科學: SAM 3D人體模型在醫學、運動和健身領域開啟了新可能。通過一張照片或X光片,從業者可以得到患者身體或姿勢的3D近似。Meta特別指出運動醫學中的應用[22] —— 例如,從單一動作照中分析運動員的3D形式,或幫助物理治療患者看到自己的3D姿勢和對齊情況,以便獲得更好的反饋。

·      遊戲和 3D 內容創作: 遊戲開發者和 3D 藝術家可以使用 SAM 3D 作為資產創建的捷徑。他們無需從頭開始建模,只需將概念藝術或參考照片輸入 SAM 3D,即可生成角色、道具或環境的基礎模型。這降低了獨立開發者打造豐富 3D 世界的門檻。一位創作者可以隨手拍下街頭酷炫摩托車的照片,然後用 SAM 3D 創建一個帶有材質的 3D 摩托車模型,用於他們的遊戲中——節省手動建模的數小時時間。這是快速原型設計和創意迭代的強大助手[22]

· 電子商務與虛擬試穿: 一個引人注目的現實應用是互動購物。Meta已經在Facebook Marketplace的新功能“在房間中查看”中使用SAM 3D,讓用戶只需使用產品照片即可在自家中可視化家具[23]。SAM 3D從列表照片生成3D模型,例如一盞燈,然後通過手機相機將該燈放入您的房間。這有助於顧客在購買前評估風格和合適性。同樣,時尚零售商可能允許鞋子或手袋的單一目錄圖片以3D和實際比例從所有角度查看,提升在線購物體驗。

· 教育與研究: 教育者可以將教科書圖像或博物館照片轉換為3D模型,以更好地說明歷史、生物等概念。像考古學或地質學這樣的研究領域,通常從遺址/文物的照片出發的研究人員,可能會重建3D形狀進行分析。在科學可視化中,單一顯微鏡圖像或衛星照片可以擴展為3D模型以獲得更深入的見解。通過普及3D創作,SAM 3D可以加速任何使用視覺數據的領域的創新。

這些用例僅僅是冰山一角。無論何時只有一張圖片但希望獲得3D視圖或資產,SAM 3D是新的一站式工具。它將輸入需求減少到一張圖片,大幅降低了獲取3D內容的阻力。正如Meta團隊所說,SAM 3D「為研究人員到創作者等每個人開闢了與視覺世界互動和理解的新方式」[22]

比較與競爭格局:SAM 3D的定位

SAM 3D如何與其他解決方案比較? 這個模型出現在許多科技公司推動視覺AI邊界的時刻——儘管方式不同。以下是SAM 3D在當前格局中的高層次概覽:

·      對比傳統 3D 掃描:在 AI 方法如 SAM 3D 出現之前,創建實物的 3D 模型通常需要使用攝影測量或深度感應器。這些方法需要多張圖片或特殊硬體(例如,圍繞物體拍攝數十張照片或使用 LiDAR)來捕捉所有角度。SAM 3D 通過從大量數據中學習如何推斷缺失視圖,只需單一 RGB 圖像作為輸入即可顛覆這一點[6]。其權衡在於 SAM 3D 的輸出是一種合理重建,而非完美的真實掃描——它根據學習的先驗知識幻化出隱藏的表面。但在實際應用中,對於許多應用(如遊戲、AR 效果、概念藝術)來說,逼真的近似已經足夠。巨大便利和速度上的提升往往超過了物理精確度的損失。簡而言之,SAM 3D 之於 3D 掃描就如生成模型之於攝影:更快、更靈活,並且對於廣泛用途來說已經足夠好,即便不如原始場景的厘米級精確。

· 與其他 AI 3D 生成器比較: Meta 在單一圖像 3D 生成方面的突破,使其在這一利基市場中領先於大多數現有的 AI 產品。例如,OpenAI 曾涉足 3D 生成,推出過像 Point·EShap·E 這樣的模型,它們可以從文字或圖像創建 3D 點雲或隱式形狀。然而,這些模型的解析度較低——其結果往往稀疏或抽象,遠未達到照片級真實[24]。它們更像是早期探索而非量產工具。相較之下,SAM 3D 提供了更高質量、具紋理的輸出,能「填補」細節,並已在大規模真實世界圖像中證明其效果[3]。另一些工作則涉及 NeRF (神經輻射場) 及相關技術,這些技術可從 2D 輸入生成美麗的 3D 視圖,但通常需要多個視角或每個場景的精心訓練。SAM 3D 能夠從一張圖像對多種物體類型進行泛化,這是一個顯著的優勢。它也是完全開源的,並附有推理代碼和模型檢查點,隨時可用[19][25],而其他一些尖端的 3D 模型則是專有的或難以運行。總而言之,SAM 3D 目前在單一圖像 3D 重建方面在能力和可及性上都脫穎而出。

·      相較於 Segment Anything (2D) 和相關模型: 值得注意的是,「SAM 3D」是建立在 Meta 原始的 Segment Anything Model(專注於 2D)的基礎上。今年早些時候,Meta 還宣布了 SAM 3(有時稱為 SAM v3),這個模型能夠在影像/影片中進行 文字提示分割和追蹤[1]。SAM 3D 是一個擴展至 3D 的姊妹模型。此外,還有一個無關的學術項目,令人困惑地命名為「SAM3D」(或 SAM-Part3D),該項目處理 3D 點雲中的部分分割,但這是一種完全不同的方法(對現有 3D 數據進行標記,而不是從 2D 生生成 3D)[26]。Meta 的 SAM 3D 的獨特之處在於它能從平面影像創建新的 3D 表示。在 Meta 自己的比較中,SAM 3D 物件在標準基準上表現遠勝於先前的學術方法,這要歸功於其基於學習的方法和龐大的訓練語料庫[13]

·      SAM 3D 對比 Google 的 Nano Banana Pro (2D): 有趣的是,SAM 3D 正在其他領域的 AI 里程碑同時發生時推出。一個值得注意的例子是 Google DeepMind 的 Nano Banana Pro,於 2025 年末推出。Nano Banana Pro 不是 3D 工具,而是建立在 Gemini 3 AI 平台上的尖端 圖像生成和編輯模型。它提供接近攝影級的 4K 圖像編輯以及無與倫比的一致性(跨編輯的角色一致性達 95% 以上)[27]。換句話說,Nano Banana Pro 能以令人難以置信的保真度修改或創建圖像——有人認為它可能替代許多 Photoshop 任務[28][27]。相比之下,Meta 的 SAM 3D 在空間領域中運作:它可以重建 3D 模型,你可以在遊戲、動畫或 AR 場景中使用。兩者都是突破性模型,但它們的用途是互補的。Nano Banana Pro 擅長 2D 創意輸出,利用 AI 魔法將你的想法轉化為圖片(或調整圖片)[27]SAM 3D 擅長將圖片中的物體提取成 3D,將平面圖像轉變為你可以握住、旋轉或放置在虛擬空間中的東西。它們共同暗示了一個未來的工作流程,你可以使用 AI 生成一幅驚人的圖像(使用像 Nano Banana Pro 這樣的工具),然後立即從該圖像中提取元素成為 3D 模型(使用像 SAM 3D 這樣的工具)——一個從想像到圖像到互動 3D 內容的無縫橋樑。

同樣值得注意的是,這些 AI 的進展是多麼迅速地被應用到用戶手中。例如,平台 Macaron——被譽為全球首個個人 AI 助理平台——將 Google 的 Nano Banana 模型整合到其 Playbook 中,並推出了一系列一鍵式迷你應用程式,展示該模型的圖像編輯功能[29]。Macaron 的用戶可以在照片中更換服裝,從 2D 藝術生成 3D 風格的模型等,這一切都由 Nano Banana 技術驅動[30][31]。這種前沿研究成果的即時轉化為實用工具正是我們期望在 SAM 3D 上看到的。我們可以想像像 Macaron 或 Adobe 這樣的平台整合 SAM 3D,讓用戶可以上傳一張照片並獲得一個 3D 模型,可用於創意項目。換句話說,競爭格局並不是「SAM 3D 對 Nano Banana」,而是 AI 工具群體的豐富生態系統——一些專注於完善圖像,另一些則致力於解鎖 3D,前瞻性的公司將兩者結合起來以賦能創作者。SAM 3D 堅定地將 Meta 定位於這個下一代工具組中,將曾經局限於研究實驗室的能力直接帶給開發者和藝術家

結論:創意的新維度

Meta 的 SAM 3D 體現了 AI 的迅速進展:從理解平面圖像到重建其背後的三維世界。這項技術為創作者和創新者的能力增添了全新的維度。正如最近的 AI 模型讓生成和編輯具有驚人現實感的 2D 圖像變得更加容易,SAM 3D 現在使得從簡單的快照獲取3D 資產成為可能——這在幾年前,對於先進研究實驗室以外的任何人來說都是難以想像的。

E-E-A-T 的角度(經驗、專業知識、權威性、可信度)來看,SAM 3D 符合多項標準。它由 Meta 的資深 AI 研究人員開發(專業知識 ✅),並以開放的檢查點和評估數據發布,以確保透明度[20](可信度 ✅)。Meta 已經展示了實際的使用案例(Marketplace AR 家具預覽等),實際展示了模型的應用[23](經驗 ✅)。通過開源模型和分享基準,Meta 邀請研究社群驗證和拓展其宣稱的內容(權威性 ✅)。這一切使得 SAM 3D 不僅僅是一個令人印象深刻的展示,還是一個其他人可以採用並信任的可靠工具,適用於嚴肅的應用。

對於科技愛好者和研究人員來說,SAM 3D 也同樣具有令人耳目一新的易用性。你可以在 Meta 的 Segment Anything Playground 上試用,完全不需設置——只需上傳一張圖片,即可在瀏覽器中查看 3D 結果[32]。開發人員可以從 GitHub 獲取代碼,並在數小時內將單張圖像的 3D 轉換集成到他們自己的應用中。這種實驗的便利性意味著我們可能會在未來幾個月看到大量的創意用途和整合。如果獨立遊戲製作人開始使用 SAM 3D 生成的模型來填充他們的場景,或是 AR 濾鏡創作者讓用戶將快照變成 3D 貼紙,這都不足為奇。2D 和 3D 內容之間的障礙正在消融。

總之,Meta SAM 3D 代表了一項關鍵的進展,將豐富創意的領域。它與 Google 的 Nano Banana Pro 等創新並駕齊驅,顯示出 AI 如何全方位地革新內容創作——從平面圖像到完整的 3D 體驗。從單張圖像創建 3D 模型的能力將節省時間,激發新點子,甚至可能催生新的行業(想像一下虛擬房地產布置、從舊照片中生成的 3D 記憶,或從自拍生成的個性化遊戲化身)。我們正進入一個人人都可以成為 3D 創作者或 AR 設計師的時代,AI 作為強大的推動者。

Macaron 這樣的平台展示了這些突破如何快速轉化為日常工具[29]。隨著 SAM 3D 被廣泛採用,我們預計將其嵌入到創意軟體、行動應用程式和 AI 代理平台中——也許很快你就會在「編輯照片」選項旁邊看到「製作 3D」按鈕。有一件事是確定的:透過引入 SAM 3D,Meta 已經開啟了一個更具沉浸感、互動性的數位世界,而踏入這道門將如同拍照一樣簡單。創意的未來是多維的,隨著 SAM 3D 的到來,這個未來已經正式來臨。[33][4]

來源: Meta AI Blog[34][22];Meta Newsroom[1][35];echo3D Medium 簡報[6][14];Tech Explorer 教程[36][8];Macaron Playbook & Blog[29][27];OpenAI/Rerun 筆記[24]

[1] [2] [3] [4] [5] [12] [13] [20] [22] [23] [25] [32] [33] [34] [35] 新的 Segment Anything 模型讓檢測物體和創建 3D 重建變得更簡單

https://about.fb.com/news/2025/11/new-sam-models-detect-objects-create-3d-reconstructions/

[6] [14] [19] Meta 的新 SAM 3D:為日常影像帶來常識性的 3D 理解 | 作者 echo3D | echo3D | 2025 年 11 月 | Medium

https://medium.com/echo3d/metas-new-sam-3d-bringing-common-sense-3d-understanding-to-everyday-images-a022e8766e1a

[7] [8] [9] [11] [15] [16] [17] [18] [36] SAM 3D 物件教學:Meta AI 單張影像 3D 重建 | 照片轉 3D 模型 • 科技探索者

https://stable-learn.com/en/sam-3d-objects-tutorial/

[10] 這款 AI 將你的照片轉換成 3D 模型——方法如下

https://www.adwaitx.com/meta-sam-3d-models-guide/

[21] [26] SAM 3D 終極指南:改變 3D 對象理解

https://skywork.ai/blog/ai-image/sam-3d-ultimate-guide/

[24] rerun.io

https://rerun.io/examples/generative-vision/shape_pointe

[27] Nano Banana Pro:AI 圖像編輯工具 - Macaron

https://macaron.im/blog/nano-banana-pro

[28] [29] [30] [31] 當 Nano Banana 遇上 Macaron:下一級的 AI 圖像編輯在一個平台上實現 - Macaron

https://macaron.im/blog/macaron-ai-essential-personal-assistant-features

Boxu 在埃默里大學獲得了定量經濟學專業的學士學位。在加入 Macaron 之前,Boxu 的職業生涯大部分時間都在美國的私募股權和風險投資領域度過。他現在是 Macaron AI 的首席參謀和市場營銷副總裁,負責管理財務、物流和運營,並監督市場營銷。

申請成為 Macaron 的第一批朋友