網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

一次三篇！李飛飛的空間智能公司，發(fā)論文了

2026-06-14 14:56:59　來源: 機器之心Pro

河北舉報

分享至

編輯｜Panda

今天，由李飛飛聯(lián)合創(chuàng)立的空間智能公司 World Labs 在同一天發(fā)布了三篇技術論文！

三篇論文分別由公司內(nèi)部實習生主導完成，研究方向各異，但共享同一個核心命題：借助已在海量圖片數(shù)據(jù)上訓練成熟的 2D 生成模型，降低 3D 內(nèi)容生成的難度門檻。

值得注意的是，正如 World Labs 聯(lián)合創(chuàng)始人 Justin Johnson 所言，盡管該公司此前已有成果展示，但這三篇論文確是該公司的首批論文（first-ever papers）

回到這三篇論文的主題：3D 內(nèi)容生成。這是一個長期以來「說起來簡單、做起來極難」的領域。

現(xiàn)實世界是三維的，但訓練數(shù)據(jù)絕大多數(shù)是二維的（包括照片、視頻、圖像），而不是帶有體積、深度和遮擋關系的完整空間結構。一旦轉入三維，訓練數(shù)據(jù)驟減，幾何一致性的維護變得指數(shù)級復雜。

過去數(shù)年，研究者們已經(jīng)找到了一條可行路徑：不從頭訓練 3D 生成模型，而是將 2D 擴散模型的強大先驗能力遷移到 3D 生成任務中。

World Labs 這次發(fā)布的三篇論文，分別從不同角度延伸了這條思路。

三項研究的具體切入點各有側重：

World Tracing解決的是「從單張圖像恢復可見表面之外的完整三維幾何」問題；
Modality Forcing探索的是「如何讓一個文生圖模型同時具備深度感知和 3D 推理能力」；
Flex4DHuman則將問題延伸到時間維度，嘗試從普通單目視頻中提升出可合成的動態(tài) 4D 人體。

值得注意的是，就在論文發(fā)布的同一天，World Labs 聯(lián)合創(chuàng)始人 Christoph Lassner 在社交媒體上宣布因病將離開公司，為這場學術亮相增添了一絲人事變局的注腳。

下面我就來具體看看 World Labs 的首批論文。

World Tracing

讓每一個像素，都指向一個完整的 3D 世界

如果你手中只有一張照片，你能從中恢復多少三維信息？

常識告訴我們：很有限。照片只是現(xiàn)實世界在某一時刻、某一視角下的投影，深度信息丟失，遮擋面后方的空間完全缺席。當前主流的單圖轉 3D 方法，通常面臨一個兩難困境：要么做深度估計（精確但只能恢復可見表面）；要么做生成補全（想象力豐富但結果往往偏離原始圖像的視覺細節(jié)）。

World Tracing方案試圖同時消解這兩種缺陷。

論文標題：World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible
論文地址：https://arxiv.org/abs/2606.13652
項目地址：https://haoz19.github.io/world-tracing-page/

論文由 Hao Zhang 主導，團隊成員包括 World Labs 聯(lián)合創(chuàng)始人 Ben Mildenhall、Christoph Lassner、Gengshan Yang 等人。

核心思路是：將每一個輸入像素視為一條射線，沿著這條射線預測一組有序的三維坐標點——第 0 層是可見表面，之后各層依次是沿該射線方向的被遮擋幾何體。論文將這種表示稱為「pixel-aligned multilayer geometry representation」（像素對齊的多層幾何表示），具體實現(xiàn)為一個多層 XYZ 坐標張量（multilayer XYZ stack）。

換句話說，World Tracing 給每個像素對應的不只是一個三維點，而是一疊有序的三維點，記錄了這條視線穿越場景所經(jīng)過的所有幾何層：第 0 層是直接可見的表面，更深的層則逐步揭示被前景物體遮擋的隱藏幾何體。

這就像是把相機比作一支鉛筆：普通深度估計只能畫出物體的輪廓線，而 World Tracing 試圖畫出這支鉛筆穿透紙張時，另一面的樣子。

預測這種「深度堆疊」本身是極高難度的任務，因為遮擋面的幾何信息根本沒有出現(xiàn)在圖像中，模型必須依賴對現(xiàn)實世界空間結構的「常識」來進行推斷。

為此，研究團隊采用了擴散模型來對這組有序深度值建模。擴散模型天然適合處理帶有不確定性的分布式預測，而非給出單一確定答案。

更關鍵的是，整個預測過程始終對齊于原始輸入圖像的像素坐標?？梢姳砻娴纳疃缺痪_地「錨定」在圖像信息中，而不可見部分的補全則在這個約束框架下進行生成。這使得最終的三維重建既忠實于輸入圖像，又具備完整的空間結構。

論文中展示的案例覆蓋了靜態(tài)物體、室內(nèi)外場景，乃至動態(tài)世界建模。團隊還發(fā)布了論文代碼、項目主頁和 Hugging Face 在線演示，讓外界能夠直接測試這套方法對任意圖像的處理效果。

對于 World Labs 這樣以「空間智能」為核心產(chǎn)品方向的公司來說，World Tracing 的意義在于：它提供了一種從單張圖像出發(fā)、直接恢復豐富三維結構的技術路徑，而不需要多視角輸入或昂貴的三維數(shù)據(jù)標注。這與 Marble 產(chǎn)品「從圖像生成可探索三維世界」的核心承諾高度一致。

Modality Forcing

一個模型，同時理解顏色、文字和深度

深度估計和圖像生成，在傳統(tǒng)上是兩個完全獨立的任務，分別需要專門的數(shù)據(jù)集和獨立訓練的模型。前者需要精確的深度標注（LiDAR 掃描或雙目視覺），后者依賴海量圖文對。兩套任務的數(shù)據(jù)規(guī)模相差懸殊——圖像生成模型見過數(shù)十億張圖片，而深度模型的訓練數(shù)據(jù)量通常只是零頭。

這種不對稱，催生了一個自然的問題：能否讓已經(jīng)在海量圖文數(shù)據(jù)上訓練成熟的文生圖模型，直接學會對深度的感知？

Modality Forcing給出了一個肯定的回答，并走得更遠。

論文標題：Modality Forcing for Scalable Spatial Generation
論文地址：https://arxiv.org/abs/2606.13676
項目地址：https://modality-forcing.github.io/

這篇由 Bardienus Duisterhof 主導的 World Labs 實習研究，核心主張是：文生圖是一種可擴展的 3D 推理預訓練目標，只要用對訓練策略，同一個模型可以在 RGBD 生成、深度估計和深度條件圖像生成三項任務之間自由切換。

論文提出的方法名為「Modality Forcing」，其核心機制是：給 RGB 和深度兩種模態(tài)分別分配獨立的擴散噪聲時間步（per-modality noise levels）

訓練時，RGB 和深度各自被加入不同程度的噪聲，同時接受各自獨立的損失監(jiān)督；推理時，只需固定某一模態(tài)的噪聲步為 0（即視為已知條件），對另一模態(tài)完整去噪，便可實現(xiàn)圖像→深度（I2D）或深度→圖像（D2I）的條件生成；兩者均加噪則為聯(lián)合生成。

由于深度在像素空間（而非 VAE 隱空間）中直接擴散，模型可以從僅含稀疏深度標注的真實世界數(shù)據(jù)中學習，不再局限于依賴密集標注的合成數(shù)據(jù)集。

這種思路的優(yōu)勢在于：不需要額外引入獨立的深度網(wǎng)絡，也不需要為每個任務單獨設計架構分支。一個預訓練的文生圖模型，通過 Modality Forcing 微調(diào)之后，就具備了對場景幾何的直接感知能力。

從技術路徑來看，Modality Forcing 與近年來流行的多任務擴散模型研究（如 Marigold、Depth Pro、Lotus 等）方向一致，但其獨特之處在于對「生成」與「感知」兩類任務的統(tǒng)一處理。深度估計通常被視為一個判別任務（給定圖像，輸出深度值），而文生圖是一個生成任務。

Modality Forcing 的貢獻在于證明：這兩種任務之間的邊界比想象中模糊得多；生成能力的積累，可以直接轉化為感知能力的提升，反之亦然。

對 World Labs 來說，這項研究的意義延伸到產(chǎn)品層面：Marble 的 3D 世界生成需要對場景深度的精確理解。一個同時具備生成和感知能力的統(tǒng)一模型，將使 3D 世界的構建更加自洽，避免深度估計模塊和生成模塊之間的累積誤差。

Flex4DHuman

從一段手機視頻，「升維」出可合成的動態(tài)人體

如果說前兩篇論文處理的是靜態(tài)或通用場景，Flex4DHuman則將挑戰(zhàn)聚焦于一個更具體但同樣重要的子問題：如何從一段普通的單目視頻（比如手機拍攝的日常視頻），重建出動態(tài)人體的完整四維結構，即三維空間+時間維度。

這個問題的難點在于「單目」兩個字。多目攝像系統(tǒng)可以通過視差直接測量三維坐標，但單目視頻丟失了這種幾何約束。從單目視頻重建運動中的三維人體，本質(zhì)上是一個欠約束問題：同一段視頻序列，理論上對應無數(shù)種可能的三維運動軌跡。此前的方法大多依賴優(yōu)化過程，計算耗時，且難以泛化到訓練集以外的姿態(tài)和外觀。

Flex4DHuman 由 Yipeng Wang 擔任項目負責人，第一作者為 Jen-Hao Cheng，工作在 World Labs 實習期間完成。

論文標題：Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction
論文地址：https://arxiv.org/abs/2606.13655
項目地址：https://andy-cheng.github.io/Flex4DHuman/

方法以阿里巴巴的 Wan 2.1（一個 1.3B 參數(shù)的文本生成視頻 DiT）為基礎進行微調(diào)，核心改動只有一處：將原有的時空位置編碼替換為一套五軸位置編碼（five-axis positional encoding），在原有的空間坐標和幀序索引之外，額外引入視角槽索引和連續(xù) SE(3) 相對相機幾何，使模型在注意力機制內(nèi)部直接感知相機之間的相對位姿關系。

這個設計帶來了一個關鍵優(yōu)勢：不需要骨架估計（skeleton）、深度圖或法線圖等顯式幾何先驗，僅憑相對相機姿態(tài)就能驅動多視角視頻的同步生成。這與此前主流方法（如 Diffuman4D 依賴 SMPL 骨架、MV-Performer 依賴深度和法線渲染）形成鮮明對比。

給定一段單目參考視頻和目標相機姿態(tài)，模型直接輸出在時間上同步、視角上一致的多視角視頻序列；再將這些多視角視頻送入 FreeTimeGS 重建管線，即可得到動態(tài) 4D 高斯表示（4D Gaussian Splats）。

這套流程將視頻擴散模型的強大外觀先驗與 4D 高斯的高效渲染能力結合起來，使得從一段跳舞視頻或行走視頻出發(fā)，可以將其中的人物「升維」為完整的動態(tài) 4D 資產(chǎn)，再合成進任意 3D 場景。這對于數(shù)字內(nèi)容創(chuàng)作、虛擬制片和 AR/VR 應用具有直接價值。

論文還驗證了方法超出人體的泛化性：同一個模型經(jīng)過少量微調(diào)后，可以推廣到多物種動物的多視角生成，在跨物種零樣本測試中仍保持較強性能，表明方法的核心設計不依賴人體特有的幾何假設。

論文在 DNA-Rendering 和 ActorsHQ 兩個基準上進行了評測。與同樣基于單目參考視頻的 Diffuman4D-mono-skeleton 相比，F(xiàn)lex4DHuman 在 DNA-Rendering 上 PSNR 提升約 9.3 dB；在零樣本的 ActorsHQ 測試集上，PSNR 也高出對手約 3.4 dB。

從更宏觀的視角來看，F(xiàn)lex4DHuman 代表了「2D 視頻數(shù)據(jù)賦能 3D 世界建模」這一技術路線的一個典型樣本。手機視頻是人類日常生產(chǎn)最多的數(shù)據(jù)形式，如果能夠高效地從中提取四維信息，將極大擴展 3D 世界模型的訓練數(shù)據(jù)來源。

聯(lián)創(chuàng) Christoph Lassner 宣布離職

就在三篇論文發(fā)布的同一天，World Labs 聯(lián)合創(chuàng)始人Christoph Lassner在 X 平臺發(fā)帖，宣布自己將離開公司，開啟下一段旅程。

Lassner 是 World Labs 四位聯(lián)合創(chuàng)始人之一，另外三位分別是李飛飛、Justin Johnson 和 Ben Mildenhall。他長期從事計算機視覺與計算機圖形學交叉領域的研究，專注于從 2D 圖像和視頻中恢復可用的三維內(nèi)容。

在加入 World Labs 之前，Lassner 的職業(yè)軌跡覆蓋了多個行業(yè)前沿。他曾在初創(chuàng)公司 Bodylabs 工作，該公司后被亞馬遜收購，專注于基于圖像的三維人體建模；在亞馬遜期間，他主導開發(fā)了 Amazon Halo 智能手環(huán)的三維體型估算系統(tǒng)，用戶僅需手機自拍，即可獲得精確的三維身材模型。此后，他先后在 Meta Reality Labs Research 和 Epic Games 主持研究團隊，深耕神經(jīng)渲染和 NeRF（神經(jīng)輻射場）相關技術，2022 年 Meta Connect 大會上展示的實時輻射場渲染演示，正是他所在團隊的成果之一。他還開發(fā)了 Pulsar 渲染器，一種基于球體基元的可微分渲染器，后來成為 PyTorch3D 的后端組件之一，在學術界得到廣泛應用。

Lassner 于 2024 年初與李飛飛等人共同創(chuàng)立 World Labs。公司于同年 9 月從隱身狀態(tài)中走出，以約 10 億美元估值完成 2.3 億美元融資，投資方包括 NVIDIA、AMD、Adobe 和 Databricks 旗下風險投資機構。2026 年 2 月，World Labs 完成了由 Autodesk 領投的 10 億美元新一輪融資，估值躍升至約 50 億美元。

三篇論文的致謝列表中均出現(xiàn)了 Lassner 的名字，這意味著他在職期間積極參與了這些實習研究項目。

對于離職的原因，Lassner 在公開聲明中做了坦誠的說明：過去幾個月里，他經(jīng)歷了數(shù)起個人事故，其中包括一次造成多處骨折和腦震蕩的意外，目前仍在恢復中。這段強制休息的時間讓他有機會重新審視自己的處境，并做出了退出日常運營職務的決定。他同時表示，將繼續(xù)以顧問身份支持公司，并對李飛飛、Justin Johnson 和 Ben Mildenhall 在這一決定過程中給予的理解和支持表達了感謝。

在向公司內(nèi)部團隊發(fā)送的信件中，Lassner 寫道，他「深信 World Labs 以及我們正在構建的事業(yè)的重要性」，公司目前所處的強勁位置讓他確信此刻是交棒的合適時機。他表示，自己下一步的計劃尚不明確，但「對即將到來的事感到興奮」。

結語

三篇論文同日亮相，對 World Labs 而言是一個值得記錄的時間節(jié)點。這家公司自 2024 年創(chuàng)立以來，主要以技術博客和產(chǎn)品的形式與公眾見面：Marble 世界模型的內(nèi)測與公測、World API 的開放、Spark 2.0……而這次是公司首次以 arXiv 預印本形式正式發(fā)表學術論文。

這次的集體亮相，聯(lián)合創(chuàng)始人 Justin Johnson 在 X 上的評論或許最能說明其背景意涵：「3D 是一個令人興奮的領域，我們?nèi)栽诿髡_的任務定義、問題形式、模型架構，以及最佳的擴展方式。我們在這里分享一些想法，由一批出色的實習生主導完成。」

語氣謙遜，但方向很清晰：World Labs 正在將「空間智能」的研究路線推向更深處，并愿意在這一過程中與學術社區(qū)分享自己的思考。

文中視頻鏈接：https://mp.weixin.qq.com/s/tSorVEK3cAszxBw_MKLzMQ

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.