免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一次三篇!李飛飛的空間智能公司,發(fā)論文了

0
分享至



編輯|Panda

今天,由李飛飛聯(lián)合創(chuàng)立的空間智能公司 World Labs 在同一天發(fā)布了三篇技術論文!



三篇論文分別由公司內(nèi)部實習生主導完成,研究方向各異,但共享同一個核心命題:借助已在海量圖片數(shù)據(jù)上訓練成熟的 2D 生成模型,降低 3D 內(nèi)容生成的難度門檻。



值得注意的是,正如 World Labs 聯(lián)合創(chuàng)始人 Justin Johnson 所言,盡管該公司此前已有成果展示,但這三篇論文確是該公司的首批論文(first-ever papers)



回到這三篇論文的主題:3D 內(nèi)容生成。這是一個長期以來「說起來簡單、做起來極難」的領域。

現(xiàn)實世界是三維的,但訓練數(shù)據(jù)絕大多數(shù)是二維的(包括照片、視頻、圖像),而不是帶有體積、深度和遮擋關系的完整空間結構。一旦轉入三維,訓練數(shù)據(jù)驟減,幾何一致性的維護變得指數(shù)級復雜。

過去數(shù)年,研究者們已經(jīng)找到了一條可行路徑:不從頭訓練 3D 生成模型,而是將 2D 擴散模型的強大先驗能力遷移到 3D 生成任務中。

World Labs 這次發(fā)布的三篇論文,分別從不同角度延伸了這條思路。



三項研究的具體切入點各有側重:

  • World Tracing解決的是「從單張圖像恢復可見表面之外的完整三維幾何」問題;
  • Modality Forcing探索的是「如何讓一個文生圖模型同時具備深度感知和 3D 推理能力」;
  • Flex4DHuman則將問題延伸到時間維度,嘗試從普通單目視頻中提升出可合成的動態(tài) 4D 人體。

值得注意的是,就在論文發(fā)布的同一天,World Labs 聯(lián)合創(chuàng)始人 Christoph Lassner 在社交媒體上宣布因病將離開公司,為這場學術亮相增添了一絲人事變局的注腳。



下面我就來具體看看 World Labs 的首批論文。

World Tracing

讓每一個像素,都指向一個完整的 3D 世界

如果你手中只有一張照片,你能從中恢復多少三維信息?

常識告訴我們:很有限。照片只是現(xiàn)實世界在某一時刻、某一視角下的投影,深度信息丟失,遮擋面后方的空間完全缺席。當前主流的單圖轉 3D 方法,通常面臨一個兩難困境:要么做深度估計(精確但只能恢復可見表面);要么做生成補全(想象力豐富但結果往往偏離原始圖像的視覺細節(jié))。

World Tracing方案試圖同時消解這兩種缺陷。



  • 論文標題:World Tracing: Generative Pixel-Aligned Geometry Beyond the Visible
  • 論文地址:https://arxiv.org/abs/2606.13652
  • 項目地址:https://haoz19.github.io/world-tracing-page/

論文由 Hao Zhang 主導,團隊成員包括 World Labs 聯(lián)合創(chuàng)始人 Ben Mildenhall、Christoph Lassner、Gengshan Yang 等人。



核心思路是:將每一個輸入像素視為一條射線,沿著這條射線預測一組有序的三維坐標點——第 0 層是可見表面,之后各層依次是沿該射線方向的被遮擋幾何體。論文將這種表示稱為「pixel-aligned multilayer geometry representation」(像素對齊的多層幾何表示),具體實現(xiàn)為一個多層 XYZ 坐標張量(multilayer XYZ stack)。



換句話說,World Tracing 給每個像素對應的不只是一個三維點,而是一疊有序的三維點,記錄了這條視線穿越場景所經(jīng)過的所有幾何層:第 0 層是直接可見的表面,更深的層則逐步揭示被前景物體遮擋的隱藏幾何體。

這就像是把相機比作一支鉛筆:普通深度估計只能畫出物體的輪廓線,而 World Tracing 試圖畫出這支鉛筆穿透紙張時,另一面的樣子。

預測這種「深度堆疊」本身是極高難度的任務,因為遮擋面的幾何信息根本沒有出現(xiàn)在圖像中,模型必須依賴對現(xiàn)實世界空間結構的「常識」來進行推斷。

為此,研究團隊采用了擴散模型來對這組有序深度值建模。擴散模型天然適合處理帶有不確定性的分布式預測,而非給出單一確定答案。

更關鍵的是,整個預測過程始終對齊于原始輸入圖像的像素坐標??梢姳砻娴纳疃缺痪_地「錨定」在圖像信息中,而不可見部分的補全則在這個約束框架下進行生成。這使得最終的三維重建既忠實于輸入圖像,又具備完整的空間結構。

論文中展示的案例覆蓋了靜態(tài)物體、室內(nèi)外場景,乃至動態(tài)世界建模。團隊還發(fā)布了論文代碼、項目主頁和 Hugging Face 在線演示,讓外界能夠直接測試這套方法對任意圖像的處理效果。



對于 World Labs 這樣以「空間智能」為核心產(chǎn)品方向的公司來說,World Tracing 的意義在于:它提供了一種從單張圖像出發(fā)、直接恢復豐富三維結構的技術路徑,而不需要多視角輸入或昂貴的三維數(shù)據(jù)標注。這與 Marble 產(chǎn)品「從圖像生成可探索三維世界」的核心承諾高度一致。

Modality Forcing

一個模型,同時理解顏色、文字和深度

深度估計和圖像生成,在傳統(tǒng)上是兩個完全獨立的任務,分別需要專門的數(shù)據(jù)集和獨立訓練的模型。前者需要精確的深度標注(LiDAR 掃描或雙目視覺),后者依賴海量圖文對。兩套任務的數(shù)據(jù)規(guī)模相差懸殊——圖像生成模型見過數(shù)十億張圖片,而深度模型的訓練數(shù)據(jù)量通常只是零頭。

這種不對稱,催生了一個自然的問題:能否讓已經(jīng)在海量圖文數(shù)據(jù)上訓練成熟的文生圖模型,直接學會對深度的感知?

Modality Forcing給出了一個肯定的回答,并走得更遠。



  • 論文標題:Modality Forcing for Scalable Spatial Generation
  • 論文地址:https://arxiv.org/abs/2606.13676
  • 項目地址:https://modality-forcing.github.io/

這篇由 Bardienus Duisterhof 主導的 World Labs 實習研究,核心主張是:文生圖是一種可擴展的 3D 推理預訓練目標,只要用對訓練策略,同一個模型可以在 RGBD 生成、深度估計和深度條件圖像生成三項任務之間自由切換。



論文提出的方法名為「Modality Forcing」,其核心機制是:給 RGB 和深度兩種模態(tài)分別分配獨立的擴散噪聲時間步(per-modality noise levels)



訓練時,RGB 和深度各自被加入不同程度的噪聲,同時接受各自獨立的損失監(jiān)督;推理時,只需固定某一模態(tài)的噪聲步為 0(即視為已知條件),對另一模態(tài)完整去噪,便可實現(xiàn)圖像→深度(I2D)或深度→圖像(D2I)的條件生成;兩者均加噪則為聯(lián)合生成。

由于深度在像素空間(而非 VAE 隱空間)中直接擴散,模型可以從僅含稀疏深度標注的真實世界數(shù)據(jù)中學習,不再局限于依賴密集標注的合成數(shù)據(jù)集。

這種思路的優(yōu)勢在于:不需要額外引入獨立的深度網(wǎng)絡,也不需要為每個任務單獨設計架構分支。一個預訓練的文生圖模型,通過 Modality Forcing 微調(diào)之后,就具備了對場景幾何的直接感知能力。

從技術路徑來看,Modality Forcing 與近年來流行的多任務擴散模型研究(如 Marigold、Depth Pro、Lotus 等)方向一致,但其獨特之處在于對「生成」與「感知」兩類任務的統(tǒng)一處理。深度估計通常被視為一個判別任務(給定圖像,輸出深度值),而文生圖是一個生成任務。

Modality Forcing 的貢獻在于證明:這兩種任務之間的邊界比想象中模糊得多;生成能力的積累,可以直接轉化為感知能力的提升,反之亦然。

對 World Labs 來說,這項研究的意義延伸到產(chǎn)品層面:Marble 的 3D 世界生成需要對場景深度的精確理解。一個同時具備生成和感知能力的統(tǒng)一模型,將使 3D 世界的構建更加自洽,避免深度估計模塊和生成模塊之間的累積誤差。

Flex4DHuman

從一段手機視頻,「升維」出可合成的動態(tài)人體

如果說前兩篇論文處理的是靜態(tài)或通用場景,Flex4DHuman則將挑戰(zhàn)聚焦于一個更具體但同樣重要的子問題:如何從一段普通的單目視頻(比如手機拍攝的日常視頻),重建出動態(tài)人體的完整四維結構,即三維空間+時間維度。

這個問題的難點在于「單目」兩個字。多目攝像系統(tǒng)可以通過視差直接測量三維坐標,但單目視頻丟失了這種幾何約束。從單目視頻重建運動中的三維人體,本質(zhì)上是一個欠約束問題:同一段視頻序列,理論上對應無數(shù)種可能的三維運動軌跡。此前的方法大多依賴優(yōu)化過程,計算耗時,且難以泛化到訓練集以外的姿態(tài)和外觀。

Flex4DHuman 由 Yipeng Wang 擔任項目負責人,第一作者為 Jen-Hao Cheng,工作在 World Labs 實習期間完成。



  • 論文標題:Flex4DHuman: Flexible Multi-view Video Diffusion for 4D Human Reconstruction
  • 論文地址:https://arxiv.org/abs/2606.13655
  • 項目地址:https://andy-cheng.github.io/Flex4DHuman/



方法以阿里巴巴的 Wan 2.1(一個 1.3B 參數(shù)的文本生成視頻 DiT)為基礎進行微調(diào),核心改動只有一處:將原有的時空位置編碼替換為一套五軸位置編碼(five-axis positional encoding),在原有的空間坐標和幀序索引之外,額外引入視角槽索引和連續(xù) SE(3) 相對相機幾何,使模型在注意力機制內(nèi)部直接感知相機之間的相對位姿關系。



這個設計帶來了一個關鍵優(yōu)勢:不需要骨架估計(skeleton)、深度圖或法線圖等顯式幾何先驗,僅憑相對相機姿態(tài)就能驅動多視角視頻的同步生成。這與此前主流方法(如 Diffuman4D 依賴 SMPL 骨架、MV-Performer 依賴深度和法線渲染)形成鮮明對比。

給定一段單目參考視頻和目標相機姿態(tài),模型直接輸出在時間上同步、視角上一致的多視角視頻序列;再將這些多視角視頻送入 FreeTimeGS 重建管線,即可得到動態(tài) 4D 高斯表示(4D Gaussian Splats)。

這套流程將視頻擴散模型的強大外觀先驗與 4D 高斯的高效渲染能力結合起來,使得從一段跳舞視頻或行走視頻出發(fā),可以將其中的人物「升維」為完整的動態(tài) 4D 資產(chǎn),再合成進任意 3D 場景。這對于數(shù)字內(nèi)容創(chuàng)作、虛擬制片和 AR/VR 應用具有直接價值。



論文還驗證了方法超出人體的泛化性:同一個模型經(jīng)過少量微調(diào)后,可以推廣到多物種動物的多視角生成,在跨物種零樣本測試中仍保持較強性能,表明方法的核心設計不依賴人體特有的幾何假設。

論文在 DNA-Rendering 和 ActorsHQ 兩個基準上進行了評測。與同樣基于單目參考視頻的 Diffuman4D-mono-skeleton 相比,F(xiàn)lex4DHuman 在 DNA-Rendering 上 PSNR 提升約 9.3 dB;在零樣本的 ActorsHQ 測試集上,PSNR 也高出對手約 3.4 dB。

從更宏觀的視角來看,F(xiàn)lex4DHuman 代表了「2D 視頻數(shù)據(jù)賦能 3D 世界建模」這一技術路線的一個典型樣本。手機視頻是人類日常生產(chǎn)最多的數(shù)據(jù)形式,如果能夠高效地從中提取四維信息,將極大擴展 3D 世界模型的訓練數(shù)據(jù)來源。

聯(lián)創(chuàng) Christoph Lassner 宣布離職

就在三篇論文發(fā)布的同一天,World Labs 聯(lián)合創(chuàng)始人Christoph Lassner在 X 平臺發(fā)帖,宣布自己將離開公司,開啟下一段旅程。



Lassner 是 World Labs 四位聯(lián)合創(chuàng)始人之一,另外三位分別是李飛飛、Justin Johnson 和 Ben Mildenhall。他長期從事計算機視覺與計算機圖形學交叉領域的研究,專注于從 2D 圖像和視頻中恢復可用的三維內(nèi)容。

在加入 World Labs 之前,Lassner 的職業(yè)軌跡覆蓋了多個行業(yè)前沿。他曾在初創(chuàng)公司 Bodylabs 工作,該公司后被亞馬遜收購,專注于基于圖像的三維人體建模;在亞馬遜期間,他主導開發(fā)了 Amazon Halo 智能手環(huán)的三維體型估算系統(tǒng),用戶僅需手機自拍,即可獲得精確的三維身材模型。此后,他先后在 Meta Reality Labs Research 和 Epic Games 主持研究團隊,深耕神經(jīng)渲染和 NeRF(神經(jīng)輻射場)相關技術,2022 年 Meta Connect 大會上展示的實時輻射場渲染演示,正是他所在團隊的成果之一。他還開發(fā)了 Pulsar 渲染器,一種基于球體基元的可微分渲染器,后來成為 PyTorch3D 的后端組件之一,在學術界得到廣泛應用。



Lassner 于 2024 年初與李飛飛等人共同創(chuàng)立 World Labs。公司于同年 9 月從隱身狀態(tài)中走出,以約 10 億美元估值完成 2.3 億美元融資,投資方包括 NVIDIA、AMD、Adobe 和 Databricks 旗下風險投資機構。2026 年 2 月,World Labs 完成了由 Autodesk 領投的 10 億美元新一輪融資,估值躍升至約 50 億美元。

三篇論文的致謝列表中均出現(xiàn)了 Lassner 的名字,這意味著他在職期間積極參與了這些實習研究項目。

對于離職的原因,Lassner 在公開聲明中做了坦誠的說明:過去幾個月里,他經(jīng)歷了數(shù)起個人事故,其中包括一次造成多處骨折和腦震蕩的意外,目前仍在恢復中。這段強制休息的時間讓他有機會重新審視自己的處境,并做出了退出日常運營職務的決定。他同時表示,將繼續(xù)以顧問身份支持公司,并對李飛飛、Justin Johnson 和 Ben Mildenhall 在這一決定過程中給予的理解和支持表達了感謝。

在向公司內(nèi)部團隊發(fā)送的信件中,Lassner 寫道,他「深信 World Labs 以及我們正在構建的事業(yè)的重要性」,公司目前所處的強勁位置讓他確信此刻是交棒的合適時機。他表示,自己下一步的計劃尚不明確,但「對即將到來的事感到興奮」。

結語

三篇論文同日亮相,對 World Labs 而言是一個值得記錄的時間節(jié)點。這家公司自 2024 年創(chuàng)立以來,主要以技術博客和產(chǎn)品的形式與公眾見面:Marble 世界模型的內(nèi)測與公測、World API 的開放、Spark 2.0……而這次是公司首次以 arXiv 預印本形式正式發(fā)表學術論文。

這次的集體亮相,聯(lián)合創(chuàng)始人 Justin Johnson 在 X 上的評論或許最能說明其背景意涵:「3D 是一個令人興奮的領域,我們?nèi)栽诿髡_的任務定義、問題形式、模型架構,以及最佳的擴展方式。我們在這里分享一些想法,由一批出色的實習生主導完成。」

語氣謙遜,但方向很清晰:World Labs 正在將「空間智能」的研究路線推向更深處,并愿意在這一過程中與學術社區(qū)分享自己的思考。

文中視頻鏈接:https://mp.weixin.qq.com/s/tSorVEK3cAszxBw_MKLzMQ

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
六月中旬了,今年為啥遲遲不大熱?全國多人體感反常,原因講透了

六月中旬了,今年為啥遲遲不大熱?全國多人體感反常,原因講透了

老特有話說
2026-06-18 15:00:16
于丹被北師大免職,跌落神壇后竟活成這樣!人人都該警醒...

于丹被北師大免職,跌落神壇后竟活成這樣!人人都該警醒...

華人星光
2024-11-07 13:39:41
最高法發(fā)布瀆職典型案例:四川一交通局長索賄1.3億元被判死緩

最高法發(fā)布瀆職典型案例:四川一交通局長索賄1.3億元被判死緩

新京報
2026-06-18 12:12:06
毫無底線!具俊曄公開與大S私密往事,20年前韓國同居小屋曝光

毫無底線!具俊曄公開與大S私密往事,20年前韓國同居小屋曝光

生命之泉的奧秘
2026-06-13 17:34:56
與院長前妻離婚,他娶小6歲明星妻子,46歲老來得子如今定居香港

與院長前妻離婚,他娶小6歲明星妻子,46歲老來得子如今定居香港

墨印齋
2026-06-19 04:08:46
95年我娶了鄰村的母夜叉,洞房夜她摘下面紗后說:你10年前救過我

95年我娶了鄰村的母夜叉,洞房夜她摘下面紗后說:你10年前救過我

白云故事
2025-05-18 17:45:03
哈蘭德女友身份曝光:身價2億歐,20歲未婚生子

哈蘭德女友身份曝光:身價2億歐,20歲未婚生子

夢想的旅途照進現(xiàn)實
2026-06-18 10:08:29
尼格買提不再隱瞞!無兒無女的他自曝病情,給中年男人提了個醒

尼格買提不再隱瞞!無兒無女的他自曝病情,給中年男人提了個醒

看盡落塵花q
2026-05-21 04:47:45
莫斯科街頭豎起“空中哨兵”,首都開始像前線一樣防無人機

莫斯科街頭豎起“空中哨兵”,首都開始像前線一樣防無人機

桂系007
2026-06-18 04:45:01
俄方警告北約:任何一個北約成員國襲擊俄羅斯的行為,都會得到“毀滅性”回應

俄方警告北約:任何一個北約成員國襲擊俄羅斯的行為,都會得到“毀滅性”回應

環(huán)球網(wǎng)資訊
2026-06-18 22:03:05
連夜驅逐!世界杯爆沖突,多國人員慘遭牽連,國際足聯(lián)討好也白搭

連夜驅逐!世界杯爆沖突,多國人員慘遭牽連,國際足聯(lián)討好也白搭

法老不說教
2026-06-18 17:30:08
庫克稱蘋果“扛不住” 消費電子漲價不可避免?

庫克稱蘋果“扛不住” 消費電子漲價不可避免?

新京報
2026-06-18 16:58:05
一個女人變老的標志,以下10條,能占一半,說明你已經(jīng)老了

一個女人變老的標志,以下10條,能占一半,說明你已經(jīng)老了

王二哥老搞笑
2026-06-09 08:48:58
破案了!葡萄牙平局原因水落石出,主教練道出實情,終于看懂了

破案了!葡萄牙平局原因水落石出,主教練道出實情,終于看懂了

五姑娘臺球
2026-06-18 13:01:08
上海一奧迪女銷售請客戶吃飯,細節(jié)被爆出,父母:臉都被丟盡了

上海一奧迪女銷售請客戶吃飯,細節(jié)被爆出,父母:臉都被丟盡了

紅豆講堂
2025-04-14 12:25:10
荒誕!父親過世 兒子獨自火化安葬后才通知親戚,姑姑:人格不健全

荒誕!父親過世 兒子獨自火化安葬后才通知親戚,姑姑:人格不健全

市井大實話
2026-05-06 08:44:17
中國人民銀行副行長、國家外匯管理局局長朱鶴新:支持創(chuàng)新人民幣外匯衍生品

中國人民銀行副行長、國家外匯管理局局長朱鶴新:支持創(chuàng)新人民幣外匯衍生品

中國經(jīng)營報
2026-06-18 14:54:25
歐洲內(nèi)戰(zhàn)4-1火爆,追平前兩屆世界杯紀錄創(chuàng)歷史

歐洲內(nèi)戰(zhàn)4-1火爆,追平前兩屆世界杯紀錄創(chuàng)歷史

格斗社
2026-06-19 05:16:18
太離譜!西安一醫(yī)院醫(yī)生用豆包看病,被患者發(fā)現(xiàn)后慌忙關外放

太離譜!西安一醫(yī)院醫(yī)生用豆包看病,被患者發(fā)現(xiàn)后慌忙關外放

周哥一影視
2026-06-19 00:27:59
就在剛剛,斯諾克公開賽:中國占16席,吳宜澤、丁俊暉對手已敲定

就在剛剛,斯諾克公開賽:中國占16席,吳宜澤、丁俊暉對手已敲定

小七說籃球
2026-06-18 10:25:35
2026-06-19 05:47:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142673關注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

瑞士4-1波黑獲小組賽首勝 曼贊比替補登場進兩球

頭條要聞

瑞士4-1波黑獲小組賽首勝 曼贊比替補登場進兩球

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經(jīng)要聞

博??礗PO,賺錢業(yè)務與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

旅游
教育
親子
手機
游戲

旅游要聞

古樹公園“重生記”,曲靖城郊多了個“漫時光”秘境

教育要聞

畢業(yè)即高薪!高考生緊盯這6個專業(yè),畢業(yè)后50%能到國企就業(yè)!

親子要聞

人類幼崽搞笑瞬間

手機要聞

iOS 27「查找」App升級:支持隱藏共享位置與自定義時長

PS5版《GTA6》已有店家開始預定!售價545元

無障礙瀏覽 進入關懷版