免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

世界模型的門檻,谷歌可能邁過去了

0
分享至

文 | 世界模型工場

Google可能要放大招了。

就在Google I/O 2026開幕前夕,兩條由Google尚未發(fā)布的新視頻模型Gemini Omni生成的視頻悄悄流出。

沒有任何官方預(yù)告,沒有任何發(fā)布會造勢,整個社交媒體都炸翻了。

一條視頻是一位教授站在黑板前,手持粉筆,一步步推導(dǎo)三角恒等式;

另一條是兩名男士坐在海邊高檔餐廳,安靜地吃意大利面。

Reddit和X的評論區(qū),鋪天蓋地的都是同一句話:"這不可能是現(xiàn)有的技術(shù)水平。"

兩個看似普通的日常場景,為什么讓見慣了AI生成內(nèi)容的技術(shù)圈集體側(cè)目?

令人震驚的視頻

先說“教授黑板講課”視頻,生成它只用了一條prompt:

"一位教授在傳統(tǒng)黑板上寫出三角恒等式的數(shù)學證明,同時用語言解釋他當前正在推導(dǎo)的步驟。"

一條指令,沒有多輪對話,沒有分步驟控制。

出來的結(jié)果是,教授手持粉筆,逐步寫下公式,同時開口講解,畫面流暢,板書工整。


聽起來好像平平無奇。

但如果你了解當前視頻生成模型的技術(shù)邊界在哪里,就會明白Gemini Omni同時做到了三件事,而這三件事,以前從來不會同時出現(xiàn)。

第一,推理對了。

黑板上的證明過程在數(shù)學上是成立的,不是視覺上長得像公式的符號堆砌,而是數(shù)學意義上真實有效的推導(dǎo)。

要做到這一點,模型至少要在token預(yù)測之外,具備一定的符號推理能力(symbolic reasoning)。

即知道下一步應(yīng)該出現(xiàn)什么公式,而不是隨機采樣一個看起來像數(shù)學的圖案。

語義準確性疊加在視覺生成之上,正是大多數(shù)視頻模型會在這類測試中失敗的原因。

第二,空間關(guān)系對了。

評測者描述,粉筆書寫時的手部和手臂動作"讀起來是自然的",黑板上的方程式清晰可辨。

手部,是AI視頻生成里公認最容易穿幫的地方。

手指數(shù)量錯誤、關(guān)節(jié)扭曲、與物體的空間關(guān)系失真,這是行業(yè)里幾乎每一代視頻模型都栽過的坑。

一支粉筆被正確握持,在黑板上留下有意義的筆跡,手腕的力道、落筆的角度,都在合理的范圍內(nèi)。

這一關(guān),比畫一只正常的手還要難,因為手在這里還要和黑板、粉筆、書寫行為,形成完整的空間邏輯。

第三,時序?qū)α恕?/p>

這是最被低估的一件事。

教授寫下某個推導(dǎo)步驟的同時,口頭講解的正是這個步驟,板書進度與語音內(nèi)容保持同步。

這不只是音視頻的幀級對齊(frame-level alignment),而是視覺事件、語義事件、時間事件三者之間的跨模態(tài)協(xié)調(diào)。

任何一個維度的理解出現(xiàn)偏差,結(jié)果就會是"手在寫A,嘴在講C"。

這種錯位,人類觀眾一眼就能感知到。

如果這三件事只是分別做到,我們可以認為是三個專項模塊拼在一起的結(jié)果。

但三者同時成立、彼此協(xié)調(diào),更可能是模型在某個表征層面上,已經(jīng)對"教授在黑板上講課"這件事形成了整體性的語義理解。

換句話說,它知道這件事在現(xiàn)實世界里是什么樣子,知道其中各個元素之間的約束關(guān)系。

這也是為什么"世界模型"這個詞,會在這條視頻流出后開始被頻繁提及。

在黑板視頻流出的同時,還有另一條視頻一起曝光:兩名男士在海邊高檔餐廳吃意大利面。

這個場景的選擇,不是隨機的。

2024年,一段AI生成的"Will Smith吃意大利面"視頻在網(wǎng)上瘋傳。

畫面里的手指數(shù)量不對,面條像活物一樣扭動,叉子和嘴的空間關(guān)系完全失控。

那段視頻成了早期AI視頻生成能力的恥辱柱。


圖為"Will Smith吃意大利面"視頻截圖

而這一次,Gemini Omni生成的結(jié)果,有用戶評論是"令人難以置信地真實"。

這背后考驗的,是模型對剛體與柔性體之間動態(tài)交互的建模能力:

叉子是硬的,面條是軟的,兩者在接觸時會產(chǎn)生形變,而形變的方式必須符合現(xiàn)實世界里的物理直覺。

這正是早期生成模型在隱式物理模擬(implicit physics simulation)上的致命短板。

一個模型,在兩條視頻里,分別碰到了視頻生成最難的兩類問題:

一類是符號、語音與畫面的同步,另一類是人與物體、剛體與柔性體的交互,并把這些問題推進到一個更可用的狀態(tài)。

Gemini Omni展示的,更像是一個對世界有著更深理解的基座模型。

Gemini Omni的沖擊

截至目前,Google還沒有發(fā)布Gemini Omni的任何技術(shù)文檔,也沒有公開任何模型參數(shù)或基準測試數(shù)據(jù)。

但關(guān)于Gemini Omni的架構(gòu),目前外界存在三種解讀。

最保守的說法是,Omni只是Veo的品牌重命名,底層推理引擎沒有根本變化;

第二種說法是,Omni是在Gemini架構(gòu)下重新訓(xùn)練的全新視頻模型,與Veo并行但獨立;

第三種說法最激進,認為Omni是一個真正意義上的原生多模態(tài)統(tǒng)一模型,在單一架構(gòu)里原生處理文字、圖像、視頻和音頻。

基于以上兩段視頻的表現(xiàn),第三種解讀反而像是"Omni"這個命名最合理的指向,畢竟在拉丁語中,"omnis"意味著所有。

如果Omni真正打通了多模態(tài)鏈路,模型競爭的焦點就會發(fā)生根本性的轉(zhuǎn)變。

不再是誰能拍出更像電影的畫面,而是誰是內(nèi)容創(chuàng)作者的唯一目的地。

雖然現(xiàn)在還不能說Gemini Omni已經(jīng)是世界模型,但它至少說明,視頻生成正在逼近世界模型要解決的問題:

如何在時間中維持一個可解釋、可編輯、可連續(xù)推演的場景。

產(chǎn)品層面的沖擊同樣不容忽視。

今天一條AI視頻的生產(chǎn)鏈路,通常需要串聯(lián)語言模型寫腳本、圖像模型做故事板、視頻模型做動畫渲染、再加外部剪輯軟件做后期處理。

每一次跨工具切換,都意味著信息損耗和風格漂移。

一旦Gemini Omni對話式視頻編輯成立,這條鏈路就可能被一個對話窗口替代了。

更關(guān)鍵的是,如果Omni被放入Gemini入口,并與Gmail、Google Docs、YouTube、Android深度打通,這是字節(jié)Seedance、快手Kling在分發(fā)層面根本無法復(fù)制的生態(tài)優(yōu)勢。

技術(shù)能力決定上限,生態(tài)決定規(guī)模。

Gemini Omni真正的威脅,或許不在于它今天生成的視頻有多好,而在于它把視頻生成能力放在了一個競爭對手根本進不去的地方,后者對前者幾乎構(gòu)成降維打擊。

世界模型時刻或許來臨

過去幾年,生成式AI的進化路徑相對清晰。

語言模型學會了讀和寫,圖像模型學會了看和畫,視頻模型學會了動。

每一個模態(tài)都在自己的賽道上快速迭代,但它們之間始終存在一道隱形的墻。

模型知道文字,也知道圖像,但它不理解文字和圖像之間、聲音和動作之間、邏輯和畫面之間的約束關(guān)系。

如果說ChatGPT時刻定義了語言的邊界,Sora時刻定義了視頻的邊界,那Gemini Omni指向的,很可能是第一個真正意義上的"世界模型時刻"。

模型第一次開始理解,模態(tài)與模態(tài)之間在現(xiàn)實世界里的約束關(guān)系,而不只是分別生成它們。

這是一次質(zhì)的飛躍。

當然,Gemini Omni是否真正實現(xiàn)了這一點,在5月19日Google I/O 2026大會之前,沒有人能給出確定的答案。

但泄露出來的視頻,給出的信號已經(jīng)足夠有力。

接下來Google會在臺上說什么,我們很快就會知道。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
為什么洪秀全長達十一年,沒有離開“天王府”?

為什么洪秀全長達十一年,沒有離開“天王府”?

南書房
2026-06-19 13:00:12
紐約記者“封殺”貝基·哈蒙:禁止入城365天

紐約記者“封殺”貝基·哈蒙:禁止入城365天

元氣滿分吖
2026-06-20 00:19:07
當年明月悟得那么通透,為什么依然過不好一生?

當年明月悟得那么通透,為什么依然過不好一生?

新浪財經(jīng)
2026-06-14 00:52:12
iPhone 18售價或暴漲270美元,共享單車漲價

iPhone 18售價或暴漲270美元,共享單車漲價

自愈小日子
2026-06-20 00:09:01
誤報梅西父親去世!阿根廷女主播直播“翻車”,道歉后辭職

誤報梅西父親去世!阿根廷女主播直播“翻車”,道歉后辭職

紅星新聞
2026-06-19 09:06:34
又反轉(zhuǎn)了!以色列同意停火,美股期貨拉升,國際油價直線跳水!黃金白銀短線反彈

又反轉(zhuǎn)了!以色列同意停火,美股期貨拉升,國際油價直線跳水!黃金白銀短線反彈

新浪財經(jīng)
2026-06-19 21:37:45
暗黑心理學:一個男人可以花錢去嫖一個長期賣淫的女人,卻始終不肯原諒出軌悔罪回家的老婆。這是怎么回事呢?

暗黑心理學:一個男人可以花錢去嫖一個長期賣淫的女人,卻始終不肯原諒出軌悔罪回家的老婆。這是怎么回事呢?

心理觀察局
2026-06-17 06:38:26
中國男籃12人名單基本定了!楊瀚森隊內(nèi)放話帶傷沖,9人將被淘汰

中國男籃12人名單基本定了!楊瀚森隊內(nèi)放話帶傷沖,9人將被淘汰

愛體育的小悠悠
2026-06-19 14:18:56
連夜驅(qū)逐!世界杯沖突升級,多國人員被波及,國際足聯(lián)討好沒用

連夜驅(qū)逐!世界杯沖突升級,多國人員被波及,國際足聯(lián)討好沒用

就像當初啊
2026-06-18 21:28:46
世界杯炸鍋!英格蘭王牌被質(zhì)疑,名宿開噴:只會虐菜,硬仗純隱身

世界杯炸鍋!英格蘭王牌被質(zhì)疑,名宿開噴:只會虐菜,硬仗純隱身

奶蓋熊本熊
2026-06-19 04:21:24
廣西29歲美女“奇跡木木”去世!前1天熬夜做陪玩,收費20遭跑單

廣西29歲美女“奇跡木木”去世!前1天熬夜做陪玩,收費20遭跑單

她時尚丫
2026-06-19 20:36:41
C羅梅西世界杯首秀跑動曝光!誰更拼?

C羅梅西世界杯首秀跑動曝光!誰更拼?

時光慢旅人
2026-06-19 00:19:20
悲劇!24歲加拿大中場腿骨斷裂:休戰(zhàn)5個月 俱樂部最高獲賠750萬歐

悲劇!24歲加拿大中場腿骨斷裂:休戰(zhàn)5個月 俱樂部最高獲賠750萬歐

風過鄉(xiāng)
2026-06-19 10:56:34
門將下飯送大禮,韓國輸球“早有預(yù)謀”!小組第二去洛杉磯半主場

門將下飯送大禮,韓國輸球“早有預(yù)謀”!小組第二去洛杉磯半主場

中國足球的那些事兒
2026-06-19 11:48:00
30年一遇!武漢遭遇極端強降雨,武昌火車站及周邊淪為重災(zāi)區(qū)

30年一遇!武漢遭遇極端強降雨,武昌火車站及周邊淪為重災(zāi)區(qū)

火山詩話
2026-06-19 10:47:47
你是真不怕單身漢!農(nóng)村女老師背心單穿,被提醒后高呼穿衣自由!

你是真不怕單身漢!農(nóng)村女老師背心單穿,被提醒后高呼穿衣自由!

世界圈
2026-06-17 09:50:03
央視直播:莊宇珊洗刷3分恥辱,塞止連敗,日本六連勝?

央視直播:莊宇珊洗刷3分恥辱,塞止連敗,日本六連勝?

陳錈愛體育
2026-06-19 10:57:38
一場毒紙尿褲引發(fā)的鬧劇,誰在說謊?誰來給千萬寶媽一個交代?

一場毒紙尿褲引發(fā)的鬧劇,誰在說謊?誰來給千萬寶媽一個交代?

迷世書童
2026-06-20 00:05:15
狀元不是迪班薩?奇才認真考慮選擇彼得森 布澤爾威爾遜退出競爭

狀元不是迪班薩?奇才認真考慮選擇彼得森 布澤爾威爾遜退出競爭

羅說NBA
2026-06-19 13:29:22
成本3億,預(yù)計虧損2.5億,端午檔最慘電影誕生了

成本3億,預(yù)計虧損2.5億,端午檔最慘電影誕生了

影視高原說
2026-06-19 11:20:36
2026-06-20 00:44:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經(jīng)科技媒體
135327文章數(shù) 862292關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

藝術(shù)
健康
數(shù)碼
家居
公開課

藝術(shù)要聞

放大100倍都不怕!這位“人肉打印機”畫家,把絲綢畫出了呼吸感

吃粽子的3條保胃法則,消化科醫(yī)生推薦

數(shù)碼要聞

SSD太貴換回HDD:機械硬盤價格連漲5個季度!

家居要聞

綠意盎然 自然之境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版