免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

微軟提出Computer-Using World Model,教智能體理解動(dòng)作的后果

0
分享至



把大模型「放進(jìn)電腦里」,會(huì)出現(xiàn)一種很奇特的反差:

它能寫代碼、能推理、能把論文總結(jié)得頭頭是道;但一旦讓它去操作 Excel、Word 這種真實(shí)桌面軟件,卻像第一次用電腦的人 -- 點(diǎn)錯(cuò)菜單、來回切換,甚至在同一頁里循環(huán)點(diǎn)擊。

很多人第一反應(yīng)會(huì)覺得是 Agent 沒看清按鈕,或者沒理解任務(wù),不知道界面上各個(gè)選項(xiàng)是什么意思。但在真實(shí)軟件里,更大的問題往往不是「看不見」,而是「不知道點(diǎn)下去會(huì)發(fā)生什么」。

在同一個(gè)界面上,不同的操作會(huì)把系統(tǒng)帶到完全不同的狀態(tài),一旦點(diǎn)錯(cuò),往往很難簡單撤銷。操作會(huì)產(chǎn)生延遲,流程被打斷,有時(shí)甚至?xí)苯悠茐奈臋n。因此,關(guān)鍵不只是識別界面或讀懂指令,而是能提前判斷每個(gè)動(dòng)作可能帶來的結(jié)果。

人學(xué)習(xí)使用軟件時(shí),看起來像是在界面里「到處試一試」。

比如你要給一個(gè) Excel 工作簿加密。面對界面時(shí),你會(huì)下意識地判斷:點(diǎn)這個(gè)入口會(huì)不會(huì)彈出密碼窗口?點(diǎn)那個(gè)標(biāo)簽只是切換視圖,還是在真正推進(jìn)任務(wù)?哪個(gè)操作更像是在朝目標(biāo)靠近?

你并不是隨便點(diǎn)擊,而是在挑一個(gè)更可能有效的下一步。

這種在行動(dòng)前先預(yù)想結(jié)果、再用一次操作去驗(yàn)證的過程,在認(rèn)知科學(xué)中通常被稱為反事實(shí)推理。

很多時(shí)候,人并不是等系統(tǒng)反饋才知道對錯(cuò),而是先對可能發(fā)生的結(jié)果有一個(gè)大致預(yù)期,再去確認(rèn)。

相比之下,不少 GUI Agent 更像「看一步、做一步」:它能讀懂當(dāng)前截圖里的內(nèi)容,卻缺少對「這個(gè)動(dòng)作通常會(huì)帶來什么變化」的判斷,因此只能在真實(shí)環(huán)境中反復(fù)嘗試,試錯(cuò)成本也更高。

CUWM:在真正點(diǎn)擊之前,先在「腦海里點(diǎn)一遍」

微軟研究團(tuán)隊(duì)提出的 Computer-Using World Model(CUWM),想解決的正是這個(gè)問題。它做的事情可以簡單理解為:在真的操作軟件之前,先讓智能體「想象一下會(huì)發(fā)生什么」。



  • 論文鏈接:https://arxiv.org/html/2602.17365v1

更具體地說,給定當(dāng)前界面的截圖,以及一個(gè)候選操作(例如點(diǎn)擊某個(gè)按鈕),CUWM 會(huì)預(yù)測執(zhí)行這個(gè)操作后的界面圖像。

圖 1 展示了以當(dāng)前軟件界面的截圖和對應(yīng)操作作為輸入,CUWM 預(yù)測執(zhí)行該操作后出現(xiàn)的下一步界面圖像。當(dāng)智能體面對多個(gè)可選動(dòng)作時(shí),它不需要立刻在真實(shí)軟件里一個(gè)個(gè)去試,而是先把這些動(dòng)作交給世界模型模擬 —— 于是會(huì)得到幾種「想象出來的下一步界面」。



圖 1:CUWM 預(yù)測的不同動(dòng)作導(dǎo)致的軟件界面圖片。從同一當(dāng)前界面(current state)出發(fā),執(zhí)行不同操作,如點(diǎn)擊 Encrypt with Password、打開 Images 或放大視圖,會(huì)得到不同的下一個(gè)狀態(tài)(例如彈出密碼窗口、展開工具面板或改變顯示比例)。

接下來,智能體只需比較:哪一種結(jié)果更接近任務(wù)目標(biāo)?選出最合理的一步,再在真實(shí)系統(tǒng)中執(zhí)行。

論文把這個(gè)過程稱為world-model-guided test-time action search。重要的是,智能體本身的策略是凍結(jié)的,沒有重新訓(xùn)練;性能提升來自于更好的「預(yù)演」和更充分的測試時(shí)計(jì)算,而不是把 Agent 本身變得更復(fù)雜。

換句話說,CUWM 不是在教智能體更會(huì)操作,而是在給它一種「先想后做」的能力。



圖 2:CUWM 概述:給定當(dāng)前 UI 截圖與動(dòng)作(如點(diǎn)擊 Excel 的列「H」),CUWM 先生成一段聚焦局部變化的過渡描述(Stage 1),再在保持不變區(qū)域穩(wěn)定的前提下對截圖進(jìn)行條件編輯,生成預(yù)測的下一狀態(tài)(Stage 2)。

關(guān)鍵設(shè)計(jì):模型關(guān)注的不是像素,而是「變化」

桌面軟件 UI 的特點(diǎn)是:大部分區(qū)域長期不變,變化通常發(fā)生在局部 —— 選區(qū)高亮、面板展開、彈窗出現(xiàn)、光標(biāo)移動(dòng)…… 如果端到端預(yù)測整張下一幀截圖,模型既要背負(fù)巨大的不變背景,又要捕捉極小但關(guān)鍵的變化,低效且容易「注意力錯(cuò)位」。

CUWM 的關(guān)鍵設(shè)計(jì)是把「下一步預(yù)測」拆成兩段:

  • Stage 1:先說清楚「變了什么」(Textual State Transition):輸出一段結(jié)構(gòu)化、盡量簡潔的「過渡描述」,只寫與動(dòng)作相關(guān)的界面變化;
  • Stage 2:再把變化落實(shí)到截圖上(Visual State Realization):用條件圖像編輯把變化渲染到原圖上,盡量保持不變區(qū)域穩(wěn)定,生成下一步截圖。

這一分解的重點(diǎn)不在「畫得多逼真」,而在讓模型學(xué)到:動(dòng)作改變的是系統(tǒng)狀態(tài),而智能體真正需要的是「點(diǎn)了之后世界怎么變」。

圖 2 展示了 CUWM 的兩階段流程:先生成「變化描述」,再把變化實(shí)現(xiàn)成下一幀 UI。這種「what changes /how it appears」的分解,讓模型把注意力放在動(dòng)作后果上,而不是低效地重繪整張界面。

訓(xùn)練數(shù)據(jù)怎么來:從真實(shí)交互里抽三元組,再自動(dòng)寫「變化描述」

CUWM 不依賴昂貴的在線強(qiáng)化學(xué)習(xí)環(huán)境,而是從真實(shí)軟件的交互軌跡中構(gòu)造訓(xùn)練樣本:把一次操作前后的界面截圖配對,再附上對應(yīng)的動(dòng)作表示,形成標(biāo)準(zhǔn)的 ((s_t, a_t, s_{t+1})) 訓(xùn)練三元組。

關(guān)鍵在于 Stage 1 的監(jiān)督信號 ——「變化描述」怎么得到?論文做法是用 GPT-5 作為自動(dòng)標(biāo)注器:對每個(gè)三元組生成一段簡潔的 UI 變化描述,明確「哪些變了、哪些不變」,用來監(jiān)督微調(diào) Stage 1。

為了讓描述更短、更結(jié)構(gòu)化、更少幻覺,作者還在 SFT 之后用 GRPO 做輕量 RL 細(xì)化:獎(jiǎng)勵(lì)由 LLM-as-a-Judge 的結(jié)構(gòu)一致性評分與長度懲罰組合,從而有效覆蓋關(guān)鍵 UI 結(jié)構(gòu)。

結(jié)果:智能體開始「規(guī)劃行動(dòng)」

在實(shí)驗(yàn)中,智能體需要完成「給 Excel 工作簿添加密碼保護(hù)」的任務(wù)。它不會(huì)立刻在真實(shí)環(huán)境里點(diǎn)來點(diǎn)去,而是先提出多個(gè)候選動(dòng)作,并逐個(gè)調(diào)用 CUWM 進(jìn)行模擬,得到每個(gè)動(dòng)作可能帶來的「下一步界面」。

隨后,智能體把這些模擬結(jié)果與任務(wù)目標(biāo)進(jìn)行對照,最終選擇點(diǎn)擊「Protect Workbook」—— 因?yàn)檫@一候選動(dòng)作對應(yīng)的預(yù)測界面最符合「進(jìn)入保護(hù) / 加密流程」的預(yù)期方向。

那么,智能體是如何在點(diǎn)擊前完成一次「內(nèi)部試錯(cuò)」的?圖 3 給出了直觀示例。



圖 3:先模擬后執(zhí)行:world model 做「模擬器」,Agent 做「決策者」。 智能體先提出多個(gè)候選動(dòng)作,CUWM 分別預(yù)測每個(gè)動(dòng)作會(huì)導(dǎo)致怎樣的下一步 UI;智能體再根據(jù)這些預(yù)測結(jié)果與任務(wù)目標(biāo)的匹配程度,選擇更可能推進(jìn)任務(wù)的那一步(示例中為「Protect Workbook」),從而減少真實(shí)環(huán)境中的反復(fù)試錯(cuò)與無效點(diǎn)擊。

這正是 CUWM 的價(jià)值所在:把高成本的環(huán)境試錯(cuò)轉(zhuǎn)移到模型內(nèi)部。智能體先在「想象出來的下一屏」里完成比較與選擇,再把最有希望的一步落到真實(shí)軟件執(zhí)行。從「高成本試錯(cuò)」變成「低成本模擬」,顯著降低無效操作與循環(huán)點(diǎn)擊,讓 GUI Agent 從反應(yīng)式點(diǎn)擊走向規(guī)劃式?jīng)Q策。

更進(jìn)一步,論文指出,性能提升的關(guān)鍵更多來自對界面結(jié)構(gòu)變化的正確預(yù)測(例如面板是否展開、關(guān)鍵入口是否出現(xiàn)),而不只是生成圖像的視覺逼真度。這也側(cè)面說明,GUI Agent 的核心能力并非純視覺識別,而是面向交互的規(guī)劃與決策。

更深層的意義:Agent 決策能力意味著什么

如果把大模型的發(fā)展看成一條連續(xù)的能力變化,其實(shí)不只是「更聰明了」,而是能力的類型在改變。

過去,大模型主要解決的是理解與表達(dá)的問題:它能讀懂一段話、回答問題、寫文章、解釋概念。這些能力本質(zhì)上都發(fā)生在「信息空間」里 —— 輸入是文本,輸出也是文本。模型只需要給出一個(gè)合理的回答,不需要承擔(dān)真實(shí)后果。

但當(dāng) AI 進(jìn)入軟件環(huán)境,問題發(fā)生了變化,這里不再是「回答是否合理」,而是「動(dòng)作是否有效」。一次點(diǎn)擊、一次輸入、一次拖拽,都會(huì)改變系統(tǒng)狀態(tài),并影響之后還能不能繼續(xù)完成任務(wù)。也就是說,AI 不再只是解釋世界,而是在改變世界(哪怕只是數(shù)字世界)。

這時(shí),Agent 的核心能力就變成了決策能力:它必須在多個(gè)可能動(dòng)作中做選擇,并對選擇的后果負(fù)責(zé)。關(guān)鍵不再是「這句話對不對」,而是「這一步走完之后,任務(wù)更接近還是更遠(yuǎn)」。

人類在操作軟件時(shí),之所以效率很高,是因?yàn)樵谛袆?dòng)前會(huì)形成一種內(nèi)部判斷:這個(gè)操作大概會(huì)帶來什么結(jié)果。如果結(jié)果不符合目標(biāo),往往在點(diǎn)擊前就會(huì)放棄,而不是等系統(tǒng)報(bào)錯(cuò)。這其實(shí)是一種對「動(dòng)作 → 狀態(tài)變化」的理解。

而很多當(dāng)前的 GUI Agent 缺少的正是這一層。它能識別界面、能理解指令,卻仍然主要依賴真實(shí)交互去排除錯(cuò)誤路徑。也就是在環(huán)境里不斷試錯(cuò),直到碰到正確步驟。換句話說,它更像是在反應(yīng),而不是在決策。

CUWM 的意義,不只是提高成功率,而是讓 Agent 開始具備一種新的能力:在執(zhí)行之前先評估后果。

當(dāng)智能體可以先模擬不同動(dòng)作帶來的不同未來,再選擇更合適的一步時(shí),它做的就不再只是「操作界面」,而是進(jìn)行路徑規(guī)劃。試錯(cuò)仍然存在,但優(yōu)先發(fā)生在內(nèi)部,而不是直接作用于真實(shí)系統(tǒng)。

因此,這里的轉(zhuǎn)變可以這樣理解:大模型讓 AI 學(xué)會(huì)了「如何回答」,而決策能力讓 AI 開始學(xué)會(huì)「如何行動(dòng)」。當(dāng) AI 能根據(jù)預(yù)期后果來選擇動(dòng)作時(shí),它才真正從一個(gè)對話工具,變成一個(gè)能夠在數(shù)字環(huán)境中推進(jìn)任務(wù)的行動(dòng)體。

作者介紹

CUWM 的作者是微軟實(shí)習(xí)生以及微軟 UFO 團(tuán)隊(duì)的成員,包括Yiming Guan、Rui Yu、John Zhang、Lu Wang、Chaoyun Zhang、Liqun Li、Bo Qiao、Si Qin、He Huang、Fangkai Yang、Pu Zhao等。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人民日報(bào):基層公務(wù)員職級并行名額遭擠占,莫讓老實(shí)人流汗又流淚

人民日報(bào):基層公務(wù)員職級并行名額遭擠占,莫讓老實(shí)人流汗又流淚

細(xì)說職場
2026-06-19 13:54:59
G7發(fā)表聲明,不許武力改變臺?,F(xiàn)狀?中方回應(yīng)用詞相當(dāng)罕見

G7發(fā)表聲明,不許武力改變臺?,F(xiàn)狀?中方回應(yīng)用詞相當(dāng)罕見

萬物知識圈
2026-06-18 16:49:43
美軍飛行員集體懵了:在中國沿海,怎么永遠(yuǎn)都是殲 - 11 在等我們

美軍飛行員集體懵了:在中國沿海,怎么永遠(yuǎn)都是殲 - 11 在等我們

葉葉夜
2026-06-04 14:13:00
燃油車加油新規(guī)定來了!沒看懂新要求先別急著去加油

燃油車加油新規(guī)定來了!沒看懂新要求先別急著去加油

璀璨明星
2026-06-18 14:25:38
44歲張亮近況曝光!與寇靜離婚已經(jīng)6年,如今18歲兒子讓他很操心

44歲張亮近況曝光!與寇靜離婚已經(jīng)6年,如今18歲兒子讓他很操心

手工制作阿殲
2026-06-20 05:12:27
S家洗白失?。№n國綜藝錘了小S忽視姐姐病情,推卸責(zé)任甩鍋給大S

S家洗白失??!韓國綜藝錘了小S忽視姐姐病情,推卸責(zé)任甩鍋給大S

萌神木木
2026-02-04 19:05:07
第四波反制來了,中方禁止入境,臺當(dāng)局治權(quán)被接管,菲律賓已介入

第四波反制來了,中方禁止入境,臺當(dāng)局治權(quán)被接管,菲律賓已介入

白日追夢人
2026-06-18 12:49:27
非洲王妃身材豐腴,趁國王外出時(shí)出軌司法部長,不料被丈夫抓現(xiàn)行

非洲王妃身材豐腴,趁國王外出時(shí)出軌司法部長,不料被丈夫抓現(xiàn)行

霽寒飄雪
2026-06-19 09:34:20
1-3輸日本!林詩棟爆冷,溫瑞博3-1大逆轉(zhuǎn),蒯曼+石洵瑤晉級16強(qiáng)

1-3輸日本!林詩棟爆冷,溫瑞博3-1大逆轉(zhuǎn),蒯曼+石洵瑤晉級16強(qiáng)

體育就你秀
2026-06-19 21:03:11
潘石屹再次預(yù)判我國樓市!不出意外,3年內(nèi),樓市或?qū)⒂瓉硇伦呦?>
    </a>
        <h3>
      <a href=老鵜愛說事
2026-06-18 00:56:28
捆綁劉國梁?贈(zèng)送黃金風(fēng)波、排擠樊振東陳夢,王楠身上謠言太離譜

捆綁劉國梁?贈(zèng)送黃金風(fēng)波、排擠樊振東陳夢,王楠身上謠言太離譜

舍長阿爺談事
2026-06-20 05:26:51
被調(diào)侃“吃小孩”,挪威球星哈蘭德經(jīng)常和女友制作晚餐,用三文魚當(dāng)主食,每天還吃牛心、牛肝和飲用特殊過濾水,補(bǔ)充6000卡路里的熱量

被調(diào)侃“吃小孩”,挪威球星哈蘭德經(jīng)常和女友制作晚餐,用三文魚當(dāng)主食,每天還吃牛心、牛肝和飲用特殊過濾水,補(bǔ)充6000卡路里的熱量

大象新聞
2026-06-17 19:49:04
1年4900萬美金!拉文決定執(zhí)行球員選項(xiàng),國王醞釀大交易

1年4900萬美金!拉文決定執(zhí)行球員選項(xiàng),國王醞釀大交易

世界體育圈
2026-06-19 21:20:14
大批律師陷入生存困境,律所照搬保險(xiǎn)代理人模式是核心癥結(jié)

大批律師陷入生存困境,律所照搬保險(xiǎn)代理人模式是核心癥結(jié)

生活新鮮市
2026-06-19 08:26:31
李國旭:我們年輕球員被捧得太高了,他們應(yīng)該把心放在足球上

李國旭:我們年輕球員被捧得太高了,他們應(yīng)該把心放在足球上

懂球帝
2026-06-19 22:44:25
《莫離》秦箏交出遺詔,原來,這才是周咸坤對郭妗最狠的報(bào)復(fù)。

《莫離》秦箏交出遺詔,原來,這才是周咸坤對郭妗最狠的報(bào)復(fù)。

動(dòng)物奇奇怪怪
2026-06-20 05:48:41
文殊院小貓被踢重傷,百萬粉絲的“佛系貓神”,倒在了人心面前

文殊院小貓被踢重傷,百萬粉絲的“佛系貓神”,倒在了人心面前

Magic寵物社
2026-06-18 20:35:11
我國人均GDP已超1.3萬美元,將跨入高收入國家陣營!

我國人均GDP已超1.3萬美元,將跨入高收入國家陣營!

聞號說經(jīng)濟(jì)
2026-05-19 09:29:27
上海重磅規(guī)劃獲批!重塑北濱江發(fā)展新格局,低效用地過渡型盤活利用先行先試

上海重磅規(guī)劃獲批!重塑北濱江發(fā)展新格局,低效用地過渡型盤活利用先行先試

縱相新聞
2026-06-19 17:35:08
“這就是保胎的下場!”女生吃飯不會(huì)咀嚼,連生物本能都違背了!

“這就是保胎的下場!”女生吃飯不會(huì)咀嚼,連生物本能都違背了!

世界圈
2026-06-17 09:53:48
2026-06-20 07:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142673關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

上海一男子為護(hù)孕妻兩次勸煙遭掐脖毆打 提起民事訴訟

頭條要聞

上海一男子為護(hù)孕妻兩次勸煙遭掐脖毆打 提起民事訴訟

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

教育
本地
房產(chǎn)
手機(jī)
公開課

教育要聞

考生家長速看!多所985、研究型高校在蓉招生咨詢安排來了

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調(diào)規(guī)!

手機(jī)要聞

蘋果也玩芯片游戲?20周年紀(jì)念版iPhone獨(dú)享臺積電全新先進(jìn)制程

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版