免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

1080條提示詞、7款模型比拼:視頻生成好看、好用又準(zhǔn)確差多少?

0
分享至



當(dāng)視頻生成模型走出娛樂創(chuàng)作的舒適區(qū),進(jìn)入科學(xué)、醫(yī)療、教育等知識(shí)密集場景,它們是否還能生成事實(shí)準(zhǔn)確、清晰可用的視頻?



任務(wù)對(duì)比 —— 傳統(tǒng)視覺質(zhì)量導(dǎo)向 vs KIVI 知識(shí)密集型導(dǎo)向

針對(duì)這一挑戰(zhàn),研究者首次定義了「知識(shí)密集型視頻生成」(KIVI)新任務(wù) —— 要求模型從簡短提示詞出發(fā),生成事實(shí)準(zhǔn)確、用戶能照著做的視頻。團(tuán)隊(duì)配套構(gòu)建了 1080 條提示詞的 KIVI-Bench 評(píng)測集,提出 FactP 與 HelpS 兩個(gè)自動(dòng)指標(biāo),并在 7 款主流模型上揭示了實(shí)體誤描、操作錯(cuò)誤、組件錯(cuò)位三類系統(tǒng)性短板。



  • 論文標(biāo)題:Knowledge-Intensive Video Generation
  • 論文鏈接:https://arxiv.org/abs/2606.01285
  • 代碼倉庫:https://github.com/wcxhimself/KIVI

一個(gè)被忽視的空白:

視頻生成不該只為娛樂存在

過去兩年,從 Sora 到 Seedance,視頻生成模型在畫面質(zhì)量、運(yùn)動(dòng)流暢度和時(shí)空一致性等方面取得了顯著進(jìn)展。然而,現(xiàn)有研究與評(píng)測仍主要圍繞「視頻是否好看」展開,較少關(guān)注生成內(nèi)容是否事實(shí)準(zhǔn)確、過程是否合理、信息是否真正有用。

隨著視頻生成技術(shù)逐漸走出娛樂創(chuàng)作場景,它正在進(jìn)入醫(yī)療、教育、科學(xué)傳播、操作指導(dǎo)等知識(shí)密集領(lǐng)域。在這些場景中,用戶關(guān)心的不只是畫面是否逼真,而是模型能否準(zhǔn)確表達(dá)知識(shí)、清晰展示過程,并幫助用戶理解或完成具體任務(wù)。也就是說,視頻生成模型面臨的核心問題正在發(fā)生變化:從「能否生成自然流暢的視頻」,轉(zhuǎn)向「能否生成知識(shí)可靠且有實(shí)際價(jià)值的視頻」。

這種變化也暴露出現(xiàn)有視頻生成范式與真實(shí)用戶需求之間的錯(cuò)位。比如,當(dāng)用戶搜索「如何更換汽車輪胎」時(shí),他們期待的不是一段視覺效果華麗但步驟含糊的視頻,也不是先由自己寫出完整分鏡腳本,再交給模型逐段生成,更合理的方式應(yīng)該是,模型能夠直接理解用戶意圖,并生成一段步驟正確、過程清晰、可操作的視頻。因此,我們提出 KIVI,將視頻生成的評(píng)測目標(biāo)從視覺質(zhì)量導(dǎo)向,推進(jìn)到知識(shí)可靠性與用戶實(shí)用性導(dǎo)向。

KIVI-Bench:

1080 條模擬用戶真實(shí)使用場景的提示詞

18個(gè)類別涵蓋汽車維護(hù)、健康醫(yī)療、電子設(shè)備等,經(jīng) LLM 擴(kuò)充與人工去重后保留 1080 條提示詞。

提示詞的構(gòu)造遵循五個(gè)標(biāo)準(zhǔn)。視頻優(yōu)越性:比文字更直觀(如空間操作、界面導(dǎo)航);事實(shí)正確且可核驗(yàn):提示詞事實(shí)正確,實(shí)體有公開文檔可核驗(yàn);專有名詞有知識(shí)挑戰(zhàn)性:使用具體產(chǎn)品實(shí)名(如 Bosticht 卷筆刀),而非泛指實(shí)體;超越常識(shí):需要真正掌握特定知識(shí)(如 Omron BP5450 血壓計(jì)的操作步驟),不能僅憑日常經(jīng)驗(yàn)作答。貼近真實(shí):表述簡短自然,符合用戶實(shí)際提問方式。

自動(dòng)評(píng)估標(biāo)準(zhǔn):FactP 與 HelpS

傳統(tǒng)視覺指標(biāo)(Imaging Quality, Motion Smoothness 等)與人類對(duì)內(nèi)容準(zhǔn)確性和幫助性的判斷幾乎無關(guān),為此,KIVI 設(shè)計(jì)了兩個(gè)互補(bǔ)的自動(dòng)評(píng)估標(biāo)準(zhǔn):

FactP(事實(shí)精度)回答「說沒說對(duì)」。它的思路是先抽取、再驗(yàn)證 ——LLM 從視頻中提取原子化聲明,逐條判定正誤,按正確比例計(jì)分。

HelpS(幫助性評(píng)分)回答「能不能照著做」。LLM 從相關(guān)性、完整性、清晰度三個(gè)維度打分,核心追問:用戶能否僅憑這段視頻完成所提任務(wù)?兩者互補(bǔ),形成完整評(píng)價(jià)體系。



KIVI 多階段評(píng)測管線

七款模型「同臺(tái)應(yīng)試」

團(tuán)隊(duì)評(píng)測了 7 款主流系統(tǒng),涵蓋閉源 API(Seedance 2.0、HappyHorse 1.0)、開源短視頻生成模型(Wan 2.2、HunyuanVideo 1.5)和開源長視頻模型(Helios-Base、LongCat-Video、LongLive 1.0)。

人工制作視頻的 FactP 和 HelpS 分別達(dá)到 97.8% 和 81.9%,遠(yuǎn)超當(dāng)前視頻生成模型。在模型結(jié)果中,閉源短視頻模型 HappyHorse 1.0 獲得最高 FactP(83.2%),Seedance 2.0 獲得最高 HelpS(66.6%)。最佳開源短視頻模型 Wan 2.2 的 FactP 和 HelpS 分別為 73.1% 和 48.4%,與閉源模型仍存在明顯差距??傮w來看,短視頻生成模型雖然尚未達(dá)到人工制作水平,但在事實(shí)準(zhǔn)確性和幫助性上均顯著優(yōu)于長視頻生成模型。



KIVI-Bench 評(píng)測結(jié)果(基于 54 條均勻采樣子集)

人類評(píng)估:在 108 組兩兩對(duì)比中,F(xiàn)actP 與人工事實(shí)判斷一致性達(dá) 70.8%,顯著優(yōu)于現(xiàn)有的視頻質(zhì)量自動(dòng)評(píng)估標(biāo)準(zhǔn) VBench-Long 最優(yōu)維度(56.5%),HelpS 與人工幫助性判斷一致性達(dá) 69.0%。而傳統(tǒng)指標(biāo)如 Imaging Quality(38.9%)幾乎與人類判斷無關(guān)。



人類評(píng)估結(jié)果

三大系統(tǒng)性錯(cuò)誤:模型到底錯(cuò)在哪?



錯(cuò)誤類型占比

對(duì)870條錯(cuò)誤聲明的分類揭示三類短板:

實(shí)體誤描占比最高,達(dá) 42.6%。模型經(jīng)常 "發(fā)明" 不存在的外觀特征,涉及特定產(chǎn)品型號(hào)時(shí)幻覺率急劇攀升 —— 比如將 Bostitch 電動(dòng)卷筆刀畫成了盒狀插孔,而真機(jī)是弧形機(jī)身。

操作錯(cuò)誤緊隨其后,占 40.7%,這類錯(cuò)誤更隱蔽:外觀畫對(duì)了,步驟卻錯(cuò)了。模型能還原 BP5450 血壓計(jì)的外形,卻把袖帶綁在了前臂,而這臺(tái)設(shè)備專為上臂設(shè)計(jì),暴露了程序性知識(shí)的系統(tǒng)性缺失。

組件錯(cuò)位占比 15.0%,雖然比例最低,但機(jī)油和漏斗出現(xiàn)在中央扶手箱而非發(fā)動(dòng)機(jī)艙這類錯(cuò)誤,同樣意味著視頻對(duì)用戶毫無幫助。



三類主要事實(shí)性錯(cuò)誤示例

結(jié)語:從視覺生成走向知識(shí)傳達(dá)

KIVI 系統(tǒng)定義了視頻生成中一個(gè)長期被忽視的任務(wù)方向:視頻不應(yīng)只服務(wù)于娛樂創(chuàng)作,也應(yīng)能夠在知識(shí)密集場景中準(zhǔn)確傳達(dá)信息、清晰展示過程,并真正幫助用戶理解或完成任務(wù)。

當(dāng)目標(biāo)從「還原畫面描述」轉(zhuǎn)向「傳達(dá)可靠知識(shí)」,視頻生成的評(píng)測標(biāo)準(zhǔn)也需要隨之改變。傳統(tǒng)評(píng)測中表現(xiàn)最好的模型,未必能夠在事實(shí)性、過程合理性和實(shí)用性上保持優(yōu)勢(shì);而從簡短文本需求直接生成知識(shí)型視覺內(nèi)容,也對(duì)模型的理解、規(guī)劃和生成能力提出了更高要求。

因此,KIVI 不只是一個(gè)新的基準(zhǔn),更是在重新定義視頻生成的下一階段目標(biāo):從「畫面是否自然」走向「內(nèi)容是否可靠」,從「娛樂創(chuàng)作工具」走向「知識(shí)獲取媒介」。這也指向了視頻生成從像素空間走向?qū)嵱每臻g的下一個(gè)前沿方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
撤銷人民公社毀了毛主席的農(nóng)村工業(yè)化戰(zhàn)略?毀了兩條腿走路布局?

撤銷人民公社毀了毛主席的農(nóng)村工業(yè)化戰(zhàn)略?毀了兩條腿走路布局?

覃仕勇說史
2026-06-15 11:20:32
破案!之前大放異彩的王奧芊為何只得2分?賽后原因曝光球迷心痛

破案!之前大放異彩的王奧芊為何只得2分?賽后原因曝光球迷心痛

南海浪花
2026-06-18 06:19:30
一天內(nèi)每噸碳酸鋰價(jià)格大降11300元,碳酸鋰期貨大跌原因找到了,停產(chǎn)超過10個(gè)月的寧德時(shí)代枧下窩鋰礦傳來大消息,趕在端午節(jié)之前,重新拿到項(xiàng)目用地意見書,...

一天內(nèi)每噸碳酸鋰價(jià)格大降11300元,碳酸鋰期貨大跌原因找到了,停產(chǎn)超過10個(gè)月的寧德時(shí)代枧下窩鋰礦傳來大消息,趕在端午節(jié)之前,重新拿到項(xiàng)目用地意見書,...

金融界
2026-06-18 18:15:40
香港男星住30億豪宅,母親為上市公司創(chuàng)辦人,不炒作豪門人設(shè)

香港男星住30億豪宅,母親為上市公司創(chuàng)辦人,不炒作豪門人設(shè)

悠悠說世界
2026-06-19 02:29:30
中國足球的某些人,為了能毀掉足球小將,把董路扒了個(gè)底朝天

中國足球的某些人,為了能毀掉足球小將,把董路扒了個(gè)底朝天

酷侃體壇
2026-06-18 23:02:19
“新型啃老”已來臨,985畢業(yè)生家里蹲,家長:不工作也不結(jié)婚

“新型啃老”已來臨,985畢業(yè)生家里蹲,家長:不工作也不結(jié)婚

戶外阿毽
2026-05-25 15:03:21
高市在G7警告各國,必須幫日本對(duì)付中國,不然誰都沒有好果子吃

高市在G7警告各國,必須幫日本對(duì)付中國,不然誰都沒有好果子吃

鐵錘侃侃而談
2026-06-19 00:42:28
加盟NBA!郭昊文官宣正式簽約,亮相豪門球隊(duì),薪水到底有多少?

加盟NBA!郭昊文官宣正式簽約,亮相豪門球隊(duì),薪水到底有多少?

阿纂看事
2026-06-17 20:21:33
謝杏芳定居西班牙與林丹分居,10歲兒子成未來依靠

謝杏芳定居西班牙與林丹分居,10歲兒子成未來依靠

原夢(mèng)叁生
2026-06-13 13:48:10
皇馬第三簽正式官宣!穆帥認(rèn)可后防統(tǒng)帥,姆巴佩親自說服加入

皇馬第三簽正式官宣!穆帥認(rèn)可后防統(tǒng)帥,姆巴佩親自說服加入

林子說事
2026-06-18 19:00:25
尼克斯冠軍游行路線僅0.7英里,紐約球迷怒了

尼克斯冠軍游行路線僅0.7英里,紐約球迷怒了

林間小溫柔
2026-06-19 01:17:03
好多人其實(shí)已經(jīng)在崩潰邊緣了

好多人其實(shí)已經(jīng)在崩潰邊緣了

老陸不老
2026-06-15 06:50:15
135億!Manus收購案重大轉(zhuǎn)機(jī),傳騰訊出手

135億!Manus收購案重大轉(zhuǎn)機(jī),傳騰訊出手

智東西
2026-06-18 23:13:55
世界杯比賽前瞻丨加拿大2-0卡塔爾:拿一分后,誰先贏一場

世界杯比賽前瞻丨加拿大2-0卡塔爾:拿一分后,誰先贏一場

體育世界
2026-06-18 21:22:17
蔡瀾:兩個(gè)約人萬能公式,再高冷的美女都能隨叫隨到

蔡瀾:兩個(gè)約人萬能公式,再高冷的美女都能隨叫隨到

心理觀察局
2026-06-17 07:10:09
突然宣布:廣東一龍舟大賽,延期

突然宣布:廣東一龍舟大賽,延期

南方都市報(bào)
2026-06-18 21:59:21
世聯(lián)賽積分出爐:泰國首勝巴西六連勝,中國第七

世聯(lián)賽積分出爐:泰國首勝巴西六連勝,中國第七

多雨的天
2026-06-19 04:23:53
24小時(shí)驚天逆轉(zhuǎn):美股一夜暴漲1.5%,特朗普一條推文引爆3只芯片股

24小時(shí)驚天逆轉(zhuǎn):美股一夜暴漲1.5%,特朗普一條推文引爆3只芯片股

碳基打工人
2026-06-19 02:09:48
你感到荒謬嗎?一些沒有現(xiàn)代化工業(yè)的國家,卻被稱為“發(fā)達(dá)國家”

你感到荒謬嗎?一些沒有現(xiàn)代化工業(yè)的國家,卻被稱為“發(fā)達(dá)國家”

南生今世說
2026-05-21 13:01:38
法國美女部長登成人雜志,身材豐滿拍火辣寫真,還喜歡寫成人小說

法國美女部長登成人雜志,身材豐滿拍火辣寫真,還喜歡寫成人小說

聞識(shí)
2026-06-18 01:10:46
2026-06-19 05:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142673關(guān)注度
往期回顧 全部

科技要聞

庫克承認(rèn)扛不住了,蘋果漲價(jià)“不可避免”

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財(cái)經(jīng)要聞

博??礗PO,賺錢業(yè)務(wù)與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

游戲
藝術(shù)
本地
手機(jī)
公開課

PS5版《GTA6》已有店家開始預(yù)定!售價(jià)545元

藝術(shù)要聞

臺(tái)北東區(qū)新門戶!南港雙星,像一道“城市裂痕”

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

手機(jī)要聞

iOS 27「查找」App升級(jí):支持隱藏共享位置與自定義時(shí)長

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版