免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

1080條提示詞、7款模型比拼:視頻生成好看、好用又準(zhǔn)確差多少?

0
分享至



當(dāng)視頻生成模型走出娛樂創(chuàng)作的舒適區(qū),進(jìn)入科學(xué)、醫(yī)療、教育等知識(shí)密集場(chǎng)景,它們是否還能生成事實(shí)準(zhǔn)確、清晰可用的視頻?



任務(wù)對(duì)比 —— 傳統(tǒng)視覺質(zhì)量導(dǎo)向 vs KIVI 知識(shí)密集型導(dǎo)向

針對(duì)這一挑戰(zhàn),研究者首次定義了「知識(shí)密集型視頻生成」(KIVI)新任務(wù) —— 要求模型從簡(jiǎn)短提示詞出發(fā),生成事實(shí)準(zhǔn)確、用戶能照著做的視頻。團(tuán)隊(duì)配套構(gòu)建了 1080 條提示詞的 KIVI-Bench 評(píng)測(cè)集,提出 FactP 與 HelpS 兩個(gè)自動(dòng)指標(biāo),并在 7 款主流模型上揭示了實(shí)體誤描、操作錯(cuò)誤、組件錯(cuò)位三類系統(tǒng)性短板。



  • 論文標(biāo)題:Knowledge-Intensive Video Generation
  • 論文鏈接:https://arxiv.org/abs/2606.01285
  • 代碼倉庫:https://github.com/wcxhimself/KIVI

一個(gè)被忽視的空白:

視頻生成不該只為娛樂存在

過去兩年,從 Sora 到 Seedance,視頻生成模型在畫面質(zhì)量、運(yùn)動(dòng)流暢度和時(shí)空一致性等方面取得了顯著進(jìn)展。然而,現(xiàn)有研究與評(píng)測(cè)仍主要圍繞「視頻是否好看」展開,較少關(guān)注生成內(nèi)容是否事實(shí)準(zhǔn)確、過程是否合理、信息是否真正有用。

隨著視頻生成技術(shù)逐漸走出娛樂創(chuàng)作場(chǎng)景,它正在進(jìn)入醫(yī)療、教育、科學(xué)傳播、操作指導(dǎo)等知識(shí)密集領(lǐng)域。在這些場(chǎng)景中,用戶關(guān)心的不只是畫面是否逼真,而是模型能否準(zhǔn)確表達(dá)知識(shí)、清晰展示過程,并幫助用戶理解或完成具體任務(wù)。也就是說,視頻生成模型面臨的核心問題正在發(fā)生變化:從「能否生成自然流暢的視頻」,轉(zhuǎn)向「能否生成知識(shí)可靠且有實(shí)際價(jià)值的視頻」。

這種變化也暴露出現(xiàn)有視頻生成范式與真實(shí)用戶需求之間的錯(cuò)位。比如,當(dāng)用戶搜索「如何更換汽車輪胎」時(shí),他們期待的不是一段視覺效果華麗但步驟含糊的視頻,也不是先由自己寫出完整分鏡腳本,再交給模型逐段生成,更合理的方式應(yīng)該是,模型能夠直接理解用戶意圖,并生成一段步驟正確、過程清晰、可操作的視頻。因此,我們提出 KIVI,將視頻生成的評(píng)測(cè)目標(biāo)從視覺質(zhì)量導(dǎo)向,推進(jìn)到知識(shí)可靠性與用戶實(shí)用性導(dǎo)向。

KIVI-Bench:

1080 條模擬用戶真實(shí)使用場(chǎng)景的提示詞

18個(gè)類別涵蓋汽車維護(hù)、健康醫(yī)療、電子設(shè)備等,經(jīng) LLM 擴(kuò)充與人工去重后保留 1080 條提示詞。

提示詞的構(gòu)造遵循五個(gè)標(biāo)準(zhǔn)。視頻優(yōu)越性:比文字更直觀(如空間操作、界面導(dǎo)航);事實(shí)正確且可核驗(yàn):提示詞事實(shí)正確,實(shí)體有公開文檔可核驗(yàn);專有名詞有知識(shí)挑戰(zhàn)性:使用具體產(chǎn)品實(shí)名(如 Bosticht 卷筆刀),而非泛指實(shí)體;超越常識(shí):需要真正掌握特定知識(shí)(如 Omron BP5450 血壓計(jì)的操作步驟),不能僅憑日常經(jīng)驗(yàn)作答。貼近真實(shí):表述簡(jiǎn)短自然,符合用戶實(shí)際提問方式。

自動(dòng)評(píng)估標(biāo)準(zhǔn):FactP 與 HelpS

傳統(tǒng)視覺指標(biāo)(Imaging Quality, Motion Smoothness 等)與人類對(duì)內(nèi)容準(zhǔn)確性和幫助性的判斷幾乎無關(guān),為此,KIVI 設(shè)計(jì)了兩個(gè)互補(bǔ)的自動(dòng)評(píng)估標(biāo)準(zhǔn):

FactP(事實(shí)精度)回答「說沒說對(duì)」。它的思路是先抽取、再驗(yàn)證 ——LLM 從視頻中提取原子化聲明,逐條判定正誤,按正確比例計(jì)分。

HelpS(幫助性評(píng)分)回答「能不能照著做」。LLM 從相關(guān)性、完整性、清晰度三個(gè)維度打分,核心追問:用戶能否僅憑這段視頻完成所提任務(wù)??jī)烧呋パa(bǔ),形成完整評(píng)價(jià)體系。



KIVI 多階段評(píng)測(cè)管線

七款模型「同臺(tái)應(yīng)試」

團(tuán)隊(duì)評(píng)測(cè)了 7 款主流系統(tǒng),涵蓋閉源 API(Seedance 2.0、HappyHorse 1.0)、開源短視頻生成模型(Wan 2.2、HunyuanVideo 1.5)和開源長(zhǎng)視頻模型(Helios-Base、LongCat-Video、LongLive 1.0)。

人工制作視頻的 FactP 和 HelpS 分別達(dá)到 97.8% 和 81.9%,遠(yuǎn)超當(dāng)前視頻生成模型。在模型結(jié)果中,閉源短視頻模型 HappyHorse 1.0 獲得最高 FactP(83.2%),Seedance 2.0 獲得最高 HelpS(66.6%)。最佳開源短視頻模型 Wan 2.2 的 FactP 和 HelpS 分別為 73.1% 和 48.4%,與閉源模型仍存在明顯差距??傮w來看,短視頻生成模型雖然尚未達(dá)到人工制作水平,但在事實(shí)準(zhǔn)確性和幫助性上均顯著優(yōu)于長(zhǎng)視頻生成模型。



KIVI-Bench 評(píng)測(cè)結(jié)果(基于 54 條均勻采樣子集)

人類評(píng)估:在 108 組兩兩對(duì)比中,F(xiàn)actP 與人工事實(shí)判斷一致性達(dá) 70.8%,顯著優(yōu)于現(xiàn)有的視頻質(zhì)量自動(dòng)評(píng)估標(biāo)準(zhǔn) VBench-Long 最優(yōu)維度(56.5%),HelpS 與人工幫助性判斷一致性達(dá) 69.0%。而傳統(tǒng)指標(biāo)如 Imaging Quality(38.9%)幾乎與人類判斷無關(guān)。



人類評(píng)估結(jié)果

三大系統(tǒng)性錯(cuò)誤:模型到底錯(cuò)在哪?



錯(cuò)誤類型占比

對(duì)870條錯(cuò)誤聲明的分類揭示三類短板:

實(shí)體誤描占比最高,達(dá) 42.6%。模型經(jīng)常 "發(fā)明" 不存在的外觀特征,涉及特定產(chǎn)品型號(hào)時(shí)幻覺率急劇攀升 —— 比如將 Bostitch 電動(dòng)卷筆刀畫成了盒狀插孔,而真機(jī)是弧形機(jī)身。

操作錯(cuò)誤緊隨其后,占 40.7%,這類錯(cuò)誤更隱蔽:外觀畫對(duì)了,步驟卻錯(cuò)了。模型能還原 BP5450 血壓計(jì)的外形,卻把袖帶綁在了前臂,而這臺(tái)設(shè)備專為上臂設(shè)計(jì),暴露了程序性知識(shí)的系統(tǒng)性缺失。

組件錯(cuò)位占比 15.0%,雖然比例最低,但機(jī)油和漏斗出現(xiàn)在中央扶手箱而非發(fā)動(dòng)機(jī)艙這類錯(cuò)誤,同樣意味著視頻對(duì)用戶毫無幫助。



三類主要事實(shí)性錯(cuò)誤示例

結(jié)語:從視覺生成走向知識(shí)傳達(dá)

KIVI 系統(tǒng)定義了視頻生成中一個(gè)長(zhǎng)期被忽視的任務(wù)方向:視頻不應(yīng)只服務(wù)于娛樂創(chuàng)作,也應(yīng)能夠在知識(shí)密集場(chǎng)景中準(zhǔn)確傳達(dá)信息、清晰展示過程,并真正幫助用戶理解或完成任務(wù)。

當(dāng)目標(biāo)從「還原畫面描述」轉(zhuǎn)向「?jìng)鬟_(dá)可靠知識(shí)」,視頻生成的評(píng)測(cè)標(biāo)準(zhǔn)也需要隨之改變。傳統(tǒng)評(píng)測(cè)中表現(xiàn)最好的模型,未必能夠在事實(shí)性、過程合理性和實(shí)用性上保持優(yōu)勢(shì);而從簡(jiǎn)短文本需求直接生成知識(shí)型視覺內(nèi)容,也對(duì)模型的理解、規(guī)劃和生成能力提出了更高要求。

因此,KIVI 不只是一個(gè)新的基準(zhǔn),更是在重新定義視頻生成的下一階段目標(biāo):從「畫面是否自然」走向「內(nèi)容是否可靠」,從「娛樂創(chuàng)作工具」走向「知識(shí)獲取媒介」。這也指向了視頻生成從像素空間走向?qū)嵱每臻g的下一個(gè)前沿方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
印度網(wǎng)友說中國(guó)也有種姓制度,仔細(xì)一看,真的讓人笑掉大牙!

印度網(wǎng)友說中國(guó)也有種姓制度,仔細(xì)一看,真的讓人笑掉大牙!

全城探秘
2026-06-18 18:06:57
G7紀(jì)念照現(xiàn)場(chǎng):高市早苗早早站C位,最后被擠到了臺(tái)階上

G7紀(jì)念照現(xiàn)場(chǎng):高市早苗早早站C位,最后被擠到了臺(tái)階上

武器鑒賞
2026-06-19 08:15:42
地質(zhì)災(zāi)害黃色預(yù)警:安徽湖北廣東等地部分地區(qū)發(fā)生災(zāi)害風(fēng)險(xiǎn)較高

地質(zhì)災(zāi)害黃色預(yù)警:安徽湖北廣東等地部分地區(qū)發(fā)生災(zāi)害風(fēng)險(xiǎn)較高

每日經(jīng)濟(jì)新聞
2026-06-18 18:13:05
河南26歲帥哥時(shí)穎去世,結(jié)婚僅半年,妻子顏值高,悲痛透露原因

河南26歲帥哥時(shí)穎去世,結(jié)婚僅半年,妻子顏值高,悲痛透露原因

180視角
2026-06-19 12:33:45
爭(zhēng)議!央視社媒刪梅西內(nèi)容 網(wǎng)友爆料:23點(diǎn)緊急通知 直播別給特寫

爭(zhēng)議!央視社媒刪梅西內(nèi)容 網(wǎng)友爆料:23點(diǎn)緊急通知 直播別給特寫

念洲
2026-06-19 09:28:22
從搶倉到棄倉!2025大灣區(qū)倉庫空置率創(chuàng)歷史新高,2026更慘?

從搶倉到棄倉!2025大灣區(qū)倉庫空置率創(chuàng)歷史新高,2026更慘?

風(fēng)向觀察
2026-06-18 21:38:48
寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

石辰搞笑日常
2026-06-19 08:38:34
李毅解說比賽半場(chǎng)被換!媒體人:一個(gè)中國(guó)退役球員教世界球星踢球

李毅解說比賽半場(chǎng)被換!媒體人:一個(gè)中國(guó)退役球員教世界球星踢球

風(fēng)過鄉(xiāng)
2026-06-19 09:44:15
網(wǎng)友親測(cè)西地那非新劑型:含片幾秒融化,效果驚人

網(wǎng)友親測(cè)西地那非新劑型:含片幾秒融化,效果驚人

赴一場(chǎng)山海啊
2026-06-18 00:58:54
歐盟27國(guó)領(lǐng)導(dǎo)人一致通過涉烏結(jié)論文件

歐盟27國(guó)領(lǐng)導(dǎo)人一致通過涉烏結(jié)論文件

界面新聞
2026-06-19 07:19:38
酒商稱159瓶茅臺(tái)被扣后缺失 警方通報(bào)來了!

酒商稱159瓶茅臺(tái)被扣后缺失 警方通報(bào)來了!

看看新聞Knews
2026-06-19 01:16:02
梅西父親幽默回應(yīng)各路傳言:我這是惹出多大亂子啊

梅西父親幽默回應(yīng)各路傳言:我這是惹出多大亂子啊

體壇周報(bào)
2026-06-19 13:11:03
官媒送檢,熱搜第一!這次老百姓的憤怒太明顯了

官媒送檢,熱搜第一!這次老百姓的憤怒太明顯了

走讀新生
2026-06-18 16:04:02
中午12點(diǎn)!CCTV5直播日本隊(duì)世界杯“生死戰(zhàn)”,輸球=小組難晉級(jí)

中午12點(diǎn)!CCTV5直播日本隊(duì)世界杯“生死戰(zhàn)”,輸球=小組難晉級(jí)

寶哥精彩賽事
2026-06-19 10:21:26
流浪26年滿身污垢的沈巍,如今身價(jià)百萬還有小15歲女友,他憑的啥

流浪26年滿身污垢的沈巍,如今身價(jià)百萬還有小15歲女友,他憑的啥

從零到一研究所
2026-06-18 16:15:07
警惕!A股徹底變天!國(guó)家戰(zhàn)略大洗牌,未來主線徹底明朗

警惕!A股徹底變天!國(guó)家戰(zhàn)略大洗牌,未來主線徹底明朗

新浪財(cái)經(jīng)
2026-06-19 11:12:55
美伊局勢(shì)降溫,他們都第一時(shí)間“感謝中國(guó)”……

美伊局勢(shì)降溫,他們都第一時(shí)間“感謝中國(guó)”……

補(bǔ)壹刀
2026-06-18 13:26:26
理想智駕負(fù)責(zé)人實(shí)測(cè)FSD后:國(guó)內(nèi)無第一梯隊(duì),別再自我麻痹

理想智駕負(fù)責(zé)人實(shí)測(cè)FSD后:國(guó)內(nèi)無第一梯隊(duì),別再自我麻痹

我是一個(gè)粉刷匠2
2026-06-18 02:58:29
世界杯綜述:首支出線+頭名隊(duì)出爐!單日3紅 亞洲隊(duì)5連敗狂刷紀(jì)錄

世界杯綜述:首支出線+頭名隊(duì)出爐!單日3紅 亞洲隊(duì)5連敗狂刷紀(jì)錄

我愛英超
2026-06-19 11:11:39
她是毛新宇前妻,服務(wù)員出身北大畢業(yè),結(jié)婚3年無子女 今定居北京

她是毛新宇前妻,服務(wù)員出身北大畢業(yè),結(jié)婚3年無子女 今定居北京

以茶帶書
2026-06-17 19:25:25
2026-06-19 15:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

男子醉駕撞死16歲少女 最初被認(rèn)定全責(zé)復(fù)議后變主責(zé)

頭條要聞

男子醉駕撞死16歲少女 最初被認(rèn)定全責(zé)復(fù)議后變主責(zé)

體育要聞

加拿大球員小腿變形重傷 亞洲冠軍輸球輸人

娛樂要聞

吳倩自曝小時(shí)被爸爸打掉牙齒硬吞進(jìn)肚

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

旅游
本地
時(shí)尚
手機(jī)
公開課

旅游要聞

民俗體驗(yàn)、非遺手作、實(shí)景演藝、紅色旅游 多元業(yè)態(tài)激活假日文旅消費(fèi)市場(chǎng)

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

鞋子專場(chǎng)|| 有了它,衣柜里的衣服突然變得好搭了

手機(jī)要聞

Pixel 10手機(jī)用戶反饋AI“搶鏡”問題,Gmail無法正常回復(fù)郵件

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版