免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

證據(jù)攤開看,場景圖畫清:讓流式視頻大模型拿捏「何時開口」

0
分享至



隨著多模態(tài)技術(shù)和大語言模型的發(fā)展,人類與 AI 的交互關(guān)系正在從「命令 - 執(zhí)行」走向真正的共生。AI 將不再只是等待人類指令再執(zhí)行的工具,而是與人類共處同一時空的主動智能體。

它們像人類一樣持續(xù)地感知動態(tài)環(huán)境,基于環(huán)境理解和內(nèi)部目標(biāo),主動向他人發(fā)起交互(例如主動提醒「杯子要掉了」或在關(guān)鍵時刻主動詢問「需要幫助嗎」)。

同時,視覺作為現(xiàn)實世界最豐富、最自然的感知媒介,是主動智能體理解外部環(huán)境的核心窗口。在這種持續(xù)的外部感知和響應(yīng)判斷下,視頻的輸入特征從「離線轉(zhuǎn)為在線」。

換言之,智能體所承載的視頻大模型(Video-LLM),不再是整段看完再作答的離線推理系統(tǒng),而應(yīng)像人類一樣邊看邊判斷:在響應(yīng)條件不足時保持克制,在關(guān)鍵證據(jù)出現(xiàn)時果斷響應(yīng)交互。

因此,在這種流式主動交互場景下,視頻大模型真正棘手的,不只是「能不能看懂某一幀」,還有「該不該在這一秒開口」。然而,要把「證據(jù)是否足夠」做成穩(wěn)定、可泛化的決策,現(xiàn)有方法往往仍把視覺證據(jù)與問題語義中的響應(yīng)條件藏在隱式表征里,難以做到精細對齊和對「響應(yīng)時機」的深刻理解。

為了解決這一痛點,來自西北工業(yè)大學(xué)、香港科技大學(xué)、清華大學(xué)等的研究團隊在 ACL 2026 上提出了一種基于證據(jù) - 條件結(jié)構(gòu)化對齊的流式視頻理解主動交互框架。該方法以顯式場景圖(Scene Graph)為統(tǒng)一表示,把流式觀測到的「視覺證據(jù)」與用戶查詢所蘊含的「響應(yīng)條件」進行顯式建模,并結(jié)合記憶檢索與觸發(fā)式提示,在無需微調(diào)的方式下完成流式「靜默 / 響應(yīng)」決策。



  • 論文標(biāo)題:Response-G1: Explicit Scene Graph Modeling for Proactive Streaming Video Understanding
  • 論文鏈接:https://arxiv.org/abs/2605.07575
  • 代碼倉庫:https://github.com/kadmkbl/Response-G1

主動流式交互的裂縫:當(dāng)證據(jù)與條件被「藏」在隱式表征里

流式主動交互的關(guān)鍵難點并不只在于內(nèi)容生成,還在于每一時間步都要思考一個底層的問題:當(dāng)前累積的視覺證據(jù),是否已經(jīng)滿足用戶問題所隱含的響應(yīng)條件?

一旦這個判斷依賴隱式的證據(jù) - 條件理解,模型就很容易在「相似幀」之間搖擺:視覺上幾乎一樣,但「該不該說」的標(biāo)簽卻可能相反。這也是許多需要幀級標(biāo)注的訓(xùn)練路線的方法難以泛化的根源之一。

而在無需微調(diào)的路線中,幀間差異閾值等基于規(guī)則的方法實現(xiàn)簡單,卻容易把「畫面變化」誤當(dāng)成「語義條件滿足」,從而忽略用戶響應(yīng)需求。另一方面,基于觸發(fā)提示的方法(直接詢問大模型是否在當(dāng)前時刻響應(yīng))雖能更加理解響應(yīng)需求,但現(xiàn)有工作仍未顯式地構(gòu)建證據(jù)與條件,對響應(yīng)時機的理解缺少可核對的中間結(jié)構(gòu)。

Response-G1 的切入點因此非常直接:用戶問題中的響應(yīng)條件往往對應(yīng)一個由物體、屬性與關(guān)系構(gòu)成的結(jié)構(gòu)化期望場景,場景圖為此提供了顯式的證據(jù)對齊方式,讓「證據(jù)是否足夠」不再依賴隱式表征,而轉(zhuǎn)由可解釋的中間結(jié)構(gòu)進行逐項核對。



圖 1. 流式視頻理解中的主動機制對比

Response-G1 總覽:把「時機判斷」變成可解釋的圖對齊問題

Response-G1 將流程組織為三個彼此銜接、且都可視為「推理增強」的模塊:在線查詢引導(dǎo)的場景圖生成(流式證據(jù)建模)、基于動態(tài)記憶庫的場景圖檢索(證據(jù) - 條件對齊),以及檢索增強的流式觸發(fā)決策(主動交互決策)。

框架不改變骨干視頻大模型的訓(xùn)練目標(biāo)與參數(shù)更新方式,主要通過結(jié)構(gòu)化中間表示與檢索上下文,把模型的「響應(yīng)判斷」從黑箱里往外拽半步。

  • 在線查詢引導(dǎo)的場景圖生成:對以當(dāng)前時刻為中心的流式視頻片段,模型輸出場景圖節(jié)點(物體及其屬性)與邊(關(guān)系謂詞),并以三元組集合形式表示。為抑制與問題無關(guān)的細節(jié),生成提示中注入用戶查詢,使視頻大模型優(yōu)先抽取與問題相關(guān)的子結(jié)構(gòu),從而得到查詢敏感、證據(jù)聚焦的圖表示。



  • 基于記憶的場景圖檢索:為實現(xiàn)細粒度的「證據(jù) - 條件」匹配對齊,框架維護隨時間增長的記憶庫,存儲歷史時刻生成的場景圖。檢索時,將各圖的三元組線性化為自然語言短語并拼接,同時對用戶查詢解析得到響應(yīng)條件圖及其文本表示;二者經(jīng)同一文本編碼器嵌入后做均值池化,以余弦相似度衡量語義相關(guān)性,并取 Top-K 子圖作為對齊證據(jù)上下文。



  • 檢索增強的流式觸發(fā)與回答:在每一需要決策的時間步,模型輸入由視頻幀嵌入、帶時間戳前綴的檢索場景圖編碼以及觸發(fā)指令(例如「現(xiàn)在是否應(yīng)該回答?僅回答 Yes/No」)共同構(gòu)成。若判定為靜默,則繼續(xù)累積觀測;若判定為響應(yīng),則在與交互決策一致的上下文中拼接原始問題,生成最終自然語言響應(yīng)。





圖 2. Response-G1 框架概覽

實驗結(jié)果:主動式大幅領(lǐng)先,被動式同步受益

研究團隊在主流流式視頻理解基準(zhǔn) OVO-Bench 與 StreamingBench 上開展評估,并區(qū)分主動式(模型自主決定響應(yīng)時刻)與被動式(響應(yīng)時刻與提問時刻一致)子任務(wù)。實現(xiàn)上采用 Qwen3-VL-8B 作為模型骨干,并遵循既有工作對輸入分辨率與幀采樣策略的設(shè)置。

實驗結(jié)果顯示,在主動式子任務(wù)方面,Response-G1 在開源流式視頻大模型上提升顯著:在 OVO-Bench 上,Response-G1 提升了12.8%;在 StreamingBench 的 PO 子任務(wù)上,提升達15.1%。在被動式子任務(wù)方面,Response-G1 也形成穩(wěn)定增益。

這表明,顯式場景圖不僅改善「何時說」,而且在有時空推理需求的用戶問題上,也有助于「說得準(zhǔn)」。



表 1. OVO-Bench 上的性能對比(主動式子任務(wù)為 Forward Active Responding;其余子任務(wù)為被動式設(shè)定)



表 2. StreamingBench 上的性能對比(主動式子任務(wù)為 PO;其余子任務(wù)為被動式設(shè)定)

消融與流式主動交互案例

消融實驗表明:(1)引入基于場景圖的檢索增強可同步提升主動式與被動式流式視頻理解的表現(xiàn),而引入時間戳的場景圖編碼一定程度地提升了模型的證據(jù)理解。(2)在流式視頻的場景圖證據(jù)在線生成階段,「查詢引導(dǎo)」優(yōu)于「目標(biāo)引導(dǎo)」策略,后者可能誘發(fā)模型生成不存在的場景圖三元組證據(jù)并導(dǎo)致過早響應(yīng)問題。



表 3. 消融實驗(左:不同檢索增強策略的有效性;右:不同證據(jù)生成引導(dǎo)策略的有效性)

可視化案例展示了一個需要等待證據(jù)線索逐步顯露的流式視頻主動交互場景(用戶提問:「一個穿著紅色 T 恤的男孩在離開后做了什么事情?」)。

結(jié)果表明,在時間「18:51」處,Response-G1 準(zhǔn)確檢索到與查詢相關(guān)的場景圖(即證據(jù))并觸發(fā)響應(yīng),而基線方法在整個視頻流中均始終未能作出響應(yīng)。



圖 3. 流式視頻主動式交互可視化案例

結(jié)語

該研究的意義在于:它把主動交互流式視頻理解里難以捉摸的「時機」問題,通過顯式的統(tǒng)一的圖表示,轉(zhuǎn)寫為更可解釋、可調(diào)試的「證據(jù) - 條件對齊」問題。

在視頻大模型逐步走向真實在線、主動交互的當(dāng)下,這種結(jié)構(gòu)化中間表示或許能為后續(xù)的多模態(tài)全能助手、長流式記憶與更復(fù)雜的人機協(xié)同,提供一個更可組合的底座。

作者介紹

本文作者馬可(https://kadmkbl.github.io)、唐家祺(https://jqt.me),分別來自西北工業(yè)大學(xué)和香港科技大學(xué)的博士研究生,研究方向為多模態(tài)大模型與智能體。

通訊作者是西北工業(yè)大學(xué)的郭斌教授(http://guob.org),長期從事普適計算、群智感知、具身智能及智能物聯(lián)網(wǎng)等領(lǐng)域的研究。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
耐克被曝有意對渠道大動刀:砍掉線上經(jīng)銷權(quán),僅保留官旗

耐克被曝有意對渠道大動刀:砍掉線上經(jīng)銷權(quán),僅保留官旗

經(jīng)濟觀察報
2026-06-19 18:32:30
14億人口大國,汽車為啥突然賣不動?老百姓說出原因,太真實了

14億人口大國,汽車為啥突然賣不動?老百姓說出原因,太真實了

老特有話說
2026-06-17 14:32:33
以為是濕疹?結(jié)果竟是癌,且已轉(zhuǎn)移!醫(yī)生:很多患者去錯科室

以為是濕疹?結(jié)果竟是癌,且已轉(zhuǎn)移!醫(yī)生:很多患者去錯科室

荊醫(yī)生科普
2026-06-10 12:00:34
卡尼在G7峰會跟特朗普說:加拿大給中國電動汽車留不到3%市場份額

卡尼在G7峰會跟特朗普說:加拿大給中國電動汽車留不到3%市場份額

阿七說史
2026-06-18 15:16:39
要不是德國媒體報道,我都不知道,原來比亞迪已強大到如此地步了

要不是德國媒體報道,我都不知道,原來比亞迪已強大到如此地步了

華庭講美食
2026-06-18 12:48:48
真賺錢!世界杯裁判收入曝光:保底7萬刀+單場獎金,待遇遠超預(yù)期

真賺錢!世界杯裁判收入曝光:保底7萬刀+單場獎金,待遇遠超預(yù)期

小鋭有話說
2026-06-19 22:58:13
日本核心久保建英左膝重傷,恐遺憾缺席世界杯小組賽余下賽事

日本核心久保建英左膝重傷,恐遺憾缺席世界杯小組賽余下賽事

星耀國際足壇
2026-06-19 14:53:30
國乒大爆冷!林詩棟一輪游不敵日本選手,止步WTT球星賽32強

國乒大爆冷!林詩棟一輪游不敵日本選手,止步WTT球星賽32強

全言作品
2026-06-19 20:49:06
接下來,是美國和以色列的“戰(zhàn)爭”

接下來,是美國和以色列的“戰(zhàn)爭”

靜思有我
2026-06-18 21:40:28
“牛鼻子”校友有了新身份,就職衡水泰華中學(xué)科技校長

“牛鼻子”校友有了新身份,就職衡水泰華中學(xué)科技校長

趣筆談
2026-05-06 11:30:03
皮蛋被發(fā)現(xiàn)!醫(yī)生研究發(fā)現(xiàn):吃得越多,糖尿病患者血管或越干凈

皮蛋被發(fā)現(xiàn)!醫(yī)生研究發(fā)現(xiàn):吃得越多,糖尿病患者血管或越干凈

新時代的兩性情感
2026-06-16 16:29:37
徐帆回應(yīng)離婚9個月后,馮小剛再陷爭議,養(yǎng)女徐朵成導(dǎo)火索

徐帆回應(yīng)離婚9個月后,馮小剛再陷爭議,養(yǎng)女徐朵成導(dǎo)火索

枯蝶
2026-05-21 22:22:13
西交大學(xué)生周凱旋被判死刑,行刑前拒見家屬,孤身赴死!

西交大學(xué)生周凱旋被判死刑,行刑前拒見家屬,孤身赴死!

華人星光
2026-05-23 10:51:12
為什么女教師成了單身女的最重災(zāi)區(qū)?網(wǎng)友剖析一針見血,我明白了

為什么女教師成了單身女的最重災(zāi)區(qū)?網(wǎng)友剖析一針見血,我明白了

夜深愛雜談
2026-04-27 22:11:39
iPhone 18 Pro這次,終于把質(zhì)感補上了

iPhone 18 Pro這次,終于把質(zhì)感補上了

輝哥說動漫
2026-06-18 16:44:04
2026NBA選秀將至 多筆交易預(yù)測流出

2026NBA選秀將至 多筆交易預(yù)測流出

體壇周報
2026-06-19 20:24:12
650公里高速實測:電車油車差距太殘酷,真實感受句句不騙人

650公里高速實測:電車油車差距太殘酷,真實感受句句不騙人

復(fù)轉(zhuǎn)這些年
2026-04-01 09:06:39
葡萄牙VS烏茲別克,比賽時間確定,C羅陷首發(fā)爭議,卡納瓦羅爭1分

葡萄牙VS烏茲別克,比賽時間確定,C羅陷首發(fā)爭議,卡納瓦羅爭1分

體育大學(xué)僧
2026-06-19 10:28:14
新華社:不要讓機關(guān)事業(yè)單位中的“官油子”得勢得利!

新華社:不要讓機關(guān)事業(yè)單位中的“官油子”得勢得利!

職場資深秘書
2026-06-19 13:02:51
郭艾倫:我想感受一下杜導(dǎo)雷霆之怒 膝蓋已好 就等著廣東在6月簽我

郭艾倫:我想感受一下杜導(dǎo)雷霆之怒 膝蓋已好 就等著廣東在6月簽我

狼叔評論
2026-06-19 15:35:04
2026-06-19 23:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

本地
房產(chǎn)
教育
健康
軍事航空

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調(diào)規(guī)!

教育要聞

頹廢不上進,孩子擺爛不是父母的錯!

吃粽子的3條保胃法則,消化科醫(yī)生推薦

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競渡來了

無障礙瀏覽 進入關(guān)懷版