免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

7B打敗o3、GPT-5!醫(yī)學AI智能體讓模型學會“看哪里、怎么看”

0
分享至

上海創(chuàng)智學院 LeapQuest 團隊 投稿量子位 | 公眾號 QbitAI

醫(yī)學AI會寫解釋,但不代表它真的“看到”了關鍵證據(jù)。

過去的醫(yī)學多模態(tài)模型,大多是把一張影像或一段視頻編碼成視覺特征,然后讓大模型生成答案與解釋。

但問題在于——一個微小病灶、一個邊界變化、一段幾秒鐘的手術動作,往往就決定了答案是否成立。

而模型“被動接收”視覺上下文時,很容易看錯區(qū)域、漏看病灶。

為應對這一問題,上海創(chuàng)智學院LeapQuest團隊聯(lián)合浙江大學、上海交通大學、復旦大學,一口氣拿出了兩篇ICML 2026接收論文,首次把Think with Images/Think with Videos范式應用在醫(yī)學AI領域:

模型不再只是看完圖像或視頻后生成解釋,而是在推理鏈中主動調用視覺工具,重新觀察關鍵區(qū)域或關鍵時刻,并用新證據(jù)修正判斷。

這意味著,視覺不再只是輸入,視覺證據(jù)本身成了模型思考過程的一部分。

兩篇工作的核心關鍵詞如下:



兩篇工作不是孤立模型升級,而是共同提出醫(yī)學AI的新范式:

讓視覺證據(jù)進入模型的中間思考過程,把“解釋”從事后語言生成推進為推理過程中的證據(jù)查證。



Ophiuchus:面向醫(yī)學圖像的tool-augmented Think with Images




MedScope:面向臨床長視頻的Think with Videos

不是更會“寫解釋”,而是開始會“用視覺證據(jù)思考”

醫(yī)學AI過去最常見的工作方式,是把一張影像或一段視頻編碼成視覺特征,然后讓大模型生成答案與解釋。

問題在于,解釋看起來完整,并不代表模型真的看到了關鍵證據(jù)。尤其在醫(yī)學場景里,一個微小病灶、一個邊界變化、一段幾秒鐘的手術動作,往往就決定了答案是否成立。

Ophiuchus和MedScope共同把這個問題向前推進了一步:多模態(tài)模型不再只是“被動接收視覺上下文”,而是在推理過程中主動決定是否需要更多證據(jù)應該看哪里應該回看哪一段,并把工具返回的觀察結果納入后續(xù)推理。

這就是醫(yī)學AI領域首次被系統(tǒng)化提出的 “think with images/think with videos” 范式:視覺不再只是輸入,視覺證據(jù)本身成為模型思考過程的一部分。

Think with Images



Think with Images:讓模型在圖像診斷中“重新看一眼”

Ophiuchus的切入點非常直接:現(xiàn)有醫(yī)學多模態(tài)大模型雖然能寫出逐步推理,但遇到需要細粒度視覺證據(jù)的任務時,仍然容易“看錯區(qū)域、漏看病灶、誤把正常結構當異常”。

這不是單純語言能力不足,而是視覺交互機制不足

因此,Ophiuchus將大模型改造成一個能與醫(yī)學圖像工具協(xié)同的視覺智能體。

它可以根據(jù)當前推理狀態(tài),決定是否調用外部視覺工具:用SAM2做精細分割,用BiomedParse根據(jù)文字提示定位醫(yī)學結構,用Zoom-in放大關鍵區(qū)域。

工具調用后的輸出不是孤立結果,而會以observation的形式回到推理鏈,驅動下一步判斷。



更關鍵的是,Ophiuchus并不是把工具“外掛”在模型外面,而是讓工具成為推理鏈的一部分

模型要學會何時調用工具、選擇哪個工具、如何解釋工具輸出,以及當工具結果不可靠時如何修正策略。

這使得模型從“會調用工具”走向“會用工具思考”。

Ophiuchus 技術框架



Ophiuchus的價值不只是讓醫(yī)學大模型多了幾個視覺工具,而是讓模型學會在診斷過程中主動“看哪里、怎么看、看完如何修正”。

從閉源SOTA到醫(yī)學Agent:Ophiuchus用結果證明“看得更細”才是關鍵

在同樣外部工具配置下,Ophiuchus-7B在8個VQA benchmark上取得68.0的平均分,高于OpenAI-o3的62.2Gemini 2.5 Pro的61.8GPT-5的59.9。

在工具使用準確性評估中,Ophiuchus達到97.9%的平均工具調用準確率。

這些結果背后的含義,比“某個榜單第一”更重要:

當問題真正依賴局部結構、病灶邊界和細胞級證據(jù)時,模型大小或語言推理并不是唯一瓶頸。

醫(yī)學AI需要一種能讓視覺證據(jù)不斷進入推理過程的機制

Think with Videos:從“看圖思考”走向“回看關鍵時刻”

如果說Ophiuchus解決的是醫(yī)學圖像中的局部證據(jù)問題,那么MedScope則把這一范式推進到更難的長視頻場景。

長臨床視頻的挑戰(zhàn)在于:關鍵證據(jù)不僅細,而且稀疏;不僅要看對內容,還要看對時間

一個手術動作、一個內鏡視野變化、一個器械進入與離開的瞬間,可能只持續(xù)幾秒,卻決定模型是否真的理解了臨床過程。

MedScope 提出的 “think with videos” 不是讓模型把整段視頻一次性壓縮成上下文,而是模擬臨床醫(yī)生的觀察方式:

先快速建立全局理解,再回到可疑時間窗,用crop_video截取片段,用get_frame獲取關鍵幀,最后把這些局部觀察結果整合進答案。

Textual CoT與 Visual CoT的差別



這使MedScope的推理過程天然具備可審查性:模型為什么回答這個結果,不只看它“說了什么”,還可以看它“回看了哪一段視頻、找到了哪些幀、這些證據(jù)是否支持結論”。

MedScope 框架



ClinVideoSuite與GA-GRPO:讓視頻模型學會“找證據(jù)”,而不只是“猜答案”

為了讓模型真正學會這種行為,MedScope構建了ClinVideoSuite:包含635K時間戳密集 caption、254K證據(jù)關聯(lián)QA、34K視覺CoT軌跡,以及用于強化學習的交互式訓練環(huán)境。

數(shù)據(jù)不是簡單問答,而是強調問題必須依賴局部時間窗中的視覺證據(jù)

訓練上,MedScope 采用三階段路線

第一階段進行臨床推理warm-up,學習醫(yī)學語義和長程視頻理解;

第二階段用visual-CoT cold-start SFT教會模型何時需要更多證據(jù)、如何調用工具;

第三階段用GA-GRPO強化時序對齊的工具使用,通過grounding-aware reward和evidence-modulated advantage,讓模型更偏向檢索真正支持結論的視覺片段。

ClinVideoSuite數(shù)據(jù)合成管線



在SVU-31K、ClinVideo-Eval等評測中,MedScope在多粒度視頻理解、細粒度時序推理和grounded VQA上取得開源模型中的SOTA

論文還顯示,去掉evidence reward會顯著降低定位質量,例如[email protected]從40.1下降到33.2mIoU從4.3下降到38.8,說明答案級監(jiān)督不足以教會模型可靠地選擇證據(jù)。

真正的范式變化:視覺從“輸入”變成“思維過程”

把兩篇工作放在一起看,最重要的不是Ophiuchus處理圖像、MedScope處理視頻,而是它們共同定義了一種新的醫(yī)學多模態(tài)智能范式

模型的推理過程不再只是語言token的展開,而是語言、工具、圖像區(qū)域、視頻片段和證據(jù)反饋之間的閉環(huán)交互



醫(yī)學AI的下一個關鍵能力,不是生成更長的解釋,而是在給出解釋前主動尋找、驗證并引用視覺證據(jù)。

Ophiuchus和MedScope把這一點從方法論變成了可訓練、可評測、可擴展的技術路線。

為什么這可能成為醫(yī)學AI Agent的關鍵拐點

醫(yī)學任務與通用視覺問答最大的不同,是每一個結論都需要證據(jù)鏈

放射科醫(yī)生會放大病灶邊緣,病理醫(yī)生會尋找細胞形態(tài),外科醫(yī)生會回看關鍵操作,內鏡醫(yī)生會追蹤病灶在時間中的出現(xiàn)與消失。

也就是說,臨床視覺推理天然就是交互式、證據(jù)驅動和可復核的。

“Think with Images/Videos”的意義,正是讓醫(yī)學AI向這種真實臨床認知方式靠近。

它不再滿足于一次性預測,而是在模型內部建立“假設-查證-修正-回答”的循環(huán)。

這為臨床可信AI提供了三類重要能力:更少幻覺、更強可解釋性、更適合復雜流程



醫(yī)學AI開始真正“邊看邊想”

從Ophiuchus到MedScope,可以看到醫(yī)學多模態(tài)大模型正在發(fā)生一次底層范式轉向

從看圖、看視頻,到在推理過程中持續(xù)地看;從輸出答案,到主動尋找證據(jù);從語言鏈條,到視覺證據(jù)參與的多模態(tài)思維鏈

這也解釋了為什么“think with images/videos”值得被單獨提出。

它不是一個更花哨的工具調用框架,而是在醫(yī)學AI里重新定義了“推理”的邊界:推理不只是語言生成,而是圍繞證據(jù)進行的動態(tài)視覺探索

當模型能夠在思考中主動回看影像、放大病灶、截取視頻、驗證證據(jù),醫(yī)學AI才真正從“會回答問題”走向“會進行臨床視覺推理”。

LeapQuest[起躍界問]是上海創(chuàng)智學院面向下一代醫(yī)學AI Agent、視覺推理與多模態(tài)大模型的青年交叉研究團隊,聚焦Visual Reasoning、Agentic RL、Clinical Tools,推動模型從“生成答案”走向基于證據(jù)的觀察、驗證與行動。

項目GitHub:
MedScope|Think with Videos:https://github.com/SII-WenjieLisjtu/MedScope
Ophiuchus|Think with Images:https://github.com/SII-zyj/Ophiuchus

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“一絲不掛”還不知廉恥!內娛為藝術獻身的流氓真相,該打破了!

“一絲不掛”還不知廉恥!內娛為藝術獻身的流氓真相,該打破了!

離離言幾許
2026-06-17 19:24:57
解放臺灣,說白了就是要拿到4樣東西,其余一概不動留給臺灣人

解放臺灣,說白了就是要拿到4樣東西,其余一概不動留給臺灣人

樂享人生風雨
2026-06-19 16:36:36
拉夫羅夫:莫斯科將把所有歷史上的俄羅斯土地歸還其合法家園

拉夫羅夫:莫斯科將把所有歷史上的俄羅斯土地歸還其合法家園

舊窗老街
2026-02-23 01:50:19
重要突破!哈里梅根將帶孩子返回英國,威廉王子的態(tài)度依舊是關鍵

重要突破!哈里梅根將帶孩子返回英國,威廉王子的態(tài)度依舊是關鍵

人物檔案局
2026-06-19 08:26:56
不打伊朗了,美軍突然調轉槍口,集結航母和遼寧艦“臉對臉”

不打伊朗了,美軍突然調轉槍口,集結航母和遼寧艦“臉對臉”

他想要很多很多的夢
2026-06-19 09:02:51
新款奧德賽實錘曝光!內外大改,3.5L V6動力加持太強悍

新款奧德賽實錘曝光!內外大改,3.5L V6動力加持太強悍

三農(nóng)老歷
2026-06-18 16:05:54
張佳寧的眉毛怎么了登上熱搜!本人回應

張佳寧的眉毛怎么了登上熱搜!本人回應

孤傲何妨初
2026-06-19 17:48:33
54歲張智霖現(xiàn)身廣州,在獵德村扒龍船、吃龍船飯,街坊:好靚仔

54歲張智霖現(xiàn)身廣州,在獵德村扒龍船、吃龍船飯,街坊:好靚仔

生活新鮮市
2026-06-19 10:02:25
遍地倒閉、批量合并!央企國企扎堆成立的數(shù)科公司,為啥死了大半

遍地倒閉、批量合并!央企國企扎堆成立的數(shù)科公司,為啥死了大半

職場資深秘書
2026-06-15 16:45:31
這回,輪到煙草員工開始沒心情上班了?金鐵飯碗咋就不香了?

這回,輪到煙草員工開始沒心情上班了?金鐵飯碗咋就不香了?

世界圈
2026-06-04 08:26:44
有錢有權女人最愛的國產(chǎn)牌子,價格崩了

有錢有權女人最愛的國產(chǎn)牌子,價格崩了

新浪財經(jīng)
2026-06-19 12:12:02
嫁李鐵不后悔!張泉靈卸下偽裝,自曝在央視受排擠,她沒法說謊

嫁李鐵不后悔!張泉靈卸下偽裝,自曝在央視受排擠,她沒法說謊

愛八卦的曉請
2026-06-19 18:18:24
熬夜看完英格蘭4-2,我才明白:那1.25億后腰真不是炒出來的

熬夜看完英格蘭4-2,我才明白:那1.25億后腰真不是炒出來的

觀星娛記
2026-06-19 09:39:52
不等G7會議散場,特朗普另起一局,派特殊信使悄悄抵達中國

不等G7會議散場,特朗普另起一局,派特殊信使悄悄抵達中國

娛樂小可愛蛙
2026-06-19 05:29:26
這一夜,男籃熱身賽的體面,終于被楊瀚森缺席撕了個粉碎

這一夜,男籃熱身賽的體面,終于被楊瀚森缺席撕了個粉碎

大漢體育解說
2026-06-19 20:51:43
阿根廷有麻煩了!阿爾及利亞足協(xié)向FIFA申訴,梅西恐遭追加處罰

阿根廷有麻煩了!阿爾及利亞足協(xié)向FIFA申訴,梅西恐遭追加處罰

體壇小李
2026-06-19 20:52:39
SpaceX“變臉”!股價兩連跌,散戶賬面收益幾近蒸發(fā)

SpaceX“變臉”!股價兩連跌,散戶賬面收益幾近蒸發(fā)

21世紀經(jīng)濟報道
2026-06-19 18:19:18
男女肢體接觸有講究!順序錯一步,好感全清零,還可能被拉黑

男女肢體接觸有講究!順序錯一步,好感全清零,還可能被拉黑

三農(nóng)老歷
2026-06-18 16:48:42
被布倫森刺激到了?東契奇正式施壓湖人,詹姆斯態(tài)度決定能否爭冠

被布倫森刺激到了?東契奇正式施壓湖人,詹姆斯態(tài)度決定能否爭冠

小路看球
2026-06-19 12:41:09
正式確定!前泰山名宿馳援國足,助力邵佳一,目標明確,意義重大

正式確定!前泰山名宿馳援國足,助力邵佳一,目標明確,意義重大

王大發(fā)不懂球
2026-06-19 20:58:41
2026-06-20 05:12:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12819文章數(shù) 176501關注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

旅游
親子
本地
時尚
公開課

旅游要聞

走遍春城才懂,金馬山不只是地名,是云南人代代相傳的祥瑞浪漫!

親子要聞

從毒奶粉到毒紙尿褲,兒童用品安全防線為何屢屢失守

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

夏天上衣穿短不穿長,看看下面這幾款短上衣,顯高舒適顯比例

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版