免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

入圍CVPR 2026最佳論文決選,ViT3突破Transformer復(fù)雜度瓶頸

0
分享至



編輯|+0

CVPR 2026 剛在美國(guó)丹佛落下帷幕。16092 篇投稿中,15 篇?dú)⑷胱罴颜撐臎Q選(Best Paper Finalists),入圍率不足千分之一。

其中一篇來(lái)自阿里巴巴與清華大學(xué)的合作研究:《ViT3 : Unlocking Test-Time Training in Vision》。

它要解決的,是當(dāng)前視覺(jué)模型領(lǐng)域最普遍的一類(lèi)痛點(diǎn):當(dāng)圖像分辨率越來(lái)越高、視頻越來(lái)越長(zhǎng)、多模態(tài)輸入越來(lái)越復(fù)雜時(shí),Transformer 逐漸算不動(dòng)了。

ViT3 給出了一條不同的路線。

在 RTX 3090 上處理 1248 × 1248 分辨率圖像時(shí),ViT3-T 的推理速度達(dá)到 DeiT-T 的 4.6 倍,GPU 顯存消耗降低了 90.3%。

換句話說(shuō),它只使用接近十分之一的顯存,卻實(shí)現(xiàn)了更高的處理速度。

但這篇論文的意義,并不只是讓視覺(jué)模型跑得更快。

它真正嘗試改變的,是視覺(jué)模型保存和調(diào)用上下文信息的方式:不再單純依賴固定公式壓縮信息,而是在處理當(dāng)前輸入時(shí),通過(guò)一次快速的在線學(xué)習(xí),把上下文寫(xiě)入一個(gè)緊湊的內(nèi)部模型。

這條路線建立在近年來(lái)受到關(guān)注的 Test-Time Training(TTT,測(cè)試時(shí)訓(xùn)練)框架之上,而 ViT3 則進(jìn)一步將其系統(tǒng)引入視覺(jué)領(lǐng)域,并梳理出一套可復(fù)用的設(shè)計(jì)原則。



  • 論文地址:https://arxiv.org/pdf/2512.01643
  • 代碼: https://github.com/LeapLabTHU/ViTTT

阿里巴巴長(zhǎng)期關(guān)注多模態(tài)大模型與新一代交互體驗(yàn)。隨著 AI 逐漸進(jìn)入真實(shí)生活場(chǎng)景,模型需要處理的視覺(jué)信息正在變得越來(lái)越復(fù)雜:更高清的圖片、更長(zhǎng)的視頻,以及持續(xù)增長(zhǎng)的多模態(tài)上下文。

如何在控制算力成本的同時(shí),讓模型看得更清楚、理解得更完整,已經(jīng)成為多模態(tài)技術(shù)走向?qū)嶋H應(yīng)用時(shí)必須面對(duì)的問(wèn)題。ViT3 所探索的,正是這一底層能力。

把上下文壓縮,變成一次臨場(chǎng)學(xué)習(xí)

要理解 ViT3 的價(jià)值,需要先回到視覺(jué)模型長(zhǎng)期面對(duì)的一組矛盾:如何在降低計(jì)算復(fù)雜度的同時(shí),盡可能保留上下文建模能力。

Vision Transformer 在 2020 年被提出后,迅速成為計(jì)算機(jī)視覺(jué)中最重要的主流架構(gòu)之一,并持續(xù)推動(dòng)圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割和圖像生成等任務(wù)的發(fā)展。

但標(biāo)準(zhǔn) Softmax Attention 有一筆隨著序列長(zhǎng)度快速膨脹的賬。

一張圖片進(jìn)入視覺(jué) Transformer 后,通常會(huì)被拆分成一組 token。圖片分辨率越高,token 數(shù)量就越多。標(biāo)準(zhǔn) Attention 需要顯式計(jì)算不同 token 之間的兩兩關(guān)系,其計(jì)算和顯存成本會(huì)隨 token 數(shù)量呈二次增長(zhǎng)。

為便于理解,省略縮放系數(shù)后,標(biāo)準(zhǔn) Attention 可以簡(jiǎn)寫(xiě)為:Softmax(QK?)V

其中,Q 代表 query,K 代表 key,V 代表 value。真正帶來(lái)高成本的,是 QK? 形成的 N × N 矩陣。

當(dāng)模型處理的是普通分辨率圖片時(shí),這筆成本尚且可控。但一旦面對(duì)超高清圖片、長(zhǎng)視頻或更復(fù)雜的多模態(tài)輸入,token 序列長(zhǎng)度迅速增加,計(jì)算和顯存開(kāi)銷(xiāo)就會(huì)逐漸接近成本邊界。

為了降低成本,過(guò)去幾年出現(xiàn)了多種線性復(fù)雜度方案。

Linear Attention的思路,是改變計(jì)算順序。它將關(guān)鍵計(jì)算從 Softmax(QK?)V 改寫(xiě)為 Q(K?V),先把 K 和 V 壓縮成一個(gè)固定大小的狀態(tài),再讓 Q 從中讀取信息。由于 K?V 的大小與序列長(zhǎng)度 N 無(wú)關(guān),復(fù)雜度可以降到 O(N)。

但代價(jià)也很明顯:上下文被壓縮進(jìn)一個(gè)相對(duì)簡(jiǎn)單的線性狀態(tài)。壓縮效率提高了,表達(dá)能力卻可能不足,實(shí)際性能往往與標(biāo)準(zhǔn) Transformer 存在差距。

Mamba 和狀態(tài)空間模型走了另一條路。它們維護(hù)一個(gè)固定大小的隱狀態(tài),并沿著序列逐步更新。相比簡(jiǎn)單的線性映射,這種狀態(tài)更新機(jī)制更靈活,但仍然需要回答同一個(gè)問(wèn)題:當(dāng)序列越來(lái)越長(zhǎng)、全局依賴越來(lái)越復(fù)雜時(shí),如何把足夠豐富的信息寫(xiě)入一個(gè)容量有限的狀態(tài)?

用一個(gè)類(lèi)比來(lái)說(shuō):標(biāo)準(zhǔn) attention 是「保留全部資料,需要時(shí)重新檢索」,代價(jià)是資料越多,檢索成本越高;Linear Attention 是「提前壓縮成一份固定摘要」,速度更快,但容易遺漏細(xì)節(jié);Mamba 則像是「一邊閱讀,一邊持續(xù)更新一份有限長(zhǎng)度的筆記」。

這些方案背后長(zhǎng)期存在一組交換條件:壓縮越激進(jìn),計(jì)算越便宜;但壓縮方式越簡(jiǎn)單,模型越容易損失表達(dá)能力。

Test-Time Training 試圖改變這組交換條件。它不再把上下文壓縮視為一次固定的矩陣運(yùn)算,而是把它改寫(xiě)成一次快速的在線學(xué)習(xí)過(guò)程。



TTT Block 保留了 Transformer 的宏觀結(jié)構(gòu)。不同之處在于,原本的 Attention 計(jì)算被替換為一次可學(xué)習(xí)的上下文壓縮與讀取過(guò)程。

具體來(lái)說(shuō),TTT 將當(dāng)前輸入中的 key-value 對(duì)視為一個(gè)臨時(shí)的「迷你數(shù)據(jù)集」。模型在推理過(guò)程中,對(duì)一個(gè)小型內(nèi)部網(wǎng)絡(luò)進(jìn)行短暫的自監(jiān)督訓(xùn)練,讓它學(xué)習(xí)從 K 預(yù)測(cè) V。隨后,再使用更新后的內(nèi)部網(wǎng)絡(luò)處理 query。

換句話說(shuō),模型面對(duì)每一組新的輸入時(shí),都會(huì)進(jìn)行一次輕量級(jí)的臨場(chǎng)適配。

這也是「Test-Time Training」這個(gè)名字的來(lái)源:在測(cè)試階段,模型會(huì)針對(duì)當(dāng)前輸入,短暫訓(xùn)練一個(gè)內(nèi)部模型,再利用它完成信息讀取。

整個(gè)內(nèi)部訓(xùn)練過(guò)程仍然是可微的,并與外部網(wǎng)絡(luò)一起端到端優(yōu)化,不需要拆分成多個(gè)獨(dú)立階段。

線性注意力使用固定矩陣乘法壓縮上下文;TTT 則使用梯度下降壓縮上下文。前者是固定的線性操作,后者是一種學(xué)習(xí)驅(qū)動(dòng)的非線性壓縮方式。只要內(nèi)部模型的規(guī)模保持固定,整體復(fù)雜度仍然可以維持在線性水平,但信息壓縮能力有機(jī)會(huì)進(jìn)一步提高。

論文中有一張關(guān)鍵示意圖,展示了 Softmax Attention、Linear Attention 和 TTT 之間的關(guān)系。

Softmax Attention 可以被理解為一個(gè)寬度隨序列長(zhǎng)度增長(zhǎng)的內(nèi)部模型;Linear Attention 對(duì)應(yīng)一個(gè)固定大小的線性內(nèi)部模型;TTT 則進(jìn)一步允許內(nèi)部模型成為可訓(xùn)練的小型網(wǎng)絡(luò)。

ViT3 并不是完全拋開(kāi) Attention 另起爐灶,而是在同一個(gè)框架中,打開(kāi)了更大的設(shè)計(jì)空間。



Softmax Attention、Linear Attention 與 TTT 的統(tǒng)一視角。Softmax Attention 保留完整上下文,Linear Attention 將上下文壓縮為固定大小的線性狀態(tài);TTT 則通過(guò)在線訓(xùn)練,將上下文寫(xiě)入一個(gè)可更新的內(nèi)部模型。

在空白的設(shè)計(jì)空間里畫(huà)出地圖

設(shè)計(jì)空間更大,意味著選擇更多,也意味著更容易走錯(cuò)路。

在 ViT3 之前,TTT 已經(jīng)在語(yǔ)言模型中獲得關(guān)注,但視覺(jué)數(shù)據(jù)與語(yǔ)言數(shù)據(jù)并不相同。語(yǔ)言天然具有順序和因果結(jié)構(gòu)。圖像則是二維空間信息,不同 token 之間不存在同樣明確的先后關(guān)系。

當(dāng) TTT 進(jìn)入視覺(jué)領(lǐng)域后,一系列基礎(chǔ)問(wèn)題都需要重新回答:內(nèi)部模型應(yīng)該使用什么架構(gòu)?損失函數(shù)如何選擇?應(yīng)該更新多少輪?學(xué)習(xí)率應(yīng)該多大?卷積和 MLP 哪一種更適合視覺(jué)任務(wù)?

ViT3 的重要貢獻(xiàn)之一,是通過(guò)系統(tǒng)實(shí)驗(yàn)梳理視覺(jué) TTT 的設(shè)計(jì)空間,總結(jié)出六條可以復(fù)用的實(shí)踐原則,并討論了TTT 當(dāng)前存在的核心挑戰(zhàn)和未來(lái)研究方向。

觀察一:內(nèi)部訓(xùn)練損失函數(shù)的混合二階導(dǎo)數(shù)不能為零。

TTT 的內(nèi)部訓(xùn)練過(guò)程要和外部網(wǎng)絡(luò)一起做端到端優(yōu)化,這意味著梯度要穿過(guò)內(nèi)部訓(xùn)練步驟回傳到外部參數(shù)。如果損失函數(shù)的混合二階導(dǎo)數(shù)為零,外部參數(shù)的梯度信號(hào)就會(huì)在回傳中消失。MAE(L1)損失的導(dǎo)數(shù)是符號(hào)函數(shù),混合二階導(dǎo)幾乎處處為零——實(shí)驗(yàn)中它比 MSE 損失低了 2.4 個(gè)百分點(diǎn)。這不是一個(gè)可以通過(guò)調(diào)參彌補(bǔ)的小問(wèn)題,它決定了某些損失函數(shù)從根本上不適用于 TTT。

觀察二:視覺(jué)任務(wù)適合全批次、單輪訓(xùn)練。

此前 NLP 領(lǐng)域的 TTT 實(shí)踐發(fā)現(xiàn),小批量順序更新通常更有效。但在視覺(jué)任務(wù)中,全批次更新表現(xiàn)更好。論文給出了一個(gè)有說(shuō)服力的解釋:小批量順序更新會(huì)引入因果偏置——前面的 batch 影響后面的梯度,后面的更新也可能覆蓋前面的信息。這種偏置適合具有方向性的語(yǔ)言數(shù)據(jù),但對(duì)非因果的視覺(jué)數(shù)據(jù)反而是一種負(fù)擔(dān)。綜合準(zhǔn)確率、吞吐和訓(xùn)練穩(wěn)定性,ViT3 最終采用單輪全批次更新。

觀察三:在穩(wěn)定的前提下,更大的內(nèi)部學(xué)習(xí)率效果更好。

實(shí)驗(yàn)表明,在訓(xùn)練穩(wěn)定的前提下,越大的學(xué)習(xí)率效果越好。太小的學(xué)習(xí)率會(huì)讓內(nèi)部模型更新不充分,無(wú)法有效存儲(chǔ)上下文信息;過(guò)大的學(xué)習(xí)率則容易導(dǎo)致訓(xùn)練不穩(wěn)定。

值得注意的是,在一些特殊情況下,內(nèi)部學(xué)習(xí)率可以吸收為 K 和 V 的放縮。但是這并不內(nèi)說(shuō)明內(nèi)部學(xué)習(xí)率的設(shè)置不重要。一個(gè)類(lèi)似的例子是Softmax注意力中的

放縮,它也能夠被 Q 和 K 吸收,但是依然重要。

觀察四:增加內(nèi)部模型容量,性能持續(xù)提升。

一個(gè)關(guān)鍵問(wèn)題是:TTT 能不能通過(guò)簡(jiǎn)單擴(kuò)大內(nèi)部模型來(lái)提升序列建模能力?為了探索這一點(diǎn),論文將 TTT 內(nèi)部模型實(shí)現(xiàn)為一個(gè) SiLU 激活函數(shù)的兩層 MLP,并逐漸增加其寬度。實(shí)驗(yàn)表明,當(dāng)隱藏維度 d 擴(kuò)到 4d,準(zhǔn)確率從 78.9% 提升到 79.6%,沒(méi)有飽和跡象。這是TTT 范式的一個(gè)核心優(yōu)勢(shì),即它可以在外部模型尺寸固定的條件下,通過(guò)簡(jiǎn)單地?cái)U(kuò)展內(nèi)部模型尺寸來(lái)實(shí)現(xiàn)更好的序列建模效果。這和 Linear Attention 形成鮮明對(duì)比:后者通常將上下文壓縮進(jìn)固定大小的線性狀態(tài),表達(dá)能力和擴(kuò)展空間相對(duì)有限。



隨著內(nèi)部模型寬度增加,TTT 的性能持續(xù)提升,說(shuō)明內(nèi)部模型容量仍有進(jìn)一步擴(kuò)展空間。

觀察五:當(dāng)前更深的內(nèi)部模型存在優(yōu)化困難,需要未來(lái)工作解鎖其理論潛力。

一個(gè)不符合預(yù)期的結(jié)果是,把內(nèi)部模型從一層變成兩層、三層,參數(shù)更多、理論容量更大,但實(shí)際準(zhǔn)確率反而下降。論文的分析指向優(yōu)化困難:更深的內(nèi)部模型在 TTT 的短訓(xùn)練步數(shù)下容易欠擬合——訓(xùn)練損失更高,測(cè)試準(zhǔn)確率更低。當(dāng)前深層網(wǎng)絡(luò)的理論優(yōu)勢(shì)在 TTT 的快速訓(xùn)練場(chǎng)景中難以兌現(xiàn)。論文同時(shí)發(fā)現(xiàn),如果把輸出層固定為單位矩陣(一種「約束設(shè)計(jì)」),準(zhǔn)確率反而比完整的兩層 MLP 更高。這進(jìn)一步證實(shí)了優(yōu)化瓶頸的存在。

解決較深內(nèi)部模型的優(yōu)化問(wèn)題,是 TTT 的一個(gè)重要未來(lái)方向。理論工作表明,神經(jīng)網(wǎng)絡(luò)的擬合能力隨深度指數(shù)增長(zhǎng),這正是當(dāng)前神經(jīng)網(wǎng)絡(luò)成功的核心原因。因此,較深的內(nèi)部模型在實(shí)現(xiàn)高精度測(cè)試時(shí)訓(xùn)練序列建模中具有突出潛力。



增加內(nèi)部模型深度,并沒(méi)有帶來(lái)更高的準(zhǔn)確率。隨著層數(shù)增加,訓(xùn)練損失反而更高,說(shuō)明視覺(jué) TTT 當(dāng)前仍面臨內(nèi)部模型優(yōu)化瓶頸。

觀察六:卷積天然適合做視覺(jué) TTT 的內(nèi)部模型。

隨著 Transformer 興起,卷積不再是視覺(jué)模型中唯一占據(jù)主導(dǎo)地位的結(jié)構(gòu)。但在 TTT 框架中,它獲得了一個(gè)新的角色。TTT 把全局上下文壓縮進(jìn)內(nèi)部模型的權(quán)重,當(dāng)內(nèi)部模型是卷積時(shí),這些權(quán)重就是卷積核——全局信息被編碼在核的參數(shù)里,而卷積操作本身又提供了局部感受野。一次前向推理同時(shí)完成了全局和局部信息的整合。實(shí)驗(yàn)中,一個(gè)輕量級(jí) 3 × 3 深度卷積在參數(shù)量更少的情況下,比 MLP baseline 高出 1.2 個(gè)百分點(diǎn)。

這六條原則并不是相互獨(dú)立的經(jīng)驗(yàn)。

觀察一排除了一類(lèi)不適用于TTT 的損失函數(shù);觀察二和觀察三回答「應(yīng)該怎么訓(xùn)練」;觀察四、觀察五和觀察六則回答「內(nèi)部模型應(yīng)該如何設(shè)計(jì)」。

它們共同構(gòu)成了一份視覺(jué) TTT 的實(shí)踐地圖:哪些方向值得未來(lái)工作繼續(xù)探索,哪些路徑容易陷入優(yōu)化瓶頸,哪些設(shè)計(jì)能夠在效果和效率之間取得更好的平衡。

從分類(lèi)到生成,

ViT3 的優(yōu)勢(shì)在高分辨率下放大

基于前面的六條觀察,研究團(tuán)隊(duì)最終搭建出 Vision Test-Time Training 模型,簡(jiǎn)稱 ViT3。

它的整體設(shè)計(jì)并不復(fù)雜。

在多數(shù) Attention head 中,ViT3 使用一種簡(jiǎn)化的門(mén)控內(nèi)部模型,在保持易于優(yōu)化的同時(shí),提供比純線性狀態(tài)更強(qiáng)的表達(dá)能力。另有一個(gè) head 引入輕量級(jí)的 3 × 3 深度卷積,使模型在壓縮全局上下文的同時(shí),也能夠利用圖像中的局部空間結(jié)構(gòu)。

內(nèi)部訓(xùn)練同樣保持克制:每次只進(jìn)行一輪全批次梯度更新。換句話說(shuō),ViT3 沒(méi)有在推理過(guò)程中嵌入一套繁重的訓(xùn)練流程,而是在控制額外成本的前提下,讓內(nèi)部模型完成一次快速適配。

圍繞這一模塊,論文構(gòu)建了三類(lèi)模型:ViT3 采用非層級(jí)架構(gòu),對(duì)齊經(jīng)典 Vision Transformer;H-ViT3 使用四階段層級(jí)設(shè)計(jì),更適合作為通用視覺(jué)骨干網(wǎng)絡(luò);DiT3 則將同樣的 TTT 模塊放入擴(kuò)散模型,用于圖像生成。

這組設(shè)計(jì)的目標(biāo),不是針對(duì)某一個(gè) benchmark 調(diào)整出更高的數(shù)字,而是驗(yàn)證一個(gè)更關(guān)鍵的問(wèn)題:TTT 能否成為一種可遷移的視覺(jué)序列建模模塊?

從實(shí)驗(yàn)結(jié)果看,答案是積極的。

在圖像分類(lèi)任務(wù)中,ViT3 展現(xiàn)出有競(jìng)爭(zhēng)力的視覺(jué)表征能力。在目標(biāo)檢測(cè)和語(yǔ)義分割等需要處理更高分辨率輸入的任務(wù)中,它也能夠超過(guò)多種同級(jí)別的 Mamba 和 Linear Attention 模型。

這說(shuō)明,相比將上下文壓縮進(jìn)一個(gè)簡(jiǎn)單線性狀態(tài),ViT3 使用更靈活的內(nèi)部模型保存信息,能夠在控制計(jì)算成本的同時(shí),維持較強(qiáng)的建模能力。

ViT3 的適用范圍也沒(méi)有停留在識(shí)別任務(wù)。

研究團(tuán)隊(duì)進(jìn)一步將 TTT 模塊放入擴(kuò)散模型,構(gòu)建出 DiT3。實(shí)驗(yàn)顯示,在不同模型規(guī)模和 patch 配置下,DiT3 均能夠改善原始 DiT 的圖像生成質(zhì)量。

這意味著,TTT 可以作為一個(gè)相對(duì)獨(dú)立的模塊,進(jìn)入不同類(lèi)型的視覺(jué)架構(gòu)。

但 ViT3 最直觀的優(yōu)勢(shì),仍然來(lái)自高分辨率圖像。

在 RTX 3090 上處理 1248 × 1248 圖像時(shí),單張圖片包含 6084 個(gè) token。此時(shí),ViT3-T 的推理速度達(dá)到 DeiT-T 的 4.6 倍,GPU 顯存消耗降低了 90.3%。



原因并不復(fù)雜。

在低分辨率輸入下,序列較短,標(biāo)準(zhǔn) Attention 的成本仍然可以承受。隨著分辨率提高,token 數(shù)量快速增加,標(biāo)準(zhǔn) Softmax Attention 的計(jì)算和顯存開(kāi)銷(xiāo)隨序列長(zhǎng)度呈二次增長(zhǎng);ViT3 則保持線性復(fù)雜度。兩條曲線之間的差距,會(huì)隨著輸入規(guī)模擴(kuò)大持續(xù)拉開(kāi)。

對(duì)于面向真實(shí)生活場(chǎng)景的多模態(tài)應(yīng)用而言,這一點(diǎn)尤其重要。

當(dāng)模型開(kāi)始接收更高清的圖片、更長(zhǎng)的視頻和更復(fù)雜的視覺(jué)上下文時(shí),序列長(zhǎng)度會(huì)快速增加。單純依賴算力堆疊,很難無(wú)限持續(xù)。

這也與阿里巴巴長(zhǎng)期關(guān)注的方向形成呼應(yīng)。

未來(lái)的多模態(tài)交互,不只是讓模型識(shí)別一張圖片,而是需要它在真實(shí)環(huán)境中持續(xù)處理更加復(fù)雜的視覺(jué)信息。無(wú)論是更自然的人機(jī)交互,還是面向生活場(chǎng)景的 AI 原生應(yīng)用,都需要一個(gè)更具擴(kuò)展性的視覺(jué)底座。

ViT3 所驗(yàn)證的,是另一種可能性:通過(guò)架構(gòu)創(chuàng)新提高上下文壓縮質(zhì)量,在不放棄線性復(fù)雜度優(yōu)勢(shì)的前提下,盡量縮小與標(biāo)準(zhǔn) Transformer 之間的性能差距。

但 ViT3 還不是對(duì) Transformer 的全面替代。

論文給出的定位相對(duì)克制:作為一套視覺(jué) TTT baseline,它已經(jīng)超過(guò)多種線性復(fù)雜度模型,并顯著縮小了與主流視覺(jué) Transformer 的性能差距,但仍存在進(jìn)一步提升空間。

另一方面,4.6 倍速度提升和 90.3% 顯存節(jié)省來(lái)自 RTX 3090 上的實(shí)驗(yàn)結(jié)果,證明了算法層面的擴(kuò)展優(yōu)勢(shì),但還不能直接等同于手機(jī)、車(chē)端等邊緣設(shè)備上的實(shí)際部署效果。

更準(zhǔn)確地說(shuō),ViT3 為端側(cè)部署和高分辨率多模態(tài)應(yīng)用打開(kāi)了新的可能性,也為后續(xù)工程優(yōu)化提供了基礎(chǔ)。

算力與性能,不必互斥

過(guò)去幾年,視覺(jué)模型領(lǐng)域逐漸形成了一種默認(rèn)路徑:更好的性能,往往意味著更大的模型、更多的訓(xùn)練數(shù)據(jù)和更高的算力成本。

線性復(fù)雜度模型雖然更加高效,但通常需要付出性能代價(jià)。

ViT3 試圖重新檢驗(yàn)這一前提。

它系統(tǒng)梳理了視覺(jué) TTT 的設(shè)計(jì)空間,證明學(xué)習(xí)驅(qū)動(dòng)的上下文壓縮可以覆蓋分類(lèi)、檢測(cè)、分割和生成任務(wù),并在高分辨率場(chǎng)景下展現(xiàn)出更加明顯的效率優(yōu)勢(shì)。

這也是阿里巴巴持續(xù)探索的方向。

當(dāng)多模態(tài)模型持續(xù)走向高清視覺(jué)、長(zhǎng)上下文和復(fù)雜交互,行業(yè)需要回答一個(gè)更長(zhǎng)期的問(wèn)題:能力增長(zhǎng)是否只能依賴更多算力?

ViT3 給出了另一種可能:答案也許不在更大的模型里,而在更聰明的架構(gòu)里。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不交物業(yè)費(fèi)就限行?引發(fā)網(wǎng)友激烈討論

不交物業(yè)費(fèi)就限行?引發(fā)網(wǎng)友激烈討論

淺遇時(shí)光
2026-06-18 01:16:03
高市早苗稱“非常擔(dān)心”中國(guó)對(duì)日本的稀土出口限制措施,外交部:她一邊喊著對(duì)話,一邊忙著對(duì)抗,完全是自相矛盾

高市早苗稱“非常擔(dān)心”中國(guó)對(duì)日本的稀土出口限制措施,外交部:她一邊喊著對(duì)話,一邊忙著對(duì)抗,完全是自相矛盾

日照日?qǐng)?bào)
2026-06-18 16:31:03
一門(mén)三尊!拜仁三叉戟?jiǎng)P恩、奧利塞、迪亞斯均獲首輪全場(chǎng)最佳

一門(mén)三尊!拜仁三叉戟?jiǎng)P恩、奧利塞、迪亞斯均獲首輪全場(chǎng)最佳

懂球帝
2026-06-18 13:09:40
涉嫌操縱比賽!官方:科特迪瓦國(guó)腳瓦希被加拿大拒簽,無(wú)緣戰(zhàn)德國(guó)

涉嫌操縱比賽!官方:科特迪瓦國(guó)腳瓦希被加拿大拒簽,無(wú)緣戰(zhàn)德國(guó)

畫(huà)夕
2026-06-18 18:08:02
馬卡:皇馬可能2.2億歐報(bào)價(jià)奧利塞,這與恩佐的交易是分開(kāi)的

馬卡:皇馬可能2.2億歐報(bào)價(jià)奧利塞,這與恩佐的交易是分開(kāi)的

懂球帝
2026-06-18 22:20:24
再一次,特朗普:感謝中俄

再一次,特朗普:感謝中俄

觀察者網(wǎng)
2026-06-18 09:09:31
中午12點(diǎn)!CCTV5直播日本隊(duì)世界杯“生死戰(zhàn)”,輸球=小組難晉級(jí)

中午12點(diǎn)!CCTV5直播日本隊(duì)世界杯“生死戰(zhàn)”,輸球=小組難晉級(jí)

麥子的籃球故事
2026-06-18 12:56:54
四川宜賓警方通報(bào)“159瓶茅臺(tái)被跨省扣押3年后多瓶失蹤”

四川宜賓警方通報(bào)“159瓶茅臺(tái)被跨省扣押3年后多瓶失蹤”

界面新聞
2026-06-18 23:05:42
外交部發(fā)言人就韓國(guó)外交部官員完整公開(kāi)重申中韓建交聯(lián)合公報(bào)涉臺(tái)表述答記者問(wèn)

外交部發(fā)言人就韓國(guó)外交部官員完整公開(kāi)重申中韓建交聯(lián)合公報(bào)涉臺(tái)表述答記者問(wèn)

澎湃新聞
2026-06-19 00:39:26
山西肉鋪傷人后續(xù):又殺害兩名顧客,3人當(dāng)場(chǎng)死亡,家屬曝隱情

山西肉鋪傷人后續(xù):又殺害兩名顧客,3人當(dāng)場(chǎng)死亡,家屬曝隱情

離離言幾許
2026-06-16 20:59:36
G7峰會(huì)吵翻天,高市早苗反華,再上新的高度,中國(guó)反成最大焦點(diǎn)

G7峰會(huì)吵翻天,高市早苗反華,再上新的高度,中國(guó)反成最大焦點(diǎn)

流史歲月
2026-06-18 19:30:09
卡納瓦羅:1-3告負(fù)的結(jié)果有些苦澀,我們得在執(zhí)行力層面繼續(xù)提高

卡納瓦羅:1-3告負(fù)的結(jié)果有些苦澀,我們得在執(zhí)行力層面繼續(xù)提高

懂球帝
2026-06-18 15:06:15
地質(zhì)災(zāi)害黃色預(yù)警:安徽湖北廣東等地部分地區(qū)發(fā)生災(zāi)害風(fēng)險(xiǎn)較高

地質(zhì)災(zāi)害黃色預(yù)警:安徽湖北廣東等地部分地區(qū)發(fā)生災(zāi)害風(fēng)險(xiǎn)較高

每日經(jīng)濟(jì)新聞
2026-06-18 18:13:05
寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門(mén)店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門(mén)店口碑崩了

北緯的咖啡豆
2026-06-18 21:59:34
莫斯科爆炸,俄軍忍無(wú)可忍報(bào)復(fù):伊朗不打了,普京的強(qiáng)援即將趕到

莫斯科爆炸,俄軍忍無(wú)可忍報(bào)復(fù):伊朗不打了,普京的強(qiáng)援即將趕到

李健政觀察
2026-06-18 17:17:11
寶媽避雨被趕后續(xù):大批顧客退單,商家道歉也無(wú)果,門(mén)店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,商家道歉也無(wú)果,門(mén)店口碑崩了

千言?shī)蕵?lè)記
2026-06-18 18:59:27
內(nèi)訌?C羅疑抱怨26歲門(mén)將“這都撲不出來(lái)” 對(duì)方怒懟+爆發(fā)激烈爭(zhēng)吵

內(nèi)訌?C羅疑抱怨26歲門(mén)將“這都撲不出來(lái)” 對(duì)方怒懟+爆發(fā)激烈爭(zhēng)吵

風(fēng)過(guò)鄉(xiāng)
2026-06-18 12:33:03
一份家暴諒解書(shū),換五處房產(chǎn)?

一份家暴諒解書(shū),換五處房產(chǎn)?

中國(guó)新聞周刊
2026-06-18 22:40:25
查封的 “全季酒店” 被改成 “金季酒店”,罰款30萬(wàn)也拒不停業(yè)

查封的 “全季酒店” 被改成 “金季酒店”,罰款30萬(wàn)也拒不停業(yè)

大風(fēng)新聞
2026-06-18 20:45:13
米體:勞塔羅賽后離場(chǎng)時(shí)臉色不悅,他對(duì)自己表現(xiàn)失望,擔(dān)心丟主力

米體:勞塔羅賽后離場(chǎng)時(shí)臉色不悅,他對(duì)自己表現(xiàn)失望,擔(dān)心丟主力

云隱南山
2026-06-19 00:07:03
2026-06-19 05:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142673關(guān)注度
往期回顧 全部

科技要聞

庫(kù)克承認(rèn)扛不住了,蘋(píng)果漲價(jià)“不可避免”

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂(lè)要聞

39歲梅西不愧是人生贏家!

財(cái)經(jīng)要聞

博??礗PO,賺錢(qián)業(yè)務(wù)與資本敘事是兩門(mén)生意

汽車(chē)要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

旅游
健康
藝術(shù)
教育
軍事航空

旅游要聞

為何拍藍(lán)花楹別正午出門(mén)?避開(kāi) 3 個(gè)高峰時(shí)段,隨手拍出干凈大片!

吃粽子的3條保胃法則,消化科醫(yī)生推薦

藝術(shù)要聞

臺(tái)北東區(qū)新門(mén)戶!南港雙星,像一道“城市裂痕”

教育要聞

畢業(yè)即高薪!高考生緊盯這6個(gè)專業(yè),畢業(yè)后50%能到國(guó)企就業(yè)!

軍事要聞

伊朗外交部:美伊已簽署諒解備忘錄

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版