網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

入圍CVPR 2026最佳論文決選，ViT3突破Transformer復(fù)雜度瓶頸

2026-06-12 17:09:54　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

編輯｜+0

CVPR 2026 剛在美國(guó)丹佛落下帷幕。16092 篇投稿中，15 篇?dú)⑷胱罴颜撐臎Q選（Best Paper Finalists），入圍率不足千分之一。

其中一篇來(lái)自阿里巴巴與清華大學(xué)的合作研究：《ViT3 : Unlocking Test-Time Training in Vision》。

它要解決的，是當(dāng)前視覺(jué)模型領(lǐng)域最普遍的一類(lèi)痛點(diǎn)：當(dāng)圖像分辨率越來(lái)越高、視頻越來(lái)越長(zhǎng)、多模態(tài)輸入越來(lái)越復(fù)雜時(shí)，Transformer 逐漸算不動(dòng)了。

ViT3 給出了一條不同的路線。

在 RTX 3090 上處理 1248 × 1248 分辨率圖像時(shí)，ViT3-T 的推理速度達(dá)到 DeiT-T 的 4.6 倍，GPU 顯存消耗降低了 90.3%。

換句話說(shuō)，它只使用接近十分之一的顯存，卻實(shí)現(xiàn)了更高的處理速度。

但這篇論文的意義，并不只是讓視覺(jué)模型跑得更快。

它真正嘗試改變的，是視覺(jué)模型保存和調(diào)用上下文信息的方式：不再單純依賴固定公式壓縮信息，而是在處理當(dāng)前輸入時(shí)，通過(guò)一次快速的在線學(xué)習(xí)，把上下文寫(xiě)入一個(gè)緊湊的內(nèi)部模型。

這條路線建立在近年來(lái)受到關(guān)注的 Test-Time Training（TTT，測(cè)試時(shí)訓(xùn)練）框架之上，而 ViT3 則進(jìn)一步將其系統(tǒng)引入視覺(jué)領(lǐng)域，并梳理出一套可復(fù)用的設(shè)計(jì)原則。

論文地址：https://arxiv.org/pdf/2512.01643
代碼： https://github.com/LeapLabTHU/ViTTT

阿里巴巴長(zhǎng)期關(guān)注多模態(tài)大模型與新一代交互體驗(yàn)。隨著 AI 逐漸進(jìn)入真實(shí)生活場(chǎng)景，模型需要處理的視覺(jué)信息正在變得越來(lái)越復(fù)雜：更高清的圖片、更長(zhǎng)的視頻，以及持續(xù)增長(zhǎng)的多模態(tài)上下文。

如何在控制算力成本的同時(shí)，讓模型看得更清楚、理解得更完整，已經(jīng)成為多模態(tài)技術(shù)走向?qū)嶋H應(yīng)用時(shí)必須面對(duì)的問(wèn)題。ViT3 所探索的，正是這一底層能力。

把上下文壓縮，變成一次臨場(chǎng)學(xué)習(xí)

要理解 ViT3 的價(jià)值，需要先回到視覺(jué)模型長(zhǎng)期面對(duì)的一組矛盾：如何在降低計(jì)算復(fù)雜度的同時(shí)，盡可能保留上下文建模能力。

Vision Transformer 在 2020 年被提出后，迅速成為計(jì)算機(jī)視覺(jué)中最重要的主流架構(gòu)之一，并持續(xù)推動(dòng)圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割和圖像生成等任務(wù)的發(fā)展。

但標(biāo)準(zhǔn) Softmax Attention 有一筆隨著序列長(zhǎng)度快速膨脹的賬。

一張圖片進(jìn)入視覺(jué) Transformer 后，通常會(huì)被拆分成一組 token。圖片分辨率越高，token 數(shù)量就越多。標(biāo)準(zhǔn) Attention 需要顯式計(jì)算不同 token 之間的兩兩關(guān)系，其計(jì)算和顯存成本會(huì)隨 token 數(shù)量呈二次增長(zhǎng)。

為便于理解，省略縮放系數(shù)后，標(biāo)準(zhǔn) Attention 可以簡(jiǎn)寫(xiě)為：Softmax(QK?)V

其中，Q 代表 query，K 代表 key，V 代表 value。真正帶來(lái)高成本的，是 QK? 形成的 N × N 矩陣。

當(dāng)模型處理的是普通分辨率圖片時(shí)，這筆成本尚且可控。但一旦面對(duì)超高清圖片、長(zhǎng)視頻或更復(fù)雜的多模態(tài)輸入，token 序列長(zhǎng)度迅速增加，計(jì)算和顯存開(kāi)銷(xiāo)就會(huì)逐漸接近成本邊界。

為了降低成本，過(guò)去幾年出現(xiàn)了多種線性復(fù)雜度方案。

Linear Attention的思路，是改變計(jì)算順序。它將關(guān)鍵計(jì)算從 Softmax(QK?)V 改寫(xiě)為 Q(K?V)，先把 K 和 V 壓縮成一個(gè)固定大小的狀態(tài)，再讓 Q 從中讀取信息。由于 K?V 的大小與序列長(zhǎng)度 N 無(wú)關(guān)，復(fù)雜度可以降到 O(N)。

但代價(jià)也很明顯：上下文被壓縮進(jìn)一個(gè)相對(duì)簡(jiǎn)單的線性狀態(tài)。壓縮效率提高了，表達(dá)能力卻可能不足，實(shí)際性能往往與標(biāo)準(zhǔn) Transformer 存在差距。

Mamba 和狀態(tài)空間模型走了另一條路。它們維護(hù)一個(gè)固定大小的隱狀態(tài)，并沿著序列逐步更新。相比簡(jiǎn)單的線性映射，這種狀態(tài)更新機(jī)制更靈活，但仍然需要回答同一個(gè)問(wèn)題：當(dāng)序列越來(lái)越長(zhǎng)、全局依賴越來(lái)越復(fù)雜時(shí)，如何把足夠豐富的信息寫(xiě)入一個(gè)容量有限的狀態(tài)？

用一個(gè)類(lèi)比來(lái)說(shuō)：標(biāo)準(zhǔn) attention 是「保留全部資料，需要時(shí)重新檢索」，代價(jià)是資料越多，檢索成本越高；Linear Attention 是「提前壓縮成一份固定摘要」，速度更快，但容易遺漏細(xì)節(jié)；Mamba 則像是「一邊閱讀，一邊持續(xù)更新一份有限長(zhǎng)度的筆記」。

這些方案背后長(zhǎng)期存在一組交換條件：壓縮越激進(jìn)，計(jì)算越便宜；但壓縮方式越簡(jiǎn)單，模型越容易損失表達(dá)能力。

Test-Time Training 試圖改變這組交換條件。它不再把上下文壓縮視為一次固定的矩陣運(yùn)算，而是把它改寫(xiě)成一次快速的在線學(xué)習(xí)過(guò)程。

TTT Block 保留了 Transformer 的宏觀結(jié)構(gòu)。不同之處在于，原本的 Attention 計(jì)算被替換為一次可學(xué)習(xí)的上下文壓縮與讀取過(guò)程。

具體來(lái)說(shuō)，TTT 將當(dāng)前輸入中的 key-value 對(duì)視為一個(gè)臨時(shí)的「迷你數(shù)據(jù)集」。模型在推理過(guò)程中，對(duì)一個(gè)小型內(nèi)部網(wǎng)絡(luò)進(jìn)行短暫的自監(jiān)督訓(xùn)練，讓它學(xué)習(xí)從 K 預(yù)測(cè) V。隨后，再使用更新后的內(nèi)部網(wǎng)絡(luò)處理 query。

換句話說(shuō)，模型面對(duì)每一組新的輸入時(shí)，都會(huì)進(jìn)行一次輕量級(jí)的臨場(chǎng)適配。

這也是「Test-Time Training」這個(gè)名字的來(lái)源：在測(cè)試階段，模型會(huì)針對(duì)當(dāng)前輸入，短暫訓(xùn)練一個(gè)內(nèi)部模型，再利用它完成信息讀取。

整個(gè)內(nèi)部訓(xùn)練過(guò)程仍然是可微的，并與外部網(wǎng)絡(luò)一起端到端優(yōu)化，不需要拆分成多個(gè)獨(dú)立階段。

線性注意力使用固定矩陣乘法壓縮上下文；TTT 則使用梯度下降壓縮上下文。前者是固定的線性操作，后者是一種學(xué)習(xí)驅(qū)動(dòng)的非線性壓縮方式。只要內(nèi)部模型的規(guī)模保持固定，整體復(fù)雜度仍然可以維持在線性水平，但信息壓縮能力有機(jī)會(huì)進(jìn)一步提高。

論文中有一張關(guān)鍵示意圖，展示了 Softmax Attention、Linear Attention 和 TTT 之間的關(guān)系。

Softmax Attention 可以被理解為一個(gè)寬度隨序列長(zhǎng)度增長(zhǎng)的內(nèi)部模型；Linear Attention 對(duì)應(yīng)一個(gè)固定大小的線性內(nèi)部模型；TTT 則進(jìn)一步允許內(nèi)部模型成為可訓(xùn)練的小型網(wǎng)絡(luò)。

ViT3 并不是完全拋開(kāi) Attention 另起爐灶，而是在同一個(gè)框架中，打開(kāi)了更大的設(shè)計(jì)空間。

Softmax Attention、Linear Attention 與 TTT 的統(tǒng)一視角。Softmax Attention 保留完整上下文，Linear Attention 將上下文壓縮為固定大小的線性狀態(tài)；TTT 則通過(guò)在線訓(xùn)練，將上下文寫(xiě)入一個(gè)可更新的內(nèi)部模型。

在空白的設(shè)計(jì)空間里畫(huà)出地圖

設(shè)計(jì)空間更大，意味著選擇更多，也意味著更容易走錯(cuò)路。

在 ViT3 之前，TTT 已經(jīng)在語(yǔ)言模型中獲得關(guān)注，但視覺(jué)數(shù)據(jù)與語(yǔ)言數(shù)據(jù)并不相同。語(yǔ)言天然具有順序和因果結(jié)構(gòu)。圖像則是二維空間信息，不同 token 之間不存在同樣明確的先后關(guān)系。

當(dāng) TTT 進(jìn)入視覺(jué)領(lǐng)域后，一系列基礎(chǔ)問(wèn)題都需要重新回答：內(nèi)部模型應(yīng)該使用什么架構(gòu)？損失函數(shù)如何選擇？應(yīng)該更新多少輪？學(xué)習(xí)率應(yīng)該多大？卷積和 MLP 哪一種更適合視覺(jué)任務(wù)？

ViT3 的重要貢獻(xiàn)之一，是通過(guò)系統(tǒng)實(shí)驗(yàn)梳理視覺(jué) TTT 的設(shè)計(jì)空間，總結(jié)出六條可以復(fù)用的實(shí)踐原則，并討論了TTT 當(dāng)前存在的核心挑戰(zhàn)和未來(lái)研究方向。

觀察一：內(nèi)部訓(xùn)練損失函數(shù)的混合二階導(dǎo)數(shù)不能為零。

TTT 的內(nèi)部訓(xùn)練過(guò)程要和外部網(wǎng)絡(luò)一起做端到端優(yōu)化，這意味著梯度要穿過(guò)內(nèi)部訓(xùn)練步驟回傳到外部參數(shù)。如果損失函數(shù)的混合二階導(dǎo)數(shù)為零，外部參數(shù)的梯度信號(hào)就會(huì)在回傳中消失。MAE（L1）損失的導(dǎo)數(shù)是符號(hào)函數(shù)，混合二階導(dǎo)幾乎處處為零——實(shí)驗(yàn)中它比 MSE 損失低了 2.4 個(gè)百分點(diǎn)。這不是一個(gè)可以通過(guò)調(diào)參彌補(bǔ)的小問(wèn)題，它決定了某些損失函數(shù)從根本上不適用于 TTT。

觀察二：視覺(jué)任務(wù)適合全批次、單輪訓(xùn)練。

此前 NLP 領(lǐng)域的 TTT 實(shí)踐發(fā)現(xiàn)，小批量順序更新通常更有效。但在視覺(jué)任務(wù)中，全批次更新表現(xiàn)更好。論文給出了一個(gè)有說(shuō)服力的解釋：小批量順序更新會(huì)引入因果偏置——前面的 batch 影響后面的梯度，后面的更新也可能覆蓋前面的信息。這種偏置適合具有方向性的語(yǔ)言數(shù)據(jù)，但對(duì)非因果的視覺(jué)數(shù)據(jù)反而是一種負(fù)擔(dān)。綜合準(zhǔn)確率、吞吐和訓(xùn)練穩(wěn)定性，ViT3 最終采用單輪全批次更新。

觀察三：在穩(wěn)定的前提下，更大的內(nèi)部學(xué)習(xí)率效果更好。

實(shí)驗(yàn)表明，在訓(xùn)練穩(wěn)定的前提下，越大的學(xué)習(xí)率效果越好。太小的學(xué)習(xí)率會(huì)讓內(nèi)部模型更新不充分，無(wú)法有效存儲(chǔ)上下文信息；過(guò)大的學(xué)習(xí)率則容易導(dǎo)致訓(xùn)練不穩(wěn)定。

值得注意的是，在一些特殊情況下，內(nèi)部學(xué)習(xí)率可以吸收為 K 和 V 的放縮。但是這并不內(nèi)說(shuō)明內(nèi)部學(xué)習(xí)率的設(shè)置不重要。一個(gè)類(lèi)似的例子是Softmax注意力中的

放縮，它也能夠被 Q 和 K 吸收，但是依然重要。

觀察四：增加內(nèi)部模型容量，性能持續(xù)提升。

一個(gè)關(guān)鍵問(wèn)題是：TTT 能不能通過(guò)簡(jiǎn)單擴(kuò)大內(nèi)部模型來(lái)提升序列建模能力？為了探索這一點(diǎn)，論文將 TTT 內(nèi)部模型實(shí)現(xiàn)為一個(gè) SiLU 激活函數(shù)的兩層 MLP，并逐漸增加其寬度。實(shí)驗(yàn)表明，當(dāng)隱藏維度 d 擴(kuò)到 4d，準(zhǔn)確率從 78.9% 提升到 79.6%，沒(méi)有飽和跡象。這是TTT 范式的一個(gè)核心優(yōu)勢(shì)，即它可以在外部模型尺寸固定的條件下，通過(guò)簡(jiǎn)單地?cái)U(kuò)展內(nèi)部模型尺寸來(lái)實(shí)現(xiàn)更好的序列建模效果。這和 Linear Attention 形成鮮明對(duì)比：后者通常將上下文壓縮進(jìn)固定大小的線性狀態(tài)，表達(dá)能力和擴(kuò)展空間相對(duì)有限。

隨著內(nèi)部模型寬度增加，TTT 的性能持續(xù)提升，說(shuō)明內(nèi)部模型容量仍有進(jìn)一步擴(kuò)展空間。

觀察五：當(dāng)前更深的內(nèi)部模型存在優(yōu)化困難，需要未來(lái)工作解鎖其理論潛力。

一個(gè)不符合預(yù)期的結(jié)果是，把內(nèi)部模型從一層變成兩層、三層，參數(shù)更多、理論容量更大，但實(shí)際準(zhǔn)確率反而下降。論文的分析指向優(yōu)化困難：更深的內(nèi)部模型在 TTT 的短訓(xùn)練步數(shù)下容易欠擬合——訓(xùn)練損失更高，測(cè)試準(zhǔn)確率更低。當(dāng)前深層網(wǎng)絡(luò)的理論優(yōu)勢(shì)在 TTT 的快速訓(xùn)練場(chǎng)景中難以兌現(xiàn)。論文同時(shí)發(fā)現(xiàn)，如果把輸出層固定為單位矩陣（一種「約束設(shè)計(jì)」），準(zhǔn)確率反而比完整的兩層 MLP 更高。這進(jìn)一步證實(shí)了優(yōu)化瓶頸的存在。

解決較深內(nèi)部模型的優(yōu)化問(wèn)題，是 TTT 的一個(gè)重要未來(lái)方向。理論工作表明，神經(jīng)網(wǎng)絡(luò)的擬合能力隨深度指數(shù)增長(zhǎng)，這正是當(dāng)前神經(jīng)網(wǎng)絡(luò)成功的核心原因。因此，較深的內(nèi)部模型在實(shí)現(xiàn)高精度測(cè)試時(shí)訓(xùn)練序列建模中具有突出潛力。

增加內(nèi)部模型深度，并沒(méi)有帶來(lái)更高的準(zhǔn)確率。隨著層數(shù)增加，訓(xùn)練損失反而更高，說(shuō)明視覺(jué) TTT 當(dāng)前仍面臨內(nèi)部模型優(yōu)化瓶頸。

觀察六：卷積天然適合做視覺(jué) TTT 的內(nèi)部模型。

隨著 Transformer 興起，卷積不再是視覺(jué)模型中唯一占據(jù)主導(dǎo)地位的結(jié)構(gòu)。但在 TTT 框架中，它獲得了一個(gè)新的角色。TTT 把全局上下文壓縮進(jìn)內(nèi)部模型的權(quán)重，當(dāng)內(nèi)部模型是卷積時(shí)，這些權(quán)重就是卷積核——全局信息被編碼在核的參數(shù)里，而卷積操作本身又提供了局部感受野。一次前向推理同時(shí)完成了全局和局部信息的整合。實(shí)驗(yàn)中，一個(gè)輕量級(jí) 3 × 3 深度卷積在參數(shù)量更少的情況下，比 MLP baseline 高出 1.2 個(gè)百分點(diǎn)。

這六條原則并不是相互獨(dú)立的經(jīng)驗(yàn)。

觀察一排除了一類(lèi)不適用于TTT 的損失函數(shù)；觀察二和觀察三回答「應(yīng)該怎么訓(xùn)練」；觀察四、觀察五和觀察六則回答「內(nèi)部模型應(yīng)該如何設(shè)計(jì)」。

它們共同構(gòu)成了一份視覺(jué) TTT 的實(shí)踐地圖：哪些方向值得未來(lái)工作繼續(xù)探索，哪些路徑容易陷入優(yōu)化瓶頸，哪些設(shè)計(jì)能夠在效果和效率之間取得更好的平衡。

從分類(lèi)到生成，

ViT3 的優(yōu)勢(shì)在高分辨率下放大

基于前面的六條觀察，研究團(tuán)隊(duì)最終搭建出 Vision Test-Time Training 模型，簡(jiǎn)稱 ViT3。

它的整體設(shè)計(jì)并不復(fù)雜。

在多數(shù) Attention head 中，ViT3 使用一種簡(jiǎn)化的門(mén)控內(nèi)部模型，在保持易于優(yōu)化的同時(shí)，提供比純線性狀態(tài)更強(qiáng)的表達(dá)能力。另有一個(gè) head 引入輕量級(jí)的 3 × 3 深度卷積，使模型在壓縮全局上下文的同時(shí)，也能夠利用圖像中的局部空間結(jié)構(gòu)。

內(nèi)部訓(xùn)練同樣保持克制：每次只進(jìn)行一輪全批次梯度更新。換句話說(shuō)，ViT3 沒(méi)有在推理過(guò)程中嵌入一套繁重的訓(xùn)練流程，而是在控制額外成本的前提下，讓內(nèi)部模型完成一次快速適配。

圍繞這一模塊，論文構(gòu)建了三類(lèi)模型：ViT3 采用非層級(jí)架構(gòu)，對(duì)齊經(jīng)典 Vision Transformer；H-ViT3 使用四階段層級(jí)設(shè)計(jì)，更適合作為通用視覺(jué)骨干網(wǎng)絡(luò)；DiT3 則將同樣的 TTT 模塊放入擴(kuò)散模型，用于圖像生成。

這組設(shè)計(jì)的目標(biāo)，不是針對(duì)某一個(gè) benchmark 調(diào)整出更高的數(shù)字，而是驗(yàn)證一個(gè)更關(guān)鍵的問(wèn)題：TTT 能否成為一種可遷移的視覺(jué)序列建模模塊？

從實(shí)驗(yàn)結(jié)果看，答案是積極的。

在圖像分類(lèi)任務(wù)中，ViT3 展現(xiàn)出有競(jìng)爭(zhēng)力的視覺(jué)表征能力。在目標(biāo)檢測(cè)和語(yǔ)義分割等需要處理更高分辨率輸入的任務(wù)中，它也能夠超過(guò)多種同級(jí)別的 Mamba 和 Linear Attention 模型。

這說(shuō)明，相比將上下文壓縮進(jìn)一個(gè)簡(jiǎn)單線性狀態(tài)，ViT3 使用更靈活的內(nèi)部模型保存信息，能夠在控制計(jì)算成本的同時(shí)，維持較強(qiáng)的建模能力。

ViT3 的適用范圍也沒(méi)有停留在識(shí)別任務(wù)。

研究團(tuán)隊(duì)進(jìn)一步將 TTT 模塊放入擴(kuò)散模型，構(gòu)建出 DiT3。實(shí)驗(yàn)顯示，在不同模型規(guī)模和 patch 配置下，DiT3 均能夠改善原始 DiT 的圖像生成質(zhì)量。

這意味著，TTT 可以作為一個(gè)相對(duì)獨(dú)立的模塊，進(jìn)入不同類(lèi)型的視覺(jué)架構(gòu)。

但 ViT3 最直觀的優(yōu)勢(shì)，仍然來(lái)自高分辨率圖像。

在 RTX 3090 上處理 1248 × 1248 圖像時(shí)，單張圖片包含 6084 個(gè) token。此時(shí)，ViT3-T 的推理速度達(dá)到 DeiT-T 的 4.6 倍，GPU 顯存消耗降低了 90.3%。

原因并不復(fù)雜。

在低分辨率輸入下，序列較短，標(biāo)準(zhǔn) Attention 的成本仍然可以承受。隨著分辨率提高，token 數(shù)量快速增加，標(biāo)準(zhǔn) Softmax Attention 的計(jì)算和顯存開(kāi)銷(xiāo)隨序列長(zhǎng)度呈二次增長(zhǎng)；ViT3 則保持線性復(fù)雜度。兩條曲線之間的差距，會(huì)隨著輸入規(guī)模擴(kuò)大持續(xù)拉開(kāi)。

對(duì)于面向真實(shí)生活場(chǎng)景的多模態(tài)應(yīng)用而言，這一點(diǎn)尤其重要。

當(dāng)模型開(kāi)始接收更高清的圖片、更長(zhǎng)的視頻和更復(fù)雜的視覺(jué)上下文時(shí)，序列長(zhǎng)度會(huì)快速增加。單純依賴算力堆疊，很難無(wú)限持續(xù)。

這也與阿里巴巴長(zhǎng)期關(guān)注的方向形成呼應(yīng)。

未來(lái)的多模態(tài)交互，不只是讓模型識(shí)別一張圖片，而是需要它在真實(shí)環(huán)境中持續(xù)處理更加復(fù)雜的視覺(jué)信息。無(wú)論是更自然的人機(jī)交互，還是面向生活場(chǎng)景的 AI 原生應(yīng)用，都需要一個(gè)更具擴(kuò)展性的視覺(jué)底座。

ViT3 所驗(yàn)證的，是另一種可能性：通過(guò)架構(gòu)創(chuàng)新提高上下文壓縮質(zhì)量，在不放棄線性復(fù)雜度優(yōu)勢(shì)的前提下，盡量縮小與標(biāo)準(zhǔn) Transformer 之間的性能差距。

但 ViT3 還不是對(duì) Transformer 的全面替代。

論文給出的定位相對(duì)克制：作為一套視覺(jué) TTT baseline，它已經(jīng)超過(guò)多種線性復(fù)雜度模型，并顯著縮小了與主流視覺(jué) Transformer 的性能差距，但仍存在進(jìn)一步提升空間。

另一方面，4.6 倍速度提升和 90.3% 顯存節(jié)省來(lái)自 RTX 3090 上的實(shí)驗(yàn)結(jié)果，證明了算法層面的擴(kuò)展優(yōu)勢(shì)，但還不能直接等同于手機(jī)、車(chē)端等邊緣設(shè)備上的實(shí)際部署效果。

更準(zhǔn)確地說(shuō)，ViT3 為端側(cè)部署和高分辨率多模態(tài)應(yīng)用打開(kāi)了新的可能性，也為后續(xù)工程優(yōu)化提供了基礎(chǔ)。

算力與性能，不必互斥

過(guò)去幾年，視覺(jué)模型領(lǐng)域逐漸形成了一種默認(rèn)路徑：更好的性能，往往意味著更大的模型、更多的訓(xùn)練數(shù)據(jù)和更高的算力成本。

線性復(fù)雜度模型雖然更加高效，但通常需要付出性能代價(jià)。

ViT3 試圖重新檢驗(yàn)這一前提。

它系統(tǒng)梳理了視覺(jué) TTT 的設(shè)計(jì)空間，證明學(xué)習(xí)驅(qū)動(dòng)的上下文壓縮可以覆蓋分類(lèi)、檢測(cè)、分割和生成任務(wù)，并在高分辨率場(chǎng)景下展現(xiàn)出更加明顯的效率優(yōu)勢(shì)。

這也是阿里巴巴持續(xù)探索的方向。

當(dāng)多模態(tài)模型持續(xù)走向高清視覺(jué)、長(zhǎng)上下文和復(fù)雜交互，行業(yè)需要回答一個(gè)更長(zhǎng)期的問(wèn)題：能力增長(zhǎng)是否只能依賴更多算力？

ViT3 給出了另一種可能：答案也許不在更大的模型里，而在更聰明的架構(gòu)里。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.