免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

FlashAR:僅用0.05%數(shù)據(jù),讓預訓練好的自回歸圖像模型飛起來

0
分享至




背景:自回歸圖像生成的崛起與推理瓶頸

大語言模型的成功讓 "next-token prediction" 這套范式從文本延伸到了圖像領(lǐng)域。把圖像用視覺分詞器編碼成離散 token,再一個接一個的預測出來 —— 這就是自回歸(AR)圖像生成的核心思路。從早期的 PixelCNN、iGPT、Parti,到近期的 Emu3.5、LlamaGen、Lumina-mGPT、GLM-Image,AR 模型的生成質(zhì)量已經(jīng)全面逼近甚至超過了擴散模型。

但 AR 模型有個繞不開的問題:慢。標準的 raster-scan 解碼從左到右、從上到下,一步只出一個 token。生成一張 512×512 的圖要走 32×32 = 1024 步串行前向傳播,單卡耗時超過兩分鐘。延遲隨分辨率線性增長,GPU 的并行算力也用不起來 —— 高分辨率和實時場景下,基本沒法實際部署。

現(xiàn)有加速方案

為了突破這一瓶頸,研究者們已經(jīng)探索了多種加速策略,但都面臨不同的局限:

  • 重新設計生成范式:例如如 VAR 的 "下一尺度預測"、NAR 的 "近鄰預測"、PAR 的分組并行解碼,雖然能大幅降低解碼步數(shù),但這些方法需要從頭預訓練,無法復用已有的大規(guī)模預訓練 AR 模型,訓練成本高昂。
  • 離散擴散適配:例如 Emu3.5 原文采用的 DiDA,他們通過后訓練將 AR 模型改造為支持并行解碼的離散擴散模型。但這種方法改變了原始的預測目標,引入了預訓練和推理之間的不一致性,往往導致生成質(zhì)量顯著下降,在我們的復現(xiàn)實驗中,相同數(shù)據(jù)量,Emu3.5 在 block diffusion 后訓練過程中,geneval 分數(shù)會在總體會有一個比較大的 drop
  • 推測解碼:作為一種無需訓練的加速插件,實際加速效果受限于草稿模型的接受率,提升效果相對比較有限。

這就引出了一個關(guān)鍵的開放性問題:能否在不從頭訓練、不改變原始預測目標的前提下,將已有的預訓練 AR 模型改造成高度并行的生成器,同時繼承其強大的生成能力?

來自浙江大學和阿德萊德大學的研究團隊提出了FlashAR—— 一個輕量級的后訓練加速框架。不需要從頭訓練,在 Emu3.5-Image-34B 模型上,僅用原始訓練數(shù)據(jù)的 0.05%(約 8 萬張圖片),就能將預訓練好的自回歸模型改造成高度并行的生成器 Emu3.5-34B-Flash,實現(xiàn)最高22.9 倍的端到端加速。





  • 論文標題:FlashAR: Efficient Post-Training Acceleration for Autoregressive Image Generation
  • 論文主頁:https://lxazjk.github.io/FlashAR/
  • 論文鏈接:https://arxiv.org/abs/2605.09430
  • 代碼鏈接:https://github.com/lxazjk/Emu3.5-FlashAR

核心思路:從 "逐個生成" 到 "對角線并行"

傳統(tǒng)的自回歸圖像生成模型遵循嚴格的光柵掃描順序 —— 從左到右、從上到下,每一步只預測水平方向的下一個 token。對于一張由 H×W 個 token 構(gòu)成的圖像,需要 H×W 步才能完成生成。

FlashAR 的關(guān)鍵洞察在于:圖像天然具有 2D 結(jié)構(gòu),如果我們?yōu)槟P托略龃怪狈较虻南乱粋€ token 的預測能力,在每個步驟中,水平解碼頭和垂直解碼頭并行工作,解碼步數(shù)從 H×W 驟降至 H+W-1。以 512×512 分辨率(16×16 下采樣倍率)為例,解碼步數(shù)從 1024 步直接降到 63 步。

但要讓一個已經(jīng)訓練好的 "水平方向" 預測模型具備 "垂直方向" 預測能力,并不容易。FlashAR 為此設計了三個關(guān)鍵組件:



1. 中間層分支(Intermediate Branching)

FlashAR 沒有把輕量級的 Vertical Head 接在預訓練模型的最終層,而是從中間層分出一條支路,讓它和原有的水平預測頭并行工作。

為什么不直接用最終層?因為經(jīng)過完整訓練后,最終層特征已經(jīng)更偏向原本的水平方向光柵預測任務,針對這個目標做了充分適配,但也因此不一定適合再拿來做垂直方向預測。相比之下,中間層往往還保留著更豐富的二維空間信息,用來適配新的預測方向會更自然。

這樣的設計還有一個額外好處:從中間層分支之后,Vertical Head 可以和原有分支并行執(zhí)行,從而為整體吞吐帶來提升。

我們也在消融實驗里驗證了這一點。具體來說,我們用 linear probing 系統(tǒng)評估了預訓練模型不同層的特征,結(jié)果發(fā)現(xiàn),最終層特征并不是最適合做垂直預測的。這也進一步支持了我們從中間層引出 Vertical Head 的設計。



2. 可學習融合門(Learnable Fusion Gate)

水平和垂直方向的預測分別建模了互補的空間依賴,其貢獻在不同空間位置上并不一致?;谶@一觀察,F(xiàn)lashAR 引入了一個輕量級的 MLP 融合門,在逐位置的粒度上自適應地融合兩個方向的預測結(jié)果,以避免簡單平均所導致的預測模糊。

3. 兩階段適配訓練(Two-Stage Adaptation)

具體而言,訓練過程分為兩個階段:

  • 在第一階段,凍結(jié)骨干網(wǎng)絡,僅優(yōu)化垂直預測頭,以使其快速學習到有意義的預測能力;
  • 在第二階段,進一步聯(lián)合微調(diào)垂直預測頭和骨干網(wǎng)絡,使模型更好地適配新的解碼范式。這樣的漸進式訓練策略提升了后訓練過程的穩(wěn)定性,并提高了數(shù)據(jù)利用效率。

在推理階段,F(xiàn)lashAR 還部署了硬件感知的推理優(yōu)化管線:利用 FlexAttention 動態(tài)編譯稀疏的二維近鄰注意力掩碼,配合批量化 KV 緩存更新,將理論上的并行性切實轉(zhuǎn)化為真實的加速效果。

實驗結(jié)果

Emu3.5-Image-34B 加速

將 FlashAR 擴展到 340 億參數(shù)的 Emu3.5 模型上,是對框架能力的嚴格考驗:



用0.05%的原始訓練數(shù)據(jù)(80M token,約 8 萬張圖片),F(xiàn)lashAR 將 512×512 圖像生成速度從 130.10 秒壓縮到 5.68 秒,實現(xiàn)22.9 倍加速。更關(guān)鍵的是,加速幾乎不損失質(zhì)量。在 GenEval 基準上,F(xiàn)lashAR 的 GenEval 總分僅下降 0.19 分(80.48→80.29),在顏色(+1.59)和位置(+7.00)兩個子項上甚至超過了原始模型。相比之下,BlockDiffusion 在相同設置下性能大幅下降至 73.83。

ImageNet 類別條件生成

在 ImageNet 256×256 基準上,F(xiàn)lashAR 在四個模型規(guī)模(B/L/XL/XXL)上全面超越現(xiàn)有后訓練方法 BlockDiffusion。



值得注意的是:

  • FlashAR-L 的 IS(289.0)甚至超過了從頭訓練的 NAR-L(263.9),而 FlashAR 僅需輕量級后訓練;
  • FlashAR-B 達到 447.2 img/s 的吞吐量,超過了 NAR-B(419.7 img/s);
  • FlashAR 僅需25 個 epoch的后訓練 —— 只有 BlockDiffusion 訓練量的三分之一。

為什么 FlashAR 如此高效?

我們總結(jié)了 FlashAR 的核心優(yōu)勢

  • 無需從頭訓練:直接復用現(xiàn)有預訓練 AR 模型,通過輕量后訓練實現(xiàn)加速;
  • 數(shù)據(jù)極致高效:僅需 0.05% 的原始訓練數(shù)據(jù);
  • 性能保持優(yōu)異:生成質(zhì)量幾乎無損,部分指標甚至提升;
  • 框架通用性強:在 LlamaGen(120M~1.4B)和 Emu3.5(34B)上均驗證有效;
  • 實際加速顯著:最高 22.9 倍端到端加速。

FlashAR 證明了一個重要觀點:通過精心設計的后訓練適配,可以在幾乎不改變原始模型訓練目標的前提下,將自回歸模型改造成高度并行的生成器,完整繼承預訓練模型的強大能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
甘肅通渭李女士事件大反轉(zhuǎn)!聊天記錄曝光:從被動接受到主動迎合

甘肅通渭李女士事件大反轉(zhuǎn)!聊天記錄曝光:從被動接受到主動迎合

火山詩話
2026-06-19 08:19:30
最新結(jié)果!13票贊成0票反對,菲律賓政壇“變天”?菲或向俄求助

最新結(jié)果!13票贊成0票反對,菲律賓政壇“變天”?菲或向俄求助

策前論
2026-06-18 19:18:19
實測DeepSeek“識圖模式”:兩次上傳梁文鋒照片,都識別成張一鳴

實測DeepSeek“識圖模式”:兩次上傳梁文鋒照片,都識別成張一鳴

紅星資本局
2026-06-19 14:23:12
北大等名校赴泰招生,現(xiàn)場人滿為患,有大額補貼,評論區(qū)一片不滿

北大等名校赴泰招生,現(xiàn)場人滿為患,有大額補貼,評論區(qū)一片不滿

譚談社會
2026-06-18 20:04:33
河南26歲帥哥時穎去世,結(jié)婚僅半年,妻子顏值高,悲痛透露原因

河南26歲帥哥時穎去世,結(jié)婚僅半年,妻子顏值高,悲痛透露原因

180視角
2026-06-19 12:33:45
保安驅(qū)趕避雨寶媽后續(xù):老顧客表示不會再去店里吃,寶爸發(fā)聲回應

保安驅(qū)趕避雨寶媽后續(xù):老顧客表示不會再去店里吃,寶爸發(fā)聲回應

社會日日鮮
2026-06-19 09:39:10
暴雨驅(qū)避雨母子后續(xù)!涉事寶媽顏值很高,老字號餐飲口碑徹底崩塌

暴雨驅(qū)避雨母子后續(xù)!涉事寶媽顏值很高,老字號餐飲口碑徹底崩塌

火山詩話
2026-06-19 06:11:26
萬斯:以色列不能靠殺戮解決國家安全問題

萬斯:以色列不能靠殺戮解決國家安全問題

環(huán)球網(wǎng)資訊
2026-06-19 16:34:54
日本警告特朗普后,不到48小時,逮捕多名美軍,美國或被激怒

日本警告特朗普后,不到48小時,逮捕多名美軍,美國或被激怒

流史歲月
2026-06-19 15:44:28
《抓特務》為何票房撲街?太陳舊,是次因,“瘸驢敘事”,是主因

《抓特務》為何票房撲街?太陳舊,是次因,“瘸驢敘事”,是主因

馬慶云的影音娛
2026-06-19 14:39:29
廣東公務員的天塌了!

廣東公務員的天塌了!

新浪財經(jīng)
2026-06-19 05:42:47
中國造紙學會就“紙尿褲事件”聲明:市面在售產(chǎn)品安全可控

中國造紙學會就“紙尿褲事件”聲明:市面在售產(chǎn)品安全可控

新京報
2026-06-19 18:43:19
7次神撲逼平西班牙!溫州商人圓佛得角門神心愿,幫其母赴美看球

7次神撲逼平西班牙!溫州商人圓佛得角門神心愿,幫其母赴美看球

湘楚風云聊體育
2026-06-19 11:16:38
華為注冊“世界”商標通過初審!

華為注冊“世界”商標通過初審!

芯智訊
2026-06-19 13:34:35
大媽順走奔馳螺絲后續(xù)!長相曝光,被老板找到后說:以為你不要了

大媽順走奔馳螺絲后續(xù)!長相曝光,被老板找到后說:以為你不要了

寒士之言本尊
2026-06-18 17:37:03
米粒10歲生日盛宴:伊能靜公婆罕見同框,女兒大名秦冪浰曝光

米粒10歲生日盛宴:伊能靜公婆罕見同框,女兒大名秦冪浰曝光

蕭狡科普解說
2026-06-19 19:54:46
2026年養(yǎng)老金調(diào)整或即將啟動,補發(fā)7個月,工齡15年補多少?

2026年養(yǎng)老金調(diào)整或即將啟動,補發(fā)7個月,工齡15年補多少?

虎哥閑聊
2026-06-19 08:45:56
又是血洗!卡塔爾就不該進入世界杯,日本球迷:名額給中國國足

又是血洗!卡塔爾就不該進入世界杯,日本球迷:名額給中國國足

酷侃體壇
2026-06-19 15:57:12
多給一天時間?伊朗隊請求再次被拒,美國:比賽當天必須離開

多給一天時間?伊朗隊請求再次被拒,美國:比賽當天必須離開

全景體育V
2026-06-19 18:10:55
“雷仁勛”刷屏!小女孩拆穿“雷軍的新裝”:小米股價一年暴跌60%,市值蒸發(fā)近萬億

“雷仁勛”刷屏!小女孩拆穿“雷軍的新裝”:小米股價一年暴跌60%,市值蒸發(fā)近萬億

新浪財經(jīng)
2026-06-19 15:51:18
2026-06-19 20:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

旅游
本地
數(shù)碼
游戲
軍事航空

旅游要聞

品味傳統(tǒng) 暢享假日丨樂享端午

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

數(shù)碼要聞

SSD太貴換回HDD:機械硬盤價格連漲5個季度!

給玩家“下藥”!《女神異聞錄6》總監(jiān):主打毒藥式體驗

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競渡來了

無障礙瀏覽 進入關(guān)懷版