免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網易首頁 > 網易號 > 正文 申請入駐

PEFT方法評測不能只看下游分:通用能力損失也該被量化

0
分享至



以 LoRA 為代表的參數高效微調(Parameter-Efficient Fine-Tuning,PEFT)已成為大模型適配與后訓練的主流選擇。相比全量微調,PEFT 僅更新少量參數,訓練開銷更低,也更容易在不同任務間快速部署。

然而,在 PEFT 方法的評測中,目標任務性能仍然是最常被強調的指標;相比之下,微調過程中模型遺忘了什么,往往缺少系統(tǒng)評估。

一個方法在提升數學正確率的同時,是否會顯著削弱模型的指令遵循、事實回憶或通用推理能力?不同 PEFT 方法在下游適配與通用能力保留之間,究竟表現如何?這正是PEFT-Arena試圖深入的問題。


近期,來自香港中文大學、西湖大學、德國馬普所等機構的研究者提出了 PEFT-Arena —— 一個從穩(wěn)定性?可塑性權衡(stability–plasticity trade-off)視角重新審視 PEFT 方法的評測基準與分析框架。該工作已在 ICLR 2026 相關 workshop 上進行了展示,并開源了完整代碼。

其中第一作者黃洋逸是香港中文大學計算機系博士生,共同一作彭若天是西湖大學博士生,通信作者是香港中文大學計算機系助理教授劉威楊。



  • 論文標題:PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective
  • 項目主頁:https://spherelab.ai/PEFT-Arena
  • 論文鏈接:https://arxiv.org/abs/2605.28819
  • 代碼鏈接:https://github.com/Sphere-AI-Lab/PEFT-Arena

只看下游準確率,為什么不夠?

傳統(tǒng) PEFT 評測的核心問題通常是:微調后,下游任務準確率提高了多少?這當然重要 —— 數學微調理應提升數學能力,醫(yī)學問答微調也理應提升醫(yī)學表現。但大模型的應用需求遠不止于單一任務本身的表現。預訓練為其賦予了廣泛能力,包括指令遵循、事實知識、閱讀理解和通用推理。如果微調過程以犧牲這些能力為代價來換取目標分數,那么單一準確率指標就會掩蓋這一點。

PEFT-Arena 將這一問題重新表述為經典的穩(wěn)定性?可塑性困境(stability–plasticity dilemma):

  • 可塑性(plasticity):模型在目標領域學到了多少;
  • 穩(wěn)定性(stability):模型保留了多少預訓練通用能力。

由此,一個可靠的 PEFT 方法不應只看是否提升了目標任務分數,更應考察它是否以較低的通用能力損失實現了該提升。

為此,PEFT-Arena 設置了雙軸評測:一軸衡量目標域適配,另一軸評估預訓練通用能力的保留。項目選用 Qwen2.5-7B 和 Llama3.2-3B-Instruct,在數學與醫(yī)學推理兩個目標域上分別進行監(jiān)督微調(SFT)與基于驗證獎勵的強化學習(RLVR)訓練,并以 IFEval、Natural Questions(NQ)、BBH 等任務評估通用能力的保留情況。

把「學到了多少」與「忘掉了多少」放在同一張圖里



在 PEFT-Arena 提供的二維評估圖中,橫軸代表通用能力(即穩(wěn)定性),縱軸代表目標域性能(即可塑性)。理想方法自然位于右上角:既能提升目標任務表現,又能完好保留通用能力。

這張圖直觀地展示了,幾乎所有方法都面臨穩(wěn)定性?可塑性權衡,但不同方法各自落在的權衡點差異很大。全量微調通常能取得較強的目標域表現,代價則是通用能力的顯著下降。LoRA 等低秩方法相對保守,但仍可能出現不可忽視的遺忘。PiSSA 在某些設置下表現得更為極端:目標域分數可能提升,但通用能力損失非常嚴重。VeRA 對通用能力的保持較為穩(wěn)定,但目標域的提升較為局限。

相比之下,正交微調(Orthogonal Finetuning,OFT)往往落在更具競爭力的「目標?保留前沿」上:它不一定總是拿到最高的目標分數,但在相近的目標收益下,能夠保留更多的通用能力。

例如在 Qwen2.5-7B SFT 數學實驗中,全量微調雖然大幅提升目標分數,通用分數卻嚴重下滑;而 OFT 則在目標提升與通用保留之間取得了更均衡的結果。

另一個值得注意的現象來自 RLVR。相比 SFT,RLVR 在主要評估設置下通常表現出更弱的通用能力遺忘;在某些設置中,它甚至能在提升目標任務的同時保持或提高通用分數。

不過,作者也觀察到,較長時間的 RLVR 訓練在 high-k 采樣評估下可能暴露出另一類退化:pass@1 仍然穩(wěn)定,但 pass@64 等高采樣指標會下降。這說明,RLVR 的訓練動態(tài)也需要從路徑層面進一步診斷,而不能只看最終 checkpoint 的單點結果。

換言之,PEFT-Arena 并不只是給 PEFT 方法排一個名次,而是試圖將評測的核心問題從「誰的下游準確率更高」轉變?yōu)椋?/p>

哪種 PEFT 方法能以最小的預訓練能力損失,獲得足夠的目標域適配?

從分數到機制:為什么有些方法更容易遺忘?

評測基準告訴我們「發(fā)生了什么」,但還無法解釋「為什么」。PEFT-Arena 進一步從模型幾何的角度進行了內部分析,主要包括兩個視角:權重空間幾何與激活空間幾何。

權重空間:PEFT 更新作用在參數矩陣的哪些部分?

作者首先在權重空間中分析 PEFT 更新。具體做法是將預訓練權重矩陣沿奇異向量基底分解,考察微調后有效權重相對于原始譜結構的偏移。分析涉及兩項核心視圖:

  • 結構保留視圖(retention profile):衡量微調后權重在多大程度上保留了預訓練的奇異結構;
  • 更新能量視圖(update-energy profile):衡量微調更新主要集中在哪些預訓練方向上。

這種分析有助于回答:不同 PEFT 的參數化方式,究竟是在平滑地調整預訓練幾何結構,還是在少數方向上制造出尖銳集中的擾動?例如,LoRA 等低秩方法傾向于產生集中的更新模式;PiSSA 與主奇異方向交互較強,可能帶來更大的結構擾動;而 OFT 由于采用正交參數化,更傾向于保持權重譜的原始幾何特征。



為進一步建立權重更新與具體能力指標之間的關聯,作者還引入了能力條件化漂移(Capability-Conditioned Drift,CSD)。

其直覺是:同一權重更新對不同數據分布的影響不同 —— 如果某類通用數據激活了那些被大幅更新的方向,就更可能受到干擾。CSD 正是用于量化權重更新在通用領域與目標領域數據上引發(fā)的激活擾動。

實驗表明,通用領域數據的 CSD 與遺忘存在關聯,而目標領域 CSD 并不能簡單預測目標分數。這也提示我們,通用能力保留往往更容易從「表示是否被破壞」中觀察到;而目標域性能提升,尤其在推理任務中,可能更多取決于是否產生了與任務目標對齊的推理過程變化。

激活空間:遺忘的關鍵在于「幾何結構是否被扭曲」



僅看權重更新還不夠。一個大模型的更新可能移動了激活,但這種移動未必有害 —— 例如,一個近似整體旋轉變換雖然改變了向量坐標,卻可能保留了樣本間的相對關系。

因此,PEFT-Arena 進一步比較了預訓練模型與微調后模型在通用領域數據上的激活表示,核心問題是:

微調后,預訓練模型原本組織起來的樣本關系是否依然保持?

作者為此引入了三種表示幾何度量:

  • Procrustes 殘差:先用最佳正交變換對齊微調前后的表示,再測量仍然無法對齊的那部分結構性變化;
  • Gram 矩陣失真:比較微調前后樣本間成對相似度矩陣的變化;
  • 中心核對齊(CKA):作為標準的表示相似性指標,衡量微調前后的表示相似度。

結果顯示,這些度量與遺忘程度存在較強關聯:Procrustes 殘差和 Gram 失真越高,遺忘通常越嚴重;CKA 越高,通用能力保留越好。OFT 雖會移動表示,卻更傾向于保持表示的幾何結構;PiSSA 則表現出更強的非等距扭曲,并對應更嚴重的遺忘。

這給出了一個更清晰的解釋:

遺忘的關鍵,不在于「激活移動了多少」,而在于「通用表征的幾何結構是否被破壞」。

這也為 OFT 在 PEFT-Arena 中表現出的較好權衡提供了一個直觀解釋:它并非完全不改變模型,而是更傾向于以保持幾何結構的方式完成適配。

插值路徑:最終模型未必是最優(yōu)操作點

除了對比初始模型和最終模型,PEFT-Arena 還對微調路徑本身進行了分析。一個最終 checkpoint 僅僅是適配路徑上的一個點;模型可能在獲得大部分目標收益后繼續(xù)移動,而這些額外移動主要損害通用能力。

為此,作者利用插值來診斷「SFT 過度適配(overshoot)」的現象:在基礎模型與微調后模型之間進行參數插值,可以得到目標性能和通用性能隨插值系數變化的曲線。

實驗發(fā)現,在許多 SFT 設定中,中間的插值點既能保留大部分目標收益,又能恢復相當多的通用能力。也就是說,最終 checkpoint 并不總是目標能力與預訓練能力保留的最優(yōu)權衡點。



這一分析并非將插值包裝成新的評測標準,而是將其作為一種路徑層面診斷工具:它告訴我們,最終 checkpoint 是否已經越過了一個更合適的目標–保留平衡點(target-retention trade-off)。



需要指出的是,對于不同的 PEFT 參數化方法而言,插值必須在其自然的參數化幾何路徑上進行。

以 OFT 為例,普通的線性權重插值會偏離 OFT 原本的正交參數化路徑,從而扭曲譜結構;而沿 Cayley 生成元進行的插值則能使其保持在正交變換的幾何路徑上。

這一觀察進一步表明,不同 PEFT 方法可能需要各自相宜的參數?空間軌跡來進行合理分析。

基于路徑分析,作者還探索了路徑回退(pathwise rewinding)的思路:通過對已有微調后 checkpoint 施加不同強度的回退,在不重新訓練的前提下改善目標 - 保留權衡。論文主要以 OFT 的逐層回退為例,并在附錄中展示了類似思路在 LoRA、MiSS 等加性(additive) PEFT 方法上的結果。

為什么這項工作值得關注?

PEFT-Arena 的意義在于,它把 PEFT 評測從單一目標任務分數,擴展到了目標適配與能力保留的雙軸空間。這樣一來,不同方法的 trade-off 不再被隱藏在一個下游 accuracy 數字后面,而是可以被直接比較。

更進一步,論文沒有停留在 benchmark 排名上,而是嘗試解釋這些差異從何而來。權重譜分析、CSD 和激活空間幾何共同指向一個結論:遺忘往往對應著模型內部表示結構的破壞。

插值分析則提供了另一個實用視角:final checkpoint 不一定是最好的權衡點。對于已有微調模型,沿合適路徑做 post-hoc rewinding,也可能找到更好的目標 - 保留權衡。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
演員必須用原名了!楊紫白鹿還好,王星越笑噴:這誰找得到

演員必須用原名了!楊紫白鹿還好,王星越笑噴:這誰找得到

吃瓜蒙主
2026-06-19 00:30:03
難怪不興百褶裙了!滿大街都是“?奶奶裙”,時髦不顯臃腫,洋氣

難怪不興百褶裙了!滿大街都是“?奶奶裙”,時髦不顯臃腫,洋氣

時尚穿搭生活館
2026-06-18 23:10:33
11倍大牛股跌停,兩個月股價大跌56%,公司最新回應

11倍大牛股跌停,兩個月股價大跌56%,公司最新回應

21世紀經濟報道
2026-06-18 20:22:19
若海峽對岸發(fā)放「投誠食物」給大陸14億人,會產生什么影響嗎?

若海峽對岸發(fā)放「投誠食物」給大陸14億人,會產生什么影響嗎?

龍牙的一座山
2026-06-15 09:09:03
柬埔寨電詐最大黑手竟然是副總理?

柬埔寨電詐最大黑手竟然是副總理?

鳳眼論
2026-06-18 18:45:10
斯基拉:皇馬與恩佐原則上達成協(xié)議,合同至2032年

斯基拉:皇馬與恩佐原則上達成協(xié)議,合同至2032年

懂球帝
2026-06-18 14:43:15
醒醒吧!就算臺灣愿意和平統(tǒng)一,臺灣也不可能同意解放軍在臺駐軍

醒醒吧!就算臺灣愿意和平統(tǒng)一,臺灣也不可能同意解放軍在臺駐軍

阿曇你好
2026-05-22 18:33:43
中國女排3-2逆轉德國! 沒想到日媒賽后這樣報道 還用四個字定義我們

中國女排3-2逆轉德國! 沒想到日媒賽后這樣報道 還用四個字定義我們

銜春信
2026-06-18 02:43:57
拒絕4897萬選項!曝特雷?楊計劃成為自由球員 多隊有意引進他

拒絕4897萬選項!曝特雷?楊計劃成為自由球員 多隊有意引進他

羅說NBA
2026-06-18 09:58:32
藏不住了,“足球小將”父親公開發(fā)聲,揭開董路私下最真實的一面

藏不住了,“足球小將”父親公開發(fā)聲,揭開董路私下最真實的一面

深析古今
2026-06-18 09:43:36
《給阿嬤的情書》香港首映火爆 超200場排片多場滿座

《給阿嬤的情書》香港首映火爆 超200場排片多場滿座

環(huán)球網資訊
2026-06-18 23:25:23
不管你信不信:老人臨終前誰在身邊、誰不在身邊,冥冥中皆有安排

不管你信不信:老人臨終前誰在身邊、誰不在身邊,冥冥中皆有安排

荷蘭豆愛健康
2026-05-10 20:06:39
G7沒有發(fā)布聯合公報:德法不愿為日本得罪中國,一個時代結束了

G7沒有發(fā)布聯合公報:德法不愿為日本得罪中國,一個時代結束了

三石記
2026-06-18 07:58:06
NBA歷史最佳陣容出爐:杜蘭特3陣,庫里科比僅2陣,1陣無可替代

NBA歷史最佳陣容出爐:杜蘭特3陣,庫里科比僅2陣,1陣無可替代

林子說事
2026-06-18 01:13:59
皇馬第三簽正式官宣!穆帥認可后防統(tǒng)帥,姆巴佩親自說服加入

皇馬第三簽正式官宣!穆帥認可后防統(tǒng)帥,姆巴佩親自說服加入

林子說事
2026-06-18 19:00:25
太諷刺!世界杯期間,以色列還關著巴勒斯坦女足國腳、美國女生

太諷刺!世界杯期間,以色列還關著巴勒斯坦女足國腳、美國女生

觀察者網
2026-06-18 10:55:10
中老年人同居一定要記?。簺]有生理上的需求,就不要再去搭伙了?

中老年人同居一定要記住:沒有生理上的需求,就不要再去搭伙了?

游戲收藏指南
2026-06-05 17:44:29
醫(yī)生發(fā)現:能吃能喝的老人,基本在70歲,就已經不做這6件事了!

醫(yī)生發(fā)現:能吃能喝的老人,基本在70歲,就已經不做這6件事了!

醫(yī)學原創(chuàng)故事會
2026-06-16 18:47:09
上海市委書記陳吉寧:平庸與卓越的差別(強烈推薦)

上海市委書記陳吉寧:平庸與卓越的差別(強烈推薦)

新浪財經
2026-06-18 07:10:25
贏球也被噴!英格蘭世界杯頭號臥底!球迷集體喊他滾出首發(fā)

贏球也被噴!英格蘭世界杯頭號臥底!球迷集體喊他滾出首發(fā)

瀾歸序
2026-06-18 06:41:12
2026-06-19 05:16:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數 142673關注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經要聞

博??礗PO,賺錢業(yè)務與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

時尚
藝術
本地
親子
公開課

看不懂球,還看不懂帥哥嗎?

藝術要聞

臺北東區(qū)新門戶!南港雙星,像一道“城市裂痕”

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

親子要聞

人類幼崽搞笑瞬間

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版