免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DPO「只看總分不看細(xì)節(jié)」?TI-DPO用Token重要性重塑大模型對(duì)齊

0
分享至



在當(dāng)今的大模型后訓(xùn)練(Post-training)階段,DPO(直接偏好優(yōu)化) 憑借其無(wú)需訓(xùn)練獨(dú)立 Reward Model 的優(yōu)雅設(shè)計(jì)和高效性,成功取代 PPO 成為業(yè)界的 「版本之子」,被廣泛應(yīng)用于 Llama-3、Mistral 等頂流開(kāi)源模型的對(duì)齊中。

然而,隨著對(duì)模型能力要求的日益嚴(yán)苛,DPO 的缺陷逐漸浮出水面。

究竟該如何讓 DPO 學(xué)會(huì)「去偽存真」,精準(zhǔn)識(shí)別出那些真正決定勝負(fù)的 Critical Tokens?

針對(duì)這一問(wèn)題,來(lái)自中國(guó)科學(xué)院自動(dòng)化研究所、字節(jié)跳動(dòng)、微軟亞洲研究院和北京科技大學(xué)的研究者們?cè)诒贿x為 ICLR 2026 Oral 的新工作中聯(lián)合提出了一種全新的 TI-DPO 框架。



  • 論文:《Token-Importance Guided Direct Preference Optimization》
  • 論文地址:https://arxiv.org/abs/2505.19653
  • 開(kāi)源地址:https://github.com/gracefulning/TIDPO

研究背景與意義

主流方法正面臨兩個(gè)核心難題,這使得模型難以實(shí)現(xiàn)真正精細(xì)化的語(yǔ)義控制:

  • 痛點(diǎn)一:序列級(jí)的「二元對(duì)立」陷阱。傳統(tǒng)方法依然停留在序列級(jí)別(Sequence-level)的粗粒度優(yōu)化上,簡(jiǎn)單粗暴地將數(shù)據(jù)劃分為好與壞。這種二元監(jiān)督信號(hào)極度匱乏,因?yàn)樗谏w高質(zhì)量回復(fù)中可能混雜著瑕疵 Token 的事實(shí),導(dǎo)致了模型在連續(xù)語(yǔ)義空間中微調(diào)效果差,甚至引發(fā)采樣分布偏移(Distribution Shift)。
  • 痛點(diǎn)二:被偏差綁架的「?jìng)巍怪匾?/strong>。即使試圖下沉到 Token 級(jí)別,現(xiàn)有的重要性評(píng)估手段也存在問(wèn)題。許多方法依賴(lài)概率預(yù)測(cè)或簡(jiǎn)單加權(quán),這導(dǎo)致它們直接繼承了模型架構(gòu)的固有缺陷 ——「U 型注意力偏差」(Lost in the Middle),模型天生傾向于過(guò)度關(guān)注首尾 Token 而忽略中間的核心語(yǔ)義。

TI-DPO 的核心機(jī)制

TI-DPO 的核心思想是:既然 Token 生而不同,那就給它們「加權(quán)」。 通過(guò)引入混合加權(quán)機(jī)制和三元組損失,TI-DPO 能夠精準(zhǔn)識(shí)別并放大「關(guān)鍵 Token」的信號(hào),同時(shí)抑制噪聲,從而實(shí)現(xiàn)比傳統(tǒng) DPO 更準(zhǔn)、更穩(wěn)的對(duì)齊效果。它主要包含兩大核心機(jī)制:

1. 混合加權(quán)機(jī)制 (Hybrid Weighting)

為了找出誰(shuí)才是決定回復(fù)質(zhì)量的「勝負(fù)手」,TI-DPO 設(shè)計(jì)了一套數(shù)據(jù)驅(qū)動(dòng)與先驗(yàn)結(jié)構(gòu)相結(jié)合的權(quán)重計(jì)算法:

  • 梯度歸因:計(jì)算 Loss 對(duì)每個(gè) Token Embedding 的梯度范數(shù)。簡(jiǎn)單來(lái)說(shuō),誰(shuí)對(duì)最終輸出貢獻(xiàn)大,誰(shuí)的權(quán)重就高。
  • 高斯先驗(yàn):針對(duì) LLM 常見(jiàn)的「U 型注意力偏差」(過(guò)度關(guān)注開(kāi)頭結(jié)尾),引入高斯分布強(qiáng)制模型關(guān)注中間的語(yǔ)義核心。

最終的 Token 權(quán)重 ,是這兩者的凸組合:



新的 Token 級(jí) DPO 加權(quán)損失函數(shù)如下:



2. 三元組損失 (Triplet Loss)

TI-DPO 不再滿(mǎn)足于非黑即白的二元對(duì)比,而是引入了度量學(xué)習(xí)中的神器Triplet Loss。它在訓(xùn)練過(guò)程中構(gòu)建了三個(gè)角色:







TI-DPO 損失函數(shù):TI-DPO 的最終優(yōu)化目標(biāo)便是兩者的加權(quán)和:



實(shí)驗(yàn)結(jié)果

為了驗(yàn)證 TI-DPO 的實(shí)際戰(zhàn)力,研究團(tuán)隊(duì)在 Llama-3 (8B/3B) 和 Mistral-7B 等多個(gè)主流基座模型上進(jìn)行了測(cè)試,對(duì)比了包括 DPO、SimPO 以及最近大火的 GRPO 等 10+ 種對(duì)齊算法。

1. 綜合能力評(píng)估

如圖 1,在 Llama-3.1-8B-Instruct 基座上,TI-DPO 的綜合平均分達(dá)到 62.3,超過(guò) GRPO (62.1) 和 DPO (60.8) 。



2. 細(xì)分領(lǐng)域表現(xiàn)優(yōu)秀

在 IFEval(指令遵循)、TruthfulQA(真實(shí)性)和 HumanEval(代碼生成) 這三大最考驗(yàn)細(xì)節(jié)把握的任務(wù)上,TI-DPO 的表現(xiàn)大幅超越了 DPO、SimPO 以及 GRPO。





3. 消融實(shí)驗(yàn):核心組件缺一不可

Table 2 的消融實(shí)驗(yàn)結(jié)果表明,TI-DPO 的所有核心組件(包括混合加權(quán)機(jī)制、高斯先驗(yàn)和三元組損失)對(duì)于模型性能都至關(guān)重要,移除任意模塊均會(huì)導(dǎo)致在通用能力、數(shù)學(xué)推理及代碼生成等各項(xiàng)指標(biāo)上的顯著下降。



4. 案例展示:一眼看懂「關(guān)鍵 Token」

為了驗(yàn)證 TI-DPO 是否真的學(xué)會(huì)了「抓重點(diǎn)」,作者展示了一個(gè)醫(yī)療咨詢(xún)案例(「頭痛該怎么辦?」)的權(quán)重可視化熱力圖。

  • 在 Preferred 回復(fù)中(左):模型給「seek medical attention」和「promptly」分配了極高的權(quán)重(紅色深色區(qū)域),抓住了「安全第一」的核心。
  • 在 Non-Preferred 回復(fù)中(右):模型精準(zhǔn)「抓包」了「painkillers casually」這種潛在的高風(fēng)險(xiǎn)建議,并賦予高權(quán)重加以懲罰。
  • Intermediate Response是模型當(dāng)前的自我水平:「建議多休息,如果惡化再看醫(yī)生」。TI-DPO 引導(dǎo)模型在生成過(guò)程中,不斷向 Preferred 的價(jià)值觀(guān)靠攏,同時(shí)規(guī)避 Non-preferred 的陷阱,從而完成從粗放向精細(xì)的進(jìn)化。



這種有力地證明 TI-DPO 不是在死記硬背,而是真的讀懂了人類(lèi)價(jià)值觀(guān)。

總結(jié)與貢獻(xiàn)

TI-DPO 的提出,為大模型對(duì)齊從粗放的序列級(jí)優(yōu)化向更精細(xì)的 Token 級(jí)控制轉(zhuǎn)變提供了一個(gè)有力的嘗試。它不再滿(mǎn)足于籠統(tǒng)地判斷回答的「好壞」,而是試圖厘清每一個(gè) Token 在價(jià)值對(duì)齊中的真實(shí)貢獻(xiàn)。

實(shí)驗(yàn)結(jié)果表明,TI-DPO 在指令遵循、真實(shí)性與代碼生成等任務(wù)上,相比 GRPO 等基線(xiàn)取得了穩(wěn)定的性能提升,驗(yàn)證了提升數(shù)據(jù)利用的「顆粒度」是增強(qiáng)模型能力的有效路徑。

TI-DPO 以其在去噪和細(xì)節(jié)控制上的特性,為后續(xù)的 RLHF 研究提供了一個(gè)值得關(guān)注的新方向。我們期待看到更多圍繞「細(xì)粒度價(jià)值對(duì)齊」的探索,推動(dòng)大模型向著更精準(zhǔn)、更可控的方向進(jìn)化。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
制裁落地第七天:菲防長(zhǎng)家族生意開(kāi)始崩了,12萬(wàn)噸香蕉爛在港口。

制裁落地第七天:菲防長(zhǎng)家族生意開(kāi)始崩了,12萬(wàn)噸香蕉爛在港口。

阿振觀(guān)點(diǎn)
2026-06-19 06:50:54
上海一餐館內(nèi)男子為護(hù)孕妻兩次勸煙被打,打人者被處500元處罰

上海一餐館內(nèi)男子為護(hù)孕妻兩次勸煙被打,打人者被處500元處罰

封面新聞
2026-06-19 15:14:19
萬(wàn)斯警告以色列別不知好歹:特朗普是全球唯一同情以色列的國(guó)家元首;以色列的防御武器三分之二由美國(guó)制造、美國(guó)納稅人出資

萬(wàn)斯警告以色列別不知好歹:特朗普是全球唯一同情以色列的國(guó)家元首;以色列的防御武器三分之二由美國(guó)制造、美國(guó)納稅人出資

大象新聞
2026-06-19 13:45:24
顧客稱(chēng)老鄉(xiāng)雞餐具圖案掉色印到蒸蛋上,老鄉(xiāng)雞最新回應(yīng):餐具材質(zhì)為陶瓷,符合國(guó)標(biāo),掉色原因系表面裝飾層物理磨損

顧客稱(chēng)老鄉(xiāng)雞餐具圖案掉色印到蒸蛋上,老鄉(xiāng)雞最新回應(yīng):餐具材質(zhì)為陶瓷,符合國(guó)標(biāo),掉色原因系表面裝飾層物理磨損

大風(fēng)新聞
2026-06-19 08:44:11
官媒送檢,熱搜第一!這次老百姓的憤怒太明顯了

官媒送檢,熱搜第一!這次老百姓的憤怒太明顯了

走讀新生
2026-06-18 16:04:02
瑞士外交部證實(shí)美伊?xí)勅∠?>
    </a>
        <h3>
      <a href=新華社
2026-06-19 12:22:07
磷化銦>六氟化鎢>光刻膠>鉬靶材>高純靶材>高速銅箔>覆銅板

磷化銦>六氟化鎢>光刻膠>鉬靶材>高純靶材>高速銅箔>覆銅板

小蜜情感說(shuō)
2026-06-19 13:05:10
印度網(wǎng)友說(shuō)中國(guó)也有種姓制度,仔細(xì)一看,真的讓人笑掉大牙!

印度網(wǎng)友說(shuō)中國(guó)也有種姓制度,仔細(xì)一看,真的讓人笑掉大牙!

全城探秘
2026-06-18 18:06:57
世界杯綜述:首支出線(xiàn)+頭名隊(duì)出爐!單日3紅 亞洲隊(duì)5連敗狂刷紀(jì)錄

世界杯綜述:首支出線(xiàn)+頭名隊(duì)出爐!單日3紅 亞洲隊(duì)5連敗狂刷紀(jì)錄

我愛(ài)英超
2026-06-19 11:11:39
寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門(mén)店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門(mén)店口碑崩了

北緯的咖啡豆
2026-06-18 21:59:34
阿聯(lián)酋、埃及、沙特等八國(guó)外長(zhǎng)發(fā)表聯(lián)合聲明:以“最強(qiáng)烈措辭”譴責(zé)以色列定居者暴力行為

阿聯(lián)酋、埃及、沙特等八國(guó)外長(zhǎng)發(fā)表聯(lián)合聲明:以“最強(qiáng)烈措辭”譴責(zé)以色列定居者暴力行為

環(huán)球網(wǎng)資訊
2026-06-19 09:51:27
男子深夜醉駕致16歲少女被撞身亡,血檢濃度238mg/100mL,最初認(rèn)定肇事者全責(zé),申請(qǐng)復(fù)議后變主責(zé),警方回應(yīng):按正規(guī)程序進(jìn)行

男子深夜醉駕致16歲少女被撞身亡,血檢濃度238mg/100mL,最初認(rèn)定肇事者全責(zé),申請(qǐng)復(fù)議后變主責(zé),警方回應(yīng):按正規(guī)程序進(jìn)行

大風(fēng)新聞
2026-06-19 15:30:09
97年我娶了離過(guò)婚的女教師,洞房夜她把燈關(guān)了:我有件事要告訴你

97年我娶了離過(guò)婚的女教師,洞房夜她把燈關(guān)了:我有件事要告訴你

千秋文化
2026-06-18 20:19:03
緬甸總統(tǒng)坐復(fù)興號(hào)后沉默了,350公里時(shí)速,他看到兩個(gè)時(shí)代的差距

緬甸總統(tǒng)坐復(fù)興號(hào)后沉默了,350公里時(shí)速,他看到兩個(gè)時(shí)代的差距

小影的娛樂(lè)
2026-06-19 10:07:13
寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門(mén)店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門(mén)店口碑崩了

石辰搞笑日常
2026-06-19 08:38:34
亂了!世界杯賽后爆發(fā)大規(guī)模沖突,比起6比0,更慘的是斷腿重傷

亂了!世界杯賽后爆發(fā)大規(guī)模沖突,比起6比0,更慘的是斷腿重傷

觀(guān)察鑒娛
2026-06-19 14:51:34
7次神撲逼平西班牙!溫州商人圓佛得角門(mén)神心愿,幫其母赴美看球

7次神撲逼平西班牙!溫州商人圓佛得角門(mén)神心愿,幫其母赴美看球

湘楚風(fēng)云聊體育
2026-06-19 11:16:38
中東,突發(fā)大消息!以色列發(fā)動(dòng)空襲!特朗普最新發(fā)聲

中東,突發(fā)大消息!以色列發(fā)動(dòng)空襲!特朗普最新發(fā)聲

證券時(shí)報(bào)
2026-06-19 15:05:17
私生活混亂、被央視“開(kāi)除”、陪睡上位,她身上哪個(gè)標(biāo)簽是真的?

私生活混亂、被央視“開(kāi)除”、陪睡上位,她身上哪個(gè)標(biāo)簽是真的?

素衣讀史
2026-06-18 21:37:31
最可怕的內(nèi)鬼浮出水面!柬埔寨電詐園區(qū)的幕后大佬,竟是商會(huì)會(huì)長(zhǎng)

最可怕的內(nèi)鬼浮出水面!柬埔寨電詐園區(qū)的幕后大佬,竟是商會(huì)會(huì)長(zhǎng)

火山詩(shī)話(huà)
2026-06-19 07:42:12
2026-06-19 17:24:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

男子醉駕撞死少女血檢238mg/100mL 全責(zé)復(fù)議后變主責(zé)

頭條要聞

男子醉駕撞死少女血檢238mg/100mL 全責(zé)復(fù)議后變主責(zé)

體育要聞

加拿大球員小腿變形重傷 亞洲冠軍輸球輸人

娛樂(lè)要聞

吳倩自曝小時(shí)被爸爸打掉牙齒硬吞進(jìn)肚

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車(chē)要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

健康
教育
數(shù)碼
旅游
親子

吃粽子的3條保胃法則,消化科醫(yī)生推薦

教育要聞

2026年高考數(shù)學(xué)第1題,你答對(duì)了嗎?

數(shù)碼要聞

SSD太貴換回HDD:機(jī)械硬盤(pán)價(jià)格連漲5個(gè)季度!

旅游要聞

昆明海埂大壩冬季觀(guān)鷗最佳時(shí)段,喂紅嘴鷗有哪些講究?

親子要聞

科技賦能舒適便捷,越來(lái)越多產(chǎn)婦更希望把月子中心服務(wù)帶回家

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版