免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LLM 僅靠自身就能增強(qiáng)推理?SePT 給出簡(jiǎn)潔在線自訓(xùn)練范式

0
分享至



本文第一作者李夢(mèng)琦為香港中文大學(xué)(深圳)計(jì)算機(jī)科學(xué)專業(yè)博士生。本項(xiàng)研究是與上海交通大學(xué)趙磊老師、香港中文大學(xué)蘇文藻老師合作,并在香港中文大學(xué)(深圳)孫若愚老師與李肖老師的共同指導(dǎo)下完成。

在推理后訓(xùn)練里,多數(shù)方法仍依賴獎(jiǎng)勵(lì)模型、驗(yàn)證器或額外教師信號(hào)。如果不依賴這些外部信號(hào),只使用模型自身生成的答案進(jìn)行自訓(xùn)練,是否仍然能夠提升推理能力?是的!SePT(Self-evolving Post-Training)給出肯定答案,簡(jiǎn)潔的自訓(xùn)練方法,可在數(shù)學(xué)推理任務(wù)準(zhǔn)確率直升10個(gè)點(diǎn)!



  • 論文標(biāo)題:A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning
  • 論文:https://arxiv.org/pdf/2510.18814
  • 代碼:https://github.com/ElementQi/SePT



SePT的在線自訓(xùn)練循環(huán)示意:樣本以采樣溫度 τ_s 生成,訓(xùn)練階段采用標(biāo)準(zhǔn) SFT;下一輪訓(xùn)練數(shù)據(jù)由更新后的模型生成。

如流程圖所示,SePT 的核心極其簡(jiǎn)潔:當(dāng)前模型先生成答案,再用這些答案做標(biāo)準(zhǔn) SFT,隨后由更新后的模型重新生成下一輪訓(xùn)練數(shù)據(jù)。下面先看這種在線循環(huán)自訓(xùn)練到底帶來了多少提升。

數(shù)學(xué)推理上的結(jié)果:SePT vs Baseline

主結(jié)果如圖所示。這里的 baseline 并非默認(rèn)采樣設(shè)置下直接評(píng)測(cè)的基座模型,而是未做后訓(xùn)練、但在推理階段經(jīng)過 temperature sweep 并取最佳結(jié)果的強(qiáng)基線。經(jīng)過 SePT 自訓(xùn)練后, 在 6 個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試集平均后的 Pass@1、Pass@8、Pass@32 和 AVG 上均有明顯提升。



在 Qwen2.5-Math-7B 上,6 個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試集平均后的 Pass@1、Pass@8、Pass@32 和 AVG:SePT 在各項(xiàng)指標(biāo)上均明顯高于上述 baseline。

數(shù)學(xué)推理上的結(jié)果:SePT vs RLVR

如果進(jìn)一步與 RLVR 方法( GRPO) 比較,可以看到:自訓(xùn)練方法SePT 已經(jīng)能夠取得與 GRPO 較為接近的結(jié)果,尤其是在OTM數(shù)據(jù)集上。

結(jié)合表中的結(jié)果,在 Qwen2.5-Math-7B 上,使用 OTM 時(shí),SePT 和 GRPO 的 AVG 分別為 55.2 和 56.6,差距只有 1.4;而在 DSR 上,這一差距擴(kuò)大為 4.1(55.0 vs. 59.1)。在 DeepSeek-Math-7B-Instruct 上,同樣的差距分別為 0.4(33.0 vs. 33.4)和 1.7(33.9 vs. 35.6)。甚至在 Qwen2.5-Math-7B 的 OTM 設(shè)置下,SePT 的 Pass@1 還略高于 GRPO(40.8 vs. 39.5)。

這些結(jié)果說明,在本文的比較設(shè)置下,SePT 對(duì)訓(xùn)練題集選擇表現(xiàn)出更小的波動(dòng),而 GRPO 在 DSR 上的增益更明顯。



OpenThoughts-Math(OTM)和 DeepScaleR(DSR)在 Qwen2.5-Math-7B 與 DeepSeek-Math-7B-Instruct 上的平均基準(zhǔn)比較。兩套訓(xùn)練題集規(guī)模相近。Δ 表示 DSR 相對(duì) OTM 的變化,陰影標(biāo)出 DSR 至少高出 OTM 2.0 分的情形。

SePT 算法具體流程

SePT 有著極其簡(jiǎn)潔的自訓(xùn)練框架設(shè)計(jì),可以概括為以下三個(gè)步驟:



這一設(shè)計(jì)的關(guān)鍵可概括為:溫度解耦、標(biāo)準(zhǔn)SFT訓(xùn)練,最新模型自生成數(shù)據(jù)。







SePT 中的在線自生成數(shù)據(jù)

本文進(jìn)一步通過消融實(shí)驗(yàn)驗(yàn)證了這一設(shè)計(jì)的重要性:如果將“由最新模型逐輪生成下一輪訓(xùn)練數(shù)據(jù)”改為固定數(shù)據(jù)訓(xùn)練,性能會(huì)明顯下降。以 Qwen2.5-Math-7B 為例,SePT (Offline) 的 AVG 為 45.5,而在線版本的 SePT 可達(dá)到 55.0。



SePT 與 SePT (Offline) 在 Qwen2.5-Math-7B 上的比較,括號(hào)中的數(shù)值表示相對(duì) baseline 的變化。

SePT 中的溫度解耦



為什么這件事重要?本文的定理一給出了一個(gè)直觀的理論論證





這一點(diǎn)在實(shí)驗(yàn)上也被直接驗(yàn)證了。以 Qwen2.5-Math-7B 為例,若使用 temperature coupling,Pass@1/Pass@8/Pass@32/AVG 只有 19.3/50.1/64.3/44.6,Pass@1 甚至低于 baseline;而采用 decoupling 后,四項(xiàng)指標(biāo)可以提升到 39.5/57.7/67.9/55.0。

也就是說,SePT 里“低溫生成 + 標(biāo)準(zhǔn) SFT”對(duì)于數(shù)學(xué)推理的提升并不是一個(gè)經(jīng)驗(yàn) trick,而是理論與實(shí)驗(yàn)都支持的重要設(shè)計(jì)。



Qwen2.5-Math-7B 在溫度耦合與解耦方案下的對(duì)比。括號(hào)內(nèi)數(shù)值表示方法值與基準(zhǔn)值的差(Method?Baseline)。





Pass@1、Pass@8、Pass@32 以及 AVG 在基座模型上隨采樣溫度變化的結(jié)果。

自訓(xùn)練是否會(huì)損害模型通用能力?

模型的一般能力會(huì)不會(huì)因?yàn)橹辉跀?shù)學(xué)自生成軌跡上繼續(xù)訓(xùn)練而受損?本文在 Qwen2.5-Math-7B 上的一組 general-domain benchmark正面回答了這一問題,測(cè)試基準(zhǔn)包括 IFEval、BBH、GPQA、MuSR 和 MMLU-Pro。結(jié)果基本是幾乎不掉:基礎(chǔ)模型分別為 23.4/47.5/29.9/41.4/32.1,SePT 為 23.6/47.3/30.6/41.5/32.2。也就是說,SePT 在 IFEval、GPQA、MuSR、MMLU-Pro 上都有輕微提升,BBH 基本不變;GRPO 也呈現(xiàn)了類似模式。這表明SePT自訓(xùn)練方法不會(huì)明顯損害模型的通用能力。



Qwen2.5-Math-7B 基座模型及其 SePT、GRPO 訓(xùn)練版本在通用領(lǐng)域的評(píng)測(cè)結(jié)果。

代碼簡(jiǎn)單可用



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
38歲梅西創(chuàng)史僅一天,總統(tǒng)斥責(zé)荒唐行為

38歲梅西創(chuàng)史僅一天,總統(tǒng)斥責(zé)荒唐行為

汪鏞的創(chuàng)業(yè)之路
2026-06-19 12:58:21
奧塔門迪談阿根廷更衣室:確實(shí)特殊對(duì)待梅西,因?yàn)樗仟?dú)一無二的

奧塔門迪談阿根廷更衣室:確實(shí)特殊對(duì)待梅西,因?yàn)樗仟?dú)一無二的

體育閑話說
2026-06-19 06:29:29
遠(yuǎn)超劉國(guó)梁!賭上職業(yè)生涯力挺孫穎莎人生首位貴人身份

遠(yuǎn)超劉國(guó)梁!賭上職業(yè)生涯力挺孫穎莎人生首位貴人身份

暖心萌阿菇?jīng)?/span>
2026-06-19 17:37:50
大陸早預(yù)言了島內(nèi)結(jié)局??jī)砂督K于在福建簽約,賴清德根本攔不?。?>
    </a>
        <h3>
      <a href=銘記歷史呀
2026-06-19 17:48:39
給所有老年人一個(gè)忠告:永遠(yuǎn)不要在熟人面前和老年群里說這兩句話

給所有老年人一個(gè)忠告:永遠(yuǎn)不要在熟人面前和老年群里說這兩句話

心理觀察局
2026-06-04 07:19:04
啞鈴瓶裝水橫空出世,網(wǎng)友:天才設(shè)計(jì)!

啞鈴瓶裝水橫空出世,網(wǎng)友:天才設(shè)計(jì)!

廣告案例精選
2026-06-17 17:27:59
跟中國(guó)斗了整整4年的沙利文,對(duì)中美風(fēng)向下了最新的判斷

跟中國(guó)斗了整整4年的沙利文,對(duì)中美風(fēng)向下了最新的判斷

今夜繁星墜落
2026-06-19 17:49:36
全新2027款寶馬X5內(nèi)飾徹底換代,iDrive取消旋鈕、第三排確認(rèn)保留

全新2027款寶馬X5內(nèi)飾徹底換代,iDrive取消旋鈕、第三排確認(rèn)保留

慢享生活集
2026-06-17 01:01:24
國(guó)家電網(wǎng)2026第3批錄用9110人,想報(bào)電氣,院校層次不夠深度研究

國(guó)家電網(wǎng)2026第3批錄用9110人,想報(bào)電氣,院校層次不夠深度研究

升學(xué)規(guī)劃趙宏
2026-06-19 14:20:53
烏克蘭發(fā)布載重100公斤的無人機(jī)噴氣式打擊無人機(jī)

烏克蘭發(fā)布載重100公斤的無人機(jī)噴氣式打擊無人機(jī)

桂系007
2026-06-15 23:59:24
男籃抵杭州備戰(zhàn)熱身賽!各將心情不錯(cuò),多人送簽名,楊瀚森缺席!

男籃抵杭州備戰(zhàn)熱身賽!各將心情不錯(cuò),多人送簽名,楊瀚森缺席!

籃球資訊達(dá)人
2026-06-19 14:13:59
我國(guó)軍事家曾預(yù)言:如果特朗普能任2屆,美國(guó)就會(huì)從老大變成老二

我國(guó)軍事家曾預(yù)言:如果特朗普能任2屆,美國(guó)就會(huì)從老大變成老二

悅心知足
2026-06-16 10:29:21
48萬億美元!中國(guó)M2遠(yuǎn)超歐美,但錢去哪了?

48萬億美元!中國(guó)M2遠(yuǎn)超歐美,但錢去哪了?

羅sir財(cái)話
2026-06-17 14:47:31
24GB+1TB!新機(jī)官宣:6月30日,正式發(fā)布上市!

24GB+1TB!新機(jī)官宣:6月30日,正式發(fā)布上市!

科技堡壘
2026-06-17 12:27:29
六味地黃丸不僅能補(bǔ)腎,還能治這5種病,尤其針對(duì)老年常見病

六味地黃丸不僅能補(bǔ)腎,還能治這5種病,尤其針對(duì)老年常見病

健康之光
2026-06-16 23:05:03
日本球迷又開始撿垃圾了,這戲碼上演了快30年了,真的不覺得煩嗎

日本球迷又開始撿垃圾了,這戲碼上演了快30年了,真的不覺得煩嗎

西樓知趣雜談
2026-06-18 17:32:47
新加坡網(wǎng)友發(fā)帖:“我接受不了自己以游客身份進(jìn)入中國(guó)”。

新加坡網(wǎng)友發(fā)帖:“我接受不了自己以游客身份進(jìn)入中國(guó)”。

荊楚寰宇文樞
2026-04-11 17:21:54
一場(chǎng)1-0,世界杯首支出線隊(duì)出爐!誕生4大不可思議,韓國(guó)送大禮

一場(chǎng)1-0,世界杯首支出線隊(duì)出爐!誕生4大不可思議,韓國(guó)送大禮

歷史膠囊
2026-06-19 16:03:07
宣布退役規(guī)劃后,樊振東沒想到,自己竟以這樣的方式在世界杯火了

宣布退役規(guī)劃后,樊振東沒想到,自己竟以這樣的方式在世界杯火了

君笙的拂兮
2026-06-18 16:48:15
今日!CCTV5直播世界杯,5+轉(zhuǎn)中國(guó)女排 網(wǎng)絡(luò)轉(zhuǎn)大連英博+可為+女足

今日!CCTV5直播世界杯,5+轉(zhuǎn)中國(guó)女排 網(wǎng)絡(luò)轉(zhuǎn)大連英博+可為+女足

晚池
2026-06-19 00:59:17
2026-06-19 18:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯"大冷門":史上最小參賽國(guó)逼平最大奪冠熱門國(guó)

頭條要聞

世界杯"大冷門":史上最小參賽國(guó)逼平最大奪冠熱門國(guó)

體育要聞

世界杯最不知名球員,沒上場(chǎng)先漲粉600萬

娛樂要聞

吳倩自曝小時(shí)被爸爸打掉牙齒硬吞進(jìn)肚

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

教育
時(shí)尚
親子
手機(jī)
公開課

教育要聞

低分報(bào)上好學(xué)校?高考志愿撿漏大法!

夏天上衣穿短不穿長(zhǎng),看看下面這幾款短上衣,顯高舒適顯比例

親子要聞

嬰兒RSV預(yù)防迎來新選擇,創(chuàng)新單抗為寶寶呼吸健康護(hù)航

手機(jī)要聞

618大匯總:蘋果成最大贏家,國(guó)產(chǎn)誰笑到了最后?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版