免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

圖靈獎(jiǎng)得主Sutton:用1967年的公式,解決流式強(qiáng)化學(xué)習(xí)一大缺陷

0
分享至



編輯|Panda

2024 年底,一篇題為「流式深度強(qiáng)化學(xué)習(xí)終于跑通了」的論文(arXiv:2410.14606)在學(xué)界引發(fā)廣泛討論。作者來(lái)自阿爾伯塔大學(xué)的 Mahmood 團(tuán)隊(duì),他們花了大量篇幅描述一個(gè)令人尷尬的現(xiàn)實(shí):強(qiáng)化學(xué)習(xí)作為一種天生應(yīng)該「邊走邊學(xué)」的方法,在深度神經(jīng)網(wǎng)絡(luò)時(shí)代卻幾乎無(wú)法做到這一點(diǎn)。只要去掉回放緩沖區(qū)、只要把批量大小設(shè)為 1,訓(xùn)練就會(huì)崩潰。他們稱(chēng)之為「流式壁壘」(stream barrier)

那篇論文提出的 StreamX 系列算法,靠著精細(xì)調(diào)配的超參數(shù)、稀疏初始化和各種穩(wěn)定化技巧,勉強(qiáng)越過(guò)了這堵墻。

然而不到一年半后,同一課題組的一位成員,連同來(lái)自 Openmind 研究院的合作者,給出了一個(gè)截然不同的答案:流式壁壘的根源不是「數(shù)據(jù)不夠多」,而是「步長(zhǎng)選錯(cuò)了單位」



  • 論文標(biāo)題:Intentional Updates for Streaming Reinforcement Learning
  • 論文地址:https://arxiv.org/pdf/2604.19033v1
  • 代碼庫(kù):https://github.com/sharifnassab/Intentional_RL

一腳油門(mén),開(kāi)出了多大的坑

想象你正在駕車(chē)學(xué)習(xí)停車(chē)入庫(kù)。教練告訴你每次「踩油門(mén) 0.1 秒」。問(wèn)題在于,同樣踩 0.1 秒,上坡、下坡、空載、滿載,車(chē)子前進(jìn)的距離可能天差地別。有時(shí)候差一厘米恰好入庫(kù),有時(shí)候差 30 厘米直接撞墻。

傳統(tǒng)梯度學(xué)習(xí)的步長(zhǎng),做的正是這件事:它規(guī)定參數(shù)每次移動(dòng)多大,但對(duì)函數(shù)輸出到底改變了多少,則完全沒(méi)有控制。在批量訓(xùn)練時(shí),成百上千個(gè)樣本的誤差平均下來(lái),極端情況被稀釋掉了,問(wèn)題并不明顯。但在「流式」環(huán)境下,每一步只有一個(gè)樣本,沒(méi)有平均可言。一旦梯度方向不穩(wěn)定,更新幅度就會(huì)忽大忽小 —— 今天前進(jìn) 30 厘米,明天后退 50 厘米,學(xué)習(xí)過(guò)程在劇烈震蕩中崩潰。

這種「過(guò)沖與欠沖」(overshooting and undershooting)現(xiàn)象在強(qiáng)化學(xué)習(xí)里尤為嚴(yán)重,因?yàn)槊總€(gè)時(shí)間步的梯度不僅幅度各異,方向也在高速變化。

重新定義「一步該做多少」

來(lái)自 Openmind 研究院的 Arsalan Sharifnassab 與阿爾伯塔大學(xué)的 Mohamed Elsayed、A. Rupam Mahmood 和 Richard Sutton 等人,近日發(fā)表的論文中提出了一個(gè)換一個(gè)角度思考的方案:與其指定參數(shù)移動(dòng)多少,不如直接指定函數(shù)輸出該改變多少。

這個(gè)想法并不是憑空而來(lái)的。1967 年,日本學(xué)者 Nagumo 和 Noda 在論文《A learning method for system identification》中就在自適應(yīng)濾波領(lǐng)域提出了「歸一化最小均方差」(NLMS)算法;本質(zhì)上也是用期望的輸出變化來(lái)反推步長(zhǎng),而不是反過(guò)來(lái)。只不過(guò)那個(gè)算法只適用于簡(jiǎn)單的線性場(chǎng)景。

研究者們將這一思路推廣到了深度強(qiáng)化學(xué)習(xí)。他們稱(chēng)之為「意圖更新」(Intentional Updates):每次更新之前,先明確「我希望這一步實(shí)現(xiàn)什么」,然后反推出應(yīng)該用多大的步長(zhǎng)。

對(duì)于價(jià)值學(xué)習(xí)(即預(yù)測(cè)未來(lái)獎(jiǎng)勵(lì)),他們定義的意圖是:每次更新后,當(dāng)前狀態(tài)的價(jià)值預(yù)測(cè)誤差應(yīng)該縮小一個(gè)固定比例 —— 例如縮小 5%,不多也不少。對(duì)于策略學(xué)習(xí)(即優(yōu)化決策行為),他們定義的意圖是:當(dāng)前動(dòng)作的選擇概率,每一步只允許改變一個(gè)「適度」的量

用駕車(chē)的比喻來(lái)說(shuō):這就好比司機(jī)在每次操作前先決定「我要讓車(chē)向前移動(dòng) 20 厘米」,然后根據(jù)當(dāng)前路況(坡度、載重)自動(dòng)計(jì)算該踩多深的油門(mén),而不是每次都踩同樣的深度聽(tīng)天由命。

圖靈獎(jiǎng)得主與他的拼圖

論文的署名之一,是 Richard S. Sutton——2024 年圖靈獎(jiǎng)得主,被廣泛稱(chēng)為「現(xiàn)代強(qiáng)化學(xué)習(xí)之父」。

Sutton 在學(xué)界的地位大約相當(dāng)于物理學(xué)里的費(fèi)曼:他不僅提出了時(shí)間差分學(xué)習(xí)(TD learning)和策略梯度(policy gradient)這兩個(gè)現(xiàn)代強(qiáng)化學(xué)習(xí)的基礎(chǔ)框架,還與 Andrew Barto 合著了該領(lǐng)域最權(quán)威的教材《Reinforcement Learning: An Introduction》(現(xiàn)已出至第二版,可免費(fèi)在線閱讀)。他與 Barto 于 2024 年共享圖靈獎(jiǎng),獎(jiǎng)項(xiàng)評(píng)語(yǔ)是「為強(qiáng)化學(xué)習(xí)奠定了概念與算法基礎(chǔ)」。

獲獎(jiǎng)后,Sutton 沒(méi)有選擇退休,而是將獎(jiǎng)金投入創(chuàng)立的 Openmind 研究院,專(zhuān)門(mén)資助那些愿意在「不受商業(yè)化壓迫的環(huán)境下探索基礎(chǔ)問(wèn)題」的年輕研究者。這篇新論文,正是從這家非營(yíng)利機(jī)構(gòu)走出來(lái)的。

而論文一作 Sharifnassab,之前剛剛在 ICML 2025 發(fā)表了 MetaOptimize 框架,研究如何在線自動(dòng)調(diào)整學(xué)習(xí)率。兩個(gè)課題的關(guān)注點(diǎn)高度一致:如何讓步長(zhǎng)本身變得更智能。

算法細(xì)節(jié):比想象中簡(jiǎn)潔

「意圖更新」的數(shù)學(xué)推導(dǎo)并不復(fù)雜,其核心公式可以用一句話描述:步長(zhǎng)等于「期望的輸出變化量」除以「梯度方向?qū)敵龅膶?shí)際影響力」。

在價(jià)值學(xué)習(xí)中,這個(gè)「實(shí)際影響力」就是梯度向量的范數(shù)(相當(dāng)于衡量當(dāng)前參數(shù)區(qū)域有多「陡」):越陡的地方步長(zhǎng)越小,越平的地方步長(zhǎng)越大,從而保證每次更新對(duì)價(jià)值函數(shù)的沖擊保持一致。

在策略學(xué)習(xí)中,「期望變化量」被定義為與優(yōu)勢(shì)函數(shù)成比例:當(dāng)前動(dòng)作比平均水平好多少,策略就往那個(gè)方向動(dòng)多少 —— 通過(guò)一個(gè)跑動(dòng)平均來(lái)歸一化量級(jí),確保長(zhǎng)期下來(lái)策略改變的幅度穩(wěn)定在一個(gè)可解釋的范圍。

研究者還將這一核心思想與兩個(gè)工程實(shí)踐結(jié)合:RMSProp 風(fēng)格的對(duì)角縮放(處理不同參數(shù)維度量級(jí)差異)和資格跡(eligibility traces,幫助獎(jiǎng)勵(lì)信號(hào)向過(guò)去時(shí)間步傳播)。

最終形成三個(gè)完整算法:用于價(jià)值預(yù)測(cè)的Intentional TD (λ)、用于離散動(dòng)作控制的Intentional Q (λ),以及用于連續(xù)控制的Intentional Policy Gradient







實(shí)驗(yàn)結(jié)果:不靠 GPU 也能打平 SAC

論文在多個(gè)標(biāo)準(zhǔn)基準(zhǔn)上評(píng)估了這套方法,結(jié)果令人印象深刻。

在 MuJoCo 連續(xù)控制任務(wù)(包括 Ant、Humanoid、HalfCheetah 等復(fù)雜仿真機(jī)器人)上,新方法 Intentional AC 在流式設(shè)置下(批量大小 = 1,無(wú)回放緩沖區(qū))的最終性能,多次接近甚至比肩 SAC—— 一個(gè)使用大批量回放緩沖區(qū)、幾乎是當(dāng)前連續(xù)控制任務(wù)黃金標(biāo)準(zhǔn)的算法。而在計(jì)算量上,每次 Intentional AC 更新所需的浮點(diǎn)運(yùn)算,只有一次 SAC 更新的約 1/140



在 Atari 和 MinAtar 離散動(dòng)作游戲上,Intentional Q-learning 的表現(xiàn)同樣與使用回放緩沖區(qū)的 DQN 相當(dāng),且用同一套超參數(shù)設(shè)置跑通了全部任務(wù),無(wú)需逐個(gè)調(diào)參。





研究者還專(zhuān)門(mén)驗(yàn)證了「意圖」是否真的被實(shí)現(xiàn)了:他們測(cè)量了實(shí)際更新量與預(yù)期更新量的比值。在禁用資格跡的簡(jiǎn)化設(shè)置下,這個(gè)比值的標(biāo)準(zhǔn)差僅為 0.016 到 0.029,99 分位數(shù)均在 1.07 以?xún)?nèi);意味著絕大多數(shù)時(shí)候,更新確實(shí)做到了「說(shuō)好要做多少就做多少」。

此外,一組消融實(shí)驗(yàn)表明,去掉 RMSProp 歸一化或者 σ 項(xiàng)之后,性能有所下降但仍然有競(jìng)爭(zhēng)力,而這個(gè)「意圖縮放」本身是首要貢獻(xiàn)者,其他組件都是輔助。



問(wèn)題還是有的

「意圖更新」框架在魯棒性上也展示出明顯優(yōu)勢(shì)。當(dāng)研究者逐一去掉 StreamX 方法所依賴(lài)的各種穩(wěn)定化輔助技巧(稀疏初始化、獎(jiǎng)勵(lì)縮放、輸入歸一化、LayerNorm)時(shí),Intentional AC 的性能退化明顯少于原始 StreamAC,說(shuō)明意圖縮放從根源上減少了對(duì)外部「拐杖」的依賴(lài)。

但論文也坦誠(chéng)了一個(gè)尚未完全解決的問(wèn)題:策略學(xué)習(xí)中,步長(zhǎng)依賴(lài)于當(dāng)前采樣的動(dòng)作,這會(huì)使不同動(dòng)作被隱性賦予不同的「權(quán)重」,可能改變策略梯度的期望方向。在 Humanoid 和 HumanoidStandup 任務(wù)中,通過(guò)測(cè)量期望更新方向的余弦相似度,研究者發(fā)現(xiàn)這種偏差在關(guān)鍵學(xué)習(xí)階段接近 0.96(幾乎沒(méi)有影響);但在 Ant-v4 中,對(duì)齊度降至中位數(shù) 0.63,說(shuō)明問(wèn)題并非總能被忽視。

作者指出,未來(lái)研究應(yīng)當(dāng)尋找對(duì)動(dòng)作無(wú)關(guān)的步長(zhǎng)選擇策略,使「意圖」在期望意義下也保持無(wú)偏。這是該方向上留給后來(lái)者的明確作業(yè)。

結(jié)語(yǔ):讓 AI 像人一樣邊做邊學(xué)

當(dāng)前主流的大模型訓(xùn)練范式,依賴(lài)海量數(shù)據(jù)的批量消化:把互聯(lián)網(wǎng)上的文字和代碼統(tǒng)統(tǒng)喂進(jìn)去,反復(fù)迭代,最終涌現(xiàn)出令人驚嘆的能力。這套路線已經(jīng)被證明行之有效,但它從根本上是「先學(xué)后用」的:一旦訓(xùn)練完成,模型就凍結(jié)了,無(wú)法從后續(xù)的每一次實(shí)際交互中持續(xù)更新。

流式強(qiáng)化學(xué)習(xí)所追求的,是另一種截然不同的學(xué)習(xí)模式:不依賴(lài)海量回放,不依賴(lài)龐大 GPU 集群,每一步經(jīng)歷都立刻轉(zhuǎn)化為參數(shù)更新,持續(xù)、廉價(jià)、自適應(yīng)。這更接近人類(lèi)和動(dòng)物真實(shí)的學(xué)習(xí)方式。

從 Elsayed 等人 2024 年「終于跑通了」的初步突破,到這篇論文提出的「意圖更新」原則,流式深度強(qiáng)化學(xué)習(xí)正在以令人意外的速度走向成熟。它不會(huì)取代批量訓(xùn)練的大模型,但對(duì)于需要長(zhǎng)期在線適應(yīng)的機(jī)器人、邊緣設(shè)備,以及任何無(wú)法承受大規(guī)模回放緩沖區(qū)和 GPU 集群的應(yīng)用場(chǎng)景,這條路線正變得越來(lái)越有說(shuō)服力。

步長(zhǎng)不只是一個(gè)超參數(shù),它是 AI 每一步「想做多少」的承諾。當(dāng)這個(gè)承諾終于變得可控,學(xué)習(xí)本身就穩(wěn)定了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
65歲上海定居,丈夫女兒遠(yuǎn)在美國(guó),她仍國(guó)內(nèi)奔波掙錢(qián)

65歲上海定居,丈夫女兒遠(yuǎn)在美國(guó),她仍國(guó)內(nèi)奔波掙錢(qián)

荒野老五
2026-06-19 15:40:15
西方越想越怕,中方所有軍演預(yù)案,都在練單挑全世界

西方越想越怕,中方所有軍演預(yù)案,都在練單挑全世界

了舞天下
2026-06-17 17:57:55
保護(hù)東北虎50年,中俄東北虎數(shù)量差距斷崖,俄羅斯700只,中國(guó)呢

保護(hù)東北虎50年,中俄東北虎數(shù)量差距斷崖,俄羅斯700只,中國(guó)呢

掠影后有感
2026-06-15 09:45:27
世界杯賭球黑幕:8000億屠宰場(chǎng),普通人難有勝算

世界杯賭球黑幕:8000億屠宰場(chǎng),普通人難有勝算

史虇的生活科普
2026-06-16 20:53:53
如果在落鳳坡死的人是諸葛亮,龐統(tǒng)能打敗司馬懿嗎?答案很明顯了

如果在落鳳坡死的人是諸葛亮,龐統(tǒng)能打敗司馬懿嗎?答案很明顯了

掠影后有感
2026-06-19 10:00:55
4換1?追求米切爾!馬刺操作引爆聯(lián)盟,福克斯圣城生涯提前結(jié)束了

4換1?追求米切爾!馬刺操作引爆聯(lián)盟,??怂故コ巧奶崆敖Y(jié)束了

體育大朋說(shuō)
2026-06-19 10:39:19
6.19世界杯推薦:巴西vs海地

6.19世界杯推薦:巴西vs海地

烏鴉侃球戰(zhàn)術(shù)板
2026-06-19 10:53:02
萬(wàn)斯:以色列不能靠殺戮解決國(guó)家安全問(wèn)題

萬(wàn)斯:以色列不能靠殺戮解決國(guó)家安全問(wèn)題

界面新聞
2026-06-19 15:42:03
她原本只是一名普通觀眾,前往賽場(chǎng)觀看比賽就此一夜爆紅

她原本只是一名普通觀眾,前往賽場(chǎng)觀看比賽就此一夜爆紅

娛你同歡
2026-06-06 17:57:59
一份家暴諒解書(shū),換五處房產(chǎn)?

一份家暴諒解書(shū),換五處房產(chǎn)?

中國(guó)新聞周刊
2026-06-18 22:40:25
TVB女主播報(bào)新聞臉上出現(xiàn)疑似血痕,網(wǎng)友紛紛猜測(cè)受傷緣由

TVB女主播報(bào)新聞臉上出現(xiàn)疑似血痕,網(wǎng)友紛紛猜測(cè)受傷緣由

TVB劇評(píng)社
2026-06-18 15:35:32
中國(guó)腦梗發(fā)病率世界第一!醫(yī)生苦勸:罪魁禍?zhǔn)滓丫境?,這4物少吃

中國(guó)腦梗發(fā)病率世界第一!醫(yī)生苦勸:罪魁禍?zhǔn)滓丫境?,這4物少吃

醫(yī)學(xué)科普匯
2026-06-17 18:55:13
盧卡申科向澤連斯基道歉!承認(rèn)白俄軍隊(duì)根本不是烏克蘭的對(duì)手

盧卡申科向澤連斯基道歉!承認(rèn)白俄軍隊(duì)根本不是烏克蘭的對(duì)手

項(xiàng)鵬飛
2026-06-16 20:59:44
“浙大萬(wàn)建峰教授”直言:激光雷達(dá)是多余,F(xiàn)SD無(wú)條件超越所有智駕!網(wǎng)友:華為的融合感知呢?

“浙大萬(wàn)建峰教授”直言:激光雷達(dá)是多余,F(xiàn)SD無(wú)條件超越所有智駕!網(wǎng)友:華為的融合感知呢?

大白聊IT
2026-06-16 17:03:01
NBA規(guī)定惹麻煩,楊瀚森缺席中國(guó)男籃熱身賽首戰(zhàn)

NBA規(guī)定惹麻煩,楊瀚森缺席中國(guó)男籃熱身賽首戰(zhàn)

格斗聯(lián)盟有話說(shuō)
2026-06-19 11:25:36
Model 3 剛提第一周玻璃碎了,特斯拉車(chē)主:還好可以免費(fèi)更換!

Model 3 剛提第一周玻璃碎了,特斯拉車(chē)主:還好可以免費(fèi)更換!

新浪財(cái)經(jīng)
2026-06-18 19:55:22
38歲梅西創(chuàng)造歷史僅1天,惡心的一幕發(fā)生,阿根廷總統(tǒng)怒斥:荒唐

38歲梅西創(chuàng)造歷史僅1天,惡心的一幕發(fā)生,阿根廷總統(tǒng)怒斥:荒唐

阿雹娛樂(lè)
2026-06-19 13:34:03
當(dāng)醫(yī)生開(kāi)始“反擊”:一場(chǎng)感冒引發(fā)的荒誕劇

當(dāng)醫(yī)生開(kāi)始“反擊”:一場(chǎng)感冒引發(fā)的荒誕劇

醫(yī)脈圈
2026-06-16 20:11:16
衡陽(yáng)會(huì)戰(zhàn):重創(chuàng)日軍11萬(wàn)人,打到日本首相下臺(tái),70000日軍死傷

衡陽(yáng)會(huì)戰(zhàn):重創(chuàng)日軍11萬(wàn)人,打到日本首相下臺(tái),70000日軍死傷

易玄
2025-01-26 23:54:47
韓媒:韓國(guó)股市總市值首次突破8000萬(wàn)億韓元

韓媒:韓國(guó)股市總市值首次突破8000萬(wàn)億韓元

中新經(jīng)緯
2026-06-19 11:25:21
2026-06-19 16:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

男子醉駕撞死16歲少女 最初被認(rèn)定全責(zé)復(fù)議后變主責(zé)

頭條要聞

男子醉駕撞死16歲少女 最初被認(rèn)定全責(zé)復(fù)議后變主責(zé)

體育要聞

加拿大球員小腿變形重傷 亞洲冠軍輸球輸人

娛樂(lè)要聞

吳倩自曝小時(shí)被爸爸打掉牙齒硬吞進(jìn)肚

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車(chē)要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

手機(jī)
健康
時(shí)尚
教育
軍事航空

手機(jī)要聞

Pixel 10手機(jī)用戶反饋AI“搶鏡”問(wèn)題,Gmail無(wú)法正?;貜?fù)郵件

吃粽子的3條保胃法則,消化科醫(yī)生推薦

鞋子專(zhuān)場(chǎng)|| 有了它,衣柜里的衣服突然變得好搭了

教育要聞

第31課-飛機(jī)上,如何讓外國(guó)人愿意跟你換座位?

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競(jìng)渡來(lái)了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版