免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網易首頁 > 網易號 > 正文 申請入駐

重構跨域RL框架!理論驅動「雙重對齊」讓跨域遷移「質變」

0
分享至



本文作者來自香港城市大學、伊利諾伊大學厄巴納 - 香檳分校、騰訊、中國電信人工智能研究院、清華大學等機構。作者包括喬鐘健、楊瑞、呂加飛、白辰甲、李秀、高思陽、邱爽。其中,第一作者為香港城市大學喬鐘健,通訊作者為香港城市大學邱爽。



  • 論文標題:Efficient Cross-Domain Offline Reinforcement Learning with Dynamics- and Value-Aligned Data Filtering
  • 文章鏈接:https://arxiv.org/pdf/2512.02435

在現實世界中通過強化學習訓練智能體,往往需要大量在線試錯與環(huán)境探索,這不僅成本高昂,還可能帶來顯著安全風險:機器人可能因試錯而損壞,自動駕駛的在線探索可能危及行車安全,而持續(xù)采集交互數據本身也代價巨大。因此,離線強化學習(offline RL)通過直接利用歷史靜態(tài)數據進行策略學習,規(guī)避了持續(xù)在線交互需求,為在高成本、高風險場景中應用強化學習提供了更可行的路徑,成為推動強化學習走向真實世界的關鍵方向。

然而,當目標環(huán)境數據稀缺時(例如,新部署的機器人僅擁有少量演示數據),僅憑目標域數據難以支撐高性能策略的學習。這一困境催生了跨域離線強化學習(Cross-Domain Offline RL)這一范式 —— 它致力于借助源域(如動力學存在差異但數據豐富的仿真環(huán)境)中的知識,彌補目標域數據不足,為數據匱乏的目標域注入學習動能,促進目標域完成策略學習。

雖然跨領域離線強化學習的出發(fā)點很好,但源域與目標域之間往往存在動力學偏移(Dynamics Misalignment),即狀態(tài)轉移動力學規(guī)律不一致。在這種情況下,直接合并源域和目標域數據進行訓練會引發(fā)嚴重的分布外動力學 (OOD Dynamics)問題:模型學習到的轉移規(guī)律難以在目標域成立,因而性能往往會迅速退化,最終令訓練崩潰。目前解決這一問題的主流范式是動力學對齊驅動的數據過濾:首先通過對比學習或最優(yōu)傳輸等方式度量源域樣本和目標域的動力學偏移程度,然后過濾掉部分動力學明顯不一致的源域數據,只保留那些動力學行為更接近目標域的樣本參與訓練。

然而,這一范式在邏輯上依賴于一個極強的隱藏假設:動力學相似性足以刻畫源域數據的可遷移性,只要源域樣本在轉移動力學上與目標域的 “足夠接近”,源域數據便一定值得保留并用于訓練。但這一假設忽略了源域數據的另一項關鍵屬性 —— 數據質量。在現實問題中,源域不僅僅與目標域存在動力學偏移,更重要的是源域數據所含學習信號也未必同等有效,進而影響其對目標域策略學習的實際貢獻。如果一組源域數據在動力學上與目標域完全一致,卻是從環(huán)境中隨機收集的低質量數據,它對學習目標域策略的貢獻真的大嗎?

研究動機:動力學對齊真的充分嗎?



為了探究上述問題,作者們設計了一個啟發(fā)性實驗:在 Hopper 機器人控制任務中,源域數據由兩種類別構成:動力學對齊,但低質量的隨機樣本;以及存在動力學偏差,但高質量的專家樣本。按照現有的 IGDF 等方法,由于專家樣本存在動力學偏差,它們會被立刻過濾掉,最終只會保留隨機樣本進行策略訓練。然而,隨機樣本對策略性能的提升是相當有限的,這導致最終策略僅僅收斂到次優(yōu)性能。這表明,低質量源域數據提供的有效信息較少,進而削弱其對目標域策略學習的貢獻。

針對現有方法所存在的問題,論文首先從理論層面定位了其根源所在:現有跨域離線強化學習的主流分析框架與其真正的學習目標并不匹配。這一錯位直接導致現有方法只聚焦于動力學對齊,系統性忽視了源域數據質量。為此,論文進一步重構理論框架,通過直接推導目標域策略學習的次優(yōu)性差距(sub-optimality gap)上界,從理論上明確:高效的跨域離線強化學習必須兼顧動力學偏移與價值偏差。在該理論結論驅動下,論文提出DVDF 方法:設計統一的數據過濾框架同時實現源域樣本的動力學對齊與價值對齊,選擇 “既像又值” 的源域數據用于訓練。DVDF 可作為插件(plug-in)模塊無縫集成到現有的方法中(如 IGDF、OTDF 等),并帶來穩(wěn)定的性能提升。

理論重構:修正跨域離線強化學習的優(yōu)化目標

















動力學和價值雙對齊的數據過濾框架

基于以上分析,我們需要同時度量價值對齊和動力學對齊程度。對于動力學對齊,我們可采用現有工作中成熟的方案,如對比學習和最優(yōu)傳輸等。文章需要解決的關鍵問題在于價值對齊程度的度量。為了解決這個問題,文章首先推導出了價值對齊項的上界:







值得注意的是,預訓練得到的優(yōu)勢函數的近似誤差不可忽視。為了進一步降低近似誤差的影響,文章首先推導出了優(yōu)勢近似誤差的具體形式:





然而,IQL 學習價值函數時,易受數據集中次優(yōu)動作的影響,導致價值函數常被低估,從而導致優(yōu)勢函數被高估。進一步,為了解決該問題,我們選用了 Sparse Q-learning (SQL) 算法進行預訓練。SQL 通過在價值函數訓練中顯式引入稀疏性,從而降低了次優(yōu)動作對價值估計的影響,能夠估計出更準確的優(yōu)勢函數。











實驗驗證

1. 動力學偏移場景下的性能對比

論文中設計了多個動力學偏移場景以驗證 DVDF 的有效性。論文通過在四種機器人控制任務中(halfcheetah, hopper, walker2d, ant)引入兩種動力學偏移:關節(jié)偏移(kinematic shifts)和形體偏移(morphology shifts)以構建源域環(huán)境,并在相應環(huán)境中收集不同質量的離線數據以構建源域數據集。同時,論文直接從標準的 D4RL 數據集中進行采樣以構建目標域數據集。下表展示了在動態(tài)偏移場景下 DVDF 和多個基線方法的標準化得分(Normalized Score)對比。可以看出,DVDF 在絕大多數數據集中的性能都優(yōu)于基線方法,這是因為 DVDF 利用了源域數據集中的數據質量的信息,能夠篩選出更具有價值的高質量樣本。

具體而言,在關節(jié)偏移場景下,DVDF 與多個基線方法的標準化得分對比。DVDF 為基礎算法 IGDF 和 OTDF 帶來了顯著的性能提升:DVDF-IGDF 在 20 個任務中的 16 個上超越了原 IGDF 方法,總分從 1001.6 提升至 1164.7,增幅達 16.3%;DVDF-OTDF 則在 15 個任務上超越了原 OTDF 方法,總分從 986.5 提升至 1172.3,增幅達 18.8%。在形體偏移這一設定下,DVDF 依然保持了顯著的性能優(yōu)勢。DVDF-IGDF 在 20 個任務中的 16 個上超越了原 IGDF 方法,總分從 1039.0 提升至 1198.7,增幅達 15.4%;DVDF-OTDF 則在 14 個任務上超越了原 OTDF 方法,總分從 1042.1 提升至 1156.3,增幅達 11.0%。





2. 消融實驗

在消融實驗部分,論文主要分析了分別使用 SQL 和 IQL 算法進行優(yōu)勢函數預訓練對策略性能和優(yōu)勢估計偏差的影響。如下圖所示,相比于 IQL 算法,使用 SQL 算法進行優(yōu)勢函數預訓練能夠得到更高的策略性能以及更低的優(yōu)勢估計誤差。



3. 參數敏感性實驗





總結

本論文聚焦于動力學偏移下的跨域離線強化學習,通過實驗和理論層面的探究,證明了動力學和價值雙重對齊對于跨域離線強化學習至關重要?;谶@一發(fā)現,論文提出全新的跨域離線強化學習框架 DVDF。通過在源域上預訓練優(yōu)勢函數來度量樣本價值,并與動力學對齊相結合,DVDF 能夠識別并篩選出對策略學習有價值源域樣本。在多種場景下的實驗結果表明,DVDF 都展示了比基線算法更高的性能,充分驗證了其有效性。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
絕殺!非洲隊第二勝來了,發(fā)揮拉胯不配十個名額,該分給亞洲2個

絕殺!非洲隊第二勝來了,發(fā)揮拉胯不配十個名額,該分給亞洲2個

小七說籃球
2026-06-18 13:55:35
虎撲網友深夜求助:這人到底是誰?

虎撲網友深夜求助:這人到底是誰?

影視情報室
2026-06-19 00:23:46
B費社媒遭攻陷:自私+故意不傳球!怕C羅世界杯發(fā)光 總裁親姐點贊

B費社媒遭攻陷:自私+故意不傳球!怕C羅世界杯發(fā)光 總裁親姐點贊

我愛英超
2026-06-18 21:36:54
沉默45年,中國第二輪"嚴打"終于來了!目標改變總體戰(zhàn)正式打響

沉默45年,中國第二輪"嚴打"終于來了!目標改變總體戰(zhàn)正式打響

職場資深秘書
2026-06-15 16:41:48
四川宜賓警方通報“159瓶茅臺被跨省扣押3年后多瓶失蹤”

四川宜賓警方通報“159瓶茅臺被跨省扣押3年后多瓶失蹤”

界面新聞
2026-06-18 23:05:42
梁文鋒為什么選了劉強東,沒選馬云?

梁文鋒為什么選了劉強東,沒選馬云?

帥真商業(yè)
2026-06-18 10:20:26
梅西婉拒隊友讓座+直接坐草地的視頻在國外瘋傳,球迷:德藝雙馨

梅西婉拒隊友讓座+直接坐草地的視頻在國外瘋傳,球迷:德藝雙馨

側身凌空斬
2026-06-19 02:17:32
烏克蘭正贏得戰(zhàn)爭:目標每月殺傷俄軍從3.5萬提升至5萬,用無人機改變戰(zhàn)局

烏克蘭正贏得戰(zhàn)爭:目標每月殺傷俄軍從3.5萬提升至5萬,用無人機改變戰(zhàn)局

可達鴨面面觀
2026-06-18 11:59:01
G7峰會吵翻天,高市早苗反華,再上新的高度,中國反成最大焦點

G7峰會吵翻天,高市早苗反華,再上新的高度,中國反成最大焦點

流史歲月
2026-06-18 19:30:09
世界杯一輪戰(zhàn)罷!誰能夠奪冠一目了然,這 2 隊或進入總決賽

世界杯一輪戰(zhàn)罷!誰能夠奪冠一目了然,這 2 隊或進入總決賽

體壇狗哥
2026-06-18 23:10:09
查封的 “全季酒店” 被改成 “金季酒店”,罰款30萬也拒不停業(yè)

查封的 “全季酒店” 被改成 “金季酒店”,罰款30萬也拒不停業(yè)

大風新聞
2026-06-18 20:45:13
克羅地亞網紅球迷太漂亮出圈,吐槽英格蘭隊傲慢,提前開香檳打臉

克羅地亞網紅球迷太漂亮出圈,吐槽英格蘭隊傲慢,提前開香檳打臉

譯言
2026-06-18 11:43:49
高市早苗稱“非常擔心”中國對日本的稀土出口限制措施,外交部:她一邊喊著對話,一邊忙著對抗,完全是自相矛盾

高市早苗稱“非常擔心”中國對日本的稀土出口限制措施,外交部:她一邊喊著對話,一邊忙著對抗,完全是自相矛盾

日照日報
2026-06-18 16:31:03
轟動全網的北京“退衣姐”被刑拘事件:我們還是低估了這群人的不要臉

轟動全網的北京“退衣姐”被刑拘事件:我們還是低估了這群人的不要臉

桌子的生活觀
2026-06-18 12:30:11
外交部發(fā)言人就韓國外交部官員完整公開重申中韓建交聯合公報涉臺表述答記者問

外交部發(fā)言人就韓國外交部官員完整公開重申中韓建交聯合公報涉臺表述答記者問

澎湃新聞
2026-06-19 00:39:26
鄭欽文排名斷崖式下跌:資本迅速撤離,曾經追捧她的品牌去哪了

鄭欽文排名斷崖式下跌:資本迅速撤離,曾經追捧她的品牌去哪了

財經保探長
2026-06-18 23:35:15
美國與伊朗簽署《諒解備忘錄》,荒唐至極

美國與伊朗簽署《諒解備忘錄》,荒唐至極

史政先鋒
2026-06-18 12:34:25
私生活混亂、被央視“開除”、陪睡上位,她身上哪個標簽是真的?

私生活混亂、被央視“開除”、陪睡上位,她身上哪個標簽是真的?

素衣讀史
2026-06-18 21:37:31
這回中國可能真要栽大跟頭,投資的錢估計要全砸進去收不回來!

這回中國可能真要栽大跟頭,投資的錢估計要全砸進去收不回來!

云鵬敘事
2026-06-17 19:55:03
哥倫比亞3比1戰(zhàn)勝烏茲別克斯坦,力壓葡萄牙暫列小組第一

哥倫比亞3比1戰(zhàn)勝烏茲別克斯坦,力壓葡萄牙暫列小組第一

澎湃新聞
2026-06-18 12:04:31
2026-06-19 05:31:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數 142673關注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經要聞

博??礗PO,賺錢業(yè)務與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

教育
家居
時尚
手機
房產

教育要聞

畢業(yè)即高薪!高考生緊盯這6個專業(yè),畢業(yè)后50%能到國企就業(yè)!

家居要聞

綠意盎然 自然之境

看不懂球,還看不懂帥哥嗎?

手機要聞

iOS 27「查找」App升級:支持隱藏共享位置與自定義時長

房產要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調規(guī)!

無障礙瀏覽 進入關懷版