免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

用國(guó)產(chǎn)GPU訓(xùn)練AI給自己寫內(nèi)核,摩爾線程刷榜硬核基準(zhǔn)

0
分享至



編輯|澤南

國(guó)產(chǎn)算力生態(tài)的難題,從此有了 AI 解。

最近,在比「AI 生成 GPU 內(nèi)核」的硬核基準(zhǔn) KernelBench 上,摩爾線程的模型拿下了第一。



在 MooreEval 執(zhí)行式驗(yàn)證協(xié)議的加持下,摩爾線程的 MusaCoder-27B-RL 取得了領(lǐng)先業(yè)界的表現(xiàn),超越了 Claude Opus、GLM-5.1、Kimi K2.6 等一眾國(guó)內(nèi)外先進(jìn)大模型。

這次拿下成績(jī)的,是上周才正式發(fā)布并開源的 MusaCoder,這是一款面向 GPU 底層算子生成的專用大模型,能自動(dòng)把 PyTorch 代碼轉(zhuǎn)換為 CUDA 與 MUSA 內(nèi)核,為 AI 訓(xùn)練等任務(wù)提供加速,旨在降低開發(fā)者手寫底層 GPU 算子的門檻。



  • 論文:《MusaCoder: Native GPU Kernel Generation with Full-Stack Training on Moore Threads GPU》
  • 論文地址:http://arxiv.org/abs/2606.04847
  • 模型權(quán)重:https://huggingface.co/MooreThreads/MusaCoder-27B

值得關(guān)注的是,MusaCoder 是業(yè)內(nèi)首個(gè)基于國(guó)產(chǎn) GPU 算力底座完成全鏈路訓(xùn)練與驗(yàn)證的開源代碼大模型,其完整后訓(xùn)練流程均在基于 MTT S5000 的夸娥智算集群上完成。從 AI 模型到 GPU 硬件,全部國(guó)產(chǎn)化。

這是國(guó)產(chǎn) AI 算力領(lǐng)域的一次突破。

生成 GPU 內(nèi)核的競(jìng)賽

比的是真實(shí)性能提升

用 AI 來生成 GPU 內(nèi)核(Kernel),是當(dāng)前大語言模型(LLM)最硬核的挑戰(zhàn)之一。

KernelBench 由斯坦福大學(xué)和普林斯頓大學(xué)于 2025 年推出,它被設(shè)計(jì)為一個(gè)「真實(shí)世界的工程環(huán)境」,專門用來衡量大模型編寫高效 GPU 內(nèi)核代碼的能力。

簡(jiǎn)單來說,其核心任務(wù)是:

給定一個(gè) PyTorch 模型架構(gòu),讓大模型生成一個(gè)定制的、內(nèi)嵌 C/C++ 的 CUDA 內(nèi)核,以替換原有的 PyTorch 算子,目標(biāo)是實(shí)現(xiàn)程序加速。

與其他代碼生成任務(wù)不同的是,該基準(zhǔn)不僅關(guān)注內(nèi)核能否正確運(yùn)行,更看重其相對(duì)于基線能否帶來實(shí)際的性能提升

另一方面,讓 AI 自動(dòng)化編寫高效、底層的 GPU/CUDA 代碼又是當(dāng)前突破算力瓶頸的關(guān)鍵。讓 AI 掌握這項(xiàng)能力不僅能推動(dòng)生成代碼的研究,更會(huì)在實(shí)際應(yīng)用中為降低算力成本、提高能效提供直接可用的工具。

為了全面評(píng)估模型能力,KernelBench 包含了超過 250 個(gè) PyTorch 機(jī)器學(xué)習(xí)任務(wù),并按復(fù)雜度和粒度分為 4 個(gè)遞進(jìn)難度級(jí)別,從 Level 1 的核心基礎(chǔ)算子如卷積、矩陣乘法、歸一化等,到 Level 4,Hugging Face 上的生產(chǎn)級(jí)模型優(yōu)化任務(wù)。

在這之上還有級(jí)化的評(píng)估流程,基于一個(gè)三階段的嚴(yán)格驗(yàn)證流水線,以確保結(jié)果的可靠性。另外,KernelBench 還要求其加速比超過用戶可設(shè)定的閾值:AI 生成的代碼光「正確」還不夠,必須真正有提供加速效果的價(jià)值。

因此,KernelBench 被視為一個(gè)非常嚴(yán)苛的基準(zhǔn)。剛剛推出時(shí),DeepSeek R1 在所有任務(wù)上的通過率也只有 30%,注意這只是「能用」的比例,還不是 AI 生成的代碼能帶來性能提升的比例。MusaCoder 現(xiàn)在已經(jīng)做到了通過率 88.6%,超越的個(gè)個(gè)都是以寫代碼能力著稱的大模型。

在論文中,研究人員報(bào)告了 MusaCoder 在 Level 1 到 Level 3 能力的各項(xiàng)指標(biāo):



可見大多數(shù)知名通用大模型在 GPU 內(nèi)核生成任務(wù)上的能力并不盡如人意,而 MusaCoder 不僅可以做到生成的代碼能用,部分代碼已可以做到「好用」:性能比基準(zhǔn)線高至少 1.1 倍。

那么,摩爾線程是如何用一款「小模型」做到的?

MusaCoder 的秘訣

讓 AI 自我改進(jìn)

在 KernelBench 上,MusaCoder 超越的模型參數(shù)量都在大幾千億到萬億級(jí)別,自己卻只有 270 億。能實(shí)現(xiàn)「以小博大」,其背后的方法創(chuàng)新是核心。

與通用的代碼生成任務(wù)不同,GPU 核心的生成對(duì)并行計(jì)算、線程組織、內(nèi)存訪問、索引映射和硬件執(zhí)行等特性要求很高,生成的代碼不僅要語法對(duì),還要能通過編譯,不投機(jī)取巧,在真實(shí)執(zhí)行中獲得性能收益。

為此,KernelBench 構(gòu)建了一套專門針對(duì) GPU 原生內(nèi)核生成任務(wù)的「全棧訓(xùn)練」方案,其中最關(guān)鍵的一環(huán)是MooreEval 執(zhí)行式驗(yàn)證協(xié)議



MooreEval 的架構(gòu):這是一個(gè)基于執(zhí)行的可擴(kuò)展評(píng)估環(huán)境,用于對(duì)生成的原生 GPU 內(nèi)核函數(shù)進(jìn)行編譯、驗(yàn)證、性能分析及獎(jiǎng)勵(lì)。

簡(jiǎn)單來說,MooreEval 是研究人員為 GPU 內(nèi)核生成任務(wù)設(shè)計(jì)的一套自動(dòng)化、分布式、結(jié)構(gòu)化的「考試評(píng)判系統(tǒng)」。它不像傳統(tǒng)方法只檢查代碼文本相似度或進(jìn)行簡(jiǎn)單的靜態(tài)分析,而是通過真實(shí)地編譯、運(yùn)行和評(píng)測(cè)模型生成的代碼,提供結(jié)構(gòu)化的反饋和獎(jiǎng)勵(lì)信號(hào),用于指導(dǎo)大模型的訓(xùn)練和評(píng)估。

對(duì)于模型生成的每個(gè)候選內(nèi)核代碼,MooreEval 都會(huì)執(zhí)行一個(gè)分階段的驗(yàn)證管道,包括接口和編譯檢查、正確性驗(yàn)證、反作弊檢測(cè)、以及性能測(cè)試。只有當(dāng)上一階段通過后,候選的方法才會(huì)進(jìn)入下一階段。

經(jīng)過流程審核的代碼會(huì)根據(jù)一個(gè)層次化的獎(jiǎng)勵(lì)函數(shù)計(jì)算分?jǐn)?shù),除了用于判斷最終實(shí)力的分?jǐn)?shù),還會(huì)輸出豐富的結(jié)構(gòu)化信息,它們會(huì)自動(dòng)轉(zhuǎn)化為可供模型理解的自然語言診斷,用于模型的進(jìn)一步訓(xùn)練。

為了能在強(qiáng)化學(xué)習(xí)訓(xùn)練中高效處理大批量代碼編譯和執(zhí)行,MooreEval 被設(shè)計(jì)成一個(gè)分布式異步流水線系統(tǒng),它將編譯與執(zhí)行進(jìn)行了解耦,CPU 密集型的編譯工作和 GPU 密集型的執(zhí)行工作被分配給不同類型的執(zhí)行器(Worker),彼此獨(dú)立伸縮,避免了 GPU 在等待編譯時(shí)的空閑。

在 GPU 內(nèi)核生成這件事上,MooreEval 就像是一個(gè)自動(dòng)打分的考官,它通過真實(shí)地編譯、運(yùn)行、反作弊檢測(cè)和性能測(cè)試,實(shí)現(xiàn)了高效率和大規(guī)模的驗(yàn)證,并為模型提供了精準(zhǔn)的學(xué)習(xí)信號(hào),是驅(qū)動(dòng) MusaCoder 實(shí)現(xiàn)高性能的關(guān)鍵引擎。

讓 AI 能 Know How

全棧后訓(xùn)練體系

MooreEval 只是 MusaCoder 模型特性的一小部分。

MusaCoder 的訓(xùn)練流程,包含利用多種原始數(shù)據(jù)源構(gòu)建面向 Kernel 的語料庫、數(shù)據(jù)增強(qiáng)、SFT 與 RFT、兩階段強(qiáng)化學(xué)習(xí)流程的優(yōu)化,以及 PrimeEcho、MirrorPop 和 Buffered Dynamic Retry 三種穩(wěn)定技術(shù)。



為了讓 AI 模型能夠真正學(xué)會(huì)寫 GPU 內(nèi)核,MusaCoder 構(gòu)建了一套面向 GPU 原生算子生成的全棧后訓(xùn)練體系。

在數(shù)據(jù)構(gòu)建階段,MusaCoder 通過一個(gè)三階段漸進(jìn)式的數(shù)據(jù)合成管道,系統(tǒng)地培養(yǎng)了模型理解 GPU 編程所需的「思維模式」:

  • 第一階段是通過 GitHub 真實(shí)代碼、NNSmith 自動(dòng)生成圖等多種來源,構(gòu)建一個(gè)龐大的 PyTorch-CUDA/MUSA 任務(wù)集,并注入 GPU 編程基礎(chǔ)知識(shí);
  • 第二階段是結(jié)構(gòu)化推理和顯式的 Shape 信息注入,其增強(qiáng)了模型對(duì)張量形狀、內(nèi)存布局和索引關(guān)系的理解,讓模型不僅知道要做什么,還要理解「怎么做」;
  • 第三階段是多輪的交互與環(huán)境反饋解析,通過接收編譯錯(cuò)誤、運(yùn)行時(shí)報(bào)錯(cuò)、性能瓶頸等反饋,讓模型據(jù)此進(jìn)行針對(duì)性的修復(fù)和優(yōu)化,為后續(xù)的強(qiáng)化學(xué)習(xí)模擬多輪修復(fù)場(chǎng)景,緩解獎(jiǎng)勵(lì)稀疏的問題。



SFT 數(shù)據(jù)構(gòu)建流水線的三階段演進(jìn)。

為提升強(qiáng)化學(xué)習(xí)的穩(wěn)定性,MusaCoder 又引入了 PrimeEcho、Buffered Dynamic Retry,以及 MirrorPop 三個(gè)機(jī)制。

為了防止模型獎(jiǎng)勵(lì)作弊,為了「及格」而過度依賴多輪反饋,研究團(tuán)隊(duì)設(shè)計(jì)了基于首輪交互錨定的多輪獎(jiǎng)勵(lì)機(jī)制 PrimeEcho。這是一個(gè)全新的軌跡級(jí)獎(jiǎng)勵(lì)公式,將首輪生成質(zhì)量和整個(gè)過程中的最好表現(xiàn)按權(quán)重結(jié)合,確保了模型優(yōu)化的主要目標(biāo)始終是提升首輪生成質(zhì)量,多輪修復(fù)只是輔助。

緩沖動(dòng)態(tài)重試(Buffered Dynamic Retry,BDR)用于從完全失敗的困難樣本中恢復(fù)信號(hào),目標(biāo)是解決 GPU 內(nèi)核生成這種高難度任務(wù)中正樣本稀少的挑戰(zhàn)。一旦某輪任務(wù)徹底失敗,BDR 會(huì)將任務(wù)描述、失敗的代碼和報(bào)錯(cuò)信息打包成一個(gè)新任務(wù),放入一個(gè)「動(dòng)態(tài)緩存池」。模型會(huì)以較低概率從中學(xué)習(xí)如何修復(fù)自己的錯(cuò)誤,從而挽救原本無學(xué)習(xí)價(jià)值的失敗樣本。

MirrorPop則用于解決強(qiáng)化學(xué)習(xí)過程中模型訓(xùn)練不穩(wěn)定的問題。它通過一個(gè)更精準(zhǔn)的過濾器,能夠精準(zhǔn)剔除高風(fēng)險(xiǎn)樣本。

根據(jù)實(shí)驗(yàn)數(shù)據(jù),這三項(xiàng)機(jī)制在提升模型最終性能上都獲得了明顯的性能提升效果。

國(guó)產(chǎn) AI 算力技術(shù)棧

全流程跑通

當(dāng)然,MusaCoder 的意義也不止于模型本身。

AI 模型的構(gòu)建,是一個(gè)硬件與軟件棧的復(fù)雜磨合過程,對(duì)編譯棧的兼容性、運(yùn)行時(shí)穩(wěn)定性、調(diào)度系統(tǒng)的低延遲、評(píng)測(cè)基礎(chǔ)設(shè)施的魯棒性都提出了嚴(yán)苛的要求。

從監(jiān)督微調(diào)到強(qiáng)化學(xué)習(xí),MusaCoder 的整個(gè)訓(xùn)練流程全部運(yùn)行在摩爾線程自己的「夸娥」智算集群上。能完整跑通這一套全流程,證明了國(guó)產(chǎn) GPU 集群已經(jīng)具備支撐此類復(fù)雜、動(dòng)態(tài)、交互式訓(xùn)練任務(wù)的能力。

這在一定程度上打破了我們對(duì)于國(guó)產(chǎn) AI 算力「只能跑推理」的刻板印象。能夠穩(wěn)定承載代碼大模型的后訓(xùn)練全周期算力需求,意味著在 AI 基礎(chǔ)設(shè)施的關(guān)鍵環(huán)節(jié)上,國(guó)產(chǎn)硬件已經(jīng)從可用走到了好用的階段。MusaCoder 的成功實(shí)踐或許會(huì)成為可復(fù)用的工程范式,為未來更多復(fù)雜的 AI 研發(fā)提供參考價(jià)值和遷移路徑。

在大模型時(shí)代,「自主可控」不僅關(guān)乎芯片制造,更包括上層的軟件棧、訓(xùn)練平臺(tái)、評(píng)測(cè)體系和開源模型生態(tài)。MusaCoder 證明了在這些層面,國(guó)產(chǎn)力量已經(jīng)能夠形成閉環(huán)。

而對(duì)于廣大開發(fā)者來說,一個(gè)能直接從 PyTorch 自動(dòng)生成高性能 MUSA 內(nèi)核的基礎(chǔ)模型,更是開啟了 AI 驅(qū)動(dòng)開發(fā)的新路。

或許過不了多久,應(yīng)用國(guó)產(chǎn)算力的底層加速能力,會(huì)變得像用 AI 寫代碼一樣簡(jiǎn)單。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
曾高喊打敗美帝:如今卻全家跑去美國(guó),84歲活成這樣,引人熱議!

曾高喊打敗美帝:如今卻全家跑去美國(guó),84歲活成這樣,引人熱議!

許三歲
2026-04-25 06:45:10
歷史罕見信號(hào)全部重合!這次不是回調(diào),是全球性大危機(jī)要來了

歷史罕見信號(hào)全部重合!這次不是回調(diào),是全球性大危機(jī)要來了

流蘇晚晴
2026-06-11 14:24:06
14個(gè)子女無緣萬億家產(chǎn)!馬斯克公開繼承計(jì)劃:給錢是巨大錯(cuò)誤!

14個(gè)子女無緣萬億家產(chǎn)!馬斯克公開繼承計(jì)劃:給錢是巨大錯(cuò)誤!

曉肂愛八卦
2026-06-19 15:08:53
張佳寧的眉毛怎么了登上熱搜!本人回應(yīng)

張佳寧的眉毛怎么了登上熱搜!本人回應(yīng)

孤傲何妨初
2026-06-19 17:48:33
冷暖分明!詩妮娜為帕公主守靈淪為邊緣人,全程跪拜,無特寫鏡頭

冷暖分明!詩妮娜為帕公主守靈淪為邊緣人,全程跪拜,無特寫鏡頭

劉森森
2026-06-19 12:21:05
我今年72了,用一生的經(jīng)驗(yàn)告訴你:永遠(yuǎn)不要跟任何人,透露這3個(gè)底牌,哪怕是最親的人

我今年72了,用一生的經(jīng)驗(yàn)告訴你:永遠(yuǎn)不要跟任何人,透露這3個(gè)底牌,哪怕是最親的人

東林夕亭
2026-05-07 09:32:41
“都把兒子養(yǎng)雌化了!”初中男孩出現(xiàn)雌化現(xiàn)象,家長(zhǎng)卻執(zhí)迷不悟

“都把兒子養(yǎng)雌化了!”初中男孩出現(xiàn)雌化現(xiàn)象,家長(zhǎng)卻執(zhí)迷不悟

妍妍教育日記
2026-05-29 07:55:13
越南前首富死刑變無期,豪車愛馬仕包大拍賣也難抵270億美元債務(wù)

越南前首富死刑變無期,豪車愛馬仕包大拍賣也難抵270億美元債務(wù)

紅星新聞
2026-06-19 11:57:27
長(zhǎng)得英俊帥氣,卻輸在“個(gè)子矮”上,這幾位男星的外形反差太大了

長(zhǎng)得英俊帥氣,卻輸在“個(gè)子矮”上,這幾位男星的外形反差太大了

尺素a
2026-06-18 20:13:41
滬主板“護(hù)盤”計(jì)劃密集發(fā)布 年內(nèi)新增回購增持411億元

滬主板“護(hù)盤”計(jì)劃密集發(fā)布 年內(nèi)新增回購增持411億元

中國(guó)經(jīng)營(yíng)報(bào)
2026-06-20 02:07:08
毛曉彤帶火了一種潮流,叫“T恤+吊帶+破爛褲”,時(shí)髦減齡又洋氣

毛曉彤帶火了一種潮流,叫“T恤+吊帶+破爛褲”,時(shí)髦減齡又洋氣

蓓小西
2026-06-16 10:05:23
德媒:藥廠關(guān)注哈弗茨,阿森納要價(jià)6000萬歐

德媒:藥廠關(guān)注哈弗茨,阿森納要價(jià)6000萬歐

懂球帝
2026-06-19 16:14:24
鄭欽文溫網(wǎng)搶七失利,遺憾上演“黑色幽默”

鄭欽文溫網(wǎng)搶七失利,遺憾上演“黑色幽默”

烽火瞭望者
2026-06-19 06:21:36
一個(gè)婚姻人性鐵律:要想讓伴侶不敢背叛你,下下策是查手機(jī),中策是經(jīng)濟(jì)控制,上上策只有兩個(gè)字讓他離不開你

一個(gè)婚姻人性鐵律:要想讓伴侶不敢背叛你,下下策是查手機(jī),中策是經(jīng)濟(jì)控制,上上策只有兩個(gè)字讓他離不開你

心理觀察局
2026-06-06 08:08:15
梅西妻子帶仨兒子看球賽!13歲大兒子目測(cè)160CM,二兒子超像爸爸

梅西妻子帶仨兒子看球賽!13歲大兒子目測(cè)160CM,二兒子超像爸爸

阿傖說事
2026-06-17 17:55:33
扎心!月入8000丈夫離婚前入不敷出,離婚后月余5000、年存近十萬

扎心!月入8000丈夫離婚前入不敷出,離婚后月余5000、年存近十萬

火山詩話
2026-05-12 07:32:35
47歲裁判馬寧哭了:被斷定世界杯結(jié)束,他把不可能變可能

47歲裁判馬寧哭了:被斷定世界杯結(jié)束,他把不可能變可能

古史青云啊
2026-06-15 16:43:24
兩性關(guān)系:90歲老人坦言,男人過了73,對(duì)枕邊人只求這“三伴”

兩性關(guān)系:90歲老人坦言,男人過了73,對(duì)枕邊人只求這“三伴”

荷蘭豆愛健康
2026-06-12 09:47:11
為什么失業(yè)嚴(yán)重,社會(huì)卻安靜的可怕,沒有亂起來?答案扎心又現(xiàn)實(shí)

為什么失業(yè)嚴(yán)重,社會(huì)卻安靜的可怕,沒有亂起來?答案扎心又現(xiàn)實(shí)

王姐懶人家常菜
2026-06-04 13:00:46
中國(guó)半導(dǎo)體三駕馬車:2026年深度價(jià)值分析

中國(guó)半導(dǎo)體三駕馬車:2026年深度價(jià)值分析

風(fēng)風(fēng)順
2026-06-07 12:04:28
2026-06-20 04:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場(chǎng)先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長(zhǎng)

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
家居
本地
軍事航空

夏天上衣穿短不穿長(zhǎng),看看下面這幾款短上衣,顯高舒適顯比例

藝術(shù)要聞

放大100倍都不怕!這位“人肉打印機(jī)”畫家,把絲綢畫出了呼吸感

家居要聞

綠意盎然 自然之境

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競(jìng)渡來了

無障礙瀏覽 進(jìn)入關(guān)懷版