免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

摩爾線程開(kāi)源TileLang-MUSA,高效算子開(kāi)發(fā)釋放全功能GPU計(jì)算潛力

0
分享至

近日,摩爾線程正式開(kāi)源TileLang-MUSA項(xiàng)目,實(shí)現(xiàn)對(duì)TileLang編程語(yǔ)言的完整支持。該項(xiàng)目已成功在摩爾線程多代全功能GPU上完成功能驗(yàn)證與特性開(kāi)發(fā),旨在通過(guò)高層抽象與編譯器優(yōu)化,大幅降低開(kāi)發(fā)門檻,為國(guó)產(chǎn)算力平臺(tái)提供更高效的AI與高性能計(jì)算開(kāi)發(fā)體驗(yàn)。

▼TileLang-MUSA開(kāi)源地址:

https://github.com/MooreThreads/tilelang_musa

TileLang:重新定義GPU算子編程的語(yǔ)言

TileLang是一款基于張量分塊(Tiling)抽象的高性能AI算子編程語(yǔ)言,屬于領(lǐng)域特定語(yǔ)言(DSL)。它采用聲明式語(yǔ)法與類Python前端,使開(kāi)發(fā)者能夠以接近數(shù)學(xué)公式的形式描述計(jì)算意圖,并由編譯器自動(dòng)完成循環(huán)優(yōu)化、內(nèi)存調(diào)度與代碼生成,在保持底層性能的同時(shí)大幅降低GPU及異構(gòu)計(jì)算平臺(tái)的編程復(fù)雜度。

在實(shí)際應(yīng)用中,TileLang通過(guò)三大核心作用顯著提升GPU計(jì)算的開(kāi)發(fā)效率:

  • 通過(guò)高級(jí)抽象降低開(kāi)發(fā)門檻,開(kāi)發(fā)者無(wú)需深入底層硬件知識(shí)即可生成高性能代碼;
  • 具備跨平臺(tái)能力,實(shí)現(xiàn)“一次編寫、多架構(gòu)運(yùn)行”,有效解決多元算力生態(tài)的適配難題;
  • 編譯器自動(dòng)執(zhí)行Layout推導(dǎo)、線程映射、Warp特化、流水線排布、內(nèi)存優(yōu)化等復(fù)雜優(yōu)化,在保障性能的同時(shí)提升開(kāi)發(fā)效率。

TileLang已廣泛應(yīng)用于多個(gè)關(guān)鍵領(lǐng)域,例如:在AI與機(jī)器學(xué)習(xí)中,研究人員可用其快速定義新型算子(如注意力機(jī)制);在科學(xué)計(jì)算中,可便捷移植大型數(shù)值模擬程序至不同硬件平臺(tái);對(duì)硬件廠商而言,TileLang可作為構(gòu)建芯片軟件生態(tài)的基礎(chǔ)工具鏈。

在產(chǎn)業(yè)實(shí)踐中,DeepSeek-V3的研發(fā)已采用TileLang進(jìn)行算子快速原型設(shè)計(jì)與性能驗(yàn)證,證明了其在大規(guī)模模型訓(xùn)練中的實(shí)戰(zhàn)價(jià)值。摩爾線程開(kāi)源的TileLang-MUSA項(xiàng)目,正是這一技術(shù)理念的產(chǎn)業(yè)落地——通過(guò)提供高效開(kāi)發(fā)工具鏈降低創(chuàng)新門檻,推動(dòng)國(guó)產(chǎn)算力應(yīng)用生態(tài)的繁榮發(fā)展。

TileLang-MUSA:連接前沿語(yǔ)法與國(guó)產(chǎn)算力的橋梁

摩爾線程此次開(kāi)源的 TileLang-MUSA項(xiàng)目,旨在充分釋放全功能GPU的性能潛力。它提供了一種介于底層匯編與高層DSL之間的“中間層”抽象,在保留硬件控制力的同時(shí),顯著降低了編程復(fù)雜度。具體特性如下:

▼廣泛的硬件架構(gòu)覆蓋:TileLang-MUSA已在摩爾線程多代全功能GPU上完成功能驗(yàn)證與打通,包括訓(xùn)推一體全功能智算卡 MTT S5000和MTT S4000,展現(xiàn)了良好的硬件兼容性。

▼核心計(jì)算特性的深度映射:項(xiàng)目團(tuán)隊(duì)實(shí)現(xiàn)了TileLang高層語(yǔ)義到摩爾線程GPU底層MUSA架構(gòu)的精準(zhǔn)映射。

  • Tensor Core 加速:編譯器能夠自動(dòng)調(diào)用MUSA的MMA(矩陣乘累加)指令,充分發(fā)揮硬件張量核心的峰值計(jì)算能力;
  • Tile-Level Pipeline:自動(dòng)處理從全局內(nèi)存(Global Memory)到共享內(nèi)存(Shared Memory)再到寄存器(Registers)的多級(jí)數(shù)據(jù)搬運(yùn),利用MUSA異步拷貝指令掩蓋訪存延遲;
  • Warp級(jí)并行優(yōu)化:完整支持Warp Specialization特性。

目前,基于MUSA架構(gòu)的TileLang原生算子單元測(cè)試覆蓋率已超過(guò)80%,為大規(guī)模應(yīng)用提供了可靠保障。

代碼示例:體驗(yàn)“零門檻”算子遷移

開(kāi)發(fā)者在完成環(huán)境配置后,可保留原有的import tilelang習(xí)慣,通過(guò)Cython編譯后端直接在MUSA環(huán)境中運(yùn)行TileLang代碼。

以下是一個(gè)基于TileLang-MUSA的高性能矩陣乘法實(shí)現(xiàn)示例:通過(guò)簡(jiǎn)潔明了的語(yǔ)法描述計(jì)算邏輯,編譯器能夠自動(dòng)生成高度優(yōu)化的MUSA內(nèi)核代碼。依托TileLang豐富且經(jīng)過(guò)深度調(diào)優(yōu)的原語(yǔ)算子庫(kù)(primitives),開(kāi)發(fā)者借助TileLang-MUSA不僅能夠顯著提升編碼效率,更能直接調(diào)用底層硬件的計(jì)算潛力,實(shí)現(xiàn)媲美手工優(yōu)化性能的矩陣運(yùn)算。

import tilelang

import tilelang.language as T

import torch

from tilelang.primitives.gemm.base import GemmWarpPolicy

def matmul(M, N, K, block_M, block_N, block_K, dtype="float16", accum_dtype="float"):

@T.prim_func

def matmul_kernel(

A: T.Tensor((M, K), dtype),

B: T.Tensor((K, N), dtype),

C: T.Tensor((M, N), dtype),

with T.Kernel(T.ceildiv(N, block_N), T.ceildiv(M, block_M), threads=512) as (bx, by):

T.use_swizzle(panel_size=4, order='col')

A_shared = T.alloc_shared((block_M, block_K), dtype)

B_shared = T.alloc_shared((block_K, block_N), dtype)

C_local = T.alloc_fragment((block_M, block_N), accum_dtype)

T.clear(C_local)

for k in T.Pipelined(T.ceildiv(K, block_K), num_stages=3):

T.copy(A[by * block_M, k * block_K], A_shared)

T.copy(B[k * block_K, bx * block_N], B_shared)

T.gemm(A_shared, B_shared, C_local, policy=T.GemmWarpPolicy.Square)

T.copy(C_local, C[by * block_M, bx * block_N])

return matmul_kernel

def main():

M, N, K, BLOCK_M, BLOCK_N, BLOCK_K = 8192, 7168, 16384, 256, 256, 64

device = "musa"

A = torch.randn((M, K), dtype=torch.float16, device=device)

B = torch.randn((K, N), dtype=torch.float16, device=device)

program = matmul(M, N, K, BLOCK_M, BLOCK_N, BLOCK_K, dtype="float16", accum_dtype="float32")

kernel = tilelang.compile(

program,

out_idx=-1,

target="musa",

execution_backend="cython",

verbose=True,

ref_out = torch.mm(A, B)

C = kernel(A, B)

torch.testing.assert_close(ref_out.to(torch.float16), C.to(torch.float16), rtol=1.25e-1, atol=1.25e-1)

if __name__ == "__main__":

main()

*代碼示例

實(shí)測(cè)表現(xiàn):兼顧開(kāi)發(fā)效率與運(yùn)行性能

TileLang-MUSA的設(shè)計(jì)理念是讓開(kāi)發(fā)者“寫得快”且“跑得快”。在實(shí)際算子開(kāi)發(fā)實(shí)踐中,這一目標(biāo)已得到驗(yàn)證。

以大語(yǔ)言模型中至關(guān)重要的FlashAttention-3和GEMM(通用矩陣乘)算子為例,在摩爾線程MTT S5000上的測(cè)試結(jié)果顯示:

▼開(kāi)發(fā)效率倍增:相較手寫MUSA C++代碼,使用TileLang-MUSA的代碼量減少了約90%,且代碼邏輯更加清晰,極大降低了開(kāi)發(fā)與維護(hù)成本。

▼性能媲美手寫:得益于TileLang-MUSA優(yōu)秀的編譯器優(yōu)化,生成的算子性能在典型配置下,Gemm最高可達(dá)到手寫優(yōu)化版本的95%, FlashAttention-3可以達(dá)到手寫優(yōu)化版本的85%。

▼自動(dòng)化調(diào)優(yōu):借助TileLang-MUSA的Auto-tuning機(jī)制,開(kāi)發(fā)者可以在MUSA架構(gòu)的全功能GPU上快速搜索最優(yōu)的分塊策略(Tile Size)和流水線級(jí)數(shù),輕松超越未經(jīng)深度優(yōu)化的基準(zhǔn)實(shí)現(xiàn)。

TileLang-MUSA的推出,為開(kāi)發(fā)者帶來(lái)了三大核心價(jià)值:

▼無(wú)縫遷移:TileLang用戶可以近乎零成本地將算子邏輯遷移至摩爾線程GPU;

▼降低門檻:TileLang-MUSA為不熟悉MUSA指令集的AI工程師提供了高層次的開(kāi)發(fā)入口,大幅降低了國(guó)產(chǎn)GPU的應(yīng)用門檻;

▼賦能大模型:TileLang-MUSA通過(guò)支持FlashAttention等關(guān)鍵算子的高效開(kāi)發(fā),將有力加速大語(yǔ)言模型等前沿AI應(yīng)用在國(guó)產(chǎn)算力平臺(tái)上的部署與落地。

TileLang-MUSA不僅驗(yàn)證了“高層語(yǔ)言+國(guó)產(chǎn)GPU”這一技術(shù)路線的可行性,更為構(gòu)建開(kāi)放、易用的國(guó)產(chǎn)算力開(kāi)發(fā)生態(tài)提供了關(guān)鍵工具支撐。

未來(lái)展望:打造基于MUSA的深度學(xué)習(xí)統(tǒng)一平臺(tái)

TileLang-MUSA的開(kāi)源是摩爾線程構(gòu)建國(guó)產(chǎn)算力生態(tài)的關(guān)鍵一步。以此為起點(diǎn),摩爾線程將持續(xù)推進(jìn)平臺(tái)與生態(tài)建設(shè),致力于打造一個(gè)覆蓋從單算子到完整大模型的國(guó)產(chǎn)算力統(tǒng)一加速平臺(tái):持續(xù)進(jìn)行性能優(yōu)化,開(kāi)發(fā)更多MUSA架構(gòu)定制擴(kuò)展,使生成代碼性能穩(wěn)定達(dá)到手寫優(yōu)化版本的90%以上;深度集成SGLang等主流AI框架,實(shí)現(xiàn)訓(xùn)練與推理場(chǎng)景的端到端無(wú)縫加速;從單算子優(yōu)化延伸至Transformer、MoE等復(fù)雜模型架構(gòu)的跨算子調(diào)度與全局優(yōu)化;同時(shí)完善調(diào)試和性能分析工具鏈,為開(kāi)發(fā)者提供全流程支持。

這一切努力,最終都將匯聚于一個(gè)核心目標(biāo):構(gòu)建一個(gè)開(kāi)放、高效、充滿生命力的國(guó)產(chǎn)算力生態(tài),讓創(chuàng)新的想法在堅(jiān)實(shí)的基石上自由生長(zhǎng)。

了解TileLang-MUSA開(kāi)源項(xiàng)目可直接訪問(wèn):

https://github.com/MooreThreads/tilelang_musa

*以上測(cè)試數(shù)據(jù)均來(lái)自摩爾線程實(shí)驗(yàn)室

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全國(guó)夏播糧食已過(guò)六成

全國(guó)夏播糧食已過(guò)六成

澎湃新聞
2026-06-18 16:24:01
朝鮮是個(gè)“三無(wú)”國(guó)家?到底何謂“三無(wú)”?看完后令人肅然起敬

朝鮮是個(gè)“三無(wú)”國(guó)家?到底何謂“三無(wú)”?看完后令人肅然起敬

文史達(dá)觀
2026-06-19 16:02:52
奪權(quán)大戲落幕!多位盟友反水、總統(tǒng)下場(chǎng)!菲議長(zhǎng)死撐三周終認(rèn)輸

奪權(quán)大戲落幕!多位盟友反水、總統(tǒng)下場(chǎng)!菲議長(zhǎng)死撐三周終認(rèn)輸

嘴角上翹
2026-06-18 22:25:22
莫文蔚餐廳被偶遇,素顏低調(diào)像普通婦人,外籍老公寸頭好帥氣

莫文蔚餐廳被偶遇,素顏低調(diào)像普通婦人,外籍老公寸頭好帥氣

仙味少女心
2026-06-18 20:30:54
俞敏洪拋出驚人言論:我有兩個(gè)大學(xué)男同學(xué)已經(jīng)死了,都是家庭條件很好,但倆人沒(méi)有抵抗挫折和不幸的能力

俞敏洪拋出驚人言論:我有兩個(gè)大學(xué)男同學(xué)已經(jīng)死了,都是家庭條件很好,但倆人沒(méi)有抵抗挫折和不幸的能力

心理觀察局
2026-06-03 07:17:10
林毅夫:到2049年,我國(guó)人均GDP將達(dá)到美國(guó)一半

林毅夫:到2049年,我國(guó)人均GDP將達(dá)到美國(guó)一半

羅sir財(cái)話
2026-06-18 16:40:02
向佐采訪透露向佑成婚,談及弟媳習(xí)慣,心疼弟弟患病希望減少討論

向佐采訪透露向佑成婚,談及弟媳習(xí)慣,心疼弟弟患病希望減少討論

人間煙火記事本
2026-06-17 22:38:45
寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

小蜜情感說(shuō)
2026-06-18 19:54:35
拒絕接盤,是這一代人對(duì)時(shí)代最大的反擊

拒絕接盤,是這一代人對(duì)時(shí)代最大的反擊

壹家言
2026-06-17 07:26:18
小兒子用一張照片證明血統(tǒng)!17歲諾克斯,簡(jiǎn)直就是布拉德皮特翻版

小兒子用一張照片證明血統(tǒng)!17歲諾克斯,簡(jiǎn)直就是布拉德皮特翻版

星野娛樂(lè)天地
2026-05-19 21:02:17
和陳夢(mèng)秘密領(lǐng)證真相大白后,樊振東近況曝出,難怪會(huì)淡出國(guó)家隊(duì)

和陳夢(mèng)秘密領(lǐng)證真相大白后,樊振東近況曝出,難怪會(huì)淡出國(guó)家隊(duì)

樂(lè)天閑聊
2026-06-19 18:04:07
2年9000萬(wàn),重簽火箭,再次證明了自己,但你離冠軍卻越來(lái)越遠(yuǎn)

2年9000萬(wàn),重簽火箭,再次證明了自己,但你離冠軍卻越來(lái)越遠(yuǎn)

星Xin辰大海
2026-06-19 00:11:26
新加坡急了,外長(zhǎng)幾乎是拍著桌子,讓中國(guó)“尊重”馬六甲的地位。

新加坡急了,外長(zhǎng)幾乎是拍著桌子,讓中國(guó)“尊重”馬六甲的地位。

南權(quán)先生
2026-01-26 15:41:26
阿根廷28歲女子被母親殺害,生前最后動(dòng)態(tài):我媽媽就是我的一切

阿根廷28歲女子被母親殺害,生前最后動(dòng)態(tài):我媽媽就是我的一切

命運(yùn)自認(rèn)幽默
2026-06-19 18:08:40
因曾持股被英美制裁的陳志電詐集團(tuán),柬埔寨副總理花28.5萬(wàn)美元請(qǐng)美國(guó)律師“未雨綢繆”

因曾持股被英美制裁的陳志電詐集團(tuán),柬埔寨副總理花28.5萬(wàn)美元請(qǐng)美國(guó)律師“未雨綢繆”

紅星新聞
2026-06-18 16:26:52
余承東回家過(guò)端午被拍,坐尊界S800,無(wú)助理攝影師,雷軍躺著中槍

余承東回家過(guò)端午被拍,坐尊界S800,無(wú)助理攝影師,雷軍躺著中槍

譚談社會(huì)
2026-06-18 19:18:56
伏明霞沒(méi)離婚,父母在香港住了24年,梁錦松老了她還扶著他走路。

伏明霞沒(méi)離婚,父母在香港住了24年,梁錦松老了她還扶著他走路。

阿廢冷眼觀察所
2026-06-19 15:45:43
查理·芒格活了99歲,他把一生的清醒濃縮成一句話:年輕時(shí)賺不到錢很正常,但這兩件事如果沒(méi)做對(duì),以后也不會(huì)賺到

查理·芒格活了99歲,他把一生的清醒濃縮成一句話:年輕時(shí)賺不到錢很正常,但這兩件事如果沒(méi)做對(duì),以后也不會(huì)賺到

心理觀察局
2026-06-19 06:16:12
什么東西讓你體會(huì)到貴有貴的道理?網(wǎng)友:買前牙咬碎 買后它真值

什么東西讓你體會(huì)到貴有貴的道理?網(wǎng)友:買前牙咬碎 買后它真值

夜深愛(ài)雜談
2026-06-17 21:35:31
歌星李瓊:我這輩子最后悔的事兒,就是讓央視主持人朱迅替我報(bào)幕

歌星李瓊:我這輩子最后悔的事兒,就是讓央視主持人朱迅替我報(bào)幕

蹲坑看世界
2026-06-17 15:30:50
2026-06-19 18:51:00
愛(ài)集微 incentive-icons
愛(ài)集微
集微網(wǎng)官方賬號(hào)
109771文章數(shù) 98361關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯"大冷門":史上最小參賽國(guó)逼平最大奪冠熱門國(guó)

頭條要聞

世界杯"大冷門":史上最小參賽國(guó)逼平最大奪冠熱門國(guó)

體育要聞

世界杯最不知名球員,沒(méi)上場(chǎng)先漲粉600萬(wàn)

娛樂(lè)要聞

吳倩自曝小時(shí)被爸爸打掉牙齒硬吞進(jìn)肚

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

教育
數(shù)碼
本地
藝術(shù)
家居

教育要聞

低分報(bào)上好學(xué)校?高考志愿撿漏大法!

數(shù)碼要聞

視頻轉(zhuǎn)碼性能最高提升215%:AMD線程撕裂者突破HandBrake瓶頸

本地新聞

世界杯黑馬佛得角:河北人開(kāi)超市,溫州人當(dāng)老板

藝術(shù)要聞

臺(tái)北東區(qū)新門戶!南港雙星,像一道“城市裂痕”

家居要聞

綠意盎然 自然之境

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版