免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

天下苦CUDA久矣,又一國產(chǎn)方案上桌了

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

國產(chǎn)算力基建跑了這么多年,大家最關(guān)心的邏輯一直沒變:芯片夠不夠多?

但對開發(fā)者來說,真正扎心的問題其實(shí)是:好不好使?

如果把AI開發(fā)比作做飯,現(xiàn)在的尷尬是——

國產(chǎn)鍋(硬件)雖然越來越多了,但大部分大廚還是只習(xí)慣用那套進(jìn)口調(diào)料包(生態(tài))

這正是當(dāng)下AI落地最真實(shí)的一幕。

模型層繁花似錦,底層卻隱憂重重。大家在參數(shù)規(guī)模上輪番刷新紀(jì)錄,回過頭來卻發(fā)現(xiàn),最難擺脫的還是那套已經(jīng)長進(jìn)骨子里的開發(fā)流程。


△圖片由AI生成

算力只是敲門磚,真正的勝負(fù)手,是那段算法與硬件之間的“翻譯權(quán)”

說白了,如果拿不到這支“翻譯筆”,再強(qiáng)悍的國產(chǎn)硬件,也只能像是一座無法與外界溝通的孤島。

終于,那個(gè)讓開發(fā)者喊了無數(shù)次“天下苦CUDA久矣”的僵局,現(xiàn)在迎來了一個(gè)不一樣的國產(chǎn)答案

KernelCAT:計(jì)算加速專家級(jí)別的Agent

這幾年,AI領(lǐng)域的熱鬧幾乎是肉眼可見的。

模型在密集發(fā)布,應(yīng)用數(shù)據(jù)持續(xù)走高,看上去一切都在加速向前。

但在工程現(xiàn)場,感受卻更復(fù)雜。

真正制約落地效率的,并不是模型能力本身,而是底層軟件生態(tài)的成熟度。

硬件選擇一多,問題反而集中暴露出來:遷移成本高,適配周期長,性能釋放不穩(wěn)定。很多模型即便具備條件切換算力平臺(tái),最終也會(huì)被算子支持和工具鏈完整度擋在門外。

這讓一個(gè)事實(shí)變得越來越清晰——突破口不在堆更多算力,而在打通算法到硬件之間那段最容易被忽視的工程鏈路,把芯片的理論性能真正轉(zhuǎn)化為可用性能。

其中最關(guān)鍵的一環(huán),正是高性能算子的開發(fā)

算子(Kernel),是連接AI算法與計(jì)算芯片的“翻譯官”:它將算法轉(zhuǎn)化為硬件可執(zhí)行的指令,決定了AI模型的推理速度、能耗與兼容性。

算子開發(fā)可以被理解為內(nèi)核級(jí)別的編程工作,目前行業(yè)仍停留在“手工作坊”時(shí)代——開發(fā)過程極度依賴頂尖工程師的經(jīng)驗(yàn)與反復(fù)試錯(cuò),周期動(dòng)輒數(shù)月,性能調(diào)優(yōu)如同在迷霧中摸索。

若把開發(fā)大模型應(yīng)用比作“在精裝修的樣板間里擺放家具”,那么編寫底層算子的難度,無異于“在深海中戴著沉重的手銬,徒手組裝一塊精密機(jī)械表”。

但如果,讓AI來開發(fā)算子呢?

傳統(tǒng)大模型或知識(shí)增強(qiáng)型Agent在此類任務(wù)面前往往力不從心。因?yàn)樗鼈兩瞄L模式匹配,卻難以理解復(fù)雜計(jì)算任務(wù)中的物理約束、內(nèi)存布局與并行調(diào)度邏輯。

唯有超越經(jīng)驗(yàn)式推理,深入建模問題本質(zhì),才能實(shí)現(xiàn)真正的“智能級(jí)”優(yōu)化。

正是在這一“地獄級(jí)”技術(shù)挑戰(zhàn)下,KernelCAT應(yīng)運(yùn)而生。


△終端版

具體來看,KernelCAT是一款本地運(yùn)行的AI Agent,它不僅是深耕算子開發(fā)和模型遷移的“計(jì)算加速專家”,也能夠勝任日常通用的全棧開發(fā)任務(wù),提供了CLI終端命令行版與簡潔桌面版兩種形態(tài)供開發(fā)者使用。

不同于僅聚焦特定任務(wù)的工具型Agent,KernelCAT具備扎實(shí)的通用編程能力——不僅能理解、生成和優(yōu)化內(nèi)核級(jí)別代碼,也能處理常規(guī)軟件工程任務(wù),如環(huán)境配置、依賴管理、錯(cuò)誤診斷與腳本編寫,從而在復(fù)雜場景中實(shí)現(xiàn)端到端自主閉環(huán)。


△桌面版

為國產(chǎn)芯片生態(tài)寫高性能算子

在算子開發(fā)中,有一類問題很像“調(diào)參”——面對幾十上百種參數(shù)或策略組合,工程師需要找出讓算子跑得最快的那一組配置。

傳統(tǒng)做法靠經(jīng)驗(yàn)試錯(cuò),費(fèi)時(shí)費(fèi)力,而且還容易踩坑。

KernelCAT的思路是——引入運(yùn)籌優(yōu)化,把“找最優(yōu)參數(shù)”這件事交給算法,讓算法去探索調(diào)優(yōu)空間并收斂到最佳方案

以昇騰芯片上的FlashAttentionScore算子為例,KernelCAT在昇騰官方示例代碼上,可以自動(dòng)對該算子的分塊參數(shù)調(diào)優(yōu)問題進(jìn)行運(yùn)籌學(xué)建模,并使用數(shù)學(xué)優(yōu)化算法求解,在十幾輪迭代后就鎖定了最優(yōu)配置,在多種輸入尺寸下延遲降低最高可達(dá)22%,吞吐量提升最高近30%,而且整個(gè)過程無需人工干預(yù)。

這正是KernelCAT的獨(dú)特之處:它不僅具備大模型的智能,能夠理解代碼、生成方案;還擁有運(yùn)籌優(yōu)化算法的嚴(yán)謹(jǐn),能夠系統(tǒng)搜索并收斂到最優(yōu)解。

智能與算法的結(jié)合,讓算子調(diào)優(yōu)既靈活,又有交付保障。

在對KernelCAT的另一場測試中,該團(tuán)隊(duì)選取了7個(gè)不同規(guī)模的向量加法任務(wù),測試目標(biāo)明確——

即在華為昇騰平臺(tái)上,直接對比華為開源算子、“黑盒”封裝的商業(yè)化算子與KernelCAT自研算子實(shí)現(xiàn)的執(zhí)行效率。

結(jié)果同樣令人振奮,在這個(gè)案例的7個(gè)測試規(guī)模中,KernelCAT給出的算子版本性能均取得領(lǐng)先優(yōu)勢,且任務(wù)完成僅用時(shí)10分鐘

這意味著,即便面對經(jīng)過商業(yè)級(jí)調(diào)優(yōu)的閉源實(shí)現(xiàn),KernelCAT所采用的優(yōu)化方式仍具備一定競爭力。



這不僅是數(shù)值層面的勝利,更是國產(chǎn)AI Agent在算子領(lǐng)域完成的一次自證。

沒有堅(jiān)不可破的生態(tài),包括CUDA

全球范圍內(nèi),目前超過90%的重要AI訓(xùn)練任務(wù)運(yùn)行于英偉達(dá)GPU之上,推理占比亦達(dá)80%以上;其開發(fā)者生態(tài)覆蓋超590萬用戶,算子庫規(guī)模逾400個(gè),深度嵌入90%頂級(jí)AI學(xué)術(shù)論文的實(shí)現(xiàn)流程。

黃仁勛曾言:

  • 我們創(chuàng)立英偉達(dá),是為了加速軟件,芯片設(shè)計(jì)反而是次要的。

這句話揭示了一個(gè)關(guān)鍵真相:在現(xiàn)代計(jì)算體系中,軟件才是真正的護(hù)城河。

英偉達(dá)的持續(xù)領(lǐng)先,源于其從底層算法出發(fā)、貫通架構(gòu)與編程模型的全棧掌控能力。

參考AMD的歷史經(jīng)驗(yàn),即使在架構(gòu)與制程上具備充足的競爭力,缺乏成熟的生態(tài)系統(tǒng)也仍然難以撼動(dòng)英偉達(dá)的地位。

這類案例清晰地表明,模型性能并不簡單等價(jià)于算力規(guī)模的堆疊,而是取決于算法設(shè)計(jì)、算子實(shí)現(xiàn)與硬件特性的協(xié)同程度。當(dāng)算子足夠成熟,硬件潛力才能被真正釋放。

沿著這條思路,KernelCAT團(tuán)隊(duì)圍繞模型在本土算力平臺(tái)上的高效遷移,進(jìn)行了系統(tǒng)性的工程探索。

DeepSeek-OCR-2模型在華為昇騰910B2 NPU上的部署為例,KernelCAT展示了一種全新的工作范式:

  • 對抗“版本地獄”:KernelCAT對任務(wù)目標(biāo)和限制條件有著深度理解,基于DeepSeek-OCR-2官方的CUDA實(shí)現(xiàn),通過精準(zhǔn)的依賴識(shí)別和補(bǔ)丁注入,解決了vLLM、torch和torch_npu的各個(gè)依賴庫間版本互鎖的三角矛盾,硬生生從零搭建起了一套穩(wěn)定的生產(chǎn)環(huán)境,結(jié)合基礎(chǔ)Docker鏡像即可實(shí)現(xiàn)模型的開箱即用。
  • 準(zhǔn)確修補(bǔ):它敏銳地識(shí)別出原版vLLM的MOE層依賴CUDA專有的操作,和vllm-ascend提供的Ascend原生MOE實(shí)現(xiàn),并果斷通過插件包進(jìn)行調(diào)用替換,讓模型在國產(chǎn)芯片上“說上了母語”。
  • 實(shí)現(xiàn)35倍加速:在引入vllm-ascend原生MOE實(shí)現(xiàn)補(bǔ)丁后,vLLM在高并發(fā)下的吞吐量飆升至550.45toks/s,相比Transformers方案實(shí)現(xiàn)了35倍加速,且在繼續(xù)優(yōu)化中。
  • 無需人工大量介入:在這種復(fù)雜任務(wù)目標(biāo)下,KernelCAT可以自己規(guī)劃和完成任務(wù),無需研發(fā)提供大量提示詞指導(dǎo)模型工作。

這意味著,原本需要頂尖工程師團(tuán)隊(duì)花費(fèi)數(shù)周才能完成進(jìn)行的適配工作,現(xiàn)在可以縮短至小時(shí)級(jí)(包含模型下載、環(huán)境構(gòu)建的時(shí)間)。

與此同時(shí),它讓國產(chǎn)芯片從“能跑”到“飛起”,實(shí)現(xiàn)了35倍的加速

也就是說,KernelCAT讓國產(chǎn)芯片不再是被“封印”的算力廢鐵,而是可以通過深度工程優(yōu)化,承載頂級(jí)多模態(tài)模型推理任務(wù)的性能引擎。



“天下苦CUDA久矣”——這句話曾是無奈的自嘲,如今正成為行動(dòng)的號(hào)角。

KernelCAT所代表的,不只是一個(gè)AI Agent新范式的出現(xiàn),更是一種底層能力建設(shè)方式的轉(zhuǎn)向:

從依賴既有生態(tài),到構(gòu)建能夠自我演進(jìn)的計(jì)算基礎(chǔ)。

KernelCAT正限時(shí)免費(fèi)內(nèi)測中,歡迎體驗(yàn):
https://kernelcat.cn/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
最高院:銀行兩次催收后超三個(gè)月仍不歸還,即構(gòu)成信用卡詐騙罪?

最高院:銀行兩次催收后超三個(gè)月仍不歸還,即構(gòu)成信用卡詐騙罪?

周軍律師聊案子
2026-05-31 10:18:12
女子烤魚店用餐時(shí)突發(fā)異物卡喉,男廚師光上身用海姆立克施救,被網(wǎng)友質(zhì)疑不穿上衣貼近女性,本人回應(yīng):太突然了,身上原本還有燙傷

女子烤魚店用餐時(shí)突發(fā)異物卡喉,男廚師光上身用海姆立克施救,被網(wǎng)友質(zhì)疑不穿上衣貼近女性,本人回應(yīng):太突然了,身上原本還有燙傷

大風(fēng)新聞
2026-06-18 18:51:24
廣東一女子愛喝藏紅花茶,2年后體檢,醫(yī)生:平時(shí)都干啥了

廣東一女子愛喝藏紅花茶,2年后體檢,醫(yī)生:平時(shí)都干啥了

芹姐說生活
2026-06-18 14:22:08
兩性關(guān)系:壽命更長久的男人,多半堅(jiān)守這6個(gè)自律習(xí)慣

兩性關(guān)系:壽命更長久的男人,多半堅(jiān)守這6個(gè)自律習(xí)慣

寶哥精彩賽事
2026-06-16 03:36:22
劍指雙冠!穆帥夏窗爆改皇馬?7筆引援打造新銀河戰(zhàn)艦

劍指雙冠!穆帥夏窗爆改皇馬?7筆引援打造新銀河戰(zhàn)艦

球事百科吖
2026-06-19 02:34:17
陳云晚年首次披露:遵義會(huì)議上這兩個(gè)人死活不同意毛主席,吵得面紅耳赤

陳云晚年首次披露:遵義會(huì)議上這兩個(gè)人死活不同意毛主席,吵得面紅耳赤

老杉說歷史
2026-03-21 17:38:44
成都一小孩口渴了,母親拿了一瓶水先讓孩子喝。喝完后,母親拿著空瓶去買單,老板卻認(rèn)為母親的行為是盜竊,要求偷一賠十!

成都一小孩口渴了,母親拿了一瓶水先讓孩子喝。喝完后,母親拿著空瓶去買單,老板卻認(rèn)為母親的行為是盜竊,要求偷一賠十!

大愛三湘
2026-06-17 20:24:41
醫(yī)生提醒:跟癌癥病人一起吃飯,一定要注意兩件事,千萬別忽視!

醫(yī)生提醒:跟癌癥病人一起吃飯,一定要注意兩件事,千萬別忽視!

芹姐說生活
2026-06-17 23:31:50
為續(xù)約哈登愿送施羅德?騎媒列三潛在下家:可換香農(nóng)比塔澤霍蘭德

為續(xù)約哈登愿送施羅德?騎媒列三潛在下家:可換香農(nóng)比塔澤霍蘭德

顏小白的籃球夢
2026-06-18 12:19:29
印度網(wǎng)友說中國也有種姓制度,仔細(xì)一看,真的讓人笑掉大牙!

印度網(wǎng)友說中國也有種姓制度,仔細(xì)一看,真的讓人笑掉大牙!

全城探秘
2026-06-18 18:06:57
小米員工暗諷華為“比嗓門拼情懷搞捆綁”,曾說拿小米手機(jī)被列車長升艙遭王思聰怒噴

小米員工暗諷華為“比嗓門拼情懷搞捆綁”,曾說拿小米手機(jī)被列車長升艙遭王思聰怒噴

可達(dá)鴨面面觀
2026-06-15 12:40:28
臺(tái)灣統(tǒng)一方式可能出人意料:77年前毛主席的奇謀,是最佳解決方案

臺(tái)灣統(tǒng)一方式可能出人意料:77年前毛主席的奇謀,是最佳解決方案

史之銘
2026-06-17 19:50:32
高市在G7警告各國,必須幫日本對付中國,不然誰都沒有好果子吃

高市在G7警告各國,必須幫日本對付中國,不然誰都沒有好果子吃

鐵錘侃侃而談
2026-06-19 00:42:28
卡福:我目睹大羅在98世界杯決賽前抽搐,他一度被移出名單

卡福:我目睹大羅在98世界杯決賽前抽搐,他一度被移出名單

行舟問茶
2026-06-18 14:09:56
“你洗洗腳吧!”寶媽精心打扮接孩子,用力過猛被嘲諷

“你洗洗腳吧!”寶媽精心打扮接孩子,用力過猛被嘲諷

蝴蝶花雨話教育
2026-06-05 00:05:19
離開東方甄選活不下去?曾經(jīng)跟著董宇輝的明明如今帶貨榜直接反超

離開東方甄選活不下去?曾經(jīng)跟著董宇輝的明明如今帶貨榜直接反超

情感大頭說說
2026-06-18 01:10:50
樊振東回國僅3天,央媒、港媒齊齊發(fā)文,和全紅嬋的處境天差地別

樊振東回國僅3天,央媒、港媒齊齊發(fā)文,和全紅嬋的處境天差地別

小椰的奶奶
2026-06-18 00:05:39
43歲香港女星在中山買房,曬房產(chǎn)證直呼劃算,四房兩廳不到200萬

43歲香港女星在中山買房,曬房產(chǎn)證直呼劃算,四房兩廳不到200萬

青梅侃史啊
2026-05-28 07:50:02
特朗普打斷日本記者提問:你們首相高市早苗是我頭號(hào)粉絲,她覺得我干得非常出色!高市早苗曾在訪美時(shí)極力示好卻遭羞辱

特朗普打斷日本記者提問:你們首相高市早苗是我頭號(hào)粉絲,她覺得我干得非常出色!高市早苗曾在訪美時(shí)極力示好卻遭羞辱

極目新聞
2026-06-18 10:59:08
為什么失業(yè)嚴(yán)重,社會(huì)卻安靜的可怕,沒有亂起來?答案扎心又現(xiàn)實(shí)

為什么失業(yè)嚴(yán)重,社會(huì)卻安靜的可怕,沒有亂起來?答案扎心又現(xiàn)實(shí)

王姐懶人家常菜
2026-06-04 13:00:46
2026-06-19 04:11:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12816文章數(shù) 176500關(guān)注度
往期回顧 全部

科技要聞

庫克承認(rèn)扛不住了,蘋果漲價(jià)“不可避免”

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財(cái)經(jīng)要聞

博睿康IPO,賺錢業(yè)務(wù)與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

游戲
本地
房產(chǎn)
家居
公開課

PS5版《GTA6》已有店家開始預(yù)定!售價(jià)545元

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調(diào)規(guī)!

家居要聞

綠意盎然 自然之境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版