免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek三模型霸榜OpenRouter前十!月調(diào)用超17萬億tokens

0
分享至

DeepSeek三模型霸占OpenRouter前十,月調(diào)用合計超17萬億tokens。Agent負載正在碾壓一切基礎(chǔ)設(shè)施!現(xiàn)在,自主創(chuàng)新的國產(chǎn)生態(tài),正在悄悄改寫下一代AI基礎(chǔ)設(shè)施的入場券。

打開OpenRouter最新的模型月榜,V4上線一個月,DeepSeek的存在感很強。

V4 Flash月調(diào)用9.13T tokens,穩(wěn)坐第1。V4 Pro也沖到了3.89T排第9。再加上V3.2的4.07T排第8,DeepSeek三個模型同時擠進前十,月調(diào)用合計超過17萬億tokens。



應(yīng)用方面,排名前兩位的Hermes Agent和OpenClaw,月調(diào)用量分別達到了10.8T和6.25T tokens。

換句話說,如今Token消耗的絕對主力,已經(jīng)從傳統(tǒng)的聊天機器人,徹底讓位給了會規(guī)劃、檢索、調(diào)用工具并反復(fù)驗證的Agent系統(tǒng)。

它就像一個小型工作流,單次任務(wù)動輒觸發(fā)上百輪LLM調(diào)用,并伴隨數(shù)十次工具執(zhí)行,再加上長記憶和自演進產(chǎn)生的數(shù)據(jù),負載常常飆升至數(shù)百GB甚至TB級。

這種以「萬億」為單位的高強度并發(fā),正在將底層基礎(chǔ)設(shè)施的每一個短板都無限放大。

而這,也呼應(yīng)了幾個月前行業(yè)里流傳的一個似是而非的傳聞。

當(dāng)時DeepSeek V4的發(fā)布有所推遲,坊間便出現(xiàn)一種猜測,是不是因為V4在跟昇騰做底層的深度適配,拖慢了節(jié)奏?

這甚至引發(fā)了一種錯覺,讓人以為昇騰正在成為某一家大模型廠商的「專有硬件」,不得不把大量精力耗費在特定模型的查漏補缺上。

這恰恰是對算力底座和模型演進關(guān)系最大的一個誤解。

DeepSeek V4之所以能在開源首日,真正做到「開箱即優(yōu)」,并不是因為昇騰為了某款模型削足適履,而是因為LLM演進到今天,必然會撞上這幾堵墻。

而昇騰,只是恰好提前在那里等它。

面對整條賽道的共性需求,昇騰交出的是一套通用的答卷。

就拿剛剛過去的4月來說,智譜GLM-5.1、MiniMax M2.7、DeepSeek V4三個頭部模型密集開源,昇騰全部做到了發(fā)布即支持。

能做到這種覆蓋速度,唯一的解釋是,其底層的能力是高度通用的。

昇騰的能力之所以能實現(xiàn)通用,是因為頭部模型走到了同一個路口。

首先是MoE架構(gòu),它的好處是每次只激活一小部分專家來干活,計算效率高。但代價很明顯,專家分散在不同的卡上,每次推理都要大量卡間通信。

精度方面,V4-Pro在HuggingFace上標注FP4+FP8混合精度,MoE專家參數(shù)用FP4,其他用FP8。低精度推理已經(jīng)從「能不能壓縮」進入了「壓縮后是否可靠」的階段。

通信、內(nèi)存、精度,是各大頭部模型在部署時都會面臨的難題。

而能夠系統(tǒng)性地解決這三件事的AI軟硬件平臺,將率先搶占下一代AI基礎(chǔ)設(shè)施的關(guān)鍵入口。

MoE的關(guān)鍵在于,計算被稀疏化以后,通信變成了第一瓶頸。

昇騰之前已經(jīng)有MC2通算融合算子,在不同的并行方式下把矩陣計算和集合通信做了融合。

在EP并行模式下,現(xiàn)有算子仍無法實現(xiàn)通信與Grouped Matmul計算的完全并行,因此并未達到真正的通算融合。

MegaMoE補上的,正是這個缺口。

它把MoE推理中原本分開執(zhí)行的五個步驟(Alltoall Dispatch、GMM1、Swiglu、GMM2、Alltoall Combine)融成一個大算子,讓通信和計算盡可能同時進行。同時支持Prefill和Decode場景。

昇騰Atlas 800 A3上的實測數(shù)據(jù)顯示,DeepSeek V3.1和Qwen3-235B兩個模型接入MegaMoE融合算子后,Prefill場景可獲得20%到30%的性能提升,Decode場景也有10%以上的收益。

Prefix Cache(前綴緩存)是當(dāng)前大模型推理服務(wù)中廣泛使用的優(yōu)化技術(shù)。

但單機的Prefix Cache有一個根本局限,緩存只存在本機本地內(nèi)存里。容量有限,容易被淘汰。更關(guān)鍵的是,跨機器的實例之間完全不共享,集群越大,緩存利用率反而越低。

而多機部署、PD分離、大規(guī)模專家并行,恰恰是所有萬億級MoE模型的標準部署方式,并且都對多機間的內(nèi)存共享和數(shù)據(jù)調(diào)度提出了更高要求。

為此,昇騰提出了全新的KVCache池化方案,框架層通過KV Connector對接池化后端,去除冗余的三方轉(zhuǎn)發(fā)層。

同時,長序列還有一個更底層的壓力。

在業(yè)界的普遍認知中,Prefill階段的計算量隨序列長度呈平方級增長,Decode階段的KVCache內(nèi)存占用則隨序列長度線性增長,長序列同時帶來計算和內(nèi)存的雙重瓶頸。

對此,昇騰采用了PCP做Prefill階段的算力切分,DCP做Decode階段的KVCache內(nèi)存切分,兩者配合把雙重壓力同時分攤開。

通信和內(nèi)存之外,精度是第三個繞不過去的難題。

傳統(tǒng)量化方式(INT4/INT8/FP8)用全局統(tǒng)一縮放因子,相當(dāng)于一把尺子量所有參數(shù),碰到異常值整個縮放范圍就被拽偏了。

在參數(shù)分布差異極大的MoE模型中,這一問題尤為致命。

為了解決這個矛盾,行業(yè)正在向Microscaling格式(MXFP4/MXFP8)收斂。它的原理是把參數(shù)分成小組,每組用獨立縮放因子,異常值只影響本組,不拖累全局。

但光有格式標準還不夠,關(guān)鍵是硬件和工具鏈能不能跟上。

昇騰950系列創(chuàng)新性地在架構(gòu)層面提供了專用的塊縮放因子計算單元和MXFP矩陣乘法加速器,從硬件層原生支撐mx格式。

再往上,MindStudio工具支持一鍵生成MXFP4/MXFP8模型權(quán)重,開發(fā)者不需要手動處理量化細節(jié)。

從硬件到工具鏈全部打通之后,任何想走MXFP路線的模型,在昇騰上都能快速適配。

從低精量化到長序列池化再到MoE通算融合,這三個方向看似各自獨立,但背后對應(yīng)的是同一個命題,Agent時代的推理基礎(chǔ)設(shè)施該怎么建。

而在這個命題上,昇騰全系列產(chǎn)品不僅已經(jīng)實現(xiàn)了對DeepSeek的全面支持,更讓人看到了V4背后的一條完整鏈路,從底層芯片、底層編程語言到核心算子,關(guān)鍵環(huán)節(jié)都有中國自己的方案。

可以說,DeepSeek V4的出現(xiàn),印證了中國已經(jīng)可以依靠一整套自主創(chuàng)新的生態(tài)體系來打造頂尖大模型。

而昇騰,正是這條生態(tài)鏈路上的算力底座,一個面向全行業(yè)的通用AI軟硬件平臺。

Agent時代的推理負載還在膨脹,下一個萬億級模型隨時會來。這個平臺能接得住的,遠不止DeepSeek。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
瑞士簽字儀式取消!伊朗官宣:兩國總統(tǒng)已簽署電子備忘錄

瑞士簽字儀式取消!伊朗官宣:兩國總統(tǒng)已簽署電子備忘錄

瀲滟晴方DAY
2026-06-19 22:17:56
當(dāng)全球吵得不可開交,中國卻把整整5萬億元,悄悄埋進了地底深處

當(dāng)全球吵得不可開交,中國卻把整整5萬億元,悄悄埋進了地底深處

掌秋看世界
2026-06-19 04:17:12
官宣退出!久保建英宣布新決定,日本男足批準,森保一遺憾

官宣退出!久保建英宣布新決定,日本男足批準,森保一遺憾

泥說體育
2026-06-19 20:12:56
WTT球星挑戰(zhàn)賽:4強對陣出爐!黃友政陳熠3:2,日本混雙全軍覆沒

WTT球星挑戰(zhàn)賽:4強對陣出爐!黃友政陳熠3:2,日本混雙全軍覆沒

國乒二三事
2026-06-19 21:40:08
最新:曝烏克蘭攻入俄羅斯三塊領(lǐng)土!摧毀訓(xùn)練指揮中心

最新:曝烏克蘭攻入俄羅斯三塊領(lǐng)土!摧毀訓(xùn)練指揮中心

項鵬飛
2026-06-19 17:23:15
防長遭中國制裁,菲總統(tǒng)親自出面見普京,不料遭俄羅斯獅子大開口

防長遭中國制裁,菲總統(tǒng)親自出面見普京,不料遭俄羅斯獅子大開口

鐵錘簡科
2026-06-19 14:25:41
唏噓!曾經(jīng)的成都高新“神盤”,全部沒人要了!

唏噓!曾經(jīng)的成都高新“神盤”,全部沒人要了!

樓市滅霸
2026-06-19 16:58:22
收視指南!6月19日晚9點CCTV5+直播中國女排對陣法國的復(fù)仇之戰(zhàn)!

收視指南!6月19日晚9點CCTV5+直播中國女排對陣法國的復(fù)仇之戰(zhàn)!

排球大視界
2026-06-19 14:14:26
反轉(zhuǎn)!現(xiàn)在不是美國敢不敢打中國問題,而是中國讓不讓美國打問題

反轉(zhuǎn)!現(xiàn)在不是美國敢不敢打中國問題,而是中國讓不讓美國打問題

探索源自好奇
2026-06-19 08:34:36
成品油價降回7元時代

成品油價降回7元時代

界面新聞
2026-06-18 15:01:31
德天空:拜仁世界杯后與凱恩談續(xù)約,希望他至少留到2029年

德天空:拜仁世界杯后與凱恩談續(xù)約,希望他至少留到2029年

懂球帝
2026-06-19 15:32:12
官方通報海南臨高縣休漁停泊漁船突發(fā)火情:造成11艘漁船著火,未造成人員傷亡

官方通報海南臨高縣休漁停泊漁船突發(fā)火情:造成11艘漁船著火,未造成人員傷亡

揚子晚報
2026-06-19 12:26:04
梅西不見了,央視世界杯廣告的悄然變化

梅西不見了,央視世界杯廣告的悄然變化

上觀新聞
2026-06-19 15:42:38
經(jīng)過一夜大雨的武漢是這樣的

經(jīng)過一夜大雨的武漢是這樣的

極目新聞
2026-06-19 16:39:52
莫斯科被炸,德國發(fā)戰(zhàn)爭警告,32國一致同意,北約要擋不住俄軍了

莫斯科被炸,德國發(fā)戰(zhàn)爭警告,32國一致同意,北約要擋不住俄軍了

墨子翟的日記y
2026-06-17 23:20:18
王寶強砸2.5億拍新片,就沖這張關(guān)公海報,值回票價!

王寶強砸2.5億拍新片,就沖這張關(guān)公海報,值回票價!

動物奇奇怪怪
2026-06-17 02:49:04
敏昂萊在華5天,所求只有三件事,中方提出一個條件,緬甸沉默了

敏昂萊在華5天,所求只有三件事,中方提出一個條件,緬甸沉默了

青煙小先生
2026-06-18 19:30:58
油價大跌超0.96元/升,今年最大上漲后降下來,下次7月3日調(diào)價

油價大跌超0.96元/升,今年最大上漲后降下來,下次7月3日調(diào)價

豬友巴巴
2026-06-19 17:25:03
SpaceX股價坐過山車:市值一夜蒸發(fā)千億,投資者慌了

SpaceX股價坐過山車:市值一夜蒸發(fā)千億,投資者慌了

閃存獵手
2026-06-19 01:31:36
爸逼我相親,我故意穿跟大媽一樣,結(jié)果男方開勞斯萊斯,我傻眼了

爸逼我相親,我故意穿跟大媽一樣,結(jié)果男方開勞斯萊斯,我傻眼了

千秋文化
2026-06-16 19:30:26
2026-06-19 23:00:49
風(fēng)格豆腐干
風(fēng)格豆腐干
風(fēng)格豆腐干
704文章數(shù) 42關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

公安局花148萬采購移動警務(wù)通 中標公告顯示數(shù)量為"1"

頭條要聞

公安局花148萬采購移動警務(wù)通 中標公告顯示數(shù)量為"1"

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

健康
家居
旅游
游戲
教育

吃粽子的3條保胃法則,消化科醫(yī)生推薦

家居要聞

綠意盎然 自然之境

旅游要聞

端午“趣”新安,“粽”享歡樂時光!

3A新標準?GTA6定價有望破80美元!你能不能接受?

教育要聞

頹廢不上進,孩子擺爛不是父母的錯!

無障礙瀏覽 進入關(guān)懷版