免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

雷軍:3倍價(jià)格10倍速度!小米萬億參數(shù)模型1000 tokens/s狂飆,只需8張GPU

0
分享至


智東西
作者 李水青
編輯 云鵬

智東西6月9日報(bào)道,今日,小米MiMo團(tuán)隊(duì)推理系統(tǒng)團(tuán)隊(duì)TileRT聯(lián)合宣布,Xiaomi MiMo-V2.5-Pro的UltraSpeed模式已實(shí)現(xiàn)萬億參數(shù)(1T)旗艦?zāi)P洼敵鏊俣仁状瓮黄?000 tokens/s。


▲雷軍發(fā)文宣布MiMo-V2.5-Pro-UltraSpeed新進(jìn)展(圖源:新浪微博)

1000 tokens/s是什么概念?從下面這個(gè)例子我們能有直觀的感受。以復(fù)雜可視化大屏生成任務(wù)為例,UltraSpeed版僅需13秒完成,標(biāo)準(zhǔn)版耗時(shí)6分15秒,同等效果下最高提速28倍。


提示詞:生成一個(gè)AI服務(wù)運(yùn)營總覽大屏,深色科技風(fēng)(深色底 + 藍(lán)青主色 + 紅色異常);頂部KPI卡片(在線服務(wù)數(shù) / 今日總調(diào)用量 / 整體成功率 / 平均latency),左中實(shí)時(shí)調(diào)用趨勢折線圖(1min粒度,3s刷新)+ 并發(fā)用戶數(shù) sparkline,右中型分布環(huán)形圖+接口成功率TOP5進(jìn)度條,底部異常告警列表(脈沖紅點(diǎn))+ 資源水位(CPU/GPU/ 內(nèi)存);點(diǎn)擊趨勢圖展開60min明細(xì)浮層;純HTML+CSS+JS單文件,Canvas繪圖,KPI超大數(shù)字發(fā)光動(dòng)畫。

背后,團(tuán)隊(duì)僅用一個(gè)標(biāo)準(zhǔn)的8卡通用GPU節(jié)點(diǎn),便讓1T模型突破了1000 tokens/s的輸出速度。涉及技術(shù)包含F(xiàn)P4量化、DFlash高效推測解碼,搭配TileRT定制編譯內(nèi)核,通過軟硬件協(xié)同充分釋放算力等。

TileRT是一家聚焦AI推理系統(tǒng)的獨(dú)立技術(shù)團(tuán)隊(duì),其主營業(yè)務(wù)是高性能推理引擎。此前5月22日,該團(tuán)隊(duì)與智譜聯(lián)合進(jìn)行系統(tǒng)級優(yōu)化,使得GLM-5.1高速版API輸出速度達(dá)400Tokens/s,創(chuàng)下彼時(shí)公開大模型商用API推理速度紀(jì)錄。

今日,Xiaomi MiMo-V2.5-Pro-UltraSpeed的API同步上線。該API采用限時(shí)體驗(yàn)價(jià),定價(jià)為MiMo-V2.5-Pro的3倍,同時(shí)提供約10倍的輸出速度提升。該模式僅支持API體驗(yàn),暫不支持Token Plan。

本次體驗(yàn)采取申請制,6月9日至6月23日限時(shí)開放。通過審核的用戶可獲得兩周限時(shí)免費(fèi)的Chat體驗(yàn)。

團(tuán)隊(duì)已開源MiMo-V2.5-Pro-FP4-DFlash checkpoint至HuggingFace,包含F(xiàn)P4量化權(quán)重與DFlash模型參數(shù)。MiMo-V2.5極致推理支持在后續(xù)將推出。

申請入口:
https://platform.xiaomimimo.com/ultraspeed
Chat體驗(yàn)入口:
https://ultraspeed.xiaomimimo.com
Hugging Face地址:
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash一、每秒千token推理:10秒做貪吃蛇、1分鐘復(fù)刻 macOS

萬億參數(shù)尺度上突破1000 tps意味著什么?小米公告中稱,這有望帶來以下AI應(yīng)用模式的底層改變:

速度轉(zhuǎn)化為智能:在相同等待時(shí)間內(nèi),模型可并行運(yùn)行數(shù)十條推理路徑(Best-of-N/Tree Search),后臺(tái)自動(dòng)驗(yàn)證糾錯(cuò),用速度換取思考深度和推理質(zhì)量。

解放Coding Agent生產(chǎn)力:極速推理下,開發(fā)者無需長時(shí)間等待代碼生成,大幅提升編碼效率。

進(jìn)入實(shí)時(shí)決策閉環(huán):毫秒級的“思考-響應(yīng)”循環(huán)使萬億模型可以接入高頻量化交易信號生成、瞬時(shí)反欺詐風(fēng)控?cái)r截、智能競價(jià)及實(shí)時(shí)交互對話等對時(shí)間極度敏感的場景。

醫(yī)療場景的價(jià)值:在手術(shù)輔助、醫(yī)療影像分析等場景中,速度的提升可幫助AI更快完成病灶分析與風(fēng)險(xiǎn)預(yù)判,為醫(yī)生爭取更多處置時(shí)間。

如下圖所示,僅需10秒,Xiaomi MiMo-V2.5-Pro-UltraSpeed可生成一個(gè)貪吃蛇小游戲。

僅需1分鐘,Xiaomi MiMo-V2.5-Pro-UltraSpeed就能復(fù)刻一個(gè)macOS系統(tǒng)。


二、不走專用芯片路線,模型+系統(tǒng)雙向優(yōu)化,通用8卡GPU跑出極速推理

與業(yè)界Cerebras晶圓級集成或Groq純片上SRAM定制芯片等專用硬件路線不同,小米和雙方TileRT系統(tǒng)團(tuán)隊(duì)選擇在通用GPU上實(shí)現(xiàn)這一速度。

在模型側(cè),他們針對通用硬件的帶寬瓶頸,進(jìn)行了FP4量化,大幅縮減模型體積并減少訪存開銷;同時(shí)引入基于塊級Masked并行預(yù)測的高效推測解碼DFlash,大幅提升單次驗(yàn)證的Token接受長度。

在系統(tǒng)側(cè),TileRT適配算法的動(dòng)態(tài)特性,為全新的量化和推測解碼流程量身定制專項(xiàng)優(yōu)化的編譯引擎與計(jì)算核。

1、FP4量化:大幅瘦身不丟精度

在萬億參數(shù)尺度上,傳統(tǒng)8比特甚至16比特推理會(huì)帶來巨大的顯存占用和內(nèi)存帶寬壓力。團(tuán)隊(duì)采用了業(yè)界較為通用的MXFP4量化方案。

針對MiMo-V2.5-Pro的MoE(Mixture of Experts)架構(gòu)特性,他們只對MoE Expert進(jìn)行參數(shù)FP4量化,其他模塊保留原有精度。通過FP4量化感知訓(xùn)練(QAT),在大幅縮減模型體積、榨干硬件帶寬的同時(shí),模型整體能力與原模型基本持平。


▲FP4 vs FP8模型對比

2、DFlash投機(jī)解碼:單次驗(yàn)證一口氣確認(rèn)多段文本

傳統(tǒng)投機(jī)解碼依賴小型Draft模型猜測后續(xù)tokens,再由大模型驗(yàn)證,瓶頸在于Draft模型質(zhì)量與計(jì)算開銷難以兼得。團(tuán)隊(duì)采用了DFlash塊級Masked并行預(yù)測方法:Draft模型在一次前向中同時(shí)填出一整塊Mask位置,解除Draft自回歸的串行約束。

針對MiMo-V2.5-Pro的萬億MoE與長上下文場景,團(tuán)隊(duì)進(jìn)行了定制優(yōu)化:

(1)Draft模型采用滑動(dòng)窗口注意力(SWA),與MiMo-V2系列自身設(shè)計(jì)對齊,單次預(yù)測算力從隨上下文線性增長變?yōu)槌?shù)級。

(2)訓(xùn)練時(shí)Mask信號采樣下沉到GPU本地分片,單步產(chǎn)出數(shù)萬級獨(dú)立訓(xùn)練信號,對齊MiMo-V2系列模型長上下文能力的同時(shí)避免跨設(shè)備通信開銷。

效果上,其并行預(yù)測推測解碼在多個(gè)Agent和Coding高價(jià)值場景實(shí)現(xiàn)了顯著的接受長度提升,意味著大模型每次驗(yàn)證都能“一口氣”確認(rèn)更多內(nèi)容;此外,他們將Mask 塊大小限制為8以降低驗(yàn)證開銷、提高并發(fā)水平,使得高接受長度直接轉(zhuǎn)換為高推理吞吐。


▲DFlash在不同場景下的接受長度

團(tuán)隊(duì)在Coding場景中平均接受長度達(dá)到6.30,部分樣本最高7.14,每輪驗(yàn)證8個(gè)Draft token中可接受6-7個(gè)。同時(shí),在語義更發(fā)散、不確定性更高的通用對話場景中,當(dāng)前的接受率仍不高,團(tuán)隊(duì)正在持續(xù)優(yōu)化。

3、TileRT超低延遲推理系統(tǒng):打通算子壁壘,軟硬件協(xié)同破千Token吞吐

在1000 tokens/s的超高頻運(yùn)行狀態(tài)下,傳統(tǒng)推理系統(tǒng)的算子邊界成為瓶頸。為了消滅算子邊界帶來的執(zhí)行間隙,TileRT引入了新的執(zhí)行模型:

(1)常駐內(nèi)核引擎:摒棄逐算子啟動(dòng)模式,讓計(jì)算流水線常駐在GPU內(nèi)部持續(xù)流轉(zhuǎn),實(shí)現(xiàn)數(shù)據(jù)搬運(yùn)與計(jì)算的極致重疊。

(2)異構(gòu)流水線協(xié)作:在Tile級別將通信、搬運(yùn)和張量計(jì)算進(jìn)行更精細(xì)的物理拆解,不同Warp(線程束)精密協(xié)作。

(3)微秒級軟硬件收斂:TileRT與MiMo團(tuán)隊(duì)深度協(xié)同,針對FP4混合量化與DFlash投機(jī)解碼量身定制編譯引擎與計(jì)算核,讓執(zhí)行壓力最終在硬件邊界內(nèi)平穩(wěn)閉環(huán)。

官方表示,1000 tokens/s的誕生,是高水平系統(tǒng)基礎(chǔ)設(shè)施與極致算法模型向著彼此深度收斂、共同演化的結(jié)果。

結(jié)語:10倍提速,萬億模型的“實(shí)時(shí)夢”更近了

小米MiMo與TileRT在通用GPU上實(shí)現(xiàn)1T模型千tps級輸出,驗(yàn)證了軟硬件協(xié)同設(shè)計(jì)路徑的可行性。相比依賴專用芯片的方案,這一思路有望降低實(shí)時(shí)AI推理的硬件門檻,使更多場景能以可接受的成本獲得近實(shí)時(shí)響應(yīng)能力。

不過,當(dāng)前高接受率仍主要集中在Coding等結(jié)構(gòu)化任務(wù),通用對話場景尚存優(yōu)化空間。同時(shí),推理資源的緊張與申請制開放也反映出大規(guī)模商用仍需時(shí)間。1000 tokens/s的技術(shù)突破值得關(guān)注,同時(shí)距離普惠應(yīng)用還有一段路要走。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不交物業(yè)費(fèi)就限行?引發(fā)網(wǎng)友激烈討論

不交物業(yè)費(fèi)就限行?引發(fā)網(wǎng)友激烈討論

淺遇時(shí)光
2026-06-18 01:16:03
高市早苗稱“非常擔(dān)心”中國對日本的稀土出口限制措施,外交部:她一邊喊著對話,一邊忙著對抗,完全是自相矛盾

高市早苗稱“非常擔(dān)心”中國對日本的稀土出口限制措施,外交部:她一邊喊著對話,一邊忙著對抗,完全是自相矛盾

日照日報(bào)
2026-06-18 16:31:03
一門三尊!拜仁三叉戟?jiǎng)P恩、奧利塞、迪亞斯均獲首輪全場最佳

一門三尊!拜仁三叉戟?jiǎng)P恩、奧利塞、迪亞斯均獲首輪全場最佳

懂球帝
2026-06-18 13:09:40
涉嫌操縱比賽!官方:科特迪瓦國腳瓦希被加拿大拒簽,無緣戰(zhàn)德國

涉嫌操縱比賽!官方:科特迪瓦國腳瓦希被加拿大拒簽,無緣戰(zhàn)德國

畫夕
2026-06-18 18:08:02
馬卡:皇馬可能2.2億歐報(bào)價(jià)奧利塞,這與恩佐的交易是分開的

馬卡:皇馬可能2.2億歐報(bào)價(jià)奧利塞,這與恩佐的交易是分開的

懂球帝
2026-06-18 22:20:24
再一次,特朗普:感謝中俄

再一次,特朗普:感謝中俄

觀察者網(wǎng)
2026-06-18 09:09:31
中午12點(diǎn)!CCTV5直播日本隊(duì)世界杯“生死戰(zhàn)”,輸球=小組難晉級

中午12點(diǎn)!CCTV5直播日本隊(duì)世界杯“生死戰(zhàn)”,輸球=小組難晉級

麥子的籃球故事
2026-06-18 12:56:54
四川宜賓警方通報(bào)“159瓶茅臺(tái)被跨省扣押3年后多瓶失蹤”

四川宜賓警方通報(bào)“159瓶茅臺(tái)被跨省扣押3年后多瓶失蹤”

界面新聞
2026-06-18 23:05:42
外交部發(fā)言人就韓國外交部官員完整公開重申中韓建交聯(lián)合公報(bào)涉臺(tái)表述答記者問

外交部發(fā)言人就韓國外交部官員完整公開重申中韓建交聯(lián)合公報(bào)涉臺(tái)表述答記者問

澎湃新聞
2026-06-19 00:39:26
山西肉鋪傷人后續(xù):又殺害兩名顧客,3人當(dāng)場死亡,家屬曝隱情

山西肉鋪傷人后續(xù):又殺害兩名顧客,3人當(dāng)場死亡,家屬曝隱情

離離言幾許
2026-06-16 20:59:36
G7峰會(huì)吵翻天,高市早苗反華,再上新的高度,中國反成最大焦點(diǎn)

G7峰會(huì)吵翻天,高市早苗反華,再上新的高度,中國反成最大焦點(diǎn)

流史歲月
2026-06-18 19:30:09
卡納瓦羅:1-3告負(fù)的結(jié)果有些苦澀,我們得在執(zhí)行力層面繼續(xù)提高

卡納瓦羅:1-3告負(fù)的結(jié)果有些苦澀,我們得在執(zhí)行力層面繼續(xù)提高

懂球帝
2026-06-18 15:06:15
地質(zhì)災(zāi)害黃色預(yù)警:安徽湖北廣東等地部分地區(qū)發(fā)生災(zāi)害風(fēng)險(xiǎn)較高

地質(zhì)災(zāi)害黃色預(yù)警:安徽湖北廣東等地部分地區(qū)發(fā)生災(zāi)害風(fēng)險(xiǎn)較高

每日經(jīng)濟(jì)新聞
2026-06-18 18:13:05
寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

北緯的咖啡豆
2026-06-18 21:59:34
莫斯科爆炸,俄軍忍無可忍報(bào)復(fù):伊朗不打了,普京的強(qiáng)援即將趕到

莫斯科爆炸,俄軍忍無可忍報(bào)復(fù):伊朗不打了,普京的強(qiáng)援即將趕到

李健政觀察
2026-06-18 17:17:11
寶媽避雨被趕后續(xù):大批顧客退單,商家道歉也無果,門店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,商家道歉也無果,門店口碑崩了

千言娛樂記
2026-06-18 18:59:27
內(nèi)訌?C羅疑抱怨26歲門將“這都撲不出來” 對方怒懟+爆發(fā)激烈爭吵

內(nèi)訌?C羅疑抱怨26歲門將“這都撲不出來” 對方怒懟+爆發(fā)激烈爭吵

風(fēng)過鄉(xiāng)
2026-06-18 12:33:03
一份家暴諒解書,換五處房產(chǎn)?

一份家暴諒解書,換五處房產(chǎn)?

中國新聞周刊
2026-06-18 22:40:25
查封的 “全季酒店” 被改成 “金季酒店”,罰款30萬也拒不停業(yè)

查封的 “全季酒店” 被改成 “金季酒店”,罰款30萬也拒不停業(yè)

大風(fēng)新聞
2026-06-18 20:45:13
米體:勞塔羅賽后離場時(shí)臉色不悅,他對自己表現(xiàn)失望,擔(dān)心丟主力

米體:勞塔羅賽后離場時(shí)臉色不悅,他對自己表現(xiàn)失望,擔(dān)心丟主力

云隱南山
2026-06-19 00:07:03
2026-06-19 05:12:49
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
12082文章數(shù) 117111關(guān)注度
往期回顧 全部

科技要聞

庫克承認(rèn)扛不住了,蘋果漲價(jià)“不可避免”

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財(cái)經(jīng)要聞

博??礗PO,賺錢業(yè)務(wù)與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

數(shù)碼
本地
家居
公開課
軍事航空

數(shù)碼要聞

銘瑄公布MCIO接口ITX主板方案,展示高密度接口優(yōu)勢

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

家居要聞

綠意盎然 自然之境

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗外交部:美伊已簽署諒解備忘錄

無障礙瀏覽 進(jìn)入關(guān)懷版