免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

推理時(shí)代到來,AI數(shù)據(jù)中心如何應(yīng)對內(nèi)存擴(kuò)展挑戰(zhàn)

0
分享至


過去幾年,AI基礎(chǔ)設(shè)施的建設(shè)重心始終圍繞模型訓(xùn)練展開:更大的集群、更快的加速器、更高的帶寬,目的是讓GPU保持滿負(fù)荷運(yùn)轉(zhuǎn)。然而,這一設(shè)計(jì)邏輯正在悄然改變。隨著AI工作負(fù)載向推理階段遷移,數(shù)據(jù)中心面臨的核心約束已不再只是計(jì)算速度,而是如何高效地存儲(chǔ)、管理和調(diào)度推理所需的內(nèi)存駐留數(shù)據(jù)。

訓(xùn)練與推理對基礎(chǔ)設(shè)施的壓力截然不同。

訓(xùn)練本質(zhì)上是一個(gè)計(jì)算與帶寬問題,目標(biāo)是在高度協(xié)調(diào)的突發(fā)任務(wù)中最大化吞吐量,盡可能快地將大量模型參數(shù)、激活值和梯度傳輸給加速器。在這種環(huán)境下,內(nèi)存被優(yōu)化為高速、局部性強(qiáng)、帶寬充足的資源,整個(gè)系統(tǒng)的設(shè)計(jì)核心是讓昂貴的計(jì)算資源保持充分利用。

推理則改變了這一邏輯。模型部署之后,挑戰(zhàn)不再僅僅是盡可能快地執(zhí)行數(shù)學(xué)運(yùn)算,而是要高效地處理數(shù)以百萬計(jì)的請求,通常還需滿足低延遲和不可預(yù)測的需求波動(dòng)。在這種場景下,內(nèi)存不再只是短暫訓(xùn)練數(shù)據(jù)的高速暫存區(qū),而是服務(wù)本身的組成部分。

這是當(dāng)前AI領(lǐng)域正在發(fā)生的最重要的基礎(chǔ)設(shè)施轉(zhuǎn)型之一。

在推理時(shí)代,內(nèi)存的使用變得更加持久。它不再是在訓(xùn)練迭代中被消耗和丟棄的臨時(shí)資源,而必須跨會(huì)話、跨請求、乃至跨應(yīng)用長期保持可用。它需要保存現(xiàn)代AI服務(wù)所依賴的各類狀態(tài),包括鍵值緩存、嵌入向量、檢索數(shù)據(jù)和會(huì)話上下文。對于推理模型和智能體系統(tǒng)而言,隨著上下文窗口的擴(kuò)展和中間狀態(tài)的增多,內(nèi)存需求還會(huì)進(jìn)一步攀升。

這也帶來了第二個(gè)轉(zhuǎn)變:內(nèi)存需求的增長越來越取決于用戶活動(dòng),而非單純?nèi)Q于模型大小。

訓(xùn)練階段的容量規(guī)劃從模型大小和所需算力出發(fā);而在推理階段,用戶數(shù)量、提示詞長度、檢索上下文的體量以及交互時(shí)長,都成為基礎(chǔ)設(shè)施需求的關(guān)鍵驅(qū)動(dòng)因素。同一個(gè)已部署的模型,因使用方式不同,可能面對差異懸殊的工作負(fù)載。更長的提示詞、多輪對話、檢索增強(qiáng)生成以及工具調(diào)用,都會(huì)增加內(nèi)存壓力,而有效計(jì)算量卻未必等比例增加。

因此,推理系統(tǒng)正從帶寬瓶頸轉(zhuǎn)向容量與成本瓶頸。

這一區(qū)別至關(guān)重要。在許多情況下,支撐推理所需的內(nèi)存占用可能與模型權(quán)重本身的體量相當(dāng),甚至超過后者。在服務(wù)大規(guī)模用戶群或維護(hù)長上下文時(shí)尤為如此——鍵值緩存等運(yùn)行時(shí)數(shù)據(jù)結(jié)構(gòu)會(huì)快速膨脹,并在大量事務(wù)中持續(xù)占用內(nèi)存。

然而,傳統(tǒng)服務(wù)器架構(gòu)并非為這種模式而設(shè)計(jì)。

在當(dāng)前大多數(shù)系統(tǒng)中,內(nèi)存與計(jì)算單元緊密耦合。如果運(yùn)營商需要更多內(nèi)存容量,通常的做法是增加CPU或GPU,以此換取更大的片上內(nèi)存,即便實(shí)際上并不需要更多算力。當(dāng)計(jì)算與內(nèi)存同步擴(kuò)展時(shí),這種方式尚可接受;但當(dāng)內(nèi)存需求的增速遠(yuǎn)超實(shí)際處理需求時(shí),這種方式就變得低效了。

這正是AI基礎(chǔ)設(shè)施領(lǐng)域正在浮現(xiàn)的經(jīng)濟(jì)性問題。運(yùn)營商不得不采購昂貴的計(jì)算資源,僅僅是為了獲取更多內(nèi)存。高帶寬內(nèi)存(HBM)等高性能內(nèi)存技術(shù)對許多工作負(fù)載不可或缺,但其成本較高,容量也相對有限。通過傳統(tǒng)方式擴(kuò)展服務(wù)器內(nèi)存,還會(huì)受到DIMM插槽數(shù)量、功耗預(yù)算和主板設(shè)計(jì)的物理限制。最終結(jié)果是基礎(chǔ)設(shè)施過度配置、資源閑置以及總體擁有成本持續(xù)攀升。

這正是內(nèi)存架構(gòu)正在走向數(shù)據(jù)中心設(shè)計(jì)核心的原因。

AI基礎(chǔ)設(shè)施的下一階段需要將內(nèi)存擴(kuò)展與計(jì)算擴(kuò)展解耦,并將內(nèi)存作為可共享、可主動(dòng)管理的資源,而非單臺(tái)服務(wù)器的固有屬性。這正是計(jì)算快速鏈路(CXL)技術(shù)的價(jià)值所在。

CXL為數(shù)據(jù)中心引入了全新的內(nèi)存模型。通過將內(nèi)存從計(jì)算單元中解耦并實(shí)現(xiàn)更靈活的管理,它使運(yùn)營商能夠?qū)⒒A(chǔ)設(shè)施配置更精準(zhǔn)地對齊實(shí)際工作負(fù)載需求,無需僅僅為了增加內(nèi)存容量而擴(kuò)充CPU或GPU,而是可以更直接地?cái)U(kuò)展內(nèi)存,實(shí)現(xiàn)內(nèi)存與計(jì)算的獨(dú)立擴(kuò)展。

這對利用率和成本都具有切實(shí)影響。

其一,CXL支持內(nèi)存池化。運(yùn)營商可以將內(nèi)存動(dòng)態(tài)分配給最需要它的主機(jī)和服務(wù),而無需讓內(nèi)存閑置在低利用率的系統(tǒng)中。在大型環(huán)境中,這能顯著提升整體利用率,也避免了為應(yīng)對間歇性峰值而對每臺(tái)服務(wù)器進(jìn)行過度配置的浪費(fèi)。

其二,CXL支持分層內(nèi)存架構(gòu)。并非所有數(shù)據(jù)都需要始終駐留在最昂貴、帶寬最高的內(nèi)存層。有些數(shù)據(jù)是熱數(shù)據(jù),對延遲敏感;有些是溫?cái)?shù)據(jù),訪問頻繁但非持續(xù);還有些數(shù)據(jù)體量大、持久性強(qiáng),更適合放置在成本較低的層級。通過根據(jù)訪問模式和性能需求靈活調(diào)度數(shù)據(jù),CXL幫助運(yùn)營商在成本與性能之間實(shí)現(xiàn)智能平衡。

其三,CXL有助于消除AI服務(wù)擴(kuò)展方式與傳統(tǒng)基礎(chǔ)設(shè)施構(gòu)建模式之間的結(jié)構(gòu)性錯(cuò)位。當(dāng)推理越來越依賴持久狀態(tài)、不斷增長的內(nèi)存占用和不均衡的需求模式時(shí),可組合內(nèi)存架構(gòu)比"每增加內(nèi)存就必須增加昂貴算力"的舊模式更適合這個(gè)新世界。

這并不意味著計(jì)算變得不再重要。AI仍將持續(xù)需要頂尖GPU、高速互聯(lián)和緊鄰加速器的高性能內(nèi)存。但重心正在轉(zhuǎn)移——基礎(chǔ)設(shè)施的挑戰(zhàn)不再只是訓(xùn)練更大的模型,而是如何在規(guī)?;瘓鼍跋氯諒?fù)一日、請求接請求地高效運(yùn)營AI服務(wù)。

這既是性能問題,更是運(yùn)營問題;而運(yùn)營問題,歸根結(jié)底是經(jīng)濟(jì)性問題。

外界對CXL的疑慮可以理解。對于一項(xiàng)新的互聯(lián)標(biāo)準(zhǔn)而言,真正的問題不在于路線圖是否宏大,而在于部署所需的核心功能是否已趨于穩(wěn)定。就CXL 3.x而言,答案正越來越接近"是":CXL 3.0引入了數(shù)據(jù)中心所需的Fabric架構(gòu)、內(nèi)存池化和點(diǎn)對點(diǎn)通信能力,而CXL 3.2則聚焦于設(shè)備管理、監(jiān)控、安全性和向后兼容互操作性等同樣重要但不那么顯眼的工作。這并不意味著每個(gè)數(shù)據(jù)中心都會(huì)立即部署CXL,但規(guī)范已大幅向功能成熟和實(shí)際部署就緒邁進(jìn)。

隨著推理在AI活動(dòng)中占據(jù)越來越大的份額,基礎(chǔ)設(shè)施領(lǐng)域的競爭勝負(fù)將不再只取決于誰能提供最強(qiáng)的算力,而是取決于誰能在算力、內(nèi)存容量、利用率和成本之間實(shí)現(xiàn)最優(yōu)平衡。在這樣的環(huán)境中,內(nèi)存不能再被視為處理器旁邊的被動(dòng)組件,它已成為AI經(jīng)濟(jì)性的戰(zhàn)略控制點(diǎn)。

數(shù)據(jù)中心行業(yè)已經(jīng)用數(shù)年時(shí)間適應(yīng)了訓(xùn)練階段的需求,現(xiàn)在必須再次適應(yīng)推理階段的需求。這意味著:為持久狀態(tài)而非瞬態(tài)批次而設(shè)計(jì),為用戶驅(qū)動(dòng)的增長而非模型驅(qū)動(dòng)的增長而設(shè)計(jì),以及為內(nèi)存效率而非單純的算力擴(kuò)展而設(shè)計(jì)。

CXL無法單獨(dú)解決所有基礎(chǔ)設(shè)施挑戰(zhàn),但它為推理時(shí)代提供了一條通向更靈活、更具經(jīng)濟(jì)理性的內(nèi)存架構(gòu)的清晰路徑。隨著AI服務(wù)持續(xù)擴(kuò)展,這或許將成為現(xiàn)代數(shù)據(jù)中心最重要的變革之一。

Q&A

Q1:AI推理階段對內(nèi)存的需求為什么和訓(xùn)練階段不同?

A:訓(xùn)練階段主要是計(jì)算與帶寬問題,內(nèi)存用于快速傳輸模型參數(shù)和梯度,使用完即丟棄。推理階段則需要持續(xù)保存鍵值緩存、嵌入向量、會(huì)話上下文等運(yùn)行時(shí)狀態(tài),內(nèi)存必須跨請求、跨會(huì)話長期駐留。同時(shí),推理的內(nèi)存需求隨用戶數(shù)量、提示詞長度和交互復(fù)雜度動(dòng)態(tài)增長,而非僅由模型大小決定,這使得內(nèi)存成為推理階段的核心瓶頸。

Q2:CXL技術(shù)是什么?它如何解決AI推理的內(nèi)存問題?

A:CXL(計(jì)算快速鏈路)是一種新型互聯(lián)標(biāo)準(zhǔn),允許內(nèi)存從計(jì)算單元中解耦,實(shí)現(xiàn)獨(dú)立擴(kuò)展和靈活管理。它支持內(nèi)存池化,讓運(yùn)營商可以將內(nèi)存動(dòng)態(tài)分配給最需要的服務(wù),避免資源閑置;同時(shí)支持分層內(nèi)存架構(gòu),根據(jù)數(shù)據(jù)的訪問頻率和延遲敏感度將其放置在不同成本的內(nèi)存層,從而在性能與成本之間實(shí)現(xiàn)更優(yōu)平衡,解決傳統(tǒng)服務(wù)器"買算力才能買內(nèi)存"的經(jīng)濟(jì)性困境。

Q3:AI推理階段帶來了哪些數(shù)據(jù)中心基礎(chǔ)設(shè)施的經(jīng)濟(jì)性問題?

A:傳統(tǒng)服務(wù)器架構(gòu)將內(nèi)存與計(jì)算緊密耦合,運(yùn)營商若需要更多內(nèi)存,就必須采購更多CPU或GPU,即使并不需要額外算力。HBM等高性能內(nèi)存成本高昂、容量有限,傳統(tǒng)擴(kuò)展方式還受到DIMM插槽和功耗的物理限制。這導(dǎo)致基礎(chǔ)設(shè)施過度配置、資源閑置、總體擁有成本持續(xù)上升,形成顯著的經(jīng)濟(jì)浪費(fèi)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
阿克利烏什:梅西還在讓人驚嘆,還能在世界杯看到他真的很好

阿克利烏什:梅西還在讓人驚嘆,還能在世界杯看到他真的很好

懂球帝
2026-06-19 05:57:12
為什么飛機(jī)不能直接飛越西藏?四大因素,讓西藏成為“空中禁區(qū)”

為什么飛機(jī)不能直接飛越西藏?四大因素,讓西藏成為“空中禁區(qū)”

混沌錄
2026-06-18 19:13:49
美伊談判幕后曝光:連續(xù)21小時(shí),伊朗最后20分鐘回絕美方進(jìn)一步核討論要求

美伊談判幕后曝光:連續(xù)21小時(shí),伊朗最后20分鐘回絕美方進(jìn)一步核討論要求

紅星新聞
2026-06-18 14:17:40
每年1000美元:桑德斯計(jì)劃讓每個(gè)美國人吃上AI紅利

每年1000美元:桑德斯計(jì)劃讓每個(gè)美國人吃上AI紅利

IT之家
2026-06-19 10:08:20
細(xì)思極恐,我們對宇宙的理解全是錯(cuò)的?韋伯望遠(yuǎn)鏡打開潘多拉魔盒

細(xì)思極恐,我們對宇宙的理解全是錯(cuò)的?韋伯望遠(yuǎn)鏡打開潘多拉魔盒

小濤叨叨
2026-05-10 07:13:27
陳誠在東北槍斃三個(gè)中將,活埋三十七個(gè)將校,那都是文強(qiáng)的功勞?

陳誠在東北槍斃三個(gè)中將,活埋三十七個(gè)將校,那都是文強(qiáng)的功勞?

老慃尾聲體育解說
2026-06-16 15:13:12
最高33℃!“梅姑娘”發(fā)狠了,浙江暴雨今夜起進(jìn)入“火力全開”模式,晚上一定要早點(diǎn)回家

最高33℃!“梅姑娘”發(fā)狠了,浙江暴雨今夜起進(jìn)入“火力全開”模式,晚上一定要早點(diǎn)回家

新浪財(cái)經(jīng)
2026-06-19 10:39:10
C羅常年體脂率7%,梅西8%!他們的身材,都是怎么保持的?

C羅常年體脂率7%,梅西8%!他們的身材,都是怎么保持的?

馬拉松跑步健身
2026-06-17 21:17:32
陳建斌蔣勤勤現(xiàn)身兒子高中畢業(yè)典禮,19歲虎虎身高近一米九,已錄取伯克利物理系

陳建斌蔣勤勤現(xiàn)身兒子高中畢業(yè)典禮,19歲虎虎身高近一米九,已錄取伯克利物理系

戶外阿毽
2026-06-19 00:26:20
緬甸總統(tǒng)訪華簽89億鐵路大單,中緬走廊多年難題終獲解決

緬甸總統(tǒng)訪華簽89億鐵路大單,中緬走廊多年難題終獲解決

最美的巧合
2026-06-18 21:30:43
梅西紅牌爭議再發(fā)酵!更多賽場細(xì)節(jié)被曝光,央視態(tài)度早已說明一切

梅西紅牌爭議再發(fā)酵!更多賽場細(xì)節(jié)被曝光,央視態(tài)度早已說明一切

天天熱點(diǎn)見聞
2026-06-19 03:45:59
周冬雨演話劇不背臺(tái)詞登上熱搜!觀眾:花880元來看讀臺(tái)本?

周冬雨演話劇不背臺(tái)詞登上熱搜!觀眾:花880元來看讀臺(tái)本?

韓小娛
2026-06-19 08:52:30
皇馬新星成香餑餑,拉科魯尼亞出手了

皇馬新星成香餑餑,拉科魯尼亞出手了

老汆古裝影視解說
2026-06-19 18:24:33
芯片封測十大巨頭:日月光獨(dú)攬26%,長電科技第三,大黑馬入圍

芯片封測十大巨頭:日月光獨(dú)攬26%,長電科技第三,大黑馬入圍

簡易科技
2026-06-19 16:27:17
A股漲出了股災(zāi)...

A股漲出了股災(zāi)...

風(fēng)風(fēng)順
2026-06-19 02:10:04
為什么往死里掃黃?網(wǎng)友分享太真實(shí)了,一次說透

為什么往死里掃黃?網(wǎng)友分享太真實(shí)了,一次說透

另子維愛讀史
2026-05-27 20:16:03
人老了,躺在病床上才明白,廢掉身體最快速的方式,不是抽煙、喝酒、打麻將,而是這3件事

人老了,躺在病床上才明白,廢掉身體最快速的方式,不是抽煙、喝酒、打麻將,而是這3件事

二胡的歲月如歌
2026-06-01 19:17:37
上百條蛇“出沒”,濃烈的腥臭味撲面而來,還有活蟲頻繁“越獄”!上海5A級商務(wù)樓驚現(xiàn)“異寵養(yǎng)殖”,周圍白領(lǐng)忍無可忍→

上百條蛇“出沒”,濃烈的腥臭味撲面而來,還有活蟲頻繁“越獄”!上海5A級商務(wù)樓驚現(xiàn)“異寵養(yǎng)殖”,周圍白領(lǐng)忍無可忍→

新民晚報(bào)
2026-06-18 11:36:26
向華強(qiáng)懵了!砸數(shù)億捧半生都沒紅的向佐,被易立竟采訪推上頂峰

向華強(qiáng)懵了!砸數(shù)億捧半生都沒紅的向佐,被易立竟采訪推上頂峰

一盅情懷
2026-06-19 08:46:51
連續(xù)喝了一年,浙江36歲男子皮膚潰爛多處癌變!損傷完全不可逆,出現(xiàn)三個(gè)信號馬上就醫(yī)

連續(xù)喝了一年,浙江36歲男子皮膚潰爛多處癌變!損傷完全不可逆,出現(xiàn)三個(gè)信號馬上就醫(yī)

新浪財(cái)經(jīng)
2026-06-19 09:20:12
2026-06-19 19:27:00
至頂科技 incentive-icons
至頂科技
科技產(chǎn)業(yè)媒體與 AI 產(chǎn)業(yè)服務(wù)機(jī)構(gòu)
19425文章數(shù) 49712關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

吳倩自曝小時(shí)被爸爸打掉牙齒硬吞進(jìn)肚

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

健康
家居
旅游
時(shí)尚
軍事航空

吃粽子的3條保胃法則,消化科醫(yī)生推薦

家居要聞

綠意盎然 自然之境

旅游要聞

四川七曲山景區(qū)被指圈國道違規(guī)收費(fèi),官方通報(bào)

夏天上衣穿短不穿長,看看下面這幾款短上衣,顯高舒適顯比例

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競渡來了

無障礙瀏覽 進(jìn)入關(guān)懷版