免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Nature子刊:大模型進入“密度時代”

0
分享至


導語

大語言模型已成為人工智能發(fā)展的重要里程碑。既有的規(guī)模法則表明,隨著模型規(guī)模的擴大,LLM的性能會持續(xù)提升,但這也對訓練與部署帶來顯著挑戰(zhàn)。盡管業(yè)界不斷嘗試提升模型效率,卻仍缺乏關于不同規(guī)模LLM的效率發(fā)展趨勢與評價體系的統(tǒng)一共識。為解決性能與效率之間的張力,本文提出“能力密度”這一概念,用以衡量模型在單位參數(shù)上所體現(xiàn)的有效能力,從而在性能與效率兩個維度上提供統(tǒng)一的評價框架。我們進一步給出一項經(jīng)驗性發(fā)現(xiàn),即“密度定律”:LLM的能力密度隨時間呈指數(shù)增長?;诙鄠€主流基準的評估結(jié)果顯示,開源LLM的最大能力密度大約每3.5個月翻倍。這意味著,實現(xiàn)同等性能所需的參數(shù)規(guī)模與推理成本均在指數(shù)下降,為高效LLM的開發(fā)策略提供了新的啟示。

關鍵詞:大語言模型(LLMs)、規(guī)模法則(Scaling Law)、能力密度(Capability Density)、密度定律(Densing Law)、效率評估(Efficiency Evaluation)

鄭鴻盛丨作者

趙思怡丨審校


論文題目:Densing law of LLMs 論文鏈接:https://www.nature.com/articles/s42256-025-01137-0 發(fā)表時間:2025年11月6日 論文來源:Nature Machine Intelligence

能力密度的指數(shù)躍遷,

正在悄悄改變 AI 的未來

近兩年,大模型的突飛猛進讓人切身感受到“技術狂飆”,然而一個更耐人尋味的現(xiàn)象也隨之浮現(xiàn):模型能力不斷提高,推理成本卻在飛速下降;小模型越來越頻繁地逼近甚至超越大模型;而“繼續(xù)堆參數(shù)”似乎不再是性能提升的唯一途徑。2025年11月6日發(fā)表于Nature Machine Intelligence 的論文《Densing Law of LLMs》給出了一種顛覆性的解釋——大模型正在從拼“規(guī)?!鞭D(zhuǎn)向拼“密度”。研究發(fā)現(xiàn),LLM的“能力密度”(capability density)正以指數(shù)速度增長,約每3.5個月翻一倍,這意味著達到同等性能所需的參數(shù)量大幅減少,推理成本呈指數(shù)級下降,端側(cè)智能(在手機、PC等本地設備運行大模型)將比預期更早成熟。這不是簡單的性能提升,而是一場關于效率的革命。讓我們從這篇可能深刻影響未來五年的論文開始,重新理解大模型的進化方向。

過去衡量模型能力,業(yè)界普遍遵循“參數(shù)越大,性能越強”的直覺,但隨著大量開源模型的涌現(xiàn),這一直覺邏輯開始失靈,出現(xiàn)7B模型逼近甚至匹敵70B模型,4B模型在部分任務上超過13B模型,手機端模型也逐漸具備ChatGPT3.5的水平,而訓練數(shù)據(jù)質(zhì)量與訓練策略的重要性日益凸顯。這些現(xiàn)象共同指向一個事實——參數(shù)量已無法充分解釋模型能力的差異,規(guī)模不再等同于質(zhì)量。因此,真正需要關注的已不再是“模型有多大”,而是“模型的效率有多高”。

什么是“能力密度”?簡單來說,它衡量的是模型“每個參數(shù)的含金量”。其定義為:能力密度 = 模型的有效能力 ÷ 實際參數(shù)量。這里的“有效能力”并非模型自身的參數(shù)規(guī)模,而是一個反推值:如果某模型達到特定性能,那么一套參考模型需要多少參數(shù)才能取得相同表現(xiàn),這個等效參數(shù)量記為 N?(此處的參考模型為研究者自建的一系列不同參數(shù)規(guī)模、結(jié)構一致、訓練流程一致的小參數(shù)規(guī)模模型)。于是能力密度可寫為 ρ = N? / N,用來刻畫模型訓練得是否“緊實”。例如,一個3B模型若達到參考模型6B的能力,則密度 ρ = 6 / 3 = 2,代表其單位參數(shù)效率極高;反之,若一個7B模型只能達到參考模型3B的水平,則 ρ < 1,說明其參數(shù)利用率偏低。本質(zhì)上,能力密度回答的就是那一句:模型的每個參數(shù)到底“值不值錢”?

密度定律:能力密度正以指數(shù)方式增長

本研究中最重要的發(fā)現(xiàn)之一,是大模型的能力密度隨時間呈現(xiàn)穩(wěn)定的指數(shù)增長趨勢。研究者選取五十余個近年來發(fā)布的開源基礎模型,覆蓋多個系列(如 Llama、Mistral、Gemma、Phi、DeepSeek、MiniCPM 等),并在多個主流基準(MMLU、BBH、MATH、HumanEval、MBPP)上進行統(tǒng)一評估。結(jié)果顯示,模型的最大能力密度大約每 3.5 個月翻一倍,這一趨勢在不同任務和不同模型之間都十分一致。


圖 1|近年來開源大模型的能力密度趨勢。每個點代表一個模型,圓點越大參數(shù)量越大。從圖中可以看到,隨著時間推移,能力密度的上界呈現(xiàn)清晰的指數(shù)增長。

這一指數(shù)增長趨勢意味著:未來達到相同性能所需的參數(shù)量將持續(xù)減少。換言之,人們慣常認為的“大模型能力強、但成本高”的認知,將在未來不斷被弱化。更令人興奮的是,這種指數(shù)增長在新模型中體現(xiàn)得更為突出,特別是數(shù)據(jù)質(zhì)量、訓練策略更為精細的小模型,往往展現(xiàn)出遠超其規(guī)模的能力密度。

能力密度提升的一個自然結(jié)果,是實現(xiàn)相同性能所需的實際參數(shù)量不斷減少。與此同時,推理成本也正在以類似的指數(shù)速度下降。文章對多個高性能模型的API調(diào)用價格進行了整理,并展示了一個同樣令人驚訝的趨勢:模型的推理價格大約每2.6個月減半。2022 年 GPT-3.5 的價格約為每百萬token需要20美元,而到了 2024 年,Gemini Flash的推理價格僅為0.075美元,相當于下降了超過260倍。


圖 2|近年來幾個主流語言模型的推理價格變化。性能優(yōu)于 GPT-3.5 的大語言模型(LLMs)的應用程序接口(API)定價。線條連接各時間點定價最低的模型,最便宜模型的API定價呈指數(shù)下降。

推理成本的下降不僅來自模型能力密度的提升,也來自底層推理技術的優(yōu)化,例如 FlashAttention、PagedAttention、量化推理格式、稀疏激活架構等。隨著模型本身越來越“緊實”,推理成本的下降幅度也將持續(xù)擴大。

當密度定律遇上 Moore 定律:

端側(cè)智能將提前爆發(fā)

當能力密度的指數(shù)增長與硬件性能的指數(shù)增長疊加時,一個更加激進的趨勢會出現(xiàn)。過去數(shù)十年里,硬件晶體管密度大約每兩年翻一倍;如今,大模型的能力密度每3.5個月翻一倍。兩者的乘積效果意味著:在固定價格的硬件上,能夠運行的“有效模型規(guī)?!奔s每88天翻一倍。

這預示著什么?預示著過去需要云端大模型才能實現(xiàn)的能力,未來將能在手機、電腦、平板等設備上高效運行。端側(cè) AI 的普及速度可能遠超過我們目前的想象,隱私計算、低成本部署、離線大模型應用將因此迎來爆發(fā)式發(fā)展。


圖 3|大模型的高性能正向小規(guī)模模型遷移,同時端側(cè)可運行模型的能力快速提升(圖片源于網(wǎng)絡)。紅色虛線區(qū)域代表接近GPT-4V水平的模型帶寬,隨著時間推移,越來越小的模型逐漸逼近這一性能區(qū)間;下方藍色虛線趨勢線展示了能夠在端側(cè)設備運行的模型能力不斷上升。

高密度模型不是“壓”出來的,而是“練”出來的

在參數(shù)規(guī)模快速被重新評估的背景下,一個看似合理的猜想是:既然參數(shù)越少越高效,那么剪枝、蒸餾、量化等模型壓縮技術應該更容易得到高能力密度的小模型。但論文的實驗結(jié)果卻指向相反方向——壓縮后的模型能力密度整體上并不比原模型高,甚至往往更低。其根本原因在于,壓縮過程雖然減少了模型的實際參數(shù)量,卻沒有讓模型獲得足夠的再訓練,從而無法讓這些“更輕”的參數(shù)真正承擔起更高的能力負載。尤其是量化,雖然降低了內(nèi)存和推理成本,但不可避免地帶來一定的性能損失。因此,真正高密度的小模型,并不是“從大模型壓縮而來”,而是“從一開始就為高密度而訓練”的結(jié)果。

能力密度之所以能夠持續(xù)提升,主要源于三方面的共同推動。首先,訓練數(shù)據(jù)的規(guī)模與質(zhì)量顯著提高。以Llama系列為例,Llama-3 所使用的15萬億token數(shù)據(jù)不僅規(guī)模遠超Llama-1的1.4萬億token,且在清洗與篩選流程上更加精細,這使模型能夠在同樣結(jié)構下學習到更豐富、更可靠的知識。其次,模型結(jié)構日益高效。以稀疏專家模型(MoE)為代表的新架構,使模型在推理時僅激活部分專家,從而以更低的計算量獲得更強的表達能力,大幅提高“參數(shù)的利用率”。最后,訓練算法不斷演進。無論是將強化學習前移到預訓練階段,還是利用高質(zhì)量的合成數(shù)據(jù)和“弱到強”(weak-to-strong)訓練策略,這些方法都讓模型能夠在固定參數(shù)量下挖掘出更高的能力上限。這些因素共同作用,使得模型在“單位參數(shù)上可以學習到更多能力”,從而推動能力密度不斷攀升。

當然,謹慎來說能力密度的增長不可能無限持續(xù)。信息論告訴我們,每個參數(shù)能夠存儲的信息量是有限的,模型參數(shù)的表達能力也有理論上界。隨著模型的訓練方式、數(shù)據(jù)質(zhì)量和結(jié)構不斷提升,能力密度的增長最終將遇到瓶頸。屆時,如果要繼續(xù)突破當前框架的限制,可能需要依賴全新的技術范式,例如量子計算、類腦計算或其他尚未成熟的計算架構。盡管如此,在可預見的未來幾年中,能力密度仍會保持高速增長,模型變“密”的趨勢不會減弱。

密度定律不僅是一個科學觀察,更是一個具有產(chǎn)業(yè)指導意義的趨勢。對于模型研發(fā)而言,它提示我們,未來的競爭不再是單純擴大參數(shù)規(guī)模,而是追求“更高密度”的訓練方法與更高質(zhì)量的數(shù)據(jù);對于企業(yè)而言,可以據(jù)此預測未來模型成本的下降趨勢,從而更合理安排AI投入;對于硬件和應用產(chǎn)業(yè),則意味著端側(cè)智能將迎來快速擴張,本地運行大模型將從技術挑戰(zhàn)變成新常態(tài)。

從“大”到“密”,AI 的進化正在加速重寫

《Densing Law of LLMs》揭示的,是一種隱藏在大模型演化背后的“效率革命”。在這個新的發(fā)展階段,模型不再依賴“堆大”,而是通過更智能的訓練、更優(yōu)的數(shù)據(jù)、更精細的結(jié)構獲得更高的效率。能力密度的指數(shù)提升讓我們看到:未來的大模型既可能更強,也可能更輕、更快、更便宜,甚至隨時運行在每個人的口袋里。

我們正在見證語言模型從“規(guī)模時代”邁向“密度時代”,而這一轉(zhuǎn)變,或許將深刻改變未來五年乃至整個AI產(chǎn)業(yè)的面貌。

大模型2.0讀書會

o1模型代表大語言模型融合學習與推理的新范式。集智俱樂部聯(lián)合北京師范大學系統(tǒng)科學學院教授張江、Google DeepMind研究科學家馮熙棟、阿里巴巴強化學習研究員王維塤和中科院信工所張杰共同發(fā)起,本次讀書會將關注大模型推理范式的演進、基于搜索與蒙特卡洛樹的推理優(yōu)化、基于強化學習的大模型優(yōu)化、思維鏈方法與內(nèi)化機制、自我改進與推理驗證。希望通過讀書會探索o1具體實現(xiàn)的技術路徑,幫助我們更好的理解機器推理和人工智能的本質(zhì)。讀書會已完結(jié),現(xiàn)在報名可加入社群并解鎖回放視頻權限。

詳情請見:

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
奉勸所有人:退休后,跟別人關系再好,一日游、二日游都行,但千萬別嘗試長時間一起游,否則早晚會后悔

奉勸所有人:退休后,跟別人關系再好,一日游、二日游都行,但千萬別嘗試長時間一起游,否則早晚會后悔

背包旅行
2026-05-28 18:04:35
菲防長萬萬沒想到!向美國表忠心的下場,竟是全菲一億人替他買單

菲防長萬萬沒想到!向美國表忠心的下場,竟是全菲一億人替他買單

離離言幾許
2026-06-20 01:17:18
日本愁慌了,韓國著急了,那座叫棗莊的中國煤城,煤早已不只是煤

日本愁慌了,韓國著急了,那座叫棗莊的中國煤城,煤早已不只是煤

阿嘵田侃故事
2026-06-17 22:13:29
日媒:日本在未參賽的中國隊面前完?。侩p方地位幾乎徹底逆轉(zhuǎn)

日媒:日本在未參賽的中國隊面前完敗?雙方地位幾乎徹底逆轉(zhuǎn)

去山野間追風
2026-06-19 16:45:11
遍地倒閉、批量合并!央企國企扎堆成立的數(shù)科公司,為啥死了大半

遍地倒閉、批量合并!央企國企扎堆成立的數(shù)科公司,為啥死了大半

職場資深秘書
2026-06-15 16:45:31
在非洲15年,我漸漸發(fā)現(xiàn):非洲女孩的早熟,其實都是生活所迫

在非洲15年,我漸漸發(fā)現(xiàn):非洲女孩的早熟,其實都是生活所迫

千秋文化
2026-06-19 19:54:30
俄羅斯平均養(yǎng)老金漲到25399盧布,折合人民幣2335元

俄羅斯平均養(yǎng)老金漲到25399盧布,折合人民幣2335元

桂系007
2026-06-19 15:33:44
女家長自曝遭侵害,通報證實3次自愿在老師家,調(diào)離鄉(xiāng)鎮(zhèn)絕非輕罰

女家長自曝遭侵害,通報證實3次自愿在老師家,調(diào)離鄉(xiāng)鎮(zhèn)絕非輕罰

追蹤之點
2026-06-18 19:26:45
雷軍又被網(wǎng)暴!攝像頭前吃早餐,被罵模仿黃仁勛,網(wǎng)友不給面子

雷軍又被網(wǎng)暴!攝像頭前吃早餐,被罵模仿黃仁勛,網(wǎng)友不給面子

譚談社會
2026-06-16 18:10:12
浙江臺州一烤魚店老板兒子被熟客扇巴掌,打第二下前男子被及時制止;調(diào)解人員提議讓其購置玩具補償孩子,家長:不同意,外人無權打孩子

浙江臺州一烤魚店老板兒子被熟客扇巴掌,打第二下前男子被及時制止;調(diào)解人員提議讓其購置玩具補償孩子,家長:不同意,外人無權打孩子

大風新聞
2026-06-19 10:29:51
中國女排3-0勝法國,趙勇教練組針對巴西或有三大調(diào)整

中國女排3-0勝法國,趙勇教練組針對巴西或有三大調(diào)整

老稅系戲精北鼻
2026-06-19 23:35:48
保安驅(qū)趕避雨寶媽后續(xù):老顧客表示不會再去店里吃,寶爸發(fā)聲回應

保安驅(qū)趕避雨寶媽后續(xù):老顧客表示不會再去店里吃,寶爸發(fā)聲回應

社會日日鮮
2026-06-19 09:39:10
國家一級女演員陳麗云被逮捕!

國家一級女演員陳麗云被逮捕!

許三歲
2026-03-28 09:24:30
向佐自曝家丑僅2天,郭碧婷也不再隱忍直言不滿,向太被撕下體面

向佐自曝家丑僅2天,郭碧婷也不再隱忍直言不滿,向太被撕下體面

看盡落塵花q
2026-06-18 21:05:39
47歲曹格演唱會“肌肉崩了”,全場笑瘋!

47歲曹格演唱會“肌肉崩了”,全場笑瘋!

南萬說娛26
2026-06-18 16:35:09
央視熱播的三部“爛劇”,沒有最爛只有更爛,一部都沒看算你走運

央視熱播的三部“爛劇”,沒有最爛只有更爛,一部都沒看算你走運

一窺究竟
2026-06-18 06:05:48
英媒:世界杯補水暫停廣告收入或超10億美元,僅美國達2.5億

英媒:世界杯補水暫停廣告收入或超10億美元,僅美國達2.5億

懂球帝
2026-06-19 23:05:12
女老師穿“日系連衣裙”,家長們坐不住了:天氣再熱也不能這么穿

女老師穿“日系連衣裙”,家長們坐不住了:天氣再熱也不能這么穿

蝴蝶花雨話教育
2026-06-06 00:05:36
澳洲“濫交公主”砸$17萬辦婚禮! 多位閨蜜拒當伴娘! 墨大畢業(yè), 曾1天內(nèi)與583人發(fā)生關系

澳洲“濫交公主”砸$17萬辦婚禮! 多位閨蜜拒當伴娘! 墨大畢業(yè), 曾1天內(nèi)與583人發(fā)生關系

澳洲紅領巾
2026-06-08 15:15:39
看完馮小剛《抓特務》,我想說:中國犯罪片的大門被雷佳音踹爛了

看完馮小剛《抓特務》,我想說:中國犯罪片的大門被雷佳音踹爛了

星星沒有你亮
2026-06-20 01:32:00
2026-06-20 04:11:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5890文章數(shù) 4679關注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

健康
教育
親子
時尚
藝術

吃粽子的3條保胃法則,消化科醫(yī)生推薦

教育要聞

高考送考就是全社會對孩子最大的溺愛!

親子要聞

從毒奶粉到毒紙尿褲,兒童用品安全防線為何屢屢失守

夏天上衣穿短不穿長,看看下面這幾款短上衣,顯高舒適顯比例

藝術要聞

放大100倍都不怕!這位“人肉打印機”畫家,把絲綢畫出了呼吸感

無障礙瀏覽 進入關懷版