Nature子刊：大模型進入“密度時代”

2025-12-24 20:22:31　來源: 集智俱樂部

北京舉報

分享至

導語

大語言模型已成為人工智能發(fā)展的重要里程碑。既有的規(guī)模法則表明，隨著模型規(guī)模的擴大，LLM的性能會持續(xù)提升，但這也對訓練與部署帶來顯著挑戰(zhàn)。盡管業(yè)界不斷嘗試提升模型效率，卻仍缺乏關于不同規(guī)模LLM的效率發(fā)展趨勢與評價體系的統(tǒng)一共識。為解決性能與效率之間的張力，本文提出“能力密度”這一概念，用以衡量模型在單位參數(shù)上所體現(xiàn)的有效能力，從而在性能與效率兩個維度上提供統(tǒng)一的評價框架。我們進一步給出一項經(jīng)驗性發(fā)現(xiàn)，即“密度定律”：LLM的能力密度隨時間呈指數(shù)增長?；诙鄠€主流基準的評估結(jié)果顯示，開源LLM的最大能力密度大約每3.5個月翻倍。這意味著，實現(xiàn)同等性能所需的參數(shù)規(guī)模與推理成本均在指數(shù)下降，為高效LLM的開發(fā)策略提供了新的啟示。

關鍵詞：大語言模型（LLMs）、規(guī)模法則（Scaling Law）、能力密度（Capability Density）、密度定律（Densing Law）、效率評估（Efficiency Evaluation）

鄭鴻盛丨作者

趙思怡丨審校

論文題目：Densing law of LLMs 論文鏈接：https://www.nature.com/articles/s42256-025-01137-0 發(fā)表時間：2025年11月6日論文來源：Nature Machine Intelligence

能力密度的指數(shù)躍遷，

正在悄悄改變 AI 的未來

近兩年，大模型的突飛猛進讓人切身感受到“技術狂飆”，然而一個更耐人尋味的現(xiàn)象也隨之浮現(xiàn)：模型能力不斷提高，推理成本卻在飛速下降；小模型越來越頻繁地逼近甚至超越大模型；而“繼續(xù)堆參數(shù)”似乎不再是性能提升的唯一途徑。2025年11月6日發(fā)表于Nature Machine Intelligence 的論文《Densing Law of LLMs》給出了一種顛覆性的解釋——大模型正在從拼“規(guī)?！鞭D(zhuǎn)向拼“密度”。研究發(fā)現(xiàn)，LLM的“能力密度”（capability density）正以指數(shù)速度增長，約每3.5個月翻一倍，這意味著達到同等性能所需的參數(shù)量大幅減少，推理成本呈指數(shù)級下降，端側(cè)智能（在手機、PC等本地設備運行大模型）將比預期更早成熟。這不是簡單的性能提升，而是一場關于效率的革命。讓我們從這篇可能深刻影響未來五年的論文開始，重新理解大模型的進化方向。

過去衡量模型能力，業(yè)界普遍遵循“參數(shù)越大，性能越強”的直覺，但隨著大量開源模型的涌現(xiàn)，這一直覺邏輯開始失靈，出現(xiàn)7B模型逼近甚至匹敵70B模型，4B模型在部分任務上超過13B模型，手機端模型也逐漸具備ChatGPT3.5的水平，而訓練數(shù)據(jù)質(zhì)量與訓練策略的重要性日益凸顯。這些現(xiàn)象共同指向一個事實——參數(shù)量已無法充分解釋模型能力的差異，規(guī)模不再等同于質(zhì)量。因此，真正需要關注的已不再是“模型有多大”，而是“模型的效率有多高”。

什么是“能力密度”？簡單來說，它衡量的是模型“每個參數(shù)的含金量”。其定義為：能力密度 = 模型的有效能力 ÷ 實際參數(shù)量。這里的“有效能力”并非模型自身的參數(shù)規(guī)模，而是一個反推值：如果某模型達到特定性能，那么一套參考模型需要多少參數(shù)才能取得相同表現(xiàn)，這個等效參數(shù)量記為 N?（此處的參考模型為研究者自建的一系列不同參數(shù)規(guī)模、結(jié)構一致、訓練流程一致的小參數(shù)規(guī)模模型）。于是能力密度可寫為 ρ = N? / N，用來刻畫模型訓練得是否“緊實”。例如，一個3B模型若達到參考模型6B的能力，則密度 ρ = 6 / 3 = 2，代表其單位參數(shù)效率極高；反之，若一個7B模型只能達到參考模型3B的水平，則 ρ < 1，說明其參數(shù)利用率偏低。本質(zhì)上，能力密度回答的就是那一句：模型的每個參數(shù)到底“值不值錢”？

密度定律：能力密度正以指數(shù)方式增長

本研究中最重要的發(fā)現(xiàn)之一，是大模型的能力密度隨時間呈現(xiàn)穩(wěn)定的指數(shù)增長趨勢。研究者選取五十余個近年來發(fā)布的開源基礎模型，覆蓋多個系列（如 Llama、Mistral、Gemma、Phi、DeepSeek、MiniCPM 等），并在多個主流基準（MMLU、BBH、MATH、HumanEval、MBPP）上進行統(tǒng)一評估。結(jié)果顯示，模型的最大能力密度大約每 3.5 個月翻一倍，這一趨勢在不同任務和不同模型之間都十分一致。

圖 1｜近年來開源大模型的能力密度趨勢。每個點代表一個模型，圓點越大參數(shù)量越大。從圖中可以看到，隨著時間推移，能力密度的上界呈現(xiàn)清晰的指數(shù)增長。

這一指數(shù)增長趨勢意味著：未來達到相同性能所需的參數(shù)量將持續(xù)減少。換言之，人們慣常認為的“大模型能力強、但成本高”的認知，將在未來不斷被弱化。更令人興奮的是，這種指數(shù)增長在新模型中體現(xiàn)得更為突出，特別是數(shù)據(jù)質(zhì)量、訓練策略更為精細的小模型，往往展現(xiàn)出遠超其規(guī)模的能力密度。

能力密度提升的一個自然結(jié)果，是實現(xiàn)相同性能所需的實際參數(shù)量不斷減少。與此同時，推理成本也正在以類似的指數(shù)速度下降。文章對多個高性能模型的API調(diào)用價格進行了整理，并展示了一個同樣令人驚訝的趨勢：模型的推理價格大約每2.6個月減半。2022 年 GPT-3.5 的價格約為每百萬token需要20美元，而到了 2024 年，Gemini Flash的推理價格僅為0.075美元，相當于下降了超過260倍。

圖 2｜近年來幾個主流語言模型的推理價格變化。性能優(yōu)于 GPT-3.5 的大語言模型（LLMs）的應用程序接口（API）定價。線條連接各時間點定價最低的模型，最便宜模型的API定價呈指數(shù)下降。

推理成本的下降不僅來自模型能力密度的提升，也來自底層推理技術的優(yōu)化，例如 FlashAttention、PagedAttention、量化推理格式、稀疏激活架構等。隨著模型本身越來越“緊實”，推理成本的下降幅度也將持續(xù)擴大。

當密度定律遇上 Moore 定律：

端側(cè)智能將提前爆發(fā)

當能力密度的指數(shù)增長與硬件性能的指數(shù)增長疊加時，一個更加激進的趨勢會出現(xiàn)。過去數(shù)十年里，硬件晶體管密度大約每兩年翻一倍；如今，大模型的能力密度每3.5個月翻一倍。兩者的乘積效果意味著：在固定價格的硬件上，能夠運行的“有效模型規(guī)?！奔s每88天翻一倍。

這預示著什么？預示著過去需要云端大模型才能實現(xiàn)的能力，未來將能在手機、電腦、平板等設備上高效運行。端側(cè) AI 的普及速度可能遠超過我們目前的想象，隱私計算、低成本部署、離線大模型應用將因此迎來爆發(fā)式發(fā)展。

圖 3｜大模型的高性能正向小規(guī)模模型遷移，同時端側(cè)可運行模型的能力快速提升（圖片源于網(wǎng)絡）。紅色虛線區(qū)域代表接近GPT-4V水平的模型帶寬，隨著時間推移，越來越小的模型逐漸逼近這一性能區(qū)間；下方藍色虛線趨勢線展示了能夠在端側(cè)設備運行的模型能力不斷上升。

高密度模型不是“壓”出來的，而是“練”出來的

在參數(shù)規(guī)模快速被重新評估的背景下，一個看似合理的猜想是：既然參數(shù)越少越高效，那么剪枝、蒸餾、量化等模型壓縮技術應該更容易得到高能力密度的小模型。但論文的實驗結(jié)果卻指向相反方向——壓縮后的模型能力密度整體上并不比原模型高，甚至往往更低。其根本原因在于，壓縮過程雖然減少了模型的實際參數(shù)量，卻沒有讓模型獲得足夠的再訓練，從而無法讓這些“更輕”的參數(shù)真正承擔起更高的能力負載。尤其是量化，雖然降低了內(nèi)存和推理成本，但不可避免地帶來一定的性能損失。因此，真正高密度的小模型，并不是“從大模型壓縮而來”，而是“從一開始就為高密度而訓練”的結(jié)果。

能力密度之所以能夠持續(xù)提升，主要源于三方面的共同推動。首先，訓練數(shù)據(jù)的規(guī)模與質(zhì)量顯著提高。以Llama系列為例，Llama-3 所使用的15萬億token數(shù)據(jù)不僅規(guī)模遠超Llama-1的1.4萬億token，且在清洗與篩選流程上更加精細，這使模型能夠在同樣結(jié)構下學習到更豐富、更可靠的知識。其次，模型結(jié)構日益高效。以稀疏專家模型（MoE）為代表的新架構，使模型在推理時僅激活部分專家，從而以更低的計算量獲得更強的表達能力，大幅提高“參數(shù)的利用率”。最后，訓練算法不斷演進。無論是將強化學習前移到預訓練階段，還是利用高質(zhì)量的合成數(shù)據(jù)和“弱到強”（weak-to-strong）訓練策略，這些方法都讓模型能夠在固定參數(shù)量下挖掘出更高的能力上限。這些因素共同作用，使得模型在“單位參數(shù)上可以學習到更多能力”，從而推動能力密度不斷攀升。

當然，謹慎來說能力密度的增長不可能無限持續(xù)。信息論告訴我們，每個參數(shù)能夠存儲的信息量是有限的，模型參數(shù)的表達能力也有理論上界。隨著模型的訓練方式、數(shù)據(jù)質(zhì)量和結(jié)構不斷提升，能力密度的增長最終將遇到瓶頸。屆時，如果要繼續(xù)突破當前框架的限制，可能需要依賴全新的技術范式，例如量子計算、類腦計算或其他尚未成熟的計算架構。盡管如此，在可預見的未來幾年中，能力密度仍會保持高速增長，模型變“密”的趨勢不會減弱。

密度定律不僅是一個科學觀察，更是一個具有產(chǎn)業(yè)指導意義的趨勢。對于模型研發(fā)而言，它提示我們，未來的競爭不再是單純擴大參數(shù)規(guī)模，而是追求“更高密度”的訓練方法與更高質(zhì)量的數(shù)據(jù)；對于企業(yè)而言，可以據(jù)此預測未來模型成本的下降趨勢，從而更合理安排AI投入；對于硬件和應用產(chǎn)業(yè)，則意味著端側(cè)智能將迎來快速擴張，本地運行大模型將從技術挑戰(zhàn)變成新常態(tài)。

從“大”到“密”，AI 的進化正在加速重寫

《Densing Law of LLMs》揭示的，是一種隱藏在大模型演化背后的“效率革命”。在這個新的發(fā)展階段，模型不再依賴“堆大”，而是通過更智能的訓練、更優(yōu)的數(shù)據(jù)、更精細的結(jié)構獲得更高的效率。能力密度的指數(shù)提升讓我們看到：未來的大模型既可能更強，也可能更輕、更快、更便宜，甚至隨時運行在每個人的口袋里。

我們正在見證語言模型從“規(guī)模時代”邁向“密度時代”，而這一轉(zhuǎn)變，或許將深刻改變未來五年乃至整個AI產(chǎn)業(yè)的面貌。

大模型2.0讀書會

o1模型代表大語言模型融合學習與推理的新范式。集智俱樂部聯(lián)合北京師范大學系統(tǒng)科學學院教授張江、Google DeepMind研究科學家馮熙棟、阿里巴巴強化學習研究員王維塤和中科院信工所張杰共同發(fā)起，本次讀書會將關注大模型推理范式的演進、基于搜索與蒙特卡洛樹的推理優(yōu)化、基于強化學習的大模型優(yōu)化、思維鏈方法與內(nèi)化機制、自我改進與推理驗證。希望通過讀書會探索o1具體實現(xiàn)的技術路徑，幫助我們更好的理解機器推理和人工智能的本質(zhì)。讀書會已完結(jié)，現(xiàn)在報名可加入社群并解鎖回放視頻權限。

詳情請見：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.