國產(chǎn)萬億級模型技術報告公開！螞蟻這樣攻克能力成本延遲“不可能三角”

2026-06-16 20:32:58　來源: 智東西

北京舉報

分享至

智東西
編譯楊京麗
編輯李水青

智東西6月16日消息，今天，螞蟻百靈團隊發(fā)布Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T三款模型的Ling & Ring 2.6技術報告，系統(tǒng)公開百靈2.6系列模型在架構、預訓練、后訓練與推理基礎設施等方面的技術細節(jié)。

此前，百靈已陸續(xù)開源Ling-2.6-flash、Ling-2.6-1T和Ring-2.6-1T。三個模型面向不同場景：Ling-2.6-flash主打低延遲、高吞吐和高頻調(diào)用，適合信息抽取、格式轉(zhuǎn)換、批處理、長輸出，以及Agent工作流中的輕量執(zhí)行節(jié)點；Ling-2.6-1T面向更高能力密度和更強通用能力，重點提升即時響應場景下單位輸出token的信息量；Ring-2.6-1T則面向復雜推理和Agent任務，強調(diào)長鏈路規(guī)劃、工具調(diào)用、代碼執(zhí)行、搜索和環(huán)境交互能力。

▲百靈大模型地址（圖源：Hugging Face）

隨著大模型逐步進入Agent、Coding、科研分析和企業(yè)工作流等復雜任務場景，模型需要具備可靠推理和穩(wěn)定使用工具的能力，還需要在成本和延遲可控的前提下持續(xù)執(zhí)行任務。

圍繞這一目標，報告重點展示了百靈2.6系列的技術路徑：架構方面，百靈2.6系列模型采用混合線性注意力（Hybrid Linear Attention），將閃電注意力（Lightning Attention）與多頭潛在注意力（MLA）按7:1比例結(jié)合，降低長上下文訓練、解碼和鍵值緩存（KV Cache）成本。

預訓練上，團隊在Ling-2.0基礎上進行架構遷移和繼續(xù)預訓練，將上下文窗口擴展至256K；后訓練上，Ling-2.6圍繞token效率壓縮冗余推理，Ring-2.6則面向長程Agent任務強化工具調(diào)用、搜索和代碼執(zhí)行能力；基礎設施上，團隊通過長上下文訓練優(yōu)化、異步Agentic RL和推理側(cè)算子融合，支撐萬億參數(shù)模型在真實工作流中的訓練與部署。

評測結(jié)果顯示，Ling-2.6-1T在Artificial Analysis Intelligence Index中以約16M輸出tokens取得約34分，接近GPT-5.4 Non-reasoning，并高于DeepSeek V3.2和上一代Ling-1T，體現(xiàn)出較高token效率。

▲Ling-2.6-1T與Ring-2.6-1T評測結(jié)果

Ring-2.6-1T則在部分復雜推理和Agent任務中表現(xiàn)突出：其xhigh配置在ARC-AGI-V2上取得66.18，高于Kimi-K2.6 Thinking和DeepSeek-V4-Pro Max；high配置在PinchBench上取得87.60，高于GPT-5.4和Gemini-3.1-Pro，在ClawEval上取得63.82，高于Kimi-K2.6 Thinking、DeepSeek-V4-Pro Max、GPT-5.4和Gemini-3.1-Pro。

技術報告地址：https://arxiv.org/abs/2606.15079

Ling-2.6-flash開源地址：https://huggingface.co/inclusionAI/Ling-2.6-flash

Ling-2.6-1T開源地址：https://huggingface.co/inclusionAI/Ling-2.6-1T

Ring-2.6-1T開源地址：https://huggingface.co/inclusionAI/Ring-2.6-1T

一、三大重點：長上下文效率、token密度、原生Agent訓練

為保證模型在萬億參數(shù)規(guī)模和真實Agent工作流下，仍能夠保持長上下文處理效率、輸出質(zhì)量與工具調(diào)用穩(wěn)定性，百靈2.6主要圍繞以下三方面進行了系統(tǒng)優(yōu)化。

百靈2.6首先解決的是長上下文效率問題。報告提到，此前模型基于GQA（分組查詢注意力）架構，當上下文長度超過32K tokens后，注意力計算會成為主要瓶頸。為此，Ling/Ring2.6采用混合線性注意力（Hybrid Linear Attention）架構，將閃電注意力（Lightning Attention）與多頭潛在注意力（MLA）按7:1比例結(jié)合，即每8層中約7層采用Lightning Attention、1層采用MLA。

▲Ling-2.6-1T-base整體架構

Lightning Attention將序列維度上的計算復雜度從O(n2)降到O(n)，MLA則通過低秩隱空間壓縮KV Cache。二者結(jié)合后，模型更適合長上下文訓練、長輸出和長鏈路Agent任務。

第二個重點則是提升token能力密度。Ling-2.6在后訓練階段結(jié)合演化式思維鏈（Evolutionary Chain of Thought，Evo-CoT）、語言單元策略優(yōu)化（Linguistic Unit Policy Optimization，LPO）、雙向偏好對齊和最短正確回答蒸餾等方法，提升模型對有效推理步驟的選擇能力，減少重復、循環(huán)和低信息密度輸出。

在Artificial Analysis Intelligence Index榜單上，Ling-2.6-1T使用約16M輸出tokens取得34分。報告稱，這相比Ling-2.0-1T在reasoning workloads上實現(xiàn)約4倍token效率提升。

第三個重點是Agent能力的原生優(yōu)化。百靈2.6系列的Agent能力不是從普通對話數(shù)據(jù)中間接遷移而來，而是作為直接訓練目標優(yōu)化。團隊構建了覆蓋工具調(diào)用、代碼、搜索、工作流執(zhí)行和多輪交互的大規(guī)模Agentic Corpus（智能體語料庫），并將其與可驗證任務、結(jié)構化工具軌跡和環(huán)境反饋結(jié)合。

在Ring-2.6上，團隊進一步提出KPop，用對稱二元KL散度替代IcePop中的固定比例約束，以更穩(wěn)定地進行MoE模型的Agentic RL訓練。同時，團隊還采用異步RL，將rollout采集與參數(shù)更新解耦，使編碼、搜索、工具調(diào)用和工作流執(zhí)行等長鏈路任務，能夠在萬億參數(shù)規(guī)模下進行更高效訓練。

二、預訓練：在Ling-2.0基礎上，擴展至256K上下文

百靈2.6沒有從零訓練萬億參數(shù)模型，而是在Ling-2.0基礎上進行架構遷移、繼續(xù)完成預訓練和后訓練。報告稱，Ling-2.0-1T此前已有約20T tokens訓練投入，直接重新訓練成本較高，因此團隊選擇在已有checkpoint上完成架構升級。

架構遷移分為四個階段：第一階段是閃電注意力轉(zhuǎn)換（Lightning Attention Conversion），將部分原有GQA層替換為Lightning Attention，以降低長上下文計算成本；第二階段是線性預熱（Linear Warmup），主要用于對新增參數(shù)進行訓練和對齊，使模型逐步適應新結(jié)構；第三階段是MLA轉(zhuǎn)換（MLA Conversion），包括去除QK歸一化（QK Norm removal）和適配部分旋轉(zhuǎn)位置編碼（Partial RoPE adaptation），為后續(xù)KV Cache壓縮和高效推理做準備；最后是MLA預熱（MLA Warmup），通過小規(guī)模繼續(xù)訓練將loss恢復到遷移前水平。整個遷移階段約使用400B tokens。

完成架構遷移后，模型繼續(xù)進行大規(guī)模全參數(shù)訓練。報告中提到，Ling-2.6預訓練總計處理約9.6T tokens，分為遷移預訓練（Migration Pre-Training）、繼續(xù)預訓練（Continue Pre-Training）和中期訓練（Mid-Training）幾個階段。其中遷移預訓練約 400B tokens，用于完成架構遷移；繼續(xù)預訓練約8T tokens，使用4K上下文窗口；中期訓練約1.2T tokens，將上下文窗口逐步擴展到32K，再擴展到256K。

▲Ling-2.6多階段預訓練流程

數(shù)據(jù)構成上，團隊增強了數(shù)學、代碼、Agentic Data、長上下文語料和多語言語料。Agentic Corpus覆蓋500多個真實MCP環(huán)境、3000多個工具，以及多種coding、bash、web QA和軟件倉庫任務；Long-Context Corpus覆蓋數(shù)學、復雜網(wǎng)頁解析、長文檔摘要、RAG融合和多跳推理等任務。

在base model評測中，團隊使用覆蓋數(shù)學、代碼、通用推理、語言理解、世界知識和長上下文理解的31個benchmark，對Ling-2.6-flash-base、Ling-2.6-1T-base與2.0代模型進行對比。

整體來看，Ling-2.6-1T-base在世界知識、長上下文建模和推理能力上取得較穩(wěn)定提升，同時保持了數(shù)學和代碼能力。尤其是在SimpleQA、C-SimpleQA、MMMLU、LongBenchv2等知識和長上下文任務上，提升較為明顯。

▲Ling-2.6-base與Ling-2.0-base在多類基準測試中的對比

三、Ling-2.6后訓練：用更少token完成高質(zhì)量即時響應

Ling-2.6的后訓練，圍繞即時響應和高頻調(diào)用兩方面展開。團隊重點關注模型能否在更少輸出token內(nèi)，給出更高質(zhì)量的回答。

為此，Ling-2.6沒有沿用Ling-2.0中相對統(tǒng)一的后訓練流程，而是采用專家驅(qū)動的訓練路線。模型先進行cold-start SFT打底，再進行推理和Agent任務方向的專家化訓練；隨后，通過強化學習進一步優(yōu)化專家模型，最后將這些專家能力蒸餾回統(tǒng)一的Ling-2.6模型中。

▲Ling-2.6后訓練流程

在推理數(shù)據(jù)處理上，團隊先讓專家模型生成多個候選答案，再篩選出最短的正確回答。同時，對于“答對后還在反思”的片段，團隊進一步用LLM judge進行裁剪。報告稱，數(shù)據(jù)層面的處理，讓模型平均輸出長度減少約200到300個token。

進入強化學習階段后，Ling-2.6在Evo-CoT基礎上加入動態(tài)長度懲罰和語義冗余懲罰。動態(tài)長度懲罰允許模型在難題上，保留必要推理空間，壓縮簡單任務中的過長輸出；語義冗余懲罰則用于抑制循環(huán)、重復和低價值反思。

四、Ring-2.6后訓練：面向長程Agent任務，強化工具使用

Ring-2.6的后訓練目標則偏向復雜、長程、工具密集型Agent任務。它以Ling-2.6-1T Base為基礎，經(jīng)過cold-start SFT，再進入由KPop算法驅(qū)動的推理與Agent專家訓練階段，隨后進行專家能力蒸餾，并最終形成high和xhigh兩種推理配置。

工具使用數(shù)據(jù)上，Ring-2.6重點覆蓋三類場景：倉庫級代碼任務、移動端/網(wǎng)頁搜索任務，以及需要多步規(guī)劃和錯誤恢復的通用工具工作流。以Coding Agent為例，團隊從GitHub中大規(guī)模挖掘PR-Issue pairs，并設置了較嚴格的篩選條件：倉庫star數(shù)超過100、PR已合并且關聯(lián)closed issue，同時PR中必須包含test patch以便驗證。經(jīng)過篩選后，團隊得到約300K raw pairs。

▲Ring-2.6后訓練流程

在Agentic RL階段，團隊構建輕量級Agent框架，并提供execute_bash、search_replace和task_done三類核心工具。訓練期間最大對話長度為200 turns，評估期間最大對話長度為500 turns。針對SWE類長程任務，最終訓練數(shù)據(jù)集包含約2500個實例，來自1550個倉庫，覆蓋Python、Java、C、Rust、JavaScript等30多種編程語言。

五、基礎設施：長上下文訓練、異步RL與推理部署協(xié)同優(yōu)化

基礎設施方面，百靈2.6的優(yōu)化主要圍繞長上下文訓練、大規(guī)模異步Agentic RL和推理serving展開。團隊提出AllGather-based CP，使Lightning Attention能夠更高效地進行超長上下文訓練，在256K上下文長度下帶來約68%的端到端加速。RL基礎設施ASystem和ARouter則面向長序列rollout調(diào)度，報告稱在長序列場景下帶來超過80%的端到端性能提升。

▲Lightning Attention的上下文并行優(yōu)化

推理側(cè)，團隊將訓練階段積累的融合算子（fused kernels）適配到真實部署場景，并盡可能保持訓練與推理階段的數(shù)值行為一致。這不僅提升推理效率，也有助于減少強化學習采樣（RL rollout）中的訓練-推理差異。推理側(cè)kernels能力已通過高性能算子庫linghe開源。

▲linghe開源地址：https://github.com/inclusionAI/linghe

結(jié)合算子融合（kernel fusion）、前綴緩存（prefix caching）與多token生成（multi-token generation），linghe優(yōu)化提升了整體吞吐、單用戶每秒生成token數(shù)和交互穩(wěn)定性。

結(jié)語：國產(chǎn)開源模型，公開更多技術細節(jié)

這份報告較完整地公開了百靈團隊在萬億參數(shù)模型上的技術細節(jié)。從結(jié)果看，Ling/Ring2.6在部分復雜推理、工具調(diào)用和Agent任務上已有較強表現(xiàn)，但與國際頂尖模型相比仍有追趕空間。

報告也提到，Ling-2.6-flash在高復雜任務中的推理深度和工具調(diào)用可靠性仍受思考預算限制；長程Agent在持續(xù)變化的工具狀態(tài)和異構執(zhí)行環(huán)境中，可靠性仍可能下降。下一階段，百靈團隊計劃繼續(xù)沿著架構、系統(tǒng)、低精度訓練推理、KV Cache管理和多模態(tài)Agent方向推進。

對開源生態(tài)來說，模型開源和技術報告公開本身值得認可。它讓外界能夠了解背后的數(shù)據(jù)構建、訓練方法、系統(tǒng)優(yōu)化等，期待更多國產(chǎn)大模型團隊持續(xù)開放模型、工具與技術細節(jié)，推動開源生態(tài)在真實應用能力上繼續(xù)向前。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.