免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一手實測智譜最強模型!AI編程“御三家”要成型了?

0
分享至


智東西
作者 陳駿達
編輯 漠影

智東西6月17日報道,今天,智譜正式發(fā)布并開源了新一代旗艦模型GLM-5.2。在大模型盲測平臺競技場(Arena.ai)的編程評估系統(tǒng)Code Arena上,GLM-5.2拿下了1595分的高分,排名總榜第二,僅次于Fable 5,并在全球可用模型中排名第一。


在測評“超長程、開放式、高難度軟件工程任務”的基準測試FrontierSWE中,目前GLM-5.2排名僅次于Opus 4.8以及暫時不可用的Fable 5。


在專門評測模型品味(taste)的Design Arena上,GLM-5.2取得全球第一的表現(xiàn),審美也沖到全球前沿。


知乎上,大V toyama nao打趣道,以后通過中轉(zhuǎn)站用Opus的用戶得面對一個新問題:如果Opus是GLM-5.2冒充的,那用戶可能真的分辨不出來。


體驗到GLM-5.2實際效果的國內(nèi)外用戶反響熱烈。有開發(fā)者直言:“這是國內(nèi)第一款在我工作流上達到Opus級的模型?!?/strong>


海外用戶也反饋,GLM-5.2的表現(xiàn)超出預期,與Fable 5的差距比預期中要小得多。如今,F(xiàn)able 5已無法正常使用,海外網(wǎng)友原本以為它的封禁會拉開差距,沒想到GLM已經(jīng)快追上來了。這下輪到Anthropic頭疼了。


目前,GLM-5.2 API已經(jīng)上線,企業(yè)和用戶也可在Hugging Face等開源平臺直接下載并部署這一模型。

此前,智東西已經(jīng)連續(xù)對智譜的GLM-4.5、GLM-4.7、GLM-5、GLM-5.1等模型進行了深度體驗,此次GLM-5.2發(fā)布后,我們第一時間跑了幾組大型案例,能明顯感覺到一條清晰的進化脈絡:如果說GLM-4.7實現(xiàn)了對彼時頂級編程模型Sonnet 4.6的對齊,在GLM-5.2上,這一模型的“使用體感”,已經(jīng)和Opus級模型基本沒有差別。

在AI編程模型領域,此前公認的全球頭部玩家長期只有Anthropic(Claude系列)和OpenAI(GPT系列)。此次,GLM-5.2通過全球可用編程模型第一的榜單成績和開發(fā)者“Opus平替”真實口碑,正在躋身這一頂級俱樂部??梢哉f,一個由Anthropic、OpenAI、智譜構(gòu)成的“Coding御三家”格局正在成形。

在閉源巨頭壟斷編程模型話語權(quán),并且隨時可能收回訪問權(quán)限的當下,GLM-5.2用開源將選擇權(quán)交還給了廣大開發(fā)者。

一、和GLM-5.2協(xié)作編程4小時:幾乎用滿百萬上下文、修16個bug,從零打造一個《文明》復刻版

我的首個實測任務,是讓GLM-5.2從零開始開發(fā)一款《文明》風格的策略游戲,逐步從M0版本迭代到M4版本。

在正式開發(fā)前,我先讓GLM-5.2寫了一份PRD文檔,并與它討論了具體的技術(shù)實現(xiàn),最后的技術(shù)方案確定為使用Godot引擎、GDScript,實現(xiàn)2.5D畫風的游戲。


M0版本是整個項目的地基。在這一版本中,GLM-5.2一連創(chuàng)建并編寫了十幾個文件,生成了標準的地圖網(wǎng)格、基礎游戲單位等核心內(nèi)容。開發(fā)完成后,GLM-5.2 快速跑了一次驗證,交付了M0版本。


不過,這個版本只是個初步成果,游戲設計還較為粗糙,角色僅用圓形圖標替代,也沒有清晰的游戲機制,還自帶不少交互層面的小bug。


我決定在M0階段逐一優(yōu)化這些bug。GLM-5.2在我的指令下調(diào)整了信息面板無法打開、初始單位無法移動等多個bug,不過,每個bug的修復基本都可以在一兩輪對話中完成,效率還是不錯的。

之后,我跳過了M1版本,直接讓GLM-5.2開發(fā)出M2版本,這也是游戲深度的核心。在沒有明確要求的情況下,GLM-5.2自主判斷并決定加入了戰(zhàn)斗系統(tǒng)、科技樹、城市經(jīng)濟和資源限制四大子系統(tǒng)。這些新系統(tǒng)的開發(fā)工作量較大,GLM-5.2持續(xù)工作了30多分鐘才完成。


在這一過程中,GLM-5.2嚴格按照我和它定下的開發(fā)規(guī)則:完成一個功能,跑一次測試,沒問題了再進行下一次開發(fā)。其實,這輪迭代跑到后期,上下文窗口已經(jīng)到30多萬tokens了,GLM-5.2此時還能記得規(guī)矩,實屬不易。

M3版本讓游戲從沙盒變成了能分出輸贏的完整單局。GLM-5.2實現(xiàn)了敵方戰(zhàn)術(shù)AI,并擴大了地圖的尺寸。雖然我的開發(fā)指令主要以游戲本身功能迭代為主,但GLM-5.2還主動考慮到了游戲優(yōu)化的問題。隨著地圖越來越大,GLM-5.2決定將地形渲染拆分為靜態(tài)和動態(tài)層,小地圖也加上了緩存優(yōu)化,這讓游戲跑起來更加順暢。

后期M4版本的工作主要集中在美感和可玩性方面,在這一階段,GLM-5.2展現(xiàn)出了不錯的審美。比如,我告訴它游戲的UI設計“沒有游戲味兒”,全是文字堆砌,它便自己找素材更新圖標,重新設計交互卡片,讓整個游戲的視覺效果上了一個檔次。


最后,我還遇到了一個意想不到的bug,當?shù)貓D擴張到100×100的尺寸時,出現(xiàn)了畫面隨著拖拽劇烈跳動的問題,試了各種方法也無法解決。最后,還是GLM-5.2成功定位了問題:它發(fā)現(xiàn),這一個問題其實從M0版本開始就貫穿始終,但在地圖放大后才變得明顯,這與UI控件的問題有關(guān)。

這種問題根因的定位,意味著GLM-5.2可以跨越大幾十萬的上下文長度,精準定位了初版代碼中的隱藏bug。

在完成上述所有開發(fā)任務后,我們也簡單統(tǒng)計了下,在這一項目中,GLM-5.2總計使用了87萬的上下文窗口,已經(jīng)接近它的極限。


GLM-5.2復盤了它在接近百萬上下文長度的任務中修復的所有bug。它的統(tǒng)計結(jié)果是16個,與實際數(shù)據(jù)保持一致。同時,GLM-5.2還記得每個bug發(fā)生的原因以及解法,真正展現(xiàn)出在百萬上下文場景內(nèi)的可靠記憶。


二、30小時播客實錄一口氣讀完,GLM-5.1敗下陣來

除了編程之外,GLM-5.2 100萬上下文的能力還可以解鎖很多其他用途。在日常工作中,我常常需要處理大量長文本的信息整合,更大上下文窗口的模型可以起到很好的提效作用。

實測中,我一次性上傳了13份AI領域相關(guān)的播客實錄,總時長超過30小時,文本量約25萬詞,換算下來至少有30萬個token。這些播客來自The Lex Fridman Podcast,涉及不同嘉賓,時間跨度數(shù)周,話題涵蓋大模型架構(gòu)、企業(yè)AI戰(zhàn)略、多模態(tài)、AI安全、開源生態(tài)等多個子領域,信息高度分散且存在大量跨期觀點的呼應、補充與矛盾。

讓GLM-5.2一次性讀入全部13份實錄后,我下達了以下解讀任務:

(1)跨期觀點追蹤:

我讓GLM-5.2定位“scaling law是否遇到瓶頸”這一話題在所有13份實錄中的討論軌跡。GLM-5.2成功識別出了黃仁勛旗幟鮮明否定“預訓練撞墻論”的觀點,也找到了Sam Altman到對Scaling過程中算力重要性的強調(diào),完整串起了一條跨越30小時對話、相隔數(shù)萬字的觀點演進鏈。


GLM-5.2最后給出總結(jié),2023年時大家討論的還是單一預訓練Scaling,但之后Scaling Law的定義不斷擴展,演變出了四條曲線,涵蓋預訓練、后訓練、測試時以及智能體。它還判斷,目前主要的難點仍然是在架構(gòu)層面——能否真正再做出一個Transformer級別的技術(shù)創(chuàng)新,并從播客實錄中找到了Hassabis、陶哲軒對相關(guān)問題的論述,做到有理有據(jù)。

(2)主題聚類:

之后,我還讓GLM-5.2將散落各處、形式各異的討論,按“推理能力提升路徑”、“合成數(shù)據(jù)的有效性邊界”、“Agent架構(gòu)的主流選擇”等主題自動歸類,生成每個主題下的共識摘要與待解爭議。

GLM-5.2僅用時1分多鐘就完成了梳理,找到9大主題,每個主題下都有來自多個不同人物的觀點,顯示出對數(shù)十萬上下文內(nèi)容的把握。我抽檢了幾個關(guān)鍵的引語,發(fā)現(xiàn)GLM-5.2基本沒有出現(xiàn)幻覺,相關(guān)觀點在播客實錄中都可以找到印證。


這類任務如果用常規(guī)上下文窗口的模型處理,只能分段投入、分批總結(jié)再人工拼接,跨實錄的邏輯關(guān)聯(lián)和隱性矛盾或多或少會有些丟失。為驗證這一現(xiàn)象,我們讓GLM-5.1(20萬上下文窗口)試了試同一個跨期觀點追蹤任務。


最終,GLM-5.1雖然也可以逐步讀完這些內(nèi)容,但其輸出的總結(jié)更像是逐個閱讀文件后,對每個文件進行提煉然后匯總,觀點在不同時期如何變化、彼此之間有何聯(lián)系,這些需要跨越多文件才能提煉出來的細節(jié),GLM-5.1沒能成功定位。


不過,并不是所有任務,都必然需要GLM-5.2的百萬上下文能力。在一些輕量級任務上,GLM-5.1和GLM-5.2并不會帶來明顯的使用體感差異。

比如,我讓GLM-5.1和GLM-5.2做了同樣的輕量Web UI開發(fā)工作,兩個模型的輸出速度和質(zhì)量都基本一致。



在像是單文件代碼補全、簡單腳本編寫、日常問答或短文檔摘要這類任務上,兩個模型的輸出質(zhì)量也基本持平。百萬上下文的優(yōu)勢主要顯現(xiàn)在需要跨區(qū)段關(guān)聯(lián)信息的超長任務中,日常開發(fā)中大部分小修小改,200K窗口已經(jīng)足夠,不必為了1M而1M。

三、百萬上下文的真正挑戰(zhàn):裝下只是開始,好用便宜才是關(guān)鍵

那么,智譜在GLM-5.2上到底采用了哪些技術(shù),才實現(xiàn)了百萬上下文窗口,并讓模型真正能有效利用它?

其實,智譜在GLM-4時代就曾推出過百萬上下文窗口的模型,但其大部分模型此前仍維持著較小的上下文窗口。

在百萬級上下文窗口中,單純強調(diào)“長度”本身意義有限。真正的挑戰(zhàn)在于,隨著上下文規(guī)模擴展,模型注意力機制的計算復雜度呈平方式增長。要讓100萬token的上下文不只是參數(shù)表上的一個數(shù)字,而是真正可用,就要解決兩個核心問題:模型效果能否在從0到100萬token的全程中不出現(xiàn)明顯衰減,以及推理成本能否控制在可用的范圍內(nèi)。

這背后涉及大量的工程工作。GLM-5.2在這一問題上的思路是從推理基礎設施層面和模型架構(gòu)層做協(xié)同優(yōu)化。圍繞長序列的效率瓶頸,智譜引入了IndexShare 、KVShare、LayerSplit和HiSparse的組合方案。

模型架構(gòu)層,智譜改進了GLM-5.2的MTP層以實現(xiàn)更好的推測解碼。他們在MTP層應用了IndexShare和KVShare的組合方案。此前,MTP每預測一步,都要做一次注意力計算,而GLM-5.2在多步MTP中,只在第一步計算索引器(indexer),得到topk索引后,后續(xù)所有步驟直接復用,不再重復計算。


其中,LayerSplit已在GLM-5系列模型“降智”問題優(yōu)化的工程實踐中得到驗證。GLM主打的Coding Agent工作負載以上下文長、Prefix緩存命中率高為特點,這使得Context Parallel(CP,上下文并行)成為Prefill節(jié)點的主要并行策略。

在基礎設施層,智譜提出的LayerSplit已在GLM-5系列模型“降智”問題優(yōu)化的工程實踐中得到驗證。

這項技術(shù)針對Coding Agent工作負載以上下文長、Prefix緩存命中率高特點,重點解決KV緩存冗余存儲問題,其核心思路是:每張GPU僅持有部分層的KV Cache,從而顯著降低單卡顯存占用。計算時,持有某一層Cache的CP rank會在Attention計算前將其廣播給其他rank。


為進一步減少開銷,智譜設計了KV Cache廣播與Indexer計算的重疊機制,使二者在時間上相互掩蓋。整個流程僅額外引入約為KV Cache體量1/8的Indexer Cache廣播,通信成本對性能影響可忽略。

實驗結(jié)果表明,在32k-1024k的請求長度區(qū)間內(nèi),GLM-5.2的系統(tǒng)吞吐量較GLM-5.1實現(xiàn)了3%-192%的提升,且上下文越長收益越顯著。


同時,智譜還根據(jù)模型的稀疏注意力特性,設計了一套名為HiSparse的分層內(nèi)存系統(tǒng)。該系統(tǒng)可以主動將非活躍的KV緩存條目卸載至主機內(nèi)存,大幅緩解GPU顯存壓力,同時在GPU HBM中維護熱點設備緩存區(qū),存放高頻訪問的KV緩存區(qū)域,以此最小化關(guān)鍵路徑上的數(shù)據(jù)遷移開銷。

這些優(yōu)化共同降低了長序列推理的顯存占用和延遲,使100萬上下文從僅僅”能跑”,變成真的“用得起”、“好用”。

智譜稱,GLM-5.2的線上推理依托多個國產(chǎn)算力平臺,已在Day 0完成與華為昇騰、平頭哥、摩爾線程、寒武紀、昆侖芯、沐曦、海光、壁仞等國產(chǎn)算力平臺的推理適配。

此外,GLM-5.2還新增了High與Max兩檔思考強度(thinking effort)設定,復雜編碼任務中可啟用更高檔位以確保架構(gòu)級邏輯的嚴謹性。

智譜GLM-5.2的百萬級上下文能力,將解鎖許多新的AI應用場景。

例如,在復雜的Web Search類任務中,GLM-5.2可以基于公開資料,調(diào)研12-15個主流K12在線編程教育品牌,并輸出完整的xlsx數(shù)據(jù)庫、分析報告和圖表。


結(jié)合智譜的Agent產(chǎn)品AutoClaw,GLM-5.2的100萬上下文與長程任務能力可以服務于設計、法務等白領場景,例如一次性寫出數(shù)十個原型頁面,自主迭代和微調(diào),在設計中保持品牌規(guī)范與一致性。

在這些類型的任務上,GLM-5.2帶來的本質(zhì)差異不在于結(jié)果好還是壞,而是“能用還是不能用”。這些任務的量級、復雜度,是其他不具備百萬上下文能力的模型所難以想象的。

結(jié)語:智譜補齊長程任務技術(shù)拼圖

回顧智譜近期的技術(shù)路線,從GLM-5.1將開源模型的長程任務能力推進8小時級,到GLM-5.2以1M上下文將這一能力進一步延展,其技術(shù)拼圖的脈絡是清晰的:先讓模型能持續(xù)工作更久,再為它配備足夠大的記憶容量。長程任務的失敗,很多時候不是模型不夠聰明,而是它忘了最初的約束,1M上下文解決的正是這個問題。

當補齊這些能力拼圖后,智譜GLM系列模型在真正工程任務中的可用性有望進一步提升。在實測中,GLM-5.2已經(jīng)完整跑通理解需求、設計方案、寫代碼、跑測試、修bug,到最終交付的閉環(huán),我不再需要逐段拆解任務、反復喂入背景信息、檢查中間步驟是否偏離初衷。

當模型既能工作得久、又能記得住,它才真正具備了成為長期協(xié)作伙伴的基礎。這也是從“對話式AI”走向“執(zhí)行式AI”的關(guān)鍵一步。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
男子深夜醉駕致16歲少女被撞身亡,血檢濃度238mg/100mL,最初認定肇事者全責,申請復議后變主責,警方回應:按正規(guī)程序進行

男子深夜醉駕致16歲少女被撞身亡,血檢濃度238mg/100mL,最初認定肇事者全責,申請復議后變主責,警方回應:按正規(guī)程序進行

大風新聞
2026-06-19 15:30:09
特朗普稱出于憐憫與梅洛尼合影,遭梅洛尼和意大利反擊

特朗普稱出于憐憫與梅洛尼合影,遭梅洛尼和意大利反擊

山河路口
2026-06-19 20:29:17
張維為又出來語出驚人了!

張維為又出來語出驚人了!

胖胖說他不胖
2026-06-19 17:20:55
廣東公務員的天塌了!

廣東公務員的天塌了!

新浪財經(jīng)
2026-06-19 05:42:47
湖南一射擊俱樂部發(fā)布1人死亡調(diào)查報告:劉某在取戴耳機時槍支脫手走火,擊中杜某的頭部,致杜某顱腦損傷

湖南一射擊俱樂部發(fā)布1人死亡調(diào)查報告:劉某在取戴耳機時槍支脫手走火,擊中杜某的頭部,致杜某顱腦損傷

大象新聞
2026-06-18 12:45:24
印度網(wǎng)友說中國也有種姓制度,仔細一看,真的讓人笑掉大牙!

印度網(wǎng)友說中國也有種姓制度,仔細一看,真的讓人笑掉大牙!

全城探秘
2026-06-18 18:06:57
河南26歲帥哥時穎去世,結(jié)婚僅半年,妻子顏值高,悲痛透露原因

河南26歲帥哥時穎去世,結(jié)婚僅半年,妻子顏值高,悲痛透露原因

180視角
2026-06-19 12:33:45
爭議!央視社媒刪梅西內(nèi)容 網(wǎng)友爆料:23點緊急通知 直播別給特寫

爭議!央視社媒刪梅西內(nèi)容 網(wǎng)友爆料:23點緊急通知 直播別給特寫

念洲
2026-06-19 09:28:22
大博阿滕:沒有C羅葡萄牙隊反而會更強,他應該讓出首發(fā)位置

大博阿滕:沒有C羅葡萄牙隊反而會更強,他應該讓出首發(fā)位置

懂球帝
2026-06-19 16:36:15
卡塔爾球迷意難平,不止因為0-6慘敗加拿大,更多在于以下五點!

卡塔爾球迷意難平,不止因為0-6慘敗加拿大,更多在于以下五點!

田先生籃球
2026-06-19 09:56:11
歐盟27國領導人一致通過涉烏結(jié)論文件

歐盟27國領導人一致通過涉烏結(jié)論文件

界面新聞
2026-06-19 07:19:38
歷史要毀于一旦?蒙古國,正在把中國40年的努力毀掉!

歷史要毀于一旦?蒙古國,正在把中國40年的努力毀掉!

李云飛Afey
2026-06-18 19:47:26
是誰在有計劃、有系統(tǒng)、有組織的摧毀我們的義務教育?

是誰在有計劃、有系統(tǒng)、有組織的摧毀我們的義務教育?

李老師講最真教育
2026-06-19 19:17:32
烏克蘭返場重創(chuàng)莫斯科最大煉油廠!俄首都下起石油雨

烏克蘭返場重創(chuàng)莫斯科最大煉油廠!俄首都下起石油雨

項鵬飛
2026-06-18 17:36:42
豐田官宣新車:7月2日,正式上市

豐田官宣新車:7月2日,正式上市

科技堡壘
2026-06-19 11:39:08
寶媽避雨被趕后續(xù):大批顧客退單,商家道歉也無果,門店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,商家道歉也無果,門店口碑崩了

千言娛樂記
2026-06-18 18:59:27
梅西亮鞋釘踩人逃過紅牌?國際足聯(lián)官宣,一錘定音,裁判圈白吵了

梅西亮鞋釘踩人逃過紅牌?國際足聯(lián)官宣,一錘定音,裁判圈白吵了

萌蘭聊個球
2026-06-19 17:35:32
孫興慜57分鐘0射門引熱議:被嘲像女星 在兒童區(qū)沖刺 亞洲一哥們

孫興慜57分鐘0射門引熱議:被嘲像女星 在兒童區(qū)沖刺 亞洲一哥們

顏小白的籃球夢
2026-06-19 14:04:45
甘肅通渭李女士事件大反轉(zhuǎn)!聊天記錄曝光:從被動接受到主動迎合

甘肅通渭李女士事件大反轉(zhuǎn)!聊天記錄曝光:從被動接受到主動迎合

火山詩話
2026-06-19 08:19:30
保安驅(qū)趕避雨寶媽后續(xù):老顧客表示不會再去店里吃,寶爸發(fā)聲回應

保安驅(qū)趕避雨寶媽后續(xù):老顧客表示不會再去店里吃,寶爸發(fā)聲回應

社會日日鮮
2026-06-19 09:39:10
2026-06-20 00:47:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應用帶來的千行百業(yè)產(chǎn)業(yè)變革。
12083文章數(shù) 117111關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

時尚
教育
親子
健康
本地

夏天上衣穿短不穿長,看看下面這幾款短上衣,顯高舒適顯比例

教育要聞

高考送考就是全社會對孩子最大的溺愛!

親子要聞

媽媽玩手機累了吧

吃粽子的3條保胃法則,消化科醫(yī)生推薦

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

無障礙瀏覽 進入關(guān)懷版