免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型解剖圖火了,30多個開源模型架構(gòu)差異一目了然,還可接入AI

0
分享至

2026 年的前兩個月,開源大模型的發(fā)布節(jié)奏已快至令人應(yīng)接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智譜 AI 的 GLM-5、Cohere 的 Tiny Aya……它們的名稱如流水般接踵而至,參數(shù)量從 3B 至 1T 不等,每一款都宣稱是“SOTA”或者“最強(qiáng)開源”。

然而,如此快的更新速度,對于普通開發(fā)者而言,莫說深入研究,僅僅是分辨區(qū)別就已經(jīng)耗費(fèi)大量精力。更不用提許多技術(shù)報告的表述含糊,架構(gòu)圖繪制風(fēng)格各異,想要進(jìn)行橫向?qū)Ρ仁掷щy。

為了解決這些問題,一個名為“LLM Architecture Gallery”(大語言模型架構(gòu)畫廊)的項(xiàng)目上線了。顧名思義,就是讓你像逛“畫廊”一樣,瀏覽不同模型的架構(gòu)圖。


(來源:X)

這個項(xiàng)目的作者是 Sebastian Raschka,是機(jī)器學(xué)習(xí)領(lǐng)域的知名研究者,寫過《Python Machine Learning》和《Build a Large Language Model (From Scratch)》這兩本深受歡迎的專業(yè)書籍。


(來源:Sebastian Raschka.com)

他把過去幾個月撰寫的兩篇長文《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》中繪制的所有架構(gòu)圖抽取出來,用統(tǒng)一的視覺語言重新呈現(xiàn),集中放在一個頁面上。點(diǎn)擊任意一張圖可以放大,每張圖下方附帶一份“規(guī)格表”,列出模型的參數(shù)量、發(fā)布時間、注意力機(jī)制類型等關(guān)鍵信息。想深入某個模型,可以點(diǎn)開“view in article”頁面會直接跳轉(zhuǎn)到原文對應(yīng)章節(jié)。


(來源:LLM Architecture Gallery)

項(xiàng)目上線幾小時后,Andrej Karpathy 在 X 上回復(fù)了 Raschka 的推文:“太好了!我的自動研究功能很需要這個內(nèi)容的 Markdown 版本——一個創(chuàng)意池。”他最近發(fā)布的 autoresearch 項(xiàng)目:一個讓 AI 自主跑實(shí)驗(yàn)的開源工具,正需要這類結(jié)構(gòu)化的架構(gòu)信息作為創(chuàng)意來源。

Raschka 也很快作出回復(fù),并提供了 YAML 格式的元數(shù)據(jù) GitHub 鏈接。Karpathy 隨后表示他已經(jīng)用 Obsidian 把博客文章導(dǎo)出成 markdown,并且“輸入到了 autoresearch 循環(huán)中”。一個本意是方便人類閱讀的架構(gòu)圖集,就這樣被接入了 AI 自動化研究的工作流。


(來源;X)

就在今天,這個項(xiàng)目也沖上了 Hacker News 首頁。一位用戶評論說:“這讓我想起了當(dāng)年的 Neural Network Zoo,也是用可視化的方式展示不同架構(gòu)。”也有人繼續(xù)幫忙優(yōu)化細(xì)節(jié):“能不能按時間排序,畫出架構(gòu)演化的家譜樹?能不能加一個比例視圖,讓參數(shù)量的差異在視覺上直觀可感?”對于這些建議,Sebastian 表示他后續(xù)會持續(xù)完善。

回到項(xiàng)目本身,目前,這份圖集收錄了三十多個模型架構(gòu),從 Llama 38B 到最新的 Qwen3.5、Sarvam 105B、Ling 2.5 1T。所有圖都按同一套視覺規(guī)范繪制:配色、圖例、字體統(tǒng)一,DeepSeek V3 和 Qwen3 235B-A22B 被放在一起時,你一眼就能看出前者用了 MLA(Multi-Head Latent Attention,多頭潛在注意力),后者用的是 GQA(Grouped-Query Attention,分組查詢注意力);DeepSeek V3 有一個“共享專家”模塊,Qwen3 沒有。

這類信息原本散落在幾十頁技術(shù)報告的不同角落,現(xiàn)在被壓縮成一張對比圖。

MoE(Mixture-of-Experts,混合專家模型)是 2025 年開源 LLM 的主旋律。所有主流的前沿開放權(quán)重模型都采用了這種架構(gòu)。傳統(tǒng)的“稠密”Transformer 會在每次生成 token 時激活全部參數(shù),參數(shù)越多,算力成本越高。而 MoE 把參數(shù)分成若干“專家”,每次只激活其中一部分。DeepSeek V3 名義上有 6,710 億參數(shù),但實(shí)際運(yùn)行時只激活 370 億;Llama 4 Maverick 號稱 4,000 億參數(shù),激活的只有 170 億。

Raschka 在圖集中把各模型的專家數(shù)量、激活比例、專家隱藏層尺寸都標(biāo)注出來,讓稀疏程度一目了然。Hacker News 上有人感慨:“我很驚訝這些模型在結(jié)構(gòu)上有多相似,主要差異就是層的大小?!?/p>

另一位用戶則看出了一些端倪,辣評“過去七年,LLM 架構(gòu)有很多改進(jìn),但沒有根本性的創(chuàng)新。今天最好的開放權(quán)重模型,如果你縮遠(yuǎn)了看,仍然很像 GPT-2,就是一堆注意力層和前饋層堆起來。”

這可以說是一個重要的觀察。LLM 能力的驚人提升,更多來自訓(xùn)練方法的革新。比如 RLVR(Reinforcement Learning with Verifiable Rewards,可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí)),而不是架構(gòu)本身的突破。架構(gòu)層面的優(yōu)化,更多是為了讓訓(xùn)練和推理更高效、成本更低,而不是讓模型根本上更聰明。理解這一點(diǎn),對選型和預(yù)期管理都有幫助。

最后總結(jié)一下,這個大模型架構(gòu)的圖集的實(shí)際用法很簡單。

首先,你可以把它當(dāng)作速查手冊:想知道 Qwen3 和 DeepSeek V3 在注意力機(jī)制上有什么區(qū)別?打開頁面,找到兩張圖,直接對比。規(guī)格表里會告訴你 Qwen3 用 GQA,DeepSeek V3 用 MLA;前者沒有共享專家,后者有。

其次,每張架構(gòu)圖都鏈接到 Raschka 原文中的對應(yīng)章節(jié),如果你想深入了解某個技術(shù)細(xì)節(jié):比如 QK-Norm(一種應(yīng)用于查詢和鍵向量的歸一化技術(shù))是什么、為什么能穩(wěn)定訓(xùn)練,點(diǎn)進(jìn)去就能讀到解釋。

第三,圖集附帶一份“概念速查”,解釋 GQA、MLA、SWA(Sliding Window Attention,滑動窗口注意力)、NoPE(No Positional Encoding,無位置編碼)、Gated DeltaNet 等術(shù)語,適合快速補(bǔ)課。

并且,正如 Karpathy 的用法所示,這份圖集的價值不僅在于人類可讀,還在于它的結(jié)構(gòu)化程度足以被機(jī)器解析。Raschka 在 GitHub 上提供了 YAML 格式的元數(shù)據(jù),包含每個模型的參數(shù)量、發(fā)布日期、技術(shù)報告鏈接、注意力類型等字段。如果你想寫腳本批量分析這些模型的共性和差異,或者像 Karpathy 那樣把它們喂給 AI 做自動化研究,這份元數(shù)據(jù)是現(xiàn)成的起點(diǎn)。

Raschka 還把整套架構(gòu)圖打包成一個超高分辨率的 PNG 文件(56M,182 百萬像素,上傳到 Zazzle,可以直接下單打印成實(shí)體海報。他自己也訂了一張,但“還沒收到貨,暫時不能保證印刷質(zhì)量”。頁面底部留了一個 Issue Tracker 鏈接,歡迎任何人提交糾錯或建議。

對于正在選型的工程師來說,這份圖集的價值在于節(jié)省時間。你不用再翻幾十頁技術(shù)報告去找一個數(shù)字,也不用自己畫對比表格。對于想搞懂“這些模型到底在結(jié)構(gòu)上有什么區(qū)別”的研究者來說,統(tǒng)一的視覺語言讓跨模型對比成為可能。

1.項(xiàng)目地址:https://sebastianraschka.com/llm-architecture-gallery/#card-qwen3-5-397b

2.開發(fā)者主頁:https://x.com/rasbt/status/2033167146302210058

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
肖戰(zhàn)沉淀出圈?劉亦菲高質(zhì)出圈?李昀銳待翻盤?李嘉欣富貴受限?

肖戰(zhàn)沉淀出圈?劉亦菲高質(zhì)出圈?李昀銳待翻盤?李嘉欣富貴受限?

明星爆料客
2026-06-18 21:30:52
成都一小孩口渴了,母親拿了一瓶水先讓孩子喝。喝完后,母親拿著空瓶去買單,老板卻認(rèn)為母親的行為是盜竊,要求偷一賠十!

成都一小孩口渴了,母親拿了一瓶水先讓孩子喝。喝完后,母親拿著空瓶去買單,老板卻認(rèn)為母親的行為是盜竊,要求偷一賠十!

大愛三湘
2026-06-17 20:24:41
特朗普打斷日本記者提問:你們首相高市早苗是我頭號粉絲,她覺得我干得非常出色!高市早苗曾在訪美時極力示好卻遭羞辱

特朗普打斷日本記者提問:你們首相高市早苗是我頭號粉絲,她覺得我干得非常出色!高市早苗曾在訪美時極力示好卻遭羞辱

極目新聞
2026-06-18 10:59:08
半程連超五人絕殺三將奪冠 歷史排名直升七位 余依婷百自破壁飛天

半程連超五人絕殺三將奪冠 歷史排名直升七位 余依婷百自破壁飛天

威猛孟巍
2026-06-18 22:15:41
美媒AI完成NBA歷史全明星蛇形選秀

美媒AI完成NBA歷史全明星蛇形選秀

體壇周報
2026-06-19 01:42:40
權(quán)色交易、陪睡上位,她根本不沾邊,簡直是娛圈的一股“清流”

權(quán)色交易、陪睡上位,她根本不沾邊,簡直是娛圈的一股“清流”

枯蝶
2026-05-16 11:38:52
午馬“天意難違”:6月19日,周五,有事即將要發(fā)生了

午馬“天意難違”:6月19日,周五,有事即將要發(fā)生了

叮當(dāng)當(dāng)科技
2026-06-18 18:48:20
全網(wǎng)僅10家!光刻膠+先進(jìn)封裝+半導(dǎo)體材料,多領(lǐng)域布局的龍頭。

全網(wǎng)僅10家!光刻膠+先進(jìn)封裝+半導(dǎo)體材料,多領(lǐng)域布局的龍頭。

墜入二次元的海洋
2026-06-19 02:53:17
樊振東回國僅3天,央媒、港媒齊齊發(fā)文,和全紅嬋的處境天差地別

樊振東回國僅3天,央媒、港媒齊齊發(fā)文,和全紅嬋的處境天差地別

小椰的奶奶
2026-06-18 00:05:39
離開東方甄選活不下去?曾經(jīng)跟著董宇輝的明明如今帶貨榜直接反超

離開東方甄選活不下去?曾經(jīng)跟著董宇輝的明明如今帶貨榜直接反超

情感大頭說說
2026-06-18 01:10:50
漢得信息:公司已有訂單采購英偉達(dá)的AI Factory相關(guān)軟件產(chǎn)品,相關(guān)項(xiàng)目正處于落地階段

漢得信息:公司已有訂單采購英偉達(dá)的AI Factory相關(guān)軟件產(chǎn)品,相關(guān)項(xiàng)目正處于落地階段

界面新聞
2026-06-18 09:11:04
李小璐母親:我這輩子最后悔的決定,就是心軟讓女兒嫁給了賈乃亮

李小璐母親:我這輩子最后悔的決定,就是心軟讓女兒嫁給了賈乃亮

她時尚丫
2026-03-22 21:32:14
內(nèi)耗太傷!華為汽車銷量不及預(yù)期,問題出在自己人。

內(nèi)耗太傷!華為汽車銷量不及預(yù)期,問題出在自己人。

周哥一影視
2026-06-18 09:14:20
卡福:我目睹大羅在98世界杯決賽前抽搐,他一度被移出名單

卡福:我目睹大羅在98世界杯決賽前抽搐,他一度被移出名單

行舟問茶
2026-06-18 14:09:56
弘一法師:所有的遇見,都是一場償還;所有的離開,都是債已兩清

弘一法師:所有的遇見,都是一場償還;所有的離開,都是債已兩清

杏花煙雨江南的碧園
2026-06-10 14:15:03
袁泉夫妻安徽參加婚禮!素顏臉黃憔悴顯疲憊,夏雨摟著老婆好恩愛

袁泉夫妻安徽參加婚禮!素顏臉黃憔悴顯疲憊,夏雨摟著老婆好恩愛

孤城落葉
2026-06-12 15:08:29
卡里克笑暈!穆里尼奧皇馬動刀清洗,曼聯(lián) 3000 萬撿漏自家天才

卡里克笑暈!穆里尼奧皇馬動刀清洗,曼聯(lián) 3000 萬撿漏自家天才

瀾歸序
2026-06-18 07:42:11
原來就是她騙了朱丹1600萬,她讓朱丹傾家蕩產(chǎn),朱丹讓她全網(wǎng)社死

原來就是她騙了朱丹1600萬,她讓朱丹傾家蕩產(chǎn),朱丹讓她全網(wǎng)社死

混沌錄
2026-06-02 22:58:08
陳云晚年首次披露:遵義會議上這兩個人死活不同意毛主席,吵得面紅耳赤

陳云晚年首次披露:遵義會議上這兩個人死活不同意毛主席,吵得面紅耳赤

老杉說歷史
2026-03-21 17:38:44
世界杯最刺激1戰(zhàn):第4VS第11!6球瘋狂對飚,難怪他們奪冠希望大

世界杯最刺激1戰(zhàn):第4VS第11!6球瘋狂對飚,難怪他們奪冠希望大

侃球熊弟
2026-06-18 05:10:54
2026-06-19 04:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16851文章數(shù) 515030關(guān)注度
往期回顧 全部

科技要聞

庫克承認(rèn)扛不住了,蘋果漲價“不可避免”

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經(jīng)要聞

博??礗PO,賺錢業(yè)務(wù)與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

健康
教育
數(shù)碼
家居
親子

吃粽子的3條保胃法則,消化科醫(yī)生推薦

教育要聞

畢業(yè)即高薪!高考生緊盯這6個專業(yè),畢業(yè)后50%能到國企就業(yè)!

數(shù)碼要聞

銘瑄公布MCIO接口ITX主板方案,展示高密度接口優(yōu)勢

家居要聞

綠意盎然 自然之境

親子要聞

我下班了 兒科醫(yī)生黃劍峰

無障礙瀏覽 進(jìn)入關(guān)懷版