網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

國(guó)產(chǎn) Coding 爭(zhēng)霸賽：MiniMax 爆冷登頂，DeepSeek 性?xún)r(jià)比稱(chēng)王

2026-06-15 16:08:17　來(lái)源: 雷峰網(wǎng)

北京舉報(bào)

分享至

　　“賽博同事們，誰(shuí)是開(kāi)發(fā)者的最優(yōu)解？”

　　作者丨孟一凡

　　編輯丨馬曉寧梁丙鑒

　　你很難把 Coding 僅僅視為大模型的諸多能力維度之一。

　　和單純的文本或圖像生成相比，代碼更明確的規(guī)則、嚴(yán)格的語(yǔ)法和可驗(yàn)證的結(jié)果只是部分原因。更為特殊之處在于，在 ChatBot 到 Agent 這條進(jìn)化鏈上，Coding 意味著的工具調(diào)用、數(shù)據(jù)處理和復(fù)雜流程自動(dòng)化，幾乎承載了模型從“會(huì)說(shuō)”走向“能干”的絕大部分期待。

　　一個(gè)值得關(guān)注的變化是，Coding 正在從眼花繚亂的 Benchmark 榜單中脫穎而出，成為一種模型競(jìng)爭(zhēng)的基礎(chǔ)設(shè)施級(jí)指標(biāo)。無(wú)論 OpenAI 、Anthropic 、Google 還是其他廠商，在發(fā)布新模型時(shí)幾乎都會(huì)將 Coding 場(chǎng)景作為大秀肌肉的選擇。

　　某種意義上，這就是正在形成中的行業(yè)共識(shí)，即代碼能力不僅意味著編程水平，更是衡量模型邏輯推理、工具使用和實(shí)際生產(chǎn)力的重要角度。

　　我們也很好奇，國(guó)產(chǎn)模型如今在 Coding 這條卷生卷死的賽道里已經(jīng)進(jìn)化到了何種程度。為此我們選擇了五款以編程能力見(jiàn)長(zhǎng)的國(guó)產(chǎn)模型，包括 DeepSeek V4 Pro 、Kimi K2.6 、Qwen 3.7 Max 、GLM 5.1 和 MiniMax M3 ，將它們放進(jìn)同一個(gè)真實(shí)工程任務(wù)的場(chǎng)景里，并讓 Claude Opus 4.7 擔(dān)任裁判模型，從可運(yùn)行性、正確性、可讀性、可維護(hù)性四個(gè)維度量化評(píng)分。

　　接下來(lái)就看看，各家模型的表現(xiàn)如何。

　　編者注：此次測(cè)試選用模型，為截至 2025 年 6 月 10 日各家最新款旗艦?zāi)Ｐ停孰S后發(fā)布的 Kimi K2.7 及 GLM-5.2 均未參賽。對(duì)上述兩款模型的測(cè)試也將陸續(xù)發(fā)布，歡迎關(guān)注。

　　不寫(xiě)八股文，真正的壓力測(cè)試

　　Coding 能力的測(cè)試也大有講究。HumanEval 、MBPP 這些業(yè)界常見(jiàn)的 Coding Benchmark ，本質(zhì)上都在測(cè)試模型會(huì)不會(huì)寫(xiě)代碼。最常見(jiàn)的模式就是給出一道算法題，看模型能不能給出正確的解法。只能說(shuō)程序員有自己的八股文，LLM 來(lái)了也得寫(xiě)一遍。

　　這種測(cè)試和真實(shí)工程開(kāi)發(fā)之間，還有著不小的距離。實(shí)際干過(guò)開(kāi)發(fā)工作的人就知道，最頭疼的是產(chǎn)品經(jīng)理甩過(guò)來(lái)一份含混不清的需求，你得自己去理清邊界條件，此外數(shù)據(jù)庫(kù)表能跑還不夠，設(shè)計(jì)的時(shí)候就要把未來(lái)三個(gè)月的業(yè)務(wù)擴(kuò)展都考慮進(jìn)去。還有可維護(hù)性，你寫(xiě)的代碼，同事也得能看懂，線(xiàn)上出了 Bug ，得從日志里能定位到根因。

　　跟這些相比，把代碼寫(xiě)出來(lái)只是開(kāi)始。

　　所以我們不做 LeetCode 跑分，不刷榜。這次測(cè)試選擇用真實(shí)工程任務(wù)加裁判模型量化評(píng)分的模式，所有結(jié)果只有一個(gè)標(biāo)準(zhǔn)，那就是工程場(chǎng)景能不能用起來(lái)。

　　我們?yōu)檫@五款模型設(shè)計(jì)了兩項(xiàng)任務(wù)。

　　任務(wù) A 是完整交付一套優(yōu)惠券系統(tǒng)，從數(shù)據(jù)庫(kù) DDL 設(shè)計(jì)到 Python 核心邏輯，再到 API 文檔和部署方案，都需要模型獨(dú)立完成。

　　很多模型發(fā)布的時(shí)候會(huì)選擇一些“一鍵生成”的小游戲或者小程序作為 Coding 能力的展示，乍看亮眼，實(shí)際都是輕量級(jí)的小玩意兒。而這項(xiàng)測(cè)試考的就是“從無(wú)到有”的架構(gòu)能力，字典表擴(kuò)展性、雙模式有效期、并發(fā)鎖設(shè)計(jì)、滑動(dòng)窗口防刷、模糊需求澄清，還要做到中國(guó)手機(jī)號(hào)正則校驗(yàn)。

　　任務(wù) B 是常見(jiàn)的 Bug 診斷修復(fù)，但我們?cè)跍y(cè)試強(qiáng)度上下了功夫。模型會(huì)拿到一段包含五個(gè)預(yù)設(shè)陷阱的高并發(fā)秒殺代碼，我們要求它診斷根因并修復(fù)。陷阱包括競(jìng)態(tài)條件超賣(mài)、Redis 緩存穿透、連接池配置不足、事務(wù)隔離級(jí)別不當(dāng)、異常回滾遺漏。這項(xiàng)測(cè)試，關(guān)注的是模型“從壞到好”的工程嗅覺(jué)。

　　裁判模型 Claude Opus 4.7 會(huì)從可運(yùn)行性（30%）、正確性（30%）、可讀性（20%）、可維護(hù)性（20%）四個(gè)維度量化打分，最終成績(jī)加權(quán)計(jì)算。

　　優(yōu)惠券系統(tǒng)，差點(diǎn)集體翻車(chē)

　　測(cè)試剛剛開(kāi)始，五款模型的表現(xiàn)就讓人大跌眼鏡。

　　問(wèn)題就出在需求澄清這個(gè)環(huán)節(jié)。我們?cè)?Prompt 里故意埋了一個(gè)模糊表述："短時(shí)間內(nèi)高頻領(lǐng)取需攔截"?？吹竭@里，一個(gè)成熟的工程師就該主動(dòng)追問(wèn)了，什么叫短時(shí)間，一分鐘還是五分鐘，什么又叫高頻，五次還是十次？

　　但令人意外的是，沒(méi)有任何一款模型主動(dòng)要求我們澄清這項(xiàng)需求，剛才提到的參數(shù)都是模型自己假設(shè)的。工程師素養(yǎng)是一個(gè)很難量化的隱形維度，至少在這一關(guān)，五家打了個(gè)平手：誰(shuí)都沒(méi)追問(wèn)，誰(shuí)也不比誰(shuí)強(qiáng)。

　　在后續(xù)的架構(gòu)設(shè)計(jì)層面，模型的表現(xiàn)出現(xiàn)了分化。MiniMax M3 拿到了全場(chǎng)最高的 95 分，裁判評(píng)語(yǔ)是："整體屬于資深架構(gòu)師水準(zhǔn)的方案，正確性和可運(yùn)行性最為出色。"

　　它在核心服務(wù)實(shí)現(xiàn)環(huán)節(jié)的 70 分雖然不是最高，但防刷與并發(fā)安全環(huán)節(jié)以 80 分領(lǐng)先。在高并發(fā)場(chǎng)景下，MiniMax M3 不僅關(guān)注到了功能實(shí)現(xiàn)，更可貴的是系統(tǒng)穩(wěn)定性與可用性。

　　比如通過(guò) Redis Lua 腳本實(shí)現(xiàn)庫(kù)存原子扣減，從根源上避免超賣(mài)問(wèn)題，采用滑動(dòng)窗口限流機(jī)制，較傳統(tǒng)固定窗口更精準(zhǔn)地應(yīng)對(duì)突發(fā)流量和惡意刷請(qǐng)求，同時(shí)引入熔斷與降級(jí)策略，在下游服務(wù)異常時(shí)保障核心業(yè)務(wù)持續(xù)運(yùn)行。這一整套組合拳，被裁判稱(chēng)為“工業(yè)級(jí)實(shí)現(xiàn)”。

　　Kimi K2.6 與 MiniMax M3 并列拿下了架構(gòu)設(shè)計(jì)環(huán)節(jié)的第一名 95 分，但它的得分路徑完全不同。

　　裁判給 Kimi 的評(píng)語(yǔ)是：“整體是接近資深架構(gòu)師水準(zhǔn)的方案，正確性與可維護(hù)性最佳。”它的數(shù)據(jù)庫(kù)設(shè)計(jì)同樣采用了字典表管理優(yōu)惠券類(lèi)型，沒(méi)有掉進(jìn)硬編碼三個(gè) type 字段的坑里。但 Kimi 真正的殺手锏在可維護(hù)性，它為每個(gè)接口編寫(xiě)了完整的類(lèi)型注解和文檔字符串，連 Redis 連接池的異常重試策略都寫(xiě)了詳細(xì)的注釋說(shuō)明。Opus 4.7 在可讀性維度上給了 4 分，扣掉的 1 分是因?yàn)樗昧?ASCII 流程圖來(lái)展示架構(gòu)，“排版略遜”。

　　但到了核心服務(wù)實(shí)現(xiàn)環(huán)節(jié)，Kimi 只拿到 70 分，與 MiniMax 持平。問(wèn)題出在一個(gè)架構(gòu)級(jí)的致命疏忽：Redis 扣減庫(kù)存成功后，如果 DB 落庫(kù)失敗，系統(tǒng)沒(méi)有最終一致性補(bǔ)償機(jī)制。這意味著在大促期間一旦出現(xiàn)網(wǎng)絡(luò)抖動(dòng)，用戶(hù)明明搶到了券、Redis 也扣了庫(kù)存，但數(shù)據(jù)庫(kù)里卻沒(méi)有記錄，也就是券憑空消失了。Opus 4.7 的原話(huà)是：“Redis 與 DB 無(wú)最終一致性補(bǔ)償機(jī)制，高并發(fā)下可能出現(xiàn)數(shù)據(jù)不一致?！?/p>

　　這是一個(gè)典型的“想得周全、做得規(guī)范、但漏了最關(guān)鍵的一環(huán)”的案例。

　　DeepSeek V4 Pro 在架構(gòu)設(shè)計(jì)環(huán)節(jié)拿到了 85 份，表現(xiàn)尚可，裁判稱(chēng)贊其“正確性最佳，幾乎完全覆蓋需求與邊界場(chǎng)景”。但到了核心代碼實(shí)現(xiàn)環(huán)節(jié)，分?jǐn)?shù)跌到了 65 分。

　　問(wèn)題出在業(yè)務(wù)邏輯正確性上，Opus 4.7 發(fā)現(xiàn) discount_value 范圍限制和防刷的 key_TTL 的設(shè)置有誤。前者可能導(dǎo)致異常折扣甚至業(yè)務(wù)規(guī)則失效，后者則意味著限流窗口過(guò)短、過(guò)長(zhǎng)或被不斷刷新，從而削弱防刷效果甚至影響正常用戶(hù)使用，都踩在真實(shí)場(chǎng)景的雷區(qū)上。

　　Opus 4.7 評(píng)語(yǔ)的原話(huà)是：“結(jié)構(gòu)與并發(fā)處理思路最好，最差是正確性?！?/p>

　　這揭示了一個(gè)有趣的現(xiàn)象，DeepSeek V4 Pro 很會(huì)"想"，但不太會(huì)"做"。它在架構(gòu)層面的抽象能力堪稱(chēng)一流，數(shù)據(jù)庫(kù)設(shè)計(jì)用了字典表管理優(yōu)惠券類(lèi)型，而不是硬編碼三個(gè)字段。但當(dāng)涉及到把設(shè)計(jì)落地為可運(yùn)行代碼時(shí)，它卻會(huì)在邊界條件上犯低級(jí)錯(cuò)誤。

　　此外 Qwen 3.7 Max 和 GLM 5.1 也各有可圈可點(diǎn)之處。

　　Qwen 3.7 Max 在架構(gòu)設(shè)計(jì)環(huán)節(jié)拿到了 90 分，裁判評(píng)語(yǔ)是：“正確性和可運(yùn)行性表現(xiàn)最佳，覆蓋參考答案全部要點(diǎn)且落地方案完整?！彼牧咙c(diǎn)在于工程化考慮非常周全，不僅實(shí)現(xiàn)了核心邏輯，還主動(dòng)給出了 Docker Compose 部署配置和壓測(cè)腳本，Opus 4.7 在可運(yùn)行性維度上直接給了 5 分的成績(jī)。

　　但 Qwen 的短板也很鮮明。核心服務(wù)實(shí)現(xiàn)只拿到 60 分，突出問(wèn)題是折扣類(lèi)型用 if/elif 硬編碼分支，而不是策略模式或配置化。這意味著如果下個(gè)月業(yè)務(wù)方說(shuō)要新增一種“隨機(jī)立減券”，開(kāi)發(fā)者必須改核心代碼、重新部署服務(wù)，這在真實(shí)工程里是不可接受的。此外，Opus 4.7 還提到它的可讀性“相對(duì)最弱”，原因是缺少架構(gòu)圖示，純文字描述讓方案的直觀性打了折扣。

　　可以說(shuō)，Qwen 是一個(gè)“能跑起來(lái)、但不好維護(hù)”的典型。這是 OPC 驗(yàn)證的首選，但對(duì)于長(zhǎng)期迭代的任務(wù)，還需要努努力。

　　GLM 5.1 同樣在架構(gòu)設(shè)計(jì)環(huán)節(jié)拿到了 90 分，裁判評(píng)語(yǔ)幾乎和 Qwen 的一樣：“正確性和可運(yùn)行性是最強(qiáng)項(xiàng)，覆蓋參考答案全部要點(diǎn)并落地完整?！彼臄?shù)據(jù)庫(kù)設(shè)計(jì)被 Opus 4.7 評(píng)價(jià)為“兼具可執(zhí)行性與可擴(kuò)展性”，優(yōu)惠券類(lèi)型字典表、有效期雙模式、防刷滑動(dòng)窗口等核心錨點(diǎn)全部命中。

　　但 GLM 在核心服務(wù)實(shí)現(xiàn)環(huán)節(jié)也只拿到 60 分，問(wèn)題出在安全性而非架構(gòu)上。Opus 4.7 發(fā)現(xiàn)它的 schemas.py 中，CouponCreate 的 type字段缺少合法的枚舉校驗(yàn)，這意味著攻擊者可以直接傳入一個(gè)非法的優(yōu)惠券類(lèi)型值，系統(tǒng)不會(huì)攔截，而是可能直接入庫(kù)。在真實(shí)生產(chǎn)環(huán)境中，這是一個(gè)潛在的安全漏洞。

　　更致命的是并發(fā)安全環(huán)節(jié)，GLM 只拿到 75 分，是五家中的倒數(shù)第二。它的防刷實(shí)現(xiàn)雖然用了滑動(dòng)窗口的大框架，但細(xì)節(jié)上有瑕疵。Opus 4.7 指出“限流粒度偏粗，未區(qū)分用戶(hù)級(jí)與 IP 級(jí)雙層防護(hù)”，在面對(duì)專(zhuān)業(yè)羊毛黨時(shí)可能會(huì)被突破。

　　表 1：任務(wù) A 各環(huán)節(jié)得分

　　不過(guò)綜合成績(jī)看下來(lái)，所有模型在這項(xiàng)任務(wù)中的表現(xiàn)都算不上優(yōu)秀。MiniMax M3 和 Kimi K2.6 并列第一，拿下 81.0，最低分則是 DeepSeek V4 Pro 的 73.5。放在百分制里看，這相當(dāng)于全班第一名考了 81 分。不是學(xué)霸太強(qiáng)，是試卷太難，這種復(fù)雜架構(gòu)的從零生成，的確是今天 Coding 模型的一大痛點(diǎn)。

　　Debug 是所有人的舒適區(qū)

　　如果說(shuō)任務(wù) A 是一次集體掛科的期中考試，那任務(wù) B 就是期末補(bǔ)考。全班都及格了，甚至考得還不錯(cuò)。得分最高的仍然是 MiniMax M3，拿下 89.7 分，分?jǐn)?shù)最低的 GLM 5.1 也有 79.0，基本都在 80 分段以上。這意味著，給一個(gè)現(xiàn)成的 Bug 讓模型找，比讓模型從零寫(xiě)一個(gè)無(wú) Bug 的系統(tǒng)，要容易得多。

　　在找 Bug 這件事上，MiniMax M3、DeepSeek V4 Pro、Qwen 3.7 Max 的成績(jī)并列。三家的 Bug 發(fā)現(xiàn)率都拿到了 90 分，也就是命中了五個(gè)預(yù)設(shè)陷阱中的至少四個(gè)。

　　DeepSeek V4 Pro 在這一環(huán)節(jié)的表現(xiàn)尤其值得關(guān)注。雖然在任務(wù) A 中排名墊底，但在 Bug 診斷中它與 MiniMax M3 和 Qwen 3.7 Max 并列第一。Opus 4.7 指出，它覆蓋了全部預(yù)設(shè)問(wèn)題且結(jié)構(gòu)清晰，在正確性和可讀性上表現(xiàn)最佳。一種可能的解釋是，或許 DeepSeek V4 Pro 的強(qiáng)項(xiàng)恰恰是理解復(fù)雜邏輯。

　　在修復(fù)質(zhì)量上，Kimi 與 MiniMax 的得分并列第一。

　　Kimi K2.6 以 90 分的總分與 MiniMax M3 持平，裁判給了很高的評(píng)價(jià)，稱(chēng)其修復(fù)方案“整體是一份接近生產(chǎn)級(jí)的修復(fù)方案，可讀性和可維護(hù)性最佳，包括注釋三段式、配置中心和結(jié)構(gòu)化日志。”

　　一個(gè)值得注意的細(xì)節(jié)是，Kimi 在修復(fù)代碼中引入了配置中心，也就是將將限流閾值、連接池參數(shù)、超時(shí)時(shí)間全部外置。如果這三者被寫(xiě)死在代碼里，那么一旦線(xiàn)上流量變化或環(huán)境切換，就必須重新修改代碼、測(cè)試并發(fā)布版本，維護(hù)成本很高，也容易引入新的問(wèn)題。

　　Opus 4.7 評(píng)價(jià)其為生產(chǎn)級(jí)的原因也在這里，引入配置中心意味著這些運(yùn)行參數(shù)與業(yè)務(wù)邏輯解耦，運(yùn)維或開(kāi)發(fā)人員可以根據(jù)實(shí)際負(fù)載動(dòng)態(tài)調(diào)整配置，無(wú)需重新部署服務(wù)，大幅提升了系統(tǒng)的靈活性和可運(yùn)維性。

　　更重要的是，開(kāi)發(fā)、測(cè)試、預(yù)發(fā)、生產(chǎn)的不同環(huán)境下往往需要不同參數(shù)配置。配置中心能夠?qū)崿F(xiàn)統(tǒng)一管理、版本控制和灰度發(fā)布，避免“本地正常、線(xiàn)上異常”的配置漂移問(wèn)題。在高并發(fā)系統(tǒng)中，限流、連接池和超時(shí)參數(shù)本身就是穩(wěn)定性治理的重要抓手，將其外置說(shuō)明 Kimi K2.6 考慮到了系統(tǒng)長(zhǎng)期運(yùn)行和持續(xù)演進(jìn)的需求，而不是僅滿(mǎn)足當(dāng)前場(chǎng)景。

　　在基礎(chǔ)修復(fù)之外，五款模型都給出了架構(gòu)層面的優(yōu)化建議。MiniMax M3 、Kimi K2.6 、GLM 5.1 在這一環(huán)節(jié)都拿到了 90 分，其中 MiniMax M3 的建議被認(rèn)為在“結(jié)構(gòu)化呈現(xiàn) + 全維度運(yùn)維考量”上最為出色，涵蓋了緩存預(yù)熱、異步落庫(kù)補(bǔ)償、限流降級(jí)、監(jiān)控告警和容量規(guī)劃五個(gè)維度。

　　容量規(guī)劃

　　Kimi 和 Qwen 在架構(gòu)優(yōu)化中都提到了“擴(kuò)容”，但基本上是“建議增加 Redis 節(jié)點(diǎn)”這種原則性表述。MiniMax M3 則給出了具體的擴(kuò)容閾值和分片策略，比如 QPS 達(dá)到多少時(shí)觸發(fā)擴(kuò)容、Redis Cluster 分幾個(gè) shard、每個(gè) shard 的內(nèi)存上限設(shè)多少。Opus 4.7 正是因?yàn)檫@些數(shù)字而扣了它的分（“部分容量數(shù)字未給出具體計(jì)算依據(jù)”），但反過(guò)來(lái)看，敢給具體數(shù)字本身就說(shuō)明它在運(yùn)維落地層面想得比其他模型深一層。

　　異步落庫(kù)補(bǔ)償機(jī)制

　　其他模型（包括 DeepSeek V4 Pro 和 Qwen 3.7 Max）都提到了“異步寫(xiě) DB 來(lái)降低 Redis 延遲”，但基本上點(diǎn)到為止。MiniMax M3 則在這個(gè)基礎(chǔ)上補(bǔ)了一個(gè)補(bǔ)償鏈路的設(shè)計(jì)，如果異步落庫(kù)失敗，如何通過(guò)消息隊(duì)列重試、失敗后多久觸發(fā)告警、以及如何在不一致時(shí)做數(shù)據(jù)對(duì)賬修復(fù)。這是一個(gè)很多工程師在真實(shí)項(xiàng)目里都會(huì)漏掉的點(diǎn)：寫(xiě)了異步邏輯，但沒(méi)寫(xiě)失敗兜底。

　　灰度發(fā)布方案

　　MiniMax M3 的文檔中包含了漸進(jìn)式灰度切流的部署策略——先小流量驗(yàn)證庫(kù)存扣減一致性，再逐步放大。這個(gè)維度在 Kimi 和 Qwen 的文檔中完全沒(méi)有出現(xiàn)。GLM 5.1 雖然提到了“運(yùn)維方案”，但更多是監(jiān)控和日志層面，沒(méi)有涉及發(fā)布策略。

　　DeepSeek V4 Pro 在這一環(huán)節(jié)的 80 分是全場(chǎng)最低，裁判評(píng)語(yǔ)是“缺少監(jiān)控/限流具體實(shí)現(xiàn)細(xì)節(jié)”。有意思的是，這與它在任務(wù) A 中展現(xiàn)的“架構(gòu)抽象能力強(qiáng)但落地細(xì)節(jié)弱”的特征高度一致。

　　表 2：任務(wù) B 各環(huán)節(jié)得分

　　MiniMax 爆冷奪冠

　　到此為止，已經(jīng)可以算出綜合排名。

　　令我們意外的是，MiniMax M3 以 85.3 的綜合得分爆冷奪冠，其在 Bug 診斷與修復(fù)環(huán)節(jié)的表現(xiàn)尤為突出（89.7 分），而DeepSeek V4 Pro 雖然綜合得分排名第四（78.6 分），但憑借最低的 API 定價(jià)，性?xún)r(jià)比指標(biāo)（CPP $0.20）全場(chǎng)最優(yōu)，是預(yù)算敏感型團(tuán)隊(duì)的首選。

　　表 3：綜合排名

　　在此前的兩項(xiàng)測(cè)試任務(wù)中，五款模型表現(xiàn)出了迥異的特性。MiniMax M3 的 Task B 得分（89.7）全場(chǎng)最高，Bug 診斷和修復(fù)都堪稱(chēng)工業(yè)級(jí)。如果比作工程師的話(huà)，它應(yīng)該是團(tuán)隊(duì)里那個(gè)在 Code Review 時(shí)一眼看出代碼里競(jìng)態(tài)條件的人，也是那個(gè)在故障排查時(shí)最快定位根因的人。

　　但它不是那種能從零搭建完整系統(tǒng)的人，至少不是做得最好的那個(gè)。Task A 的 81.0 雖然也是并列第一，但這個(gè)分?jǐn)?shù)本身就意味著"還有 19 分的提升空間"。寫(xiě)代碼對(duì)它來(lái)說(shuō)不是舒適區(qū)，找 Bug 才是。

　　Kimi K2.6 的表現(xiàn)同樣亮眼，所有子項(xiàng)得分都在 70-90 分之間，這是一份沒(méi)有明顯短板，還能夠一夠單項(xiàng)最高的成績(jī)。它的文檔和運(yùn)維方案被 Opus 4.7 反復(fù)稱(chēng)贊為“最出彩”、“最詳實(shí)可落地”，其中在修復(fù)實(shí)現(xiàn)環(huán)節(jié)引入配置中心和結(jié)構(gòu)化日志的做法，堪稱(chēng)這次比賽中工程實(shí)踐可維護(hù)性的標(biāo)桿。

　　不過(guò)之前沒(méi)有提到的一處隱憂(yōu)是，Kimi K2.6 在任務(wù) A 的核心代碼實(shí)現(xiàn)中遺漏了 Redis 與 DB 的最終一致性補(bǔ)償。在秒殺場(chǎng)景下，這可能是個(gè)致命的錯(cuò)誤。這種畫(huà)像有點(diǎn)像是一個(gè)做事很規(guī)范的工程師，但偶爾也會(huì)在大局觀上失焦。

　　Qwen 3.7 Max 的表現(xiàn)，用一個(gè)詞形容就是"穩(wěn)"。Task A 77.5，Task B 87.0，綜合 82.2，排名第三。我們復(fù)盤(pán)成績(jī)的時(shí)候發(fā)現(xiàn)，它在任何環(huán)節(jié)都沒(méi)有拿過(guò)第一名，但也沒(méi)有跌出過(guò)前三。不驚艷，但絕不會(huì)出大錯(cuò)，這就是你在任何項(xiàng)目上都可以放心用的人。

　　對(duì)于 DeepSeek V4 Pro，則有不小的爭(zhēng)議，長(zhǎng)處和短板都相當(dāng)明顯。綜合得分 78.6，排名第四的背后，是幾乎溢出的架構(gòu)設(shè)計(jì)能力和火候欠缺的工程落地表現(xiàn)。前一腳能在需求澄清與架構(gòu)設(shè)計(jì)環(huán)節(jié)拿到 85 分，后一步就在核心代碼實(shí)現(xiàn)上跌到 65。更極端的是，它在 Bug 診斷環(huán)節(jié)以 90 分并列第一。這說(shuō)明它不是不懂，而是在從“想”到“做”的轉(zhuǎn)化過(guò)程中出了問(wèn)題。

　　GLM 5.1 的特性也很鮮明。雖然在兩項(xiàng)任務(wù)中都是最后一名，但它在修復(fù)實(shí)現(xiàn)的可讀性維度上拿到了 5 分，在架構(gòu)優(yōu)化環(huán)節(jié)也拿到了 90 分。這說(shuō)明當(dāng)給定明確方向時(shí)，它就能給出結(jié)構(gòu)清晰、覆蓋面廣的方案。但在沒(méi)有錨點(diǎn)的創(chuàng)造性任務(wù)中，它容易被其他模型拉開(kāi)差距。這是最適合最為輔助性編程工具的選手，人類(lèi)工程師的主導(dǎo)和方向支持下，就會(huì)發(fā)揮出最強(qiáng)的性能。

　　性?xún)r(jià)比對(duì)決：誰(shuí)是開(kāi)發(fā)者的最優(yōu)解？

　　數(shù)據(jù)截至 2026 年 6 月 3 日，各模型國(guó)際官網(wǎng)標(biāo)價(jià)：

　　表 4：各模型官網(wǎng)最新 API 定價(jià)對(duì)比

　　這份價(jià)格表里有幾個(gè)值得注意的點(diǎn)。DeepSeek V4 Pro 在 5 月 31 日之后，原本的 75% off 折扣價(jià)已成為正式官方價(jià)，使其成為五家中單價(jià)最低的模型，輸出價(jià)格甚至不到 Kimi 的四分之一。MiniMax M3 采用階梯定價(jià)，目前官網(wǎng)正在進(jìn)行限時(shí) 5 折活動(dòng)，折扣后價(jià)格甚至低于 DeepSeek。Qwen 3.7 Max 是五家中最貴的，約為 DeepSeek 的 3-4 倍。

　　光比能力不分價(jià)格，是耍流氓。假設(shè)你是一個(gè)中小團(tuán)隊(duì)的 Tech Lead，每天跑一個(gè)中度 Agent workload（日耗 100 萬(wàn) Input Token + 10 萬(wàn) Output Token），那么按上面這份各模型官網(wǎng)最新標(biāo)價(jià)，一個(gè)月的賬單如下：

　　表 5：月度成本與性?xún)r(jià)比對(duì)比

　　可以看到幾個(gè)驚人的數(shù)字。DeepSeek V4 Pro 的 CPP（成本性?xún)r(jià)比）為 $0.20，意味著花 20 美分就能買(mǎi)到 1 分的能力。相比之下，Qwen 3.7 Max 買(mǎi)同樣的 1 分能力需要 $0.59，貴了整整 3 倍。用 Qwen 一個(gè)月的預(yù)算（$48.75），可以跑三個(gè)月 DeepSeek 還剩 $1.77。

　　MiniMax M3 的限時(shí) 5 折價(jià)使其月度成本僅為 $12.60，CPP 僅 $0.15，甚至比 DeepSeek 還便宜。但需要注意這是限時(shí)折扣價(jià)，標(biāo)準(zhǔn)價(jià) $25.20 的 CPP 為 $0.30，仍?xún)?yōu)于 Kimi 和 Qwen。

　　如果你是對(duì)預(yù)算極度敏感的個(gè)人開(kāi)發(fā)者或初創(chuàng)公司，DeepSeek V4 Pro 就是最經(jīng)濟(jì)的選擇。當(dāng)然對(duì)于追求折扣紅利的短期項(xiàng)目而言， MiniMax M3 的五折價(jià)也是一個(gè)方案。而且綜合實(shí)力最強(qiáng)、Bug 診斷最佳的成績(jī)，讓這款模型在標(biāo)準(zhǔn)價(jià)之下也相當(dāng)有競(jìng)爭(zhēng)力。

　　如果想作為團(tuán)隊(duì)主力長(zhǎng)期使用，則可以考慮 Kimi K2.6。雖然綜合得分第二，但也勝在沒(méi)有明顯短板、規(guī)范性強(qiáng)上。而對(duì)于為生態(tài)集成買(mǎi)單的阿里云用戶(hù)來(lái)說(shuō)，Qwen 3.7 Max 的表現(xiàn)也同樣可靠。

　　如果把這次評(píng)測(cè)比喻成一場(chǎng)招聘面試，五家模型各自拿到了不同的 offer。

　　MiniMax M3 是高級(jí)工程師，Bug 排查能力全場(chǎng)最強(qiáng)，但入職后需要配一個(gè)架構(gòu)師幫它把關(guān)從零建系統(tǒng)的活兒。Kimi K2.6 拿到了技術(shù)骨干的 offer，沒(méi)有明顯短板，規(guī)范性強(qiáng)，是任何團(tuán)隊(duì)都可以放心托付的主力。Qwen 3.7 Max 更像資深工程師，穩(wěn)健可靠，但工資要求最高。DeepSeek V4 Pro 作為性?xún)r(jià)比之王當(dāng)之無(wú)愧，花最少的錢(qián)，就能買(mǎi)到中上的能力，而 GLM 5.1 則還在試用期。

　　復(fù)盤(pán)整場(chǎng)比賽，MiniMax M3 的奪冠也讓我們重新思考 Coding 能力的競(jìng)爭(zhēng)?；蛟S這條賽道上真正的比拼，早就從寫(xiě)出更優(yōu)雅的算法，進(jìn)化到了誰(shuí)能理解更復(fù)雜的工程約束，甚至擁有或是模仿一種玄而又玄的工程師嗅覺(jué)。畢竟在真實(shí)業(yè)務(wù)場(chǎng)景中，一個(gè)能精準(zhǔn)定位競(jìng)態(tài)條件、給出工業(yè)級(jí)修復(fù)方案的模型，遠(yuǎn)比一個(gè)會(huì)寫(xiě)快速排序的模型有價(jià)值。

　　在這場(chǎng)國(guó)產(chǎn)大模型的混戰(zhàn)中，有人比拼能力上限，有人重新定義性?xún)r(jià)比的底線(xiàn)。而開(kāi)發(fā)者的幸福在于，你終于可以不再被價(jià)格綁架，根據(jù)團(tuán)隊(duì)規(guī)模和項(xiàng)目需求，選一個(gè)真正適合你的“賽博同事”了。

　　（本文作者長(zhǎng)期追蹤模型及 AI 產(chǎn)品動(dòng)態(tài)，歡迎添加微信 LIFACAI_888 互通有無(wú)。）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.