免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

3B小模型,編程得分比肩Opus 4.5,神秘模型引發(fā)熱議,原是國產(chǎn)

0
分享至




編輯|張倩

最近幾天,一個 3B 的小模型在 X 上火了,因為在一些難度可驗證的推理任務上(比如編程),它進入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能區(qū)間,而它的體積遠小于這些模型。



這個模型名叫 VibeThinker-3B,是一個擁有 30 億參數(shù)的密集推理模型,旨在探索在嚴格的小模型規(guī)模下,可驗證推理能力能被推進到何種程度。

模型發(fā)布后,很多人都被它的成績驚艷到了,表示要上手一試。





值得注意的是,它還是一個國產(chǎn)模型,來自新浪微博團隊。



技術(shù)報告顯示,該模型專為具有可靠驗證信號的任務而設計,包括數(shù)學推理、競技編程、STEM 推理以及帶有明確約束的指令執(zhí)行。

因此,它在各項基準測試中均表現(xiàn)出色 。其在 AIME26 測試中獲得 94.3 分 ,在 HMMT25 測試中獲得 89.3 分 ,在 LiveCodeBench v6 測試中獲得 80.2 分(Pass@1),并且在 2026 年 4 月 25 日至 5 月 31 日期間 LeetCode 最新未公開的周賽和雙周賽中取得了 96.1% 的通過率。



這個模型是怎么訓練的?技術(shù)報告揭示了一些細節(jié)。

首先,它基于 Qwen2.5-Coder-3B 構(gòu)建,并采用升級版 Spectrum-to-Signal 流程進行后訓練。該流程在監(jiān)督微調(diào)(SFT)中加強了數(shù)據(jù)合成、質(zhì)量過濾和課程學習,將 MGPO 風格的強化學習擴展到多個可驗證領域,保留了完整的長上下文推理軌跡,并通過離線自蒸餾和指令強化學習(Instruct RL)來鞏固各項能力。



VibeThinker-3B 整體訓練流程



Spectrum-to-Signal 流程。

此外,VibeThinker-3B 還引入了 Claim-Level 可靠性評估(CLR),這是一種面向答案可驗證推理的測試時 scaling 策略。CLR 進一步提升了數(shù)學基準測試的性能,將 AIME26 從 94.3 提高到 97.1,HMMT25 從 89.3 提高到 95.4,并將 BruMO25 提升至 99.2。



其具體訓練流程如下:

  • 基于課程的兩階段 SFT。第一階段側(cè)重于數(shù)學、編程、STEM 推理、一般對話和指令遵循等方面的廣泛能力覆蓋。第二階段轉(zhuǎn)向難度更高、視野更廣闊的推理樣本。多樣性探索蒸餾用于保留多個有效的解決方案路徑。
  • 多領域推理強化學習。VibeThinker-3B 重用了 MGPO。強化學習依次應用于數(shù)學、編程和 STEM 推理任務。訓練使用單個 64K 長上下文窗口來保留完整的長時域推理軌跡。
  • 離線自蒸餾。從數(shù)學、編程和 STEM RL 檢查點篩選和提煉高質(zhì)量軌跡,最終形成統(tǒng)一的學生模型。學習潛力評分用于優(yōu)先考慮那些正確但學生尚未很好地模仿的軌跡。
  • Instruct RL。最后階段提高了面向用戶的提示的可控性。對于格式敏感且開放式的教學數(shù)據(jù),采用基于規(guī)則的驗證器和基于評分標準的獎勵模型。

在最近的一個帖子中,知名 AI 研究者和博主 Sebastian Raschka 系統(tǒng)總結(jié)了 VibeThinker-3B 技術(shù)報告中披露的要點,包括以下幾條:



如果你對這些內(nèi)容感興趣,可以去詳細翻閱他們的技術(shù)報告。目前,模型也是可以公開下載的。



  • 報告標題:VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models
  • 報告鏈接:https://arxiv.org/pdf/2606.16140
  • HuggingFace 鏈接:https://huggingface.co/WeiboAI/VibeThinker-3B

不過,該模型的適用范圍是有明確限制的,因為它在需要通用知識的領域表現(xiàn)并不出色。





官方也明確指出了這一點,并提出「參數(shù)壓縮覆蓋假設」:不同的能力對模型參數(shù)的依賴方式截然不同??沈炞C推理更接近于一種高度可壓縮、參數(shù)密集的能力,其核心在于多步驟推理、約束滿足、自我糾錯和答案驗證。當任務空間結(jié)構(gòu)足夠清晰且反饋信號足夠可靠時,緊湊型模型也可能具備接近前沿的推理能力。相比之下,開放領域知識、通用對話和長尾場景理解則更依賴于大規(guī)模參數(shù)來廣泛覆蓋事實、概念和世界知識。這一假設非常具有啟發(fā)性。VentureBeat 在報道中寫道:「它揭示了推理能力和事實知識之間存在部分解耦,并且前者可以比之前設想的更有效地壓縮—— 這一洞見對業(yè)界如何看待模型設計、部署成本以及高級人工智能功能的普及性都具有深遠的影響。」





作者表示,他們的目標并非打造一個替代大規(guī)模模型的小模型,而是沿著特定能力維度,審視小模型的真實邊界。借助 VibeThinker-3B,他們希望表明,小模型不應僅僅被視為降低部署成本的妥協(xié)方案。在具有清晰反饋與驗證機制的能力領域中,小型語言模型正展現(xiàn)出一條頗具前景的研究路徑,有望實現(xiàn)前沿水平的性能,并與傳統(tǒng)的參數(shù)規(guī)模擴展范式形成根本性的互補關系。

目前,該模型在社區(qū)中還面臨一些質(zhì)疑。如果大家對這個模型感興趣,不妨自己去親自試一下。



參考鏈接:https://x.com/orcus108/status/2066876960073281582

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不打了!退出NBA!結(jié)束10年生涯

不打了!退出NBA!結(jié)束10年生涯

籃球教學論壇
2026-06-18 09:40:10
贏球也被噴!英格蘭世界杯頭號臥底!球迷集體喊他滾出首發(fā)

贏球也被噴!英格蘭世界杯頭號臥底!球迷集體喊他滾出首發(fā)

瀾歸序
2026-06-18 06:41:12
廣西運往廣東的豬腳故意繞遠路經(jīng)過河南,然后果真被舉報了,這是送管轄權(quán)上門的騷操作

廣西運往廣東的豬腳故意繞遠路經(jīng)過河南,然后果真被舉報了,這是送管轄權(quán)上門的騷操作

法律學堂
2026-06-18 00:04:31
又添36億巨債,王健林被曝給王思聰私生女鋪路后,黃一鳴不裝了

又添36億巨債,王健林被曝給王思聰私生女鋪路后,黃一鳴不裝了

舍子花
2026-06-17 16:36:37
“小學已經(jīng)沒人穿涼鞋了”,家長感嘆,連裙子也一并在消失了

“小學已經(jīng)沒人穿涼鞋了”,家長感嘆,連裙子也一并在消失了

澤澤先生
2026-06-17 19:46:40
別再問科技牛走到哪,先看看誰在悄悄起身離席

別再問科技牛走到哪,先看看誰在悄悄起身離席

雪球
2026-06-10 16:13:16
機構(gòu):玻璃基板迎來黃金發(fā)展周期

機構(gòu):玻璃基板迎來黃金發(fā)展周期

證券時報
2026-06-18 09:30:01
貝克漢姆回應梅西帽子戲法

貝克漢姆回應梅西帽子戲法

大象新聞
2026-06-18 09:01:02
菲律賓5.73億腐敗大案!菲參議長認輸:對方票數(shù)足夠 真丟的是良

菲律賓5.73億腐敗大案!菲參議長認輸:對方票數(shù)足夠 真丟的是良

妙知
2026-06-19 03:05:01
尼克斯冠軍游行路線僅0.7英里,紐約球迷怒了

尼克斯冠軍游行路線僅0.7英里,紐約球迷怒了

林間小溫柔
2026-06-19 01:17:03
藏不住了,“足球小將”父親公開發(fā)聲,揭開董路私下最真實的一面

藏不住了,“足球小將”父親公開發(fā)聲,揭開董路私下最真實的一面

深析古今
2026-06-18 09:43:36
又是80后!群內(nèi)同學最后一條消息是去世告別,四川網(wǎng)友哭訴引熱議

又是80后!群內(nèi)同學最后一條消息是去世告別,四川網(wǎng)友哭訴引熱議

火山詩話
2026-06-18 08:40:17
緊急提醒:這種粽子繩高溫蒸煮,有毒!最好別買!

緊急提醒:這種粽子繩高溫蒸煮,有毒!最好別買!

硯底沉香
2026-06-18 16:52:40
39歲梅西不愧是人生贏家!娶了初戀,生了3個兒子,事業(yè)仍在巔峰

39歲梅西不愧是人生贏家!娶了初戀,生了3個兒子,事業(yè)仍在巔峰

照見古今
2026-06-18 16:12:45
她是毛新宇前妻,服務員出身北大畢業(yè),結(jié)婚3年無子女 今定居北京

她是毛新宇前妻,服務員出身北大畢業(yè),結(jié)婚3年無子女 今定居北京

洲洲影視娛評
2026-06-17 19:06:04
85年67軍總部食堂遭遇槍擊,5位首長生死一線,兇手身份令人太意外

85年67軍總部食堂遭遇槍擊,5位首長生死一線,兇手身份令人太意外

睡前講故事
2026-01-09 13:44:42
“只要大陸敢打,我就敢送”,他公開宣稱

“只要大陸敢打,我就敢送”,他公開宣稱

安安說
2026-05-24 15:20:17
癌癥的源頭被查出,啤酒沒上榜,第1名大家可能每天都在吃!

癌癥的源頭被查出,啤酒沒上榜,第1名大家可能每天都在吃!

鬼菜生活
2026-06-02 17:31:32
退學博士耿同學實名舉報母校北航,學院官網(wǎng)直接癱瘓

退學博士耿同學實名舉報母校北航,學院官網(wǎng)直接癱瘓

老貓觀點
2026-06-18 07:57:32
新規(guī)要求演員必須用原名,消息一出,這幾位頂流演員當場陷入尷尬

新規(guī)要求演員必須用原名,消息一出,這幾位頂流演員當場陷入尷尬

摸爬滾打的烙印
2026-06-16 21:39:20
2026-06-19 05:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142673關注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經(jīng)要聞

博睿康IPO,賺錢業(yè)務與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

時尚
親子
數(shù)碼
本地
旅游

看不懂球,還看不懂帥哥嗎?

親子要聞

人類幼崽搞笑瞬間

數(shù)碼要聞

銘瑄公布MCIO接口ITX主板方案,展示高密度接口優(yōu)勢

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

旅游要聞

為何拍藍花楹別正午出門?避開 3 個高峰時段,隨手拍出干凈大片!

無障礙瀏覽 進入關懷版