網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

湯道生對話姚順雨：騰訊 AI，慢了嗎？

2026-06-05 12:19:58　來源: 極客公園

北京舉報

分享至

大模型并沒有太多秘密。

作者｜連冉

編輯｜鄭玄

騰訊 AI 慢了嗎？

在大模型浪潮中，騰訊似乎大多處于一個微妙的位置。它擁有國內(nèi)最完整的互聯(lián)網(wǎng)生態(tài)之一，也擁有混元大模型、元寶等產(chǎn)品。但與行業(yè)里那些不斷制造話題和聲量的 AI 大公司相比，騰訊似乎總給人一種「不夠快」的印象——它很少站在聚光燈最亮的位置，卻又始終沒有缺席任何一場關(guān)鍵競爭。

而過去一年，AI 行業(yè)最流行的詞之一，則是「下半場」。

幾乎所有人都在談?wù)?AI 下半場。但當(dāng)越來越多人把這個詞掛在嘴邊時，它反而開始變得模糊——到底什么是下半場？是 Agent？是 Coding？是具身智能？還是下一輪模型競賽？

在騰訊集團(tuán)高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 CEO 湯道生，與騰訊首席 AI 科學(xué)家姚順雨的這場對談里，姚順雨在開場就拋出了一句：AI 下半場這個詞，正在被濫用。

過去幾年，大模型的發(fā)展路徑似乎異常清晰：預(yù)訓(xùn)練、后訓(xùn)練、強(qiáng)化學(xué)習(xí)、Agent、Coding Agent，所有人都在沿著同一條主線前進(jìn)。與此同時，中國 AI 圈也形成了一種熟悉的競爭文化——熱衷刷榜、追逐指標(biāo)、爭奪排名。

但在姚順雨看來，當(dāng)方法論已經(jīng)逐漸成熟之后，真正困難的事情已經(jīng)不再是尋找技術(shù)路徑，而是尋找值得解決的問題。相比 benchmark 上幾個百分點(diǎn)的領(lǐng)先，模型如何進(jìn)入真實(shí)產(chǎn)品、獲得真實(shí)反饋、解決真實(shí)需求，正在變得更加重要。

這也是為什么這場對談里更值得關(guān)注的，是模型與產(chǎn)品之間越來越緊密的 Co-Design。從元寶、WorkBuddy 到 Coding Agent，從 ReAct 提出的早期設(shè)想，到《Language Agents: From Next-Token Prediction to Digital Automation》中對于智能體時代的預(yù)判逐步兌現(xiàn)，姚順雨反復(fù)強(qiáng)調(diào)一個看似樸素卻常被忽略的事實(shí)：大模型最重要的能力始終是泛化性。

而對于騰訊是否「慢了」、AI 下半場究竟從何時開始這些爭議，他給出的回答是——如果下半場才剛剛開始，那么探索過程中走過彎路并不可怕，真正重要的是能否誠實(shí)面對自己，看到反饋，并持續(xù)調(diào)整方向。

以下為湯道生與姚順雨的對談內(nèi)容，由極客公園編輯整理。

當(dāng)「AI 下半場」被濫用

湯道生：

順雨，你加入騰訊之前，我曾問過你兩個問題：為什么選擇來到騰訊？以及你認(rèn)為 AI 下半場最重要的是什么？

姚順雨：

首先我想先解釋一下「下半場」這個概念——我發(fā)現(xiàn)這個詞最近被用得有些泛濫，它其實(shí)是我在去年的一篇博客中提出的。具體來說，在去年之前，AI 已經(jīng)發(fā)展了數(shù)十年，行業(yè)的核心是尋找解決問題的有效方法；但如今，方法論已經(jīng)趨于成熟，找到真正有價值的問題反而變得更加困難。

我舉個例子，過去我們?yōu)榱讼聡逖邪l(fā)出 AlphaGo，但這套方法僅適用于棋類領(lǐng)域；為了機(jī)器翻譯開發(fā)專屬模型，也只能完成翻譯任務(wù)，無法拓展到其他場景。而預(yù)訓(xùn)練與后訓(xùn)練技術(shù)出現(xiàn)后，我們相當(dāng)于擁有了一把「萬能錘子」，形成了一套通用方法論，能夠解決各類不同的問題。因此，找到真正值得解決的優(yōu)質(zhì)問題，成為了當(dāng)前行業(yè)的核心挑戰(zhàn)。我選擇加入騰訊，很重要的一個原因就是這里擁有海量的產(chǎn)品和豐富的真實(shí)問題場景，這一點(diǎn)在 AI 下半場會愈發(fā)重要。

一方面，優(yōu)質(zhì)產(chǎn)品能夠回答「預(yù)訓(xùn)練和后訓(xùn)練技術(shù)究竟要應(yīng)用在何處才能產(chǎn)生價值」這個核心問題；另一方面，產(chǎn)品構(gòu)建的生態(tài)環(huán)境至關(guān)重要——如果沒有點(diǎn)外賣的工具接口，智能體就無法完成點(diǎn)外賣的操作，很多任務(wù)都無法落地。

但我認(rèn)為更核心的是上下文（Context），無論是企業(yè)還是個人場景都是如此。正如我上次在 AGI Next 大會上所說，上下文的重要性會與日俱增：模型越來越擅長將復(fù)雜輸入轉(zhuǎn)化為輸出，企業(yè)的競爭壁壘將越來越多地來源于是否掌握最原始的輸入數(shù)據(jù)，是否了解用戶的真實(shí)行為與企業(yè)的核心信息，而騰訊在這方面擁有極強(qiáng)的優(yōu)勢。

但這只是我選擇騰訊的第二大原因，最重要的其實(shí)是企業(yè)文化。我第一次和你以及總辦其他高管交流時，最深刻的印象就是大家都非常坦誠：哪里做得好、哪里有不足，都會直白表達(dá)，不會刻意掩蓋。這種實(shí)事求是的態(tài)度，是我最看重的一點(diǎn)。

其次，騰訊整體是一家基于信任而非單純依靠指標(biāo)運(yùn)轉(zhuǎn)的公司，這一點(diǎn)對于做 AI 而言至關(guān)重要。同時，騰訊文化中低調(diào)務(wù)實(shí)、謙遜踏實(shí)的特質(zhì)，以及對長期主義的堅(jiān)持，都是構(gòu)建一個長期 AI 組織不可或缺的基礎(chǔ)。

回到「AI 下半場最重要的是什么」這個問題，我個人的目標(biāo)是在中國建立一個長期的、基于通用人工智能（AGI）的組織。

在我看來，今天的 AI 主要由三個部分構(gòu)成：第一是基礎(chǔ)層，如何把預(yù)訓(xùn)練、后訓(xùn)練這些最核心的技術(shù)做得足夠扎實(shí)；第二是產(chǎn)品層，如何將技術(shù)真正落地，為個人和社會創(chuàng)造價值；第三是前沿探索層，如何探索新的研究范式與產(chǎn)業(yè)機(jī)會。我們需要構(gòu)建一個這三者均衡發(fā)展的三角形組織架構(gòu)。

對于基礎(chǔ)層而言，最重要的是充足的資源投入和正確的做事方式，這與我剛才提到的企業(yè)文化高度契合；對于產(chǎn)品層而言，優(yōu)秀的產(chǎn)品嗅覺和做產(chǎn)品的基因是核心；而對于前沿探索層，目前國內(nèi)的探索還不夠充分，我也希望能將這種前沿探索的精神更多地注入到我們的組織中。

Co-Design：模型與產(chǎn)品的雙向奔赴

湯道生：

你剛才提到，產(chǎn)品為模型提供了運(yùn)行環(huán)境和上下文數(shù)據(jù)。我想問一個我們內(nèi)部經(jīng)常討論的問題：協(xié)同設(shè)計(jì)（Co-Design），也就是如何讓產(chǎn)品與模型實(shí)現(xiàn)深度融合？目前我們有很多依賴模型能力的產(chǎn)品，比如和我們合作緊密的元寶聊天機(jī)器人、AI 搜索，企業(yè)端的智能客服、智能營銷，還有近期熱度很高的類 Lobster 產(chǎn)品，比如 CodeBuddy、Workbuddy。你是如何思考協(xié)同設(shè)計(jì)這種模式的？

姚順雨：

我認(rèn)為主要有三點(diǎn)。首先，協(xié)同設(shè)計(jì)的前提是模型本身要足夠扎實(shí)，需要做好大量的基礎(chǔ)工作。預(yù)訓(xùn)練是一個相對產(chǎn)品無關(guān)的環(huán)節(jié)，把它做扎實(shí)，就能為所有下游任務(wù)提供強(qiáng)大的通用基礎(chǔ)，而且預(yù)訓(xùn)練的進(jìn)步能夠持續(xù)為各類下游任務(wù)帶來價值提升。

其次，后訓(xùn)練階段最重要的是建立正確的評測（Eval）體系。國內(nèi)現(xiàn)在有一個不好的傾向，就是過度追求刷榜。我們應(yīng)該實(shí)事求是，基于真實(shí)的產(chǎn)品和應(yīng)用場景，構(gòu)建更貼近實(shí)際的評測標(biāo)準(zhǔn)。這一方面需要有好的產(chǎn)品出口，另一方面也要明確：實(shí)用性的價值遠(yuǎn)大于刷榜的價值。

我們和各類產(chǎn)品團(tuán)隊(duì)開展了深度的協(xié)同設(shè)計(jì)，而協(xié)同設(shè)計(jì)最關(guān)鍵的一點(diǎn)是建立相互信任。我們?yōu)榇俗隽舜罅抗ぷ?，包括如何用好產(chǎn)品數(shù)據(jù)、如何實(shí)現(xiàn)數(shù)據(jù)回流、如何做好評測對齊等，這里就不展開贅述細(xì)節(jié)了。

第三點(diǎn)，也是大語言模型（LLM）時代與過去 AI 最本質(zhì)的區(qū)別，就是泛化性。在大語言模型出現(xiàn)之前，做翻譯產(chǎn)品只需要打磨好翻譯數(shù)據(jù)，做圍棋程序只需要打磨好圍棋數(shù)據(jù)；但現(xiàn)在，哪怕只想做一個代碼智能體（Coding Agent），也需要模型具備優(yōu)秀的聊天能力、搜索能力、指令遵循能力和推理能力，這是一個非常復(fù)合的能力體系。

這就帶來一個推論：擁有體系化產(chǎn)品矩陣的企業(yè)會具備顯著優(yōu)勢。比如我們和元寶的協(xié)同設(shè)計(jì)，讓模型打磨出了強(qiáng)大的聊天和搜索能力，而這些能力又可以遷移到 ima、Workbuddy 等其他產(chǎn)品中。不同產(chǎn)品能夠提供不同維度的數(shù)據(jù)，這些數(shù)據(jù)之間又可以相互泛化，形成一個網(wǎng)絡(luò)狀的價值體系，這種價值會越來越凸顯。

湯道生：

沒錯，其實(shí)外部刷榜也是評測的一種形式。那我們內(nèi)部的評測和外部榜單的評測，核心區(qū)別在哪里？

姚順雨：

首先，各類基準(zhǔn)測試（Benchmark）也不是沒有價值，只是現(xiàn)在這些榜單很容易達(dá)到飽和?；谡鎸?shí)世界數(shù)據(jù)的評測有三個核心優(yōu)勢：

第一，能夠發(fā)現(xiàn)模型的很多底線問題。我們發(fā)布預(yù)覽版模型的核心目的之一，就是獲取真實(shí)世界的用戶反饋，修復(fù)各類榜單中無法發(fā)現(xiàn)的底線問題，這會讓正式版模型的表現(xiàn)有質(zhì)的提升。

第二，能夠讓我們對真實(shí)的用戶提問分布有更深刻的理解。舉個例子，基準(zhǔn)測試中的題目往往表述非常精確，有很長的上下文描述，且大多是單輪問題；但在現(xiàn)實(shí)場景中，用戶的提問通常比較模糊，可能只有一兩句話，還會不斷追問。這種場景差異，能夠指導(dǎo)我們更有針對性地開展模型訓(xùn)練。

第三，能夠從產(chǎn)品中獲得靈感，推動現(xiàn)有榜單未覆蓋領(lǐng)域的技術(shù)進(jìn)步。比如我們近期做的很多上下文學(xué)習(xí)相關(guān)工作，就很大程度上受到了元寶產(chǎn)品的啟發(fā)。所以說，產(chǎn)品與模型的相互成就，是 AI 行業(yè)越來越重要的話題。

湯道生：

對，我記得早期做元寶的時候，我們還遇到過多輪指令遵循的問題，用戶在產(chǎn)品中實(shí)際使用的提問方式，和基準(zhǔn)測試中的差異確實(shí)非常大。真正的產(chǎn)品場景對模型能力的要求，和榜單評測的側(cè)重點(diǎn)完全不同。

姚順雨：

你問了我這么多問題，我也反過來問你幾個吧。我記得第一次和你聊天時，你給我講了很多過往的經(jīng)歷，從 QQ 空間、QQ 秀——那可是我小學(xué)時候最喜歡的產(chǎn)品，到 QQ、騰訊音樂，再到騰訊云，以及現(xiàn)在的元寶、ima。你做過 To C 和 To B 的各類產(chǎn)品，覆蓋了互聯(lián)網(wǎng)不同發(fā)展階段。我很好奇，你做產(chǎn)品的第一性原理是什么？哪些經(jīng)驗(yàn)和價值是不變的？哪些東西又發(fā)生了變化？

湯道生：

我認(rèn)為做產(chǎn)品最終的核心，永遠(yuǎn)是圍繞用戶需求，解決用戶痛點(diǎn)，為用戶和客戶創(chuàng)造價值。無論在哪個時代、哪個行業(yè)，只有能為用戶帶來價值的產(chǎn)品，才會被用戶使用和買單。從 PC 互聯(lián)網(wǎng)時代的 QQ 空間，到移動互聯(lián)網(wǎng)時代的各類內(nèi)容產(chǎn)品，再到產(chǎn)業(yè)互聯(lián)網(wǎng)時代的騰訊云，我們始終花大量時間傾聽客戶的聲音，嘗試幫他們解決實(shí)際問題，這個底層邏輯從未改變。

不過，PC 互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)時代做產(chǎn)品，和今天 AI 時代做產(chǎn)品，確實(shí)有很多不同之處。首先是產(chǎn)品范式的變化：在 AI 時代之前，我們做產(chǎn)品主要是通過預(yù)設(shè)功能來滿足用戶需求，產(chǎn)品方想清楚要提供哪些能力，用戶通過界面、菜單進(jìn)行選擇，就像在預(yù)制菜菜單里點(diǎn)餐一樣。

但在 AI 時代，產(chǎn)品的服務(wù)形態(tài)是開放式的，這帶來了全新的要求和挑戰(zhàn)。用戶通過自然語言、語音等簡單的交互方式提出需求，產(chǎn)品方無法提前預(yù)判用戶會問什么。這就需要我們充分利用模型的能力去理解用戶需求，同時為模型提供各類工具接口，借助模型的邏輯推理和工具調(diào)用能力，來應(yīng)對這種開放式的需求。

甚至包括你剛才提到的評測，過去做產(chǎn)品有非常清晰的需求規(guī)格說明書，有明確的功能細(xì)節(jié)描述，從設(shè)計(jì)、研發(fā)到測試的瀑布式流程非常清晰。但做 AI 產(chǎn)品時，整個流程都需要重新設(shè)計(jì)。

尤其是今年，大部分代碼都可以由 AI 生成，工程師會把更多時間花在架構(gòu)設(shè)計(jì)上，寫代碼的工作交給 AI，只需要定期進(jìn)行指導(dǎo)和修正。同時，測試工作也要前置，需要提前想清楚各類測試案例、評測環(huán)境，以及對開放式答案的要求，還有如何讓模型的輸出風(fēng)格與用戶預(yù)期對齊。整體而言，AI 時代對產(chǎn)品人的能力要求更全面，做產(chǎn)品的難度也更大了。

姚順雨：

確實(shí)更難了。

大模型沒有秘密

湯道生：

再一個問題，大家都說混元 Hy3 preview 是你在騰訊的首秀，Hy3 具體做了哪些核心改變？能給大家介紹一下嗎？

姚順雨：

其實(shí)做大模型的核心流程并沒有太多秘密，關(guān)鍵是把基礎(chǔ)設(shè)施、數(shù)據(jù)這些基礎(chǔ)工作做扎實(shí)，算法部分反而相對簡單。Hy3 的核心改進(jìn)主要有三點(diǎn)：第一，我們重建了整套基礎(chǔ)設(shè)施，包括預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施；第二，我們在數(shù)據(jù)和 Eval 層面做了大量優(yōu)化，包括如何定義更真實(shí)的問題、如何豐富數(shù)據(jù)的分類體系、如何持續(xù)提升數(shù)據(jù)質(zhì)量——這是一個永無止境的過程；第三，很多決策其實(shí)沒有清晰的公式可循，比如如何招人、如何設(shè)定模型的迭代節(jié)奏、如何在各種權(quán)衡中做出選擇，這更多是一個依賴行業(yè)判斷和品味的事情。

說到這里，我也很好奇，你剛才和我討論了協(xié)同設(shè)計(jì)的概念，那你對協(xié)同設(shè)計(jì)是怎么看的？你認(rèn)為哪些事情應(yīng)該由模型團(tuán)隊(duì)做，哪些應(yīng)該由產(chǎn)品團(tuán)隊(duì)做？

湯道生：

我認(rèn)為協(xié)同設(shè)計(jì)的內(nèi)涵在過去兩年一直在變化，這種變化很大程度上是隨著模型能力的升級而發(fā)生的。同時，行業(yè)、市場和用戶需求的變化，也要求模型和產(chǎn)品團(tuán)隊(duì)更好地協(xié)同配合。

給我最深的感受是「對齊」的重要性。在聯(lián)合做產(chǎn)品、開展對齊工作時，會涉及很多不同的角色：產(chǎn)品團(tuán)隊(duì)要明確要解決的問題和方向，模型團(tuán)隊(duì)要思考如何通過技術(shù)滿足需求；同時還要回到數(shù)據(jù)層面，明確數(shù)據(jù)應(yīng)該如何標(biāo)注、標(biāo)注到什么顆粒度、什么是好的標(biāo)注、什么是不好的標(biāo)注，以及哪些行為需要獎勵、哪些需要懲罰。

還有評測環(huán)節(jié)，如果產(chǎn)品團(tuán)隊(duì)認(rèn)為好的產(chǎn)品體驗(yàn)，和評測體系的標(biāo)準(zhǔn)不一致，最終做出來的產(chǎn)品就會出現(xiàn)偏差。所以在我看來，協(xié)同設(shè)計(jì)更多是指項(xiàng)目組內(nèi)不同角色共同參與產(chǎn)品設(shè)計(jì)，共同制定產(chǎn)品目標(biāo)和方向，讓大家對各類開放式問題達(dá)成共識。如果沒有做好這種對齊，模型的輸出行為就會不可預(yù)測，甚至出現(xiàn)隨機(jī)性，因?yàn)槟Ｐ驮谟?xùn)練過程中會被不同的標(biāo)準(zhǔn)混淆。這是我這兩年和模型團(tuán)隊(duì)做協(xié)同設(shè)計(jì)最深的感受，你覺得呢？

姚順雨：

非常認(rèn)同。協(xié)同設(shè)計(jì)最難的一點(diǎn)就是建立信任，同時同理心也非常重要。說到底，模型團(tuán)隊(duì)和產(chǎn)品團(tuán)隊(duì)的目標(biāo)有一致的部分，也有不一致的部分：模型團(tuán)隊(duì)希望模型的通用能力越強(qiáng)越好，而產(chǎn)品團(tuán)隊(duì)希望用戶的需求能被最好地滿足，這中間天然存在分歧。所以換位思考的能力至關(guān)重要。

你剛才問我們和元寶是如何一步步開展協(xié)同設(shè)計(jì)的，有一個很重要的細(xì)節(jié)：當(dāng)時我們自己的預(yù)訓(xùn)練模型還沒有準(zhǔn)備好，但我們知道，維護(hù)好元寶這款產(chǎn)品及其日活躍用戶（DAU），對我們后續(xù)做模型、建立長期合作關(guān)系都至關(guān)重要。所以我們派出了后訓(xùn)練團(tuán)隊(duì)最強(qiáng)的骨干力量，先幫助元寶把后訓(xùn)練工作做好。

當(dāng)時很多算法同學(xué)不理解這個決策，我花了很多精力去解釋，但現(xiàn)在看來，這些努力都得到了回報。這個動作讓產(chǎn)品團(tuán)隊(duì)真切感受到，模型團(tuán)隊(duì)是真正在為產(chǎn)品著想，這為我們后續(xù)的合作，以及 Hy3 在元寶上的成功上線，奠定了非常重要的基礎(chǔ)。當(dāng)然這里面還有很多技術(shù)細(xì)節(jié)可以探討，但我認(rèn)為最難的部分永遠(yuǎn)是如何建立信任、如何換位思考。

湯道生：

換個話題，你是 ReAct 架構(gòu)的提出者，博士研究也一直圍繞語言智能體展開。你幾年前的一些觀點(diǎn)，到今天有哪些兌現(xiàn)了？

姚順雨：

前幾天我重讀了自己的博士論文，感慨萬千，仿佛回到了很久以前。我的博士論文題目是《Language Agents: From Next-Token Prediction to Digital Automation》，寫于 2019 年，也就是 7 年前。那時候還是 GPT-2 的時代，模型只能生成下一個 token，輸出的一段話往往不連貫，還有很多錯誤。當(dāng)時大家很難想象，這項(xiàng)技術(shù)有一天會成為改變世界的力量。

那時候稍微有想象力的研究，也只是驗(yàn)證模型能回答「中國的首都是北京」這類知識型問題，能做到這一點(diǎn)大家就已經(jīng)很開心了。但我當(dāng)時覺得，GPT 是一個非常優(yōu)美的范式，生成下一個 token 是一種極簡且通用的邏輯，它的潛力絕不止于此，終有一天能夠?qū)崿F(xiàn)全世界所有事情的自動化。當(dāng)時我想的還只是數(shù)字自動化，現(xiàn)在看來，它甚至可能實(shí)現(xiàn)數(shù)字與物理世界的雙重自動化。

我博士期間的工作主要分為兩部分：第一部分是建立智能體的方法論，研究如何把一個只能生成下一個 token 的機(jī)器，變成一個能夠完成自動化任務(wù)的智能體。

如你所說，其中最重要的一項(xiàng)工作就是 ReAct 架構(gòu)。我還記得 2022 年 7 月的一個晚上，我第一次把 PaLM 2 的 API 和我手寫的維基百科 API 連接起來，它第一次能夠基于網(wǎng)頁內(nèi)容回答問題，并進(jìn)行多輪交互。那一刻的感覺，就像微弱的電燈絲突然被點(diǎn)亮了。據(jù)我所知，這是人類第一次把大語言模型和真正的互聯(lián)網(wǎng)連接起來，實(shí)現(xiàn)多輪交互。

當(dāng)時我覺得這項(xiàng)技術(shù)可能會在 5 到 10 年內(nèi)改變世界，但實(shí)際發(fā)展速度比我想象的還要快。包括我們第一次提出 SWE-bench 的想法時，我就知道如果能實(shí)現(xiàn)，一定會帶來巨大的價值——當(dāng)時我預(yù)估是幾百億、上千億的市場，現(xiàn)在看來，這可能是數(shù)萬億、數(shù)十萬億級別的市場，我還是想得太小了。

第二部分工作是定義數(shù)字自動化的任務(wù)，比如 Webshop 是第一個基于互聯(lián)網(wǎng)的網(wǎng)頁智能體任務(wù)，Intercode 和 SWE-bench 是最早的代碼智能體任務(wù)?，F(xiàn)在看來，智能體技術(shù)最重要的兩個方向，確實(shí)就是網(wǎng)頁智能體和代碼智能體。

前幾天我還在群里和大家說，我看我博士論文結(jié)尾，就是我在 2024 年寫 future work，第一個是 train models for Agent，第二個是 shift and robust deployment，第三個是 scientific discovery，第四個是怎么樣去 help human，我很感慨，我說我現(xiàn)在很幸運(yùn)確實(shí)在做當(dāng)時列的 future direction。

湯道生：

現(xiàn)在整個行業(yè)都在沿著這些方向推進(jìn)。

姚順雨：

可能還是想得不夠大，當(dāng)時我已經(jīng)覺得自己想得足夠遠(yuǎn)了，但現(xiàn)在看來還是不夠。

混元下一代模型重點(diǎn)是什么？

湯道生：

技術(shù)的發(fā)展往往超乎我們的預(yù)期。再深入問一個問題，現(xiàn)在大家都說智能體的運(yùn)行會消耗大量的 Token，這對于混元下一代模型的研發(fā)來說，你的側(cè)重點(diǎn)會放在哪里？哪些方向是最重要的？

姚順雨：

毫無疑問，智能體尤其是代碼智能體，就像當(dāng)年的預(yù)訓(xùn)練一樣，是所有模型廠商都必須攻克的基礎(chǔ)能力。我認(rèn)為代碼智能體非常本質(zhì)，一個很重要的原因是它具備圖靈完備性——當(dāng)模型能夠控制文件系統(tǒng)、擁有運(yùn)行容器時，它就成為了一個完整的系統(tǒng)。

智能體是當(dāng)下所有模型廠商的發(fā)力重點(diǎn)，我們的做法主要有三個不同之處：第一，即便代碼智能體是當(dāng)前的核心，我們依然強(qiáng)調(diào)能力體系的全面性。我始終認(rèn)為，要做好代碼智能體，需要的遠(yuǎn)不止代碼數(shù)據(jù)，還需要聊天、指令遵循、推理等各類通用能力，因?yàn)榉夯允谴竽Ｐ妥詈诵牡膬?yōu)勢。

第二，產(chǎn)品的作用越來越重要，如何利用好線上產(chǎn)品的數(shù)據(jù)回流，是每個模型廠商都在思考和應(yīng)對的問題。而我們之前積累的大量協(xié)同設(shè)計(jì)經(jīng)驗(yàn)，會在這方面發(fā)揮關(guān)鍵作用。

第三，我們需要保持更多的想象力。無論是技術(shù)演進(jìn)、產(chǎn)品演進(jìn)，還是下一個范式的演進(jìn)，都需要我們?nèi)プ鲆恍┨剿餍缘?、存在不確定性的工作。

湯道生：

從產(chǎn)品側(cè)來看，現(xiàn)在行業(yè)內(nèi)普遍存在「Token 焦慮」，Token 成本呈爆發(fā)式增長。我聽到很多客戶、用戶甚至身邊的同事，都在密切關(guān)注積分或 Token 的消耗。如何讓模型在解決問題、完成任務(wù)時，實(shí)現(xiàn)最高的 Token 效率？比如有些任務(wù)，模型會嘗試一些明顯走不通的方向，浪費(fèi)大量 Token，這方面有哪些優(yōu)化空間？

姚順雨：

現(xiàn)在國內(nèi)討論性價比，更多是聚焦在模型架構(gòu)上，但性價比其實(shí)是一個復(fù)雜的體系問題。我認(rèn)為最重要的首先是模型性能。很多人跟我說，最后發(fā)現(xiàn)用 Claude Opus 這類高性能模型，反而比用性能較差的模型更省錢——因?yàn)樗芤淮伟咽虑樽鰧?，既?jié)省了 Token，也節(jié)省了人力成本。所以性能才是性價比的核心，尤其是今年，提升簡單任務(wù)的魯棒性，讓模型一次就能把相對簡單的任務(wù)做對，比單純優(yōu)化模型架構(gòu)更能提升性價比。

第二才是成本控制。在成本優(yōu)化方面，中國其實(shí)是領(lǐng)先于世界的，我們已經(jīng)做了大量工作來降低模型運(yùn)行成本。但成本優(yōu)化的核心，是如何用更小的模型完成高價值任務(wù)。在此基礎(chǔ)上，模型架構(gòu)創(chuàng)新、長文管理、腳手架優(yōu)化等工作也需要持續(xù)推進(jìn)。

我個人認(rèn)為，在當(dāng)前的中國市場，打造一個性能比肩大模型、且在大部分任務(wù)上具備強(qiáng)魯棒性的小模型，比在少數(shù)復(fù)雜的長程任務(wù)上實(shí)現(xiàn)一兩個點(diǎn)的性能提升，更有實(shí)際價值。

我也很好奇，你是什么時候意識到智能體是一個全新的產(chǎn)品機(jī)會的？你現(xiàn)在對智能體的認(rèn)知是什么？你認(rèn)為打造一個好用的智能體，核心瓶頸在哪里？

湯道生：

我們針對不同場景打造了不同形態(tài)的智能體產(chǎn)品。智能體的設(shè)計(jì)，本質(zhì)上是要最大化發(fā)揮模型的能力。隨著模型能力的不斷迭代，智能體需要做的工作反而越來越少。我們有好幾款產(chǎn)品，在過去這段時間里，都隨著模型能力的提升不斷簡化產(chǎn)品設(shè)計(jì)，更多的是為模型提供各類工具接口，打造更多技能，讓模型能夠更高效地完成任務(wù)。

同時，我們會為模型提供「記憶」能力：提取用戶過往的使用習(xí)慣和偏好信息作為上下文，輸入給模型。比如在代碼開發(fā)場景，要提供相關(guān)的代碼上下文；在 Workbuddy 的辦公協(xié)作場景，用戶制作 PPT 時，要提供相關(guān)的內(nèi)容和資料上下文。所以做不同場景的智能體，最重要的是理解該場景下哪些信息是相關(guān)且重要的，把這些信息準(zhǔn)確地提供給模型，讓模型能夠充分發(fā)揮自身能力。

智能體時代的產(chǎn)品研發(fā)和組織管理，

發(fā)生了哪些變化？

姚順雨：

近期我們推出了 Workbuddy 這類口碑很好的智能體產(chǎn)品，我也觀察到很多小團(tuán)隊(duì)在快速迭代產(chǎn)品。我很好奇，和傳統(tǒng)的產(chǎn)品研發(fā)相比，智能體時代的產(chǎn)品研發(fā)和組織管理，發(fā)生了哪些變化？你有哪些思考？

湯道生：

前陣子我?guī)?Workbuddy 團(tuán)隊(duì)寫組織方案時，注意到他們采用了非常扁平化的組織架構(gòu)，和我們過去其他產(chǎn)品的組織形式有很大差異。他們更多是 3 到 5 人組成一個小分隊(duì)，圍繞某一個具體領(lǐng)域攻堅(jiān)，同時需要支撐好 AI 基礎(chǔ)設(shè)施，保障各類實(shí)驗(yàn)順利開展。

智能體產(chǎn)品的研發(fā)需要大量的實(shí)驗(yàn)，而大部分實(shí)驗(yàn)可能都不會得到正向反饋，這就需要組織能夠包容試錯，通過大量實(shí)驗(yàn)提煉出對用戶留存、產(chǎn)品目標(biāo)有正向幫助的方向。這是智能體時代、原生 AI 產(chǎn)品對組織形態(tài)的核心要求。

另外，過去工程師會花大量時間寫代碼，但現(xiàn)在這項(xiàng)工作基本可以交給 AI 完成。這帶來了角色的融合：每個人都要像產(chǎn)品經(jīng)理一樣，深入理解用戶需求，設(shè)計(jì)產(chǎn)品形態(tài)；每個工程師更像是有想法的負(fù)責(zé)人，驅(qū)動多個代碼智能體完成研發(fā)工作。同時，正如我之前所說，測試、評測、對齊工作都要大幅前置，并且要充分利用 AI 能力來保障產(chǎn)品質(zhì)量。

騰訊 AI 慢了嗎？

湯道生：

再問一個大家比較關(guān)心的問題：很多自媒體都提到，騰訊在 AI 上的步伐慢了，沒有及時抓住一些機(jī)會。你覺得我們真的慢了嗎？你能不能再具體說說，AI 下半場到底是什么？

姚順雨：

感覺這應(yīng)該是我問你的問題才對。

我覺得首先要明確兩個核心判斷：第一，AI 是一場短期游戲還是長期游戲？現(xiàn)在硅谷蔓延著一種情緒，認(rèn)為兩年后所有人都會失業(yè)，AI 會取代所有工作，所以應(yīng)該趕緊賺兩年錢就退休。但我們的判斷非常明確：AI 是一場長期游戲。

從某種程度上來說，AI 才剛剛開始，下半場也才剛剛拉開序幕。我不認(rèn)為 ChatGPT 和 Claude Code 會是唯一的超級應(yīng)用，如果真是那樣，這個世界會非常灰暗。未來一定會有源源不斷的新機(jī)會誕生，現(xiàn)在的 AI 行業(yè)，就像上世紀(jì) 70 年代個人電腦剛剛誕生的階段，還有無數(shù)的事情等著我們?nèi)プ觥?/p>

第二，未來的 AI 行業(yè)會是更單一還是更多元？過去幾年，行業(yè)確實(shí)有一條非常清晰的主線：預(yù)訓(xùn)練、后訓(xùn)練、強(qiáng)化學(xué)習(xí)、智能體、代碼智能體，所有人都在沿著這條主線復(fù)制，這其實(shí)也是一件很灰暗的事情。但我個人認(rèn)為，未來的 AI 行業(yè)一定會走向多元化。

毫無疑問，代碼智能體帶來的生產(chǎn)力變革會越來越重要，這才剛剛開始，這個市場還有數(shù)萬億美元的空間等待挖掘。同時，多模態(tài)、具身智能等很多新的方向也在快速發(fā)展。從這個角度來說，如果我們認(rèn)為下半場才剛開始，那就不存在「晚了」的說法。

當(dāng)然，過去我們在模型和產(chǎn)品上做了很多探索，也走了一些彎路，這是很正常的——第一次做一件事情，必然會有曲折。但更重要的是，能否誠實(shí)地面對自己，能否正視反饋并及時調(diào)整，能否保持耐心。這些品質(zhì)，在 AI 下半場會更加重要。

湯道生：

對。大家總是喜歡挑騰訊的某一個點(diǎn)來批評，當(dāng)然我們也歡迎大家對我們提出更高的要求。騰訊是一個擁有多業(yè)態(tài)、多產(chǎn)品的公司，很多團(tuán)隊(duì)在不同賽道同時推進(jìn)不同的項(xiàng)目。在這樣一個復(fù)雜的組織里，必然有些地方做得快，有些地方做得慢，也有些探索會失敗。這些提醒對我們來說都非常寶貴，我們也確實(shí)有很多地方可以做得更好。

但正如你所說，這是一場長跑，一場馬拉松。騰訊擁有極其豐富的場景，就像你一開始提到的，AI 需要上下文，模型需要大量的真實(shí)數(shù)據(jù)。騰訊過去多年在不同產(chǎn)品、不同賽道的積累，都能為模型提供各個場景下的有效上下文，讓技術(shù)真正發(fā)揮價值。

在這場長跑中，模型會不斷迭代，用戶需求會不斷變化，新的產(chǎn)品形態(tài)也會不斷涌現(xiàn)。比如今年年初龍蝦這一波熱潮，我們的反應(yīng)就很快；而像 Workbuddy 這樣的智能體產(chǎn)品，我們其實(shí)幾年前就已經(jīng)開始布局，從最初面向程序員的 CodeBuddy，到后來發(fā)現(xiàn)非程序員群體也有強(qiáng)烈的需求，我們也快速完成了產(chǎn)品的迭代升級。

現(xiàn)在很多客戶都對我們的產(chǎn)品組合抱有很高的期待，希望我們能將不同產(chǎn)品的能力整合起來。我們會繼續(xù)在這場長跑中穩(wěn)步前進(jìn)，也歡迎大家多給我們提意見和建議，多用我們的產(chǎn)品，給我們提供有建設(shè)性的反饋。

我們剛才圍繞模型研發(fā)、產(chǎn)品落地，探討了協(xié)同設(shè)計(jì)、智能體演進(jìn)、組織變革以及行業(yè)機(jī)會等多個話題。過去一年，很多企業(yè)都面臨著相似的困惑和挑戰(zhàn)：產(chǎn)品落地效果不佳、無法持續(xù)投入、投資回報率（ROI）不高等，這些問題都會影響 AI 在企業(yè)中的普及進(jìn)度。

為此，我們今天正式發(fā)布騰訊效率智能體工具集，幫助企業(yè)更安心、更高效地部署和應(yīng)用智能體。這套工具集依托騰訊的三大核心能力：

第一是場景連接能力，通過微信、企業(yè)微信、元寶等高頻場景觸點(diǎn)，將大模型融入真實(shí)業(yè)務(wù)流，實(shí)現(xiàn)與用戶、數(shù)據(jù)、生態(tài)的深度連接；

第二是工程駕馭能力，基于完整的混元研發(fā)體系，保障智能體穩(wěn)定、可信、可持續(xù)運(yùn)行，同時依托強(qiáng)大的 AI 基礎(chǔ)設(shè)施，包括高速網(wǎng)絡(luò)、高吞吐存儲和高性能智能體運(yùn)行時，實(shí)現(xiàn) GPU 的高利用率；

第三是模型驅(qū)動能力，以混元大模型為核心，通過模型與產(chǎn)品的深度協(xié)同設(shè)計(jì)，兼顧實(shí)用性、性價比和投資回報率。

同時，我們將啟動騰訊 AI 共創(chuàng)營第二期，攜手獨(dú)立軟件開發(fā)商（ISV）、管理服務(wù)提供商（MSP）等合作伙伴，共同打造行業(yè)解決方案，樹立更多標(biāo)桿案例。

*頭圖來源：騰訊

極客一問

你覺得騰訊 AI 慢了嗎？

歡迎評論區(qū)交流~

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.