網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

剛剛，姚順雨現(xiàn)身！公開回應騰訊AI落后了嗎？

2026-06-05 12:18:29　來源: 量子位

北京舉報

分享至

聞樂聽雨發(fā)自凹非寺量子位 | 公眾號 QbitAI

姚順雨開講了，現(xiàn)場爆滿！

整個會場放眼望去全是「人人人人人」……

今年騰訊云AI產(chǎn)業(yè)應用大會的主題是「Agent進場，效能生長」，產(chǎn)業(yè)先行者、技術開發(fā)者與生態(tài)創(chuàng)新伙伴齊聚一堂。

當下AI正褪去概念熱度，大步邁向實打實的產(chǎn)業(yè)落地，一眾從業(yè)者也借著這場盛會，圍繞行業(yè)落地、技術革新展開深度交流探討。

當然了，大會的重磅——

騰訊集團高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生和騰訊首席AI科學家姚順雨：關于騰訊AI下半場的深度對談，已經(jīng)幫大家梳理完畢：

騰訊慢了嗎？
為什么會來騰訊？
現(xiàn)在做大模型沒有什么秘密，我們做混元3，對Infra做了很多重建，對數(shù)據(jù)和Eval也做了很大改變。做大模型沒有清晰的公式，是taste-driven的事情。
做模型和做產(chǎn)品，目標天然不一樣，跨團隊協(xié)作最大的障礙在于能不能建立信任、有沒有換位思考的能力。我們派后訓練最強的骨干力量，優(yōu)先把元寶的后訓練做扎實。維護好元寶的DAU，看上去是產(chǎn)品目標，但對做好模型本身同樣重要
關于下一代混元的研發(fā)重點，會以coding agent為基礎能力底座，但有三點差異：1、強調(diào)體系的全面化，而非只堆coding數(shù)據(jù)；2、產(chǎn)品是關鍵，要把數(shù)據(jù)回流用好；3、要保留想象力，敢做不確定的探索。
性價比拆開是兩件事——先看性能，再看成本，而真正的杠桿在于“用小模型把高價值任務做好”。如果一個小模型能比肩大模型的性能，那它帶來的價值，在今天的中國，可能遠大于大模型在長程任務上的邊際改進。
AI上半場——比誰能訓模型、刷榜單，已經(jīng)落幕；下半場才剛開始，coding agent、多模態(tài)、具身智能都才剛發(fā)生。而下半場最重要的，不是跑得多快，而是能不能誠實地面對自己

以下為整理后的訪談重點實錄。

姚順雨為什么選擇騰訊

湯道生：順雨，你加入騰訊之前，我記得問過你一些問題——為什么會選擇來騰訊？以及你認為AI的下半場最重要的是什么？

姚順雨：我想先解釋一下什么叫”下半場”，因為最近我感覺這個詞有點被濫用了。這個概念其實是我去年一篇博客里提出來的。意思是：在去年之前，AI已經(jīng)發(fā)展了幾十年，更重要的事情是怎么去解決問題、尋找好的方法；但最近很明顯的一點是，方法論已經(jīng)變得非常成熟，反而是“尋找問題”變得更困難了。

舉個例子。過去我們做下圍棋，會發(fā)明像AlphaGo這樣的方法，但它可能只適合下圍棋、下棋類；你為翻譯做一個專門的模型，它可能也只能用來翻譯，干不了別的。但有了預訓練和后訓練之后，我們好像有了一把”萬能的錘子”，可以去砸任何釘子——它是一個通用的方法論，能解決各種各樣的問題。反而更困難的，是怎么去尋找好的問題來解決。

所以加入騰訊很重要的一點就是：這里有很多好問題、很多很多產(chǎn)品，我覺得這一點接下來會變得越來越重要。

一方面，好的產(chǎn)品能解決第一個問題——我們做完預訓練和后訓練之后，到底要把它應用在什么地方、產(chǎn)生什么價值。

第二，環(huán)境非常重要。沒有好的環(huán)境，agent就沒辦法做各種事情。比如你沒有一個點外賣的工具，就沒辦法點外賣，很多事情都做不到。

但我覺得最重要的可能是context。無論是企業(yè)還是個人——就像我上次在活動上說的——context會越來越重要。因為模型越來越擅長把一個非常復雜的輸入變成一個輸出，很多時候你的競爭壁壘，恰恰來自你有沒有那個最原始的輸入：你知不知道這個人到底在干什么，知不知道這家企業(yè)的各種信息。在這一點上，騰訊有非常強的優(yōu)勢。

不過這只是第二大的原因。我覺得最重要的原因其實是文化。

我還記得第一次跟你、以及很多總辦老板聊天時，第一印象就是大家都非常誠實——哪里做得好、哪里做得不好，都講得非常直白，不會掩蓋：我知道哪里做得好，也知道哪里不知道；知道這里該怎么做，也承認那里不知道該怎么做。這種坦誠是我的第一印象。

第二，騰訊總體是一家基于 trust（信任）、而不是基于 metrics（指標）去運轉的公司，我覺得這一點對做 AI 非常重要。包括我們的文化里也有非常 low ego、非?！彬}氣”的一面。

這些文化，對于長期做一個 AI 組織都非常重要，也包括我們對長期主義的堅持。

所以，AI 下半場最重要的是什么？就我個人的目標而言，我覺得我們應該在中國建立一個長期的、基于 AGI 的組織。

我覺得今天的 AI 主要有三個部分。第一是foundation——怎么把預訓練、后訓練這種最基礎的東西做得非常漂亮。第二是產(chǎn)品——怎么讓這樣的技術真正為人和社會產(chǎn)生價值。第三是frontier——怎么去探索新的研究范式、新的機會。最重要的，是構建一個非常均衡的、像三角形一樣的組織。

對foundation來說，最重要的，第一是需要充足的資源，第二是需要正確的做事方式——這跟我剛說的文化那一點是吻合的。對產(chǎn)品來說，有好的產(chǎn)品 sense、有做產(chǎn)品的經(jīng)驗至關重要。第三是frontier，我覺得我們今天在中國做的探索可能還不夠多，所以我也希望能把這種 frontier exploration（前沿探索）的精神更多地注入到組織里。

湯道生：你提到跟總辦聊的過程中感受到的真誠、務實，這其實也是我常從客戶交流中得到的反饋。我覺得我們做事的方式、做產(chǎn)品的理念，確實是比較實事求是的。畢竟 AI 這個賽道是一場長跑，有時候”認知”也很重要——哪些做得好、哪些做得不好，也得認。但關鍵是，這是一場多維度的競賽：我們看到模型有很多進步，做產(chǎn)品也有越來越多的形態(tài)，不同場景有不同需求。我覺得未來還是非?？善诘摹?/p>

騰訊慢了嗎？下半場是什么

湯道生：我想問一個大家討論比較多的問題：很多自媒體都會提到，騰訊在 AI 上沒有及時抓住一些機會。你覺得我們真的慢了嗎？下半場到底是什么？能多說一下嗎？

姚順雨：感覺這應該是我問你的問題。我覺得今天我有兩個重要的判斷。

第一個判斷：AI 是一個短期游戲，還是長期游戲？在硅谷蔓延著很多情緒——所有人都要失業(yè)了、AI 要取代所有人的工作，所以趕快賺兩年錢然后退休。這是一種判斷。

但我們的判斷很顯然是：這會是一個長期游戲，而且其實才剛剛開始，下半場才剛開始。我不認為 GPT 和 Claude 會是唯一的 super app，那會是一個非?；野档氖澜?。我覺得一定會有源源不斷的新機會誕生，今天可能就像 70 年代 PC 剛出現(xiàn)的時候，還有很多好事情要做。

第二個判斷：它會是一個更單一、還是更多元的游戲？過去幾年大家能看到的是 pre-training、post-training、RL、agent、coding agent，好像有一條非常清晰的主線，坦白說所有人都在做一樣的事，這也是件很灰暗的事。未來到底會更單一還是更多元？

我個人覺得會更多元。coding agent 的生產(chǎn)力毫無疑問會越來越重要，而且它才剛剛開始，這個世界還有 trillions of dollars 的市場沒被填滿；但多模態(tài)、具身智能，還有很多很多新事情正在或剛剛發(fā)生。所以從這個角度看，如果我們認為下半場才剛開始，那可能確實不算晚。

當然，過去模型、產(chǎn)品做了很多探索，走了很多彎路，我覺得這很正?！獩]做過一件事，第一次做肯定會有曲折。但可能更重要的是：能不能誠實地面對自己，能不能 be real，能不能看到 feedback 然后去改變，能不能保持耐心。我覺得這些事情，在下半場會更加重要。

姚順雨：你怎么看？

湯道生：大家對騰訊經(jīng)常喜歡挑某一個點來批評，我們也歡迎大家提更高的要求。騰訊有非常多的業(yè)態(tài)、很多產(chǎn)品在很多賽道，同時很多團隊在推進不同項目。在這樣一個復雜的組織里，有些地方可能做得快了，有些地方做得慢了，有些地方可能在探索中失敗。

所以這些提醒都非常好，確實有些地方我們可以做得更好。但就像你說的，這是一場長跑、一場馬拉松。

騰訊有非常豐富的場景。就像你一開始提到的，選擇騰訊是因為 AI 需要 context，模型需要很多上下文，而騰訊多年來在不同賽道、不同產(chǎn)品上的積累，都可以針對每一個場景為模型提供有用的信息、提供 context、發(fā)揮價值。

在這場長跑里，我相信模型會不斷迭代，用戶需求也在不斷變化，還會有新的產(chǎn)品形態(tài)出現(xiàn)。比如今年初那一波（視頻生成？）熱潮我們反應也比較快；同時也有 Workbody 這樣的智能體產(chǎn)品——其實是幾年前就開始做的產(chǎn)品，沿著原來 coding 的積累慢慢看到很強的需求，我們也能比較快地去應對。

今天也聽到很多客戶對我們不同產(chǎn)品怎么組合起來有很高的期待。所以我們正在長跑中，也請各位多給我們提醒和建議，多用我們的產(chǎn)品，給我們正向的、constructive 的反饋。

模型與產(chǎn)品互相成就

姚順雨：在一個多產(chǎn)品的體系化的地方，其實會有一個比較大的優(yōu)勢。比如我們用混元 3 可以讓模型在元寶里產(chǎn)生很強的聊天和搜索能力，但這種能力又可以被遷移到 IM 或者 Workbody 這樣的其他產(chǎn)品上。

這些產(chǎn)品能夠提供不同的數(shù)據(jù)，而這些數(shù)據(jù)之間又可以相互泛化，形成一個像網(wǎng)絡一樣的體系。我覺得這一點的價值會越來越重要。

湯道生：對。其實在外部刷榜也算是一種數(shù)據(jù)吧，那我們內(nèi)部做的跟外部的這種榜有什么區(qū)別？

姚順雨：首先這些 benchmark 還是有它的價值的，不是說完全沒價值，只是現(xiàn)在這些榜非常容易 saturate（飽和）。而基于真實世界的數(shù)據(jù)有幾個幫助：

第一，你能發(fā)現(xiàn)模型的很多底線問題。我們想發(fā)一個 pre-preview 模型，最重要的目的之一就是希望獲得真實世界的反饋，去修復各種榜單里沒法發(fā)現(xiàn)的底線問題——這一點會在正式版上有非常大的改進。

第二，你對真實的 prompt distribution（提示詞分布）會有更深的了解。舉個例子，benchmark 上的題目往往非常精確，有很長的 concrete description，而且一般是單輪問題；但現(xiàn)實里大眾問的問題通常比較模糊，可能就一兩句話，然后不停追問。這些 setup 上的差異，就能啟發(fā)我們怎么去更好地做訓練。

第三，我們甚至可以從這些產(chǎn)品上獲得靈感，去推進現(xiàn)在還沒有的榜單、沒有的領域。比如我們最近做了很多 coding 能力的工作，元寶給我們的啟發(fā)就很有幫助。所以我覺得產(chǎn)品和模型的互相成就，是越來越重要的一個 AI 話題。

湯道生：對，我記得早期做元寶的時候還碰到過多輪遵循的問題。在產(chǎn)品里用戶迭代 prompt 的方式，跟 benchmark 好像有蠻大的差異，真正在產(chǎn)品里所需要的能力，確實跟 benchmark 不太一樣。你問了我這么多問題，我也問你一點。

做產(chǎn)品的第一性原理：不變的是為用戶創(chuàng)造價值

姚順雨：我記得第一次跟你聊的時候，你講了很多過去的經(jīng)歷，從 QQ 空間、QQ 秀的時代，一直到我小學時候最喜歡的那個產(chǎn)品……

湯道生：你說的是老登對吧？

姚順雨：再到 QQ、到音樂、到語音，再到現(xiàn)在的元寶、IMA。跟你聊天很有意思，因為你做過各種各樣的產(chǎn)品，To C 的也有、To B 的也有，遠古時代的也有、AI 時代的也有。

我比較好奇的是，你覺得你做產(chǎn)品的第一性原理是什么？哪些經(jīng)驗或價值是不變的，哪些東西變了？

湯道生：我覺得做產(chǎn)品最終還是奔著”用戶到底有什么需求、我怎么去解決他的痛點、怎么給用戶或客戶創(chuàng)造價值”。這一點在不同的時代、不同的行業(yè)都成立——產(chǎn)品能給用戶帶來價值，他才會買單、才會使用。

所以從 PC 互聯(lián)網(wǎng)時代做空間，到移動時代做各種內(nèi)容產(chǎn)品，再到云互聯(lián)網(wǎng)做云，我們都要花很多時間去聽客戶的聲音、幫他們解決問題，底層邏輯其實沒有那么大的變化。

但 PC、移動互聯(lián)網(wǎng)時代做產(chǎn)品，跟今天 AI 時代做產(chǎn)品，還是有蠻多不一樣的地方。

首先從范式上看，在 AI 之前，我們做產(chǎn)品很多時候是通過”功能”來滿足需求：作為服務提供方，你想清楚要提供什么能力，讓用戶通過界面、菜單去選，能力是預置好的，用戶只能在里面點。

但 AI 時代那種開放式的服務形態(tài)就帶來很不一樣的要求——交互方式可能是自然語言、是語音，作為產(chǎn)品方你也不知道用戶會問什么，所以要充分利用模型能力去理解用戶需求，再通過大模型的邏輯推理、調(diào)用工具的能力，由產(chǎn)品給模型提供各種可用的工具，去應對這種開放式需求。這跟我們過去做產(chǎn)品很不一樣。

還包括你剛提到的 specification（規(guī)格）。過去對產(chǎn)品細節(jié)功能有很清晰的描述，怎么設計、研發(fā)、測試，那套瀑布式流程也比較清晰。但做 AI 產(chǎn)品，我發(fā)現(xiàn)最大的變化是整個流程可能都要重新設計。

尤其是今年，大部分代碼都由 AI 生成，工程師會花更多時間做設計、做架構，把寫代碼的工作交給 AI，再定期去指導、修正。

測試也要”左移”、更前置地去想清楚針對各種 case 的 eval（評估）——要有環(huán)境，要對開放式答案有要求，甚至包括 alignment（對齊），怎么對齊到用戶所需要的那種風格。我感覺今天 AI 時代做產(chǎn)品，要求的能力其實更全面了。

混元 3 做了什么改變

湯道生：那我問一下混元 3。大家都在說混元 3 是你在騰訊的首秀，具體做了什么改變，能給大家介紹一下嗎？

姚順雨：其實沒什么秘密。今天做大模型是一件比較”苦”的事情——我們應該把 infrastructure 做好、把數(shù)據(jù)做好，算法的部分反而是比較簡單的。主要有幾個點：

第一，我們對 infrastructure 進行了重建，無論是預訓練還是強化學習。

第二，我們在數(shù)據(jù)和評估上做了很多大的改變：如何定義更真實的問題，如何豐富數(shù)據(jù)的 taxonomy（分類法），如何提高數(shù)據(jù)質(zhì)量——這是一個永無止境的追求。

第三，我覺得很重要的是，很多決策其實沒有清晰的公式。包括怎么招人、怎么設立模型的節(jié)奏，每天都有很多 decision 要考慮很多 tradeoff，可能更是一件由 taste（審美品味）驅動的事情。

如何看待 co-design：模型與產(chǎn)品的協(xié)同

姚順雨：我挺好奇想問你一個問題。你剛剛跟我討論 codesign 這個概念，我也很好奇你是怎么想的——你覺得哪些事情應該是模型做的，哪些應該是產(chǎn)品做的？

湯道生：我覺得 codesign 在不同階段一直在變化，這種變化某種程度上是隨著模型能力的升級而變化的，當然行業(yè)、市場、用戶需求的變化也會帶來模型和產(chǎn)品兩邊都需要更好去滿足。給我比較深的一個感受是”怎么去對齊”。

我們一起做產(chǎn)品、做 alignment 的時候，有很多不同的角色：產(chǎn)品要針對某個方向解決問題，模型到底怎么滿足這個需求？同時模型需要數(shù)據(jù)，數(shù)據(jù)應該怎么標注、標到什么顆粒度，什么是好的標注、什么是不好的標注（有些地方要獎勵，有些地方要懲罰），還有評測——如果產(chǎn)品認為好的體驗，評測并不認同，那大家做出來的東西就會不一致。

所以 codesign 給我的感受更多是：項目組里不同角色一起參與產(chǎn)品設計、定義產(chǎn)品的目標方向，讓多個角色對一些開放式問題有比較好的對齊。如果沒做到這種對齊，你會發(fā)現(xiàn)產(chǎn)品的行為不可預測、甚至有隨機性，因為訓練過程可能也被混淆了。這是我這兩年跟模型團隊做 codesign 一個比較深的感受。

姚順雨：對。我覺得最難的一點就是要建立 trust（信任），而且同理心很重要。因為說到底，做模型的目標和做產(chǎn)品的目標，有很多 align 的部分，也有很多不 align 的部分——做模型的人希望能力越強越好，做產(chǎn)品的人希望用戶需求滿足得越好，天然有很多沖突。所以很重要的一點，是要有換位思考的能力。

其實你剛問我們是怎么一步步做到混元 3 的，有一個很重要的細節(jié)：我們當時派了后訓練最強的骨干力量去幫元寶，先把基于 DeepSeek 的那一版后訓練做好。

因為那時候我們自己的預訓練還沒 ready，但我們知道，維護好這樣的產(chǎn)品和它的 DAU，對我們接下來做模型會變得非常重要，對長期合作也非常重要。當時很多算法同學不理解，我需要很努力地去解釋。

但現(xiàn)在看，這些努力都 payoff（有回報）了——這個動作讓產(chǎn)品方意識到，做模型的同學是真的在為產(chǎn)品著想。這對我們之后的合作、包括混元 3 在元寶上成功上線，都起了非常重要的作用。當然有很多技術部分可以探討，但我覺得最難的部分反而是怎么建立信任、怎么換位思考。

湯道生：對，非常認同。

從 ReAct 到今天：幾年前的預測兌現(xiàn)了嗎

姚順雨：換個話題。你是 ReAct 的提出者，博士研究也圍繞語言智能體（Agent）展開。你幾年前的一些觀點，到今天兌現(xiàn)了嗎？哪些兌現(xiàn)了？

姚順雨：那天我還挺感嘆的，因為我重新讀了自己的博士論文，感覺回到了一個很”遠古”的時代。我博士論文的題目叫《Language Agent: from next token prediction to digital automation》（語言智能體：從下一詞預測到數(shù)字自動化）。

湯道生：那是哪一年？19 年？

姚順雨：19 年。

湯道生：七年前。

姚順雨：那時候 literally 就是 GPT-2 的時代，它當時只能做 next token prediction，產(chǎn)生的一段話還不太連續(xù)、有很多毛刺，所以人們很難想象它有一天會成為改變世界的力量。

當時大家做的研究稍微有點想象力的，比如輸入”中國的首都”，做 next token prediction 它會回答”北京”——能做到這點大家就已經(jīng)很開心了，覺得這是個很有意思的基礎。

我當時的想象力可能比較狂野：我覺得 GPT 是個非常優(yōu)美的東西，吐出下一個 token 是一件極簡又極其通用的事。

我覺得它有一天的潛力不僅在于吐出下一個 token，而在于把這個世界上所有的事情全部 automate（自動化）。

當然我當時想的可能還不夠大，我想的是 digital automation（數(shù)字自動化），但現(xiàn)在看可能是 digital and physical automation（數(shù)字與物理自動化）。

我博士期間主要做兩部分。第一部分是建立一套 agent 的方法論：如何把一個 next token prediction 的機器變成一個 agent、變成一臺自動化的機器。最重要的一篇工作就是 ReAct。

我還記得 2022 年 7 月某天晚上，我第一次把當時的語言模型 API 和我自己手寫的一個 Wikipedia API 接在一起，它第一次能基于網(wǎng)頁回答問題、并且做多輪交互。那一刻就像微弱的燈絲突然亮起來一樣。

據(jù)我所知，這可能是人類第一次把 LLM 和真正的互聯(lián)網(wǎng)連在一起、并做多輪交互。我當時的感覺是：OK，這件事可能在五年或十年內(nèi)會改變世界——但后來發(fā)生得比我想的還要快。

我記得當時就覺得，如果這件事能做成，那它顯然會帶來巨大的價值。當時想的可能是幾百億、上千億，現(xiàn)在看可能是數(shù)萬億、數(shù)十萬億，我想的還是太小了。

另一部分工作是怎么去定義 digital automation 的任務。比如 WebShop 是第一個互聯(lián)網(wǎng) web agent 的 task，InterCode 是最早的 coding agent 任務?，F(xiàn)在看，agent 技術最重要的兩個部分，可能確實就是 web agent 和 coding agent。

那天我還在群里跟大家聊，我看我博士論文結尾在 2024 年寫的 future work：第一是 train models for agent（為智能體訓練模型），第二是 safe and robust deployment（安全且穩(wěn)健的部署），第三是 scientific discovery（科學發(fā)現(xiàn)），第四是怎么去 help human（幫助人類）。

我挺感嘆的——我現(xiàn)在很幸運，確實在做當時列的這些 future direction。

湯道生：你的 prediction 太厲害了，能看到整個行業(yè)都在往這些方向推進。

姚順雨：可能想的還是不夠大。我當時已經(jīng)覺得自己想得夠大了，但可能還是不夠——技術的發(fā)展往往超乎我們的預期。

下一代模型的研發(fā)側重：coding、體系化、產(chǎn)品回流與想象力

湯道生：我再轉一點。今天大家都說智能體需要消耗很多 token，那對混元做下一代模型的研發(fā)，你覺得側重點是什么？哪些地方比較重要？

姚順雨：我覺得毫無疑問，今天的 agent、或者說 coding agent，就有點像預訓練一樣，是一件不得不做的事，是最基礎的能力。

我個人覺得 coding 非常本質(zhì)，原因很多，但還有一個很重要的原因：它有點像圖靈完備——當你能控制自己的 file system、有一個 container 的時候，你其實就是一個 complete 的 system。

今天 agent 毫無疑問是每一家模型發(fā)力的重點，而我們做的方法可能有幾個區(qū)別：

第一，即使今天 coding 是最重要的事，我們還是會強調(diào)”體系的全面化”。我始終認為，真正要把 coding 做好，需要的遠不止 coding 的數(shù)據(jù)，你還需要聊天、instruction following（指令遵循）、推理等各種各樣的能力——因為大模型最重要的一點是泛化性。

第二，產(chǎn)品的作用越來越重要。如何利用好線上的數(shù)據(jù)回流，是每一個模型廠商都在思考和應對的問題，這里我們前面說的很多 codesign 經(jīng)驗會變得非常重要。

第三，還是需要更多想象力。無論是技術的演進、產(chǎn)品的演進，還是下一個范式的演進，我們都還需要做一些探索性的、甚至帶不確定性的工作。

性價比的本質(zhì)：性能優(yōu)先，成本其次，小模型做大事

湯道生：對，從產(chǎn)品側看，大家越來越多有”token 焦慮”的聲音，token 成本在持續(xù)增長。我也聽到很多客戶、甚至身邊的同事，都在緊盯積分或 token 的消耗。

那怎么能讓模型在解決某個問題、完成某個任務時 token 效率最高？我之前做過一些任務，模型可能會嘗試不同方向，有些方向其實明知道走不下去，但它還是會試，試完才知道走不通再換下一個。這里面有什么可以 optimize 的地方，讓 token 使用效率更高？

姚順雨：今天在中國大家討論性價比，可能更多在討論模型架構，但它其實是個很復雜的體系。我覺得最重要的首先是 performance（性能）。很多人跟我說，他們最后發(fā)現(xiàn)用 Opus 這樣的模型，反而比用更差的模型更省錢——因為更快就把事情做對了，也省了人的精力。所以性能其實才是性價比最關鍵的事情。

尤其是今年，很多簡單任務的 robustness（穩(wěn)定性）會變得更重要：如何一次就把相對簡單的任務做對，這可能是性價比更關鍵的部分，而不僅僅是模型架構。

第二部分是成本，成本本身就是性價比的一部分。我覺得第一是”性”——性能不好，性價比就無從談起；第二才是成本。在成本上，中國其實是領先于世界的，我們做了大量工作去優(yōu)化成本。

但我覺得成本這件事最重要的，可能是”怎么用一個更小的模型，把更高價值的任務做好”。這里有很多事要做，包括架構創(chuàng)新、長文本管理、壓縮等等。

但我個人的看法是：如果我們能做一個相對較小的模型，它的性能卻能比肩甚至超過大模型，而且能在大部分任務上做到很強的 robustness——這可能比在很多非常長程、很 fancy 的任務上實現(xiàn)一兩個點的提升，在今天的中國更有價值。

agent 的產(chǎn)品機會與瓶頸

姚順雨：我也挺好奇，Dowson（湯道生），你是什么時候意識到 agent 是一個新的產(chǎn)品機會的？你現(xiàn)在的認知是什么？你覺得我們現(xiàn)在離一個好用的 agent，瓶頸在哪里？

湯道生：我們針對不同場景做的 agent，其實有不同的產(chǎn)品形態(tài)。在 agent 的設計上，很大程度是盡量去發(fā)揮好模型的能力。模型能力越強，應用需要做的工作可能越少。

過去這段時間我看到我們好幾個產(chǎn)品，隨著模型能力增強，反而把 agent 做得更簡化了——更多是給模型提供更多不同的工具、創(chuàng)造更多 skills，讓模型更高效地完成任務；同時提供更多”記憶”，把用戶過去的使用習慣、能提取出的 preference 信息，作為上下文 feed 給模型。

在 coding 環(huán)境里給模型相關的 context，在 Workbody 這種辦公協(xié)作、PPT 場景里，需要關注和給到模型的 context 又不一樣。所以做不同的 agent，更重要的還是了解那個場景下什么內(nèi)容、什么信息是重要且 relevant 的，能跟模型配合好，讓模型既有它需要的信息，又能發(fā)揮它的能力。

agent 時代的研發(fā)與組織變革

姚順雨：最近我們確實推出了像 Workbody 這樣口碑很不錯的產(chǎn)品，背后是很多小團隊在快速迭代。我挺好奇，相對于傳統(tǒng)的產(chǎn)品研發(fā)，你覺得在 agent 時代，產(chǎn)品團隊的研發(fā)和組織管理發(fā)生了什么變化？

湯道生：前一陣子我去 Workbody 團隊做了一次組織走訪，看到他們非常扁平化的組織，跟我們過去其他產(chǎn)品的組織架構有很大差異——更多是三五個人的小團隊，圍繞某一個領域去做攻關，而且有很多實驗。所以要支持好底層的 AI Infra 去做實驗，讓這些小分隊能去探索、再驗證。

因為大部分實驗可能拿不到正向反饋，我們也要包容團隊去試錯，通過大量實驗提煉出對用戶流程、對我們想要的結果有正向幫助的東西。這是今天做 agent、做原生 AI 產(chǎn)品，組織形態(tài)要能比較好支撐的地方。

另外，原來很多工程師花大量時間在寫代碼上，今天這些工作毫無疑問可以交給 AI 了，所以我們會看到更多角色的融合：大家可能都是產(chǎn)品經(jīng)理，都要透徹了解用戶需求、設計出想要的產(chǎn)品形態(tài)；

每個工程師更像一個有想法的 leader，驅動多個 coding agent 去針對產(chǎn)品需求做研發(fā)。同時也要像我說的把評測前置，用好 AI 的能力，把質(zhì)量保證、alignment 的工作做到前面來。

以上是小編整理的訪談重點傳達，干貨實在是太密集（orz）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.