免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,姚順雨現(xiàn)身!公開回應騰訊AI落后了嗎?

0
分享至

聞樂 聽雨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI

姚順雨開講了,現(xiàn)場爆滿!

整個會場放眼望去全是「人人人人人」……



今年騰訊云AI產(chǎn)業(yè)應用大會的主題是「Agent進場,效能生長」,產(chǎn)業(yè)先行者、技術開發(fā)者與生態(tài)創(chuàng)新伙伴齊聚一堂。

當下AI正褪去概念熱度,大步邁向實打實的產(chǎn)業(yè)落地,一眾從業(yè)者也借著這場盛會,圍繞行業(yè)落地、技術革新展開深度交流探討。



當然了,大會的重磅——

騰訊集團高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生和騰訊首席AI科學家姚順雨:關于騰訊AI下半場的深度對談,已經(jīng)幫大家梳理完畢:

  • 騰訊慢了嗎?
  • 為什么會來騰訊?
  • 現(xiàn)在做大模型沒有什么秘密,我們做混元3,對Infra做了很多重建,對數(shù)據(jù)和Eval也做了很大改變。做大模型沒有清晰的公式,是taste-driven的事情。
  • 做模型和做產(chǎn)品,目標天然不一樣,跨團隊協(xié)作最大的障礙在于能不能建立信任、有沒有換位思考的能力。我們派后訓練最強的骨干力量,優(yōu)先把元寶的后訓練做扎實。維護好元寶的DAU,看上去是產(chǎn)品目標,但對做好模型本身同樣重要
  • 關于下一代混元的研發(fā)重點,會以coding agent為基礎能力底座,但有三點差異:1、強調(diào)體系的全面化,而非只堆coding數(shù)據(jù);2、產(chǎn)品是關鍵,要把數(shù)據(jù)回流用好;3、要保留想象力,敢做不確定的探索。
  • 性價比拆開是兩件事——先看性能,再看成本,而真正的杠桿在于“用小模型把高價值任務做好”。如果一個小模型能比肩大模型的性能,那它帶來的價值,在今天的中國,可能遠大于大模型在長程任務上的邊際改進。
  • AI上半場——比誰能訓模型、刷榜單,已經(jīng)落幕;下半場才剛開始,coding agent、多模態(tài)、具身智能都才剛發(fā)生。而下半場最重要的,不是跑得多快,而是能不能誠實地面對自己



以下為整理后的訪談重點實錄。

姚順雨為什么選擇騰訊

湯道生:順雨,你加入騰訊之前,我記得問過你一些問題——為什么會選擇來騰訊?以及你認為AI的下半場最重要的是什么?

姚順雨:我想先解釋一下什么叫”下半場”,因為最近我感覺這個詞有點被濫用了。這個概念其實是我去年一篇博客里提出來的。意思是:在去年之前,AI已經(jīng)發(fā)展了幾十年,更重要的事情是怎么去解決問題、尋找好的方法;但最近很明顯的一點是,方法論已經(jīng)變得非常成熟,反而是“尋找問題”變得更困難了。

舉個例子。過去我們做下圍棋,會發(fā)明像AlphaGo這樣的方法,但它可能只適合下圍棋、下棋類;你為翻譯做一個專門的模型,它可能也只能用來翻譯,干不了別的。但有了預訓練和后訓練之后,我們好像有了一把”萬能的錘子”,可以去砸任何釘子——它是一個通用的方法論,能解決各種各樣的問題。反而更困難的,是怎么去尋找好的問題來解決。

所以加入騰訊很重要的一點就是:這里有很多好問題、很多很多產(chǎn)品,我覺得這一點接下來會變得越來越重要。

一方面,好的產(chǎn)品能解決第一個問題——我們做完預訓練和后訓練之后,到底要把它應用在什么地方、產(chǎn)生什么價值。

第二,環(huán)境非常重要。沒有好的環(huán)境,agent就沒辦法做各種事情。比如你沒有一個點外賣的工具,就沒辦法點外賣,很多事情都做不到。

但我覺得最重要的可能是context。無論是企業(yè)還是個人——就像我上次在活動上說的——context會越來越重要。因為模型越來越擅長把一個非常復雜的輸入變成一個輸出,很多時候你的競爭壁壘,恰恰來自你有沒有那個最原始的輸入:你知不知道這個人到底在干什么,知不知道這家企業(yè)的各種信息。在這一點上,騰訊有非常強的優(yōu)勢。

不過這只是第二大的原因。我覺得最重要的原因其實是文化。

我還記得第一次跟你、以及很多總辦老板聊天時,第一印象就是大家都非常誠實——哪里做得好、哪里做得不好,都講得非常直白,不會掩蓋:我知道哪里做得好,也知道哪里不知道;知道這里該怎么做,也承認那里不知道該怎么做。這種坦誠是我的第一印象。

第二,騰訊總體是一家基于 trust(信任)、而不是基于 metrics(指標)去運轉的公司,我覺得這一點對做 AI 非常重要。包括我們的文化里也有非常 low ego、非?!彬}氣”的一面。

這些文化,對于長期做一個 AI 組織都非常重要,也包括我們對長期主義的堅持。

所以,AI 下半場最重要的是什么?就我個人的目標而言,我覺得我們應該在中國建立一個長期的、基于 AGI 的組織。

我覺得今天的 AI 主要有三個部分。第一是foundation——怎么把預訓練、后訓練這種最基礎的東西做得非常漂亮。第二是產(chǎn)品——怎么讓這樣的技術真正為人和社會產(chǎn)生價值。第三是frontier——怎么去探索新的研究范式、新的機會。最重要的,是構建一個非常均衡的、像三角形一樣的組織。

對foundation來說,最重要的,第一是需要充足的資源,第二是需要正確的做事方式——這跟我剛說的文化那一點是吻合的。對產(chǎn)品來說,有好的產(chǎn)品 sense、有做產(chǎn)品的經(jīng)驗至關重要。第三是frontier,我覺得我們今天在中國做的探索可能還不夠多,所以我也希望能把這種 frontier exploration(前沿探索)的精神更多地注入到組織里。

湯道生:你提到跟總辦聊的過程中感受到的真誠、務實,這其實也是我常從客戶交流中得到的反饋。我覺得我們做事的方式、做產(chǎn)品的理念,確實是比較實事求是的。畢竟 AI 這個賽道是一場長跑,有時候”認知”也很重要——哪些做得好、哪些做得不好,也得認。但關鍵是,這是一場多維度的競賽:我們看到模型有很多進步,做產(chǎn)品也有越來越多的形態(tài),不同場景有不同需求。我覺得未來還是非??善诘摹?/p>

騰訊慢了嗎?下半場是什么

湯道生:我想問一個大家討論比較多的問題:很多自媒體都會提到,騰訊在 AI 上沒有及時抓住一些機會。你覺得我們真的慢了嗎?下半場到底是什么?能多說一下嗎?

姚順雨:感覺這應該是我問你的問題。我覺得今天我有兩個重要的判斷。

第一個判斷:AI 是一個短期游戲,還是長期游戲?在硅谷蔓延著很多情緒——所有人都要失業(yè)了、AI 要取代所有人的工作,所以趕快賺兩年錢然后退休。這是一種判斷。

但我們的判斷很顯然是:這會是一個長期游戲,而且其實才剛剛開始,下半場才剛開始。我不認為 GPT 和 Claude 會是唯一的 super app,那會是一個非?;野档氖澜?。我覺得一定會有源源不斷的新機會誕生,今天可能就像 70 年代 PC 剛出現(xiàn)的時候,還有很多好事情要做。

第二個判斷:它會是一個更單一、還是更多元的游戲?過去幾年大家能看到的是 pre-training、post-training、RL、agent、coding agent,好像有一條非常清晰的主線,坦白說所有人都在做一樣的事,這也是件很灰暗的事。未來到底會更單一還是更多元?

我個人覺得會更多元。coding agent 的生產(chǎn)力毫無疑問會越來越重要,而且它才剛剛開始,這個世界還有 trillions of dollars 的市場沒被填滿;但多模態(tài)、具身智能,還有很多很多新事情正在或剛剛發(fā)生。所以從這個角度看,如果我們認為下半場才剛開始,那可能確實不算晚。

當然,過去模型、產(chǎn)品做了很多探索,走了很多彎路,我覺得這很正?!獩]做過一件事,第一次做肯定會有曲折。但可能更重要的是:能不能誠實地面對自己,能不能 be real,能不能看到 feedback 然后去改變,能不能保持耐心。我覺得這些事情,在下半場會更加重要。

姚順雨:你怎么看?

湯道生:大家對騰訊經(jīng)常喜歡挑某一個點來批評,我們也歡迎大家提更高的要求。騰訊有非常多的業(yè)態(tài)、很多產(chǎn)品在很多賽道,同時很多團隊在推進不同項目。在這樣一個復雜的組織里,有些地方可能做得快了,有些地方做得慢了,有些地方可能在探索中失敗。

所以這些提醒都非常好,確實有些地方我們可以做得更好。但就像你說的,這是一場長跑、一場馬拉松。

騰訊有非常豐富的場景。就像你一開始提到的,選擇騰訊是因為 AI 需要 context,模型需要很多上下文,而騰訊多年來在不同賽道、不同產(chǎn)品上的積累,都可以針對每一個場景為模型提供有用的信息、提供 context、發(fā)揮價值。

在這場長跑里,我相信模型會不斷迭代,用戶需求也在不斷變化,還會有新的產(chǎn)品形態(tài)出現(xiàn)。比如今年初那一波(視頻生成?)熱潮我們反應也比較快;同時也有 Workbody 這樣的智能體產(chǎn)品——其實是幾年前就開始做的產(chǎn)品,沿著原來 coding 的積累慢慢看到很強的需求,我們也能比較快地去應對。

今天也聽到很多客戶對我們不同產(chǎn)品怎么組合起來有很高的期待。所以我們正在長跑中,也請各位多給我們提醒和建議,多用我們的產(chǎn)品,給我們正向的、constructive 的反饋。

模型與產(chǎn)品互相成就

姚順雨:在一個多產(chǎn)品的體系化的地方,其實會有一個比較大的優(yōu)勢。比如我們用混元 3 可以讓模型在元寶里產(chǎn)生很強的聊天和搜索能力,但這種能力又可以被遷移到 IM 或者 Workbody 這樣的其他產(chǎn)品上。

這些產(chǎn)品能夠提供不同的數(shù)據(jù),而這些數(shù)據(jù)之間又可以相互泛化,形成一個像網(wǎng)絡一樣的體系。我覺得這一點的價值會越來越重要。

湯道生:對。其實在外部刷榜也算是一種數(shù)據(jù)吧,那我們內(nèi)部做的跟外部的這種榜有什么區(qū)別?

姚順雨:首先這些 benchmark 還是有它的價值的,不是說完全沒價值,只是現(xiàn)在這些榜非常容易 saturate(飽和)。而基于真實世界的數(shù)據(jù)有幾個幫助:

第一,你能發(fā)現(xiàn)模型的很多底線問題。我們想發(fā)一個 pre-preview 模型,最重要的目的之一就是希望獲得真實世界的反饋,去修復各種榜單里沒法發(fā)現(xiàn)的底線問題——這一點會在正式版上有非常大的改進。

第二,你對真實的 prompt distribution(提示詞分布)會有更深的了解。舉個例子,benchmark 上的題目往往非常精確,有很長的 concrete description,而且一般是單輪問題;但現(xiàn)實里大眾問的問題通常比較模糊,可能就一兩句話,然后不停追問。這些 setup 上的差異,就能啟發(fā)我們怎么去更好地做訓練。

第三,我們甚至可以從這些產(chǎn)品上獲得靈感,去推進現(xiàn)在還沒有的榜單、沒有的領域。比如我們最近做了很多 coding 能力的工作,元寶給我們的啟發(fā)就很有幫助。所以我覺得產(chǎn)品和模型的互相成就,是越來越重要的一個 AI 話題。

湯道生:對,我記得早期做元寶的時候還碰到過多輪遵循的問題。在產(chǎn)品里用戶迭代 prompt 的方式,跟 benchmark 好像有蠻大的差異,真正在產(chǎn)品里所需要的能力,確實跟 benchmark 不太一樣。你問了我這么多問題,我也問你一點。

做產(chǎn)品的第一性原理:不變的是為用戶創(chuàng)造價值

姚順雨:我記得第一次跟你聊的時候,你講了很多過去的經(jīng)歷,從 QQ 空間、QQ 秀的時代,一直到我小學時候最喜歡的那個產(chǎn)品……

湯道生:你說的是老登對吧?

姚順雨:再到 QQ、到音樂、到語音,再到現(xiàn)在的元寶、IMA。跟你聊天很有意思,因為你做過各種各樣的產(chǎn)品,To C 的也有、To B 的也有,遠古時代的也有、AI 時代的也有。

我比較好奇的是,你覺得你做產(chǎn)品的第一性原理是什么?哪些經(jīng)驗或價值是不變的,哪些東西變了?

湯道生:我覺得做產(chǎn)品最終還是奔著”用戶到底有什么需求、我怎么去解決他的痛點、怎么給用戶或客戶創(chuàng)造價值”。這一點在不同的時代、不同的行業(yè)都成立——產(chǎn)品能給用戶帶來價值,他才會買單、才會使用。

所以從 PC 互聯(lián)網(wǎng)時代做空間,到移動時代做各種內(nèi)容產(chǎn)品,再到云互聯(lián)網(wǎng)做云,我們都要花很多時間去聽客戶的聲音、幫他們解決問題,底層邏輯其實沒有那么大的變化。

但 PC、移動互聯(lián)網(wǎng)時代做產(chǎn)品,跟今天 AI 時代做產(chǎn)品,還是有蠻多不一樣的地方。

首先從范式上看,在 AI 之前,我們做產(chǎn)品很多時候是通過”功能”來滿足需求:作為服務提供方,你想清楚要提供什么能力,讓用戶通過界面、菜單去選,能力是預置好的,用戶只能在里面點。

但 AI 時代那種開放式的服務形態(tài)就帶來很不一樣的要求——交互方式可能是自然語言、是語音,作為產(chǎn)品方你也不知道用戶會問什么,所以要充分利用模型能力去理解用戶需求,再通過大模型的邏輯推理、調(diào)用工具的能力,由產(chǎn)品給模型提供各種可用的工具,去應對這種開放式需求。這跟我們過去做產(chǎn)品很不一樣。

還包括你剛提到的 specification(規(guī)格)。過去對產(chǎn)品細節(jié)功能有很清晰的描述,怎么設計、研發(fā)、測試,那套瀑布式流程也比較清晰。但做 AI 產(chǎn)品,我發(fā)現(xiàn)最大的變化是整個流程可能都要重新設計。

尤其是今年,大部分代碼都由 AI 生成,工程師會花更多時間做設計、做架構,把寫代碼的工作交給 AI,再定期去指導、修正。

測試也要”左移”、更前置地去想清楚針對各種 case 的 eval(評估)——要有環(huán)境,要對開放式答案有要求,甚至包括 alignment(對齊),怎么對齊到用戶所需要的那種風格。我感覺今天 AI 時代做產(chǎn)品,要求的能力其實更全面了。

混元 3 做了什么改變

湯道生:那我問一下混元 3。大家都在說混元 3 是你在騰訊的首秀,具體做了什么改變,能給大家介紹一下嗎?

姚順雨:其實沒什么秘密。今天做大模型是一件比較”苦”的事情——我們應該把 infrastructure 做好、把數(shù)據(jù)做好,算法的部分反而是比較簡單的。主要有幾個點:

第一,我們對 infrastructure 進行了重建,無論是預訓練還是強化學習。

第二,我們在數(shù)據(jù)和評估上做了很多大的改變:如何定義更真實的問題,如何豐富數(shù)據(jù)的 taxonomy(分類法),如何提高數(shù)據(jù)質(zhì)量——這是一個永無止境的追求。

第三,我覺得很重要的是,很多決策其實沒有清晰的公式。包括怎么招人、怎么設立模型的節(jié)奏,每天都有很多 decision 要考慮很多 tradeoff,可能更是一件由 taste(審美品味)驅動的事情。

如何看待 co-design:模型與產(chǎn)品的協(xié)同

姚順雨:我挺好奇想問你一個問題。你剛剛跟我討論 codesign 這個概念,我也很好奇你是怎么想的——你覺得哪些事情應該是模型做的,哪些應該是產(chǎn)品做的?

湯道生:我覺得 codesign 在不同階段一直在變化,這種變化某種程度上是隨著模型能力的升級而變化的,當然行業(yè)、市場、用戶需求的變化也會帶來模型和產(chǎn)品兩邊都需要更好去滿足。給我比較深的一個感受是”怎么去對齊”。

我們一起做產(chǎn)品、做 alignment 的時候,有很多不同的角色:產(chǎn)品要針對某個方向解決問題,模型到底怎么滿足這個需求?同時模型需要數(shù)據(jù),數(shù)據(jù)應該怎么標注、標到什么顆粒度,什么是好的標注、什么是不好的標注(有些地方要獎勵,有些地方要懲罰),還有評測——如果產(chǎn)品認為好的體驗,評測并不認同,那大家做出來的東西就會不一致。

所以 codesign 給我的感受更多是:項目組里不同角色一起參與產(chǎn)品設計、定義產(chǎn)品的目標方向,讓多個角色對一些開放式問題有比較好的對齊。如果沒做到這種對齊,你會發(fā)現(xiàn)產(chǎn)品的行為不可預測、甚至有隨機性,因為訓練過程可能也被混淆了。這是我這兩年跟模型團隊做 codesign 一個比較深的感受。

姚順雨:對。我覺得最難的一點就是要建立 trust(信任),而且同理心很重要。因為說到底,做模型的目標和做產(chǎn)品的目標,有很多 align 的部分,也有很多不 align 的部分——做模型的人希望能力越強越好,做產(chǎn)品的人希望用戶需求滿足得越好,天然有很多沖突。所以很重要的一點,是要有換位思考的能力。

其實你剛問我們是怎么一步步做到混元 3 的,有一個很重要的細節(jié):我們當時派了后訓練最強的骨干力量去幫元寶,先把基于 DeepSeek 的那一版后訓練做好。

因為那時候我們自己的預訓練還沒 ready,但我們知道,維護好這樣的產(chǎn)品和它的 DAU,對我們接下來做模型會變得非常重要,對長期合作也非常重要。當時很多算法同學不理解,我需要很努力地去解釋。

但現(xiàn)在看,這些努力都 payoff(有回報)了——這個動作讓產(chǎn)品方意識到,做模型的同學是真的在為產(chǎn)品著想。這對我們之后的合作、包括混元 3 在元寶上成功上線,都起了非常重要的作用。當然有很多技術部分可以探討,但我覺得最難的部分反而是怎么建立信任、怎么換位思考。

湯道生:對,非常認同。

從 ReAct 到今天:幾年前的預測兌現(xiàn)了嗎

姚順雨:換個話題。你是 ReAct 的提出者,博士研究也圍繞語言智能體(Agent)展開。你幾年前的一些觀點,到今天兌現(xiàn)了嗎?哪些兌現(xiàn)了?

姚順雨:那天我還挺感嘆的,因為我重新讀了自己的博士論文,感覺回到了一個很”遠古”的時代。我博士論文的題目叫《Language Agent: from next token prediction to digital automation》(語言智能體:從下一詞預測到數(shù)字自動化)。

湯道生:那是哪一年?19 年?

姚順雨:19 年。

湯道生:七年前。

姚順雨:那時候 literally 就是 GPT-2 的時代,它當時只能做 next token prediction,產(chǎn)生的一段話還不太連續(xù)、有很多毛刺,所以人們很難想象它有一天會成為改變世界的力量。

當時大家做的研究稍微有點想象力的,比如輸入”中國的首都”,做 next token prediction 它會回答”北京”——能做到這點大家就已經(jīng)很開心了,覺得這是個很有意思的基礎。

我當時的想象力可能比較狂野:我覺得 GPT 是個非常優(yōu)美的東西,吐出下一個 token 是一件極簡又極其通用的事。

我覺得它有一天的潛力不僅在于吐出下一個 token,而在于把這個世界上所有的事情全部 automate(自動化)。

當然我當時想的可能還不夠大,我想的是 digital automation(數(shù)字自動化),但現(xiàn)在看可能是 digital and physical automation(數(shù)字與物理自動化)。

我博士期間主要做兩部分。第一部分是建立一套 agent 的方法論:如何把一個 next token prediction 的機器變成一個 agent、變成一臺自動化的機器。最重要的一篇工作就是 ReAct。

我還記得 2022 年 7 月某天晚上,我第一次把當時的語言模型 API 和我自己手寫的一個 Wikipedia API 接在一起,它第一次能基于網(wǎng)頁回答問題、并且做多輪交互。那一刻就像微弱的燈絲突然亮起來一樣。

據(jù)我所知,這可能是人類第一次把 LLM 和真正的互聯(lián)網(wǎng)連在一起、并做多輪交互。我當時的感覺是:OK,這件事可能在五年或十年內(nèi)會改變世界——但后來發(fā)生得比我想的還要快。

我記得當時就覺得,如果這件事能做成,那它顯然會帶來巨大的價值。當時想的可能是幾百億、上千億,現(xiàn)在看可能是數(shù)萬億、數(shù)十萬億,我想的還是太小了。

另一部分工作是怎么去定義 digital automation 的任務。比如 WebShop 是第一個互聯(lián)網(wǎng) web agent 的 task,InterCode 是最早的 coding agent 任務?,F(xiàn)在看,agent 技術最重要的兩個部分,可能確實就是 web agent 和 coding agent。

那天我還在群里跟大家聊,我看我博士論文結尾在 2024 年寫的 future work:第一是 train models for agent(為智能體訓練模型),第二是 safe and robust deployment(安全且穩(wěn)健的部署),第三是 scientific discovery(科學發(fā)現(xiàn)),第四是怎么去 help human(幫助人類)。

我挺感嘆的——我現(xiàn)在很幸運,確實在做當時列的這些 future direction。

湯道生:你的 prediction 太厲害了,能看到整個行業(yè)都在往這些方向推進。

姚順雨:可能想的還是不夠大。我當時已經(jīng)覺得自己想得夠大了,但可能還是不夠——技術的發(fā)展往往超乎我們的預期。

下一代模型的研發(fā)側重:coding、體系化、產(chǎn)品回流與想象力

湯道生:我再轉一點。今天大家都說智能體需要消耗很多 token,那對混元做下一代模型的研發(fā),你覺得側重點是什么?哪些地方比較重要?

姚順雨:我覺得毫無疑問,今天的 agent、或者說 coding agent,就有點像預訓練一樣,是一件不得不做的事,是最基礎的能力。

我個人覺得 coding 非常本質(zhì),原因很多,但還有一個很重要的原因:它有點像圖靈完備——當你能控制自己的 file system、有一個 container 的時候,你其實就是一個 complete 的 system。

今天 agent 毫無疑問是每一家模型發(fā)力的重點,而我們做的方法可能有幾個區(qū)別:

第一,即使今天 coding 是最重要的事,我們還是會強調(diào)”體系的全面化”。我始終認為,真正要把 coding 做好,需要的遠不止 coding 的數(shù)據(jù),你還需要聊天、instruction following(指令遵循)、推理等各種各樣的能力——因為大模型最重要的一點是泛化性。

第二,產(chǎn)品的作用越來越重要。如何利用好線上的數(shù)據(jù)回流,是每一個模型廠商都在思考和應對的問題,這里我們前面說的很多 codesign 經(jīng)驗會變得非常重要。

第三,還是需要更多想象力。無論是技術的演進、產(chǎn)品的演進,還是下一個范式的演進,我們都還需要做一些探索性的、甚至帶不確定性的工作。

性價比的本質(zhì):性能優(yōu)先,成本其次,小模型做大事

湯道生:對,從產(chǎn)品側看,大家越來越多有”token 焦慮”的聲音,token 成本在持續(xù)增長。我也聽到很多客戶、甚至身邊的同事,都在緊盯積分或 token 的消耗。

那怎么能讓模型在解決某個問題、完成某個任務時 token 效率最高?我之前做過一些任務,模型可能會嘗試不同方向,有些方向其實明知道走不下去,但它還是會試,試完才知道走不通再換下一個。這里面有什么可以 optimize 的地方,讓 token 使用效率更高?

姚順雨:今天在中國大家討論性價比,可能更多在討論模型架構,但它其實是個很復雜的體系。我覺得最重要的首先是 performance(性能)。很多人跟我說,他們最后發(fā)現(xiàn)用 Opus 這樣的模型,反而比用更差的模型更省錢——因為更快就把事情做對了,也省了人的精力。所以性能其實才是性價比最關鍵的事情。

尤其是今年,很多簡單任務的 robustness(穩(wěn)定性)會變得更重要:如何一次就把相對簡單的任務做對,這可能是性價比更關鍵的部分,而不僅僅是模型架構。

第二部分是成本,成本本身就是性價比的一部分。我覺得第一是”性”——性能不好,性價比就無從談起;第二才是成本。在成本上,中國其實是領先于世界的,我們做了大量工作去優(yōu)化成本。

但我覺得成本這件事最重要的,可能是”怎么用一個更小的模型,把更高價值的任務做好”。這里有很多事要做,包括架構創(chuàng)新、長文本管理、壓縮等等。

但我個人的看法是:如果我們能做一個相對較小的模型,它的性能卻能比肩甚至超過大模型,而且能在大部分任務上做到很強的 robustness——這可能比在很多非常長程、很 fancy 的任務上實現(xiàn)一兩個點的提升,在今天的中國更有價值。

agent 的產(chǎn)品機會與瓶頸

姚順雨:我也挺好奇,Dowson(湯道生),你是什么時候意識到 agent 是一個新的產(chǎn)品機會的?你現(xiàn)在的認知是什么?你覺得我們現(xiàn)在離一個好用的 agent,瓶頸在哪里?

湯道生:我們針對不同場景做的 agent,其實有不同的產(chǎn)品形態(tài)。在 agent 的設計上,很大程度是盡量去發(fā)揮好模型的能力。模型能力越強,應用需要做的工作可能越少。

過去這段時間我看到我們好幾個產(chǎn)品,隨著模型能力增強,反而把 agent 做得更簡化了——更多是給模型提供更多不同的工具、創(chuàng)造更多 skills,讓模型更高效地完成任務;同時提供更多”記憶”,把用戶過去的使用習慣、能提取出的 preference 信息,作為上下文 feed 給模型。

在 coding 環(huán)境里給模型相關的 context,在 Workbody 這種辦公協(xié)作、PPT 場景里,需要關注和給到模型的 context 又不一樣。所以做不同的 agent,更重要的還是了解那個場景下什么內(nèi)容、什么信息是重要且 relevant 的,能跟模型配合好,讓模型既有它需要的信息,又能發(fā)揮它的能力。

agent 時代的研發(fā)與組織變革

姚順雨:最近我們確實推出了像 Workbody 這樣口碑很不錯的產(chǎn)品,背后是很多小團隊在快速迭代。我挺好奇,相對于傳統(tǒng)的產(chǎn)品研發(fā),你覺得在 agent 時代,產(chǎn)品團隊的研發(fā)和組織管理發(fā)生了什么變化?

湯道生:前一陣子我去 Workbody 團隊做了一次組織走訪,看到他們非常扁平化的組織,跟我們過去其他產(chǎn)品的組織架構有很大差異——更多是三五個人的小團隊,圍繞某一個領域去做攻關,而且有很多實驗。所以要支持好底層的 AI Infra 去做實驗,讓這些小分隊能去探索、再驗證。

因為大部分實驗可能拿不到正向反饋,我們也要包容團隊去試錯,通過大量實驗提煉出對用戶流程、對我們想要的結果有正向幫助的東西。這是今天做 agent、做原生 AI 產(chǎn)品,組織形態(tài)要能比較好支撐的地方。

另外,原來很多工程師花大量時間在寫代碼上,今天這些工作毫無疑問可以交給 AI 了,所以我們會看到更多角色的融合:大家可能都是產(chǎn)品經(jīng)理,都要透徹了解用戶需求、設計出想要的產(chǎn)品形態(tài);

每個工程師更像一個有想法的 leader,驅動多個 coding agent 去針對產(chǎn)品需求做研發(fā)。同時也要像我說的把評測前置,用好 AI 的能力,把質(zhì)量保證、alignment 的工作做到前面來。

以上是小編整理的訪談重點傳達,干貨實在是太密集(orz)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
B費社媒遭攻陷:自私+故意不傳球!怕C羅世界杯發(fā)光 總裁親姐點贊

B費社媒遭攻陷:自私+故意不傳球!怕C羅世界杯發(fā)光 總裁親姐點贊

我愛英超
2026-06-18 21:36:54
高市早苗稱“非常擔心”中國對日本的稀土出口限制措施,外交部:她一邊喊著對話,一邊忙著對抗,完全是自相矛盾

高市早苗稱“非常擔心”中國對日本的稀土出口限制措施,外交部:她一邊喊著對話,一邊忙著對抗,完全是自相矛盾

日照日報
2026-06-18 16:31:03
安徽情侶自駕3.5萬公里旅行結婚,耗時100天經(jīng)17省市,“囍”字寫滿陌生人祝福

安徽情侶自駕3.5萬公里旅行結婚,耗時100天經(jīng)17省市,“囍”字寫滿陌生人祝福

瀟湘晨報
2026-06-18 17:41:20
成品油價降回7元時代

成品油價降回7元時代

界面新聞
2026-06-18 15:01:31
鄭欽文排名斷崖式下跌:資本迅速撤離,曾經(jīng)追捧她的品牌去哪了

鄭欽文排名斷崖式下跌:資本迅速撤離,曾經(jīng)追捧她的品牌去哪了

財經(jīng)保探長
2026-06-18 23:35:15
世界杯開戰(zhàn)一周,青島啤酒先扛不住了

世界杯開戰(zhàn)一周,青島啤酒先扛不住了

金角財經(jīng)
2026-06-18 15:54:28
亨利:葡萄牙需要的是進球,C羅擋住了B費的必進球

亨利:葡萄牙需要的是進球,C羅擋住了B費的必進球

懂球帝
2026-06-18 15:06:15
梁文鋒為什么選了劉強東,沒選馬云?

梁文鋒為什么選了劉強東,沒選馬云?

帥真商業(yè)
2026-06-18 10:20:26
網(wǎng)曝蘇州企業(yè)把工人換成印度人!工資僅國人的一半,福利待遇很好

網(wǎng)曝蘇州企業(yè)把工人換成印度人!工資僅國人的一半,福利待遇很好

小徐講八卦
2026-06-18 19:24:00
哥倫比亞3比1戰(zhàn)勝烏茲別克斯坦,力壓葡萄牙暫列小組第一

哥倫比亞3比1戰(zhàn)勝烏茲別克斯坦,力壓葡萄牙暫列小組第一

澎湃新聞
2026-06-18 12:04:31
1-1!捷克隊保守付代價,南非隊點球絕平,兩隊菜雞互啄都走不遠

1-1!捷克隊保守付代價,南非隊點球絕平,兩隊菜雞互啄都走不遠

硬腿子聊個球
2026-06-19 01:58:44
奉陪到底!中方強勢取消3500億美芯訂單,馬斯克:這只是個開始

奉陪到底!中方強勢取消3500億美芯訂單,馬斯克:這只是個開始

荒野科技
2026-06-18 20:14:11
羅翔說:電視上演的都是,給你多少萬,離開我女兒;而現(xiàn)實中卻是,給我們多少萬,否則離開我女兒

羅翔說:電視上演的都是,給你多少萬,離開我女兒;而現(xiàn)實中卻是,給我們多少萬,否則離開我女兒

背包旅行
2026-06-18 14:23:32
沉默45年,中國第二輪"嚴打"終于來了!目標改變總體戰(zhàn)正式打響

沉默45年,中國第二輪"嚴打"終于來了!目標改變總體戰(zhàn)正式打響

職場資深秘書
2026-06-15 16:41:48
深夜白云機場大批老外被當場勸返!別再天真以為:有簽證就能入境

深夜白云機場大批老外被當場勸返!別再天真以為:有簽證就能入境

行者聊官
2026-06-18 09:58:27
SpaceX,股價大跌

SpaceX,股價大跌

澎湃新聞
2026-06-19 01:02:18
乘坐飛機,發(fā)現(xiàn)一個空姐很像豆包,蚌埠住了。

乘坐飛機,發(fā)現(xiàn)一個空姐很像豆包,蚌埠住了。

微微熱評
2026-06-18 12:42:56
韓媒:韓國足壇的奇恥大辱——中國足球裁判時隔24年擔任世界杯主裁

韓媒:韓國足壇的奇恥大辱——中國足球裁判時隔24年擔任世界杯主裁

寶哥精彩賽事
2026-06-18 10:24:39
某高考生自曝提前10天知曉成績,被質(zhì)疑后放話:我爸是教育局的

某高考生自曝提前10天知曉成績,被質(zhì)疑后放話:我爸是教育局的

西虹市閑話
2026-06-18 17:28:27
轟動全網(wǎng)的北京“退衣姐”被刑拘事件:我們還是低估了這群人的不要臉

轟動全網(wǎng)的北京“退衣姐”被刑拘事件:我們還是低估了這群人的不要臉

桌子的生活觀
2026-06-18 12:30:11
2026-06-19 03:52:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12816文章數(shù) 176500關注度
往期回顧 全部

科技要聞

庫克承認扛不住了,蘋果漲價“不可避免”

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經(jīng)要聞

博睿康IPO,賺錢業(yè)務與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

藝術
游戲
數(shù)碼
公開課
軍事航空

藝術要聞

臺北東區(qū)新門戶!南港雙星,像一道“城市裂痕”

PS5版《GTA6》已有店家開始預定!售價545元

數(shù)碼要聞

銘瑄公布MCIO接口ITX主板方案,展示高密度接口優(yōu)勢

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗外交部:美伊已簽署諒解備忘錄

無障礙瀏覽 進入關懷版