免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

Transformer之父離開谷歌,奧特曼等了他十年

0
分享至



Transformer的奠基人,開始參與尋找Transformer之后的下一步。

Google工程副總裁、Gemini模型聯(lián)合負(fù)責(zé)人Noam Shazeer在X上宣布,自己將離開Google,加入OpenAI。



Shazeer是《Attention Is All You Need》的核心作者之一,最早的“Transformer八子”就有他的名字。

從GPT到Claude、從Gemini到幾乎所有主流大模型,現(xiàn)代AI的底層結(jié)構(gòu)都繞不開Transformer,而Shazeer正是最早參與定義這套結(jié)構(gòu)的人之一。

2024年,Google曾通過一筆約27億美元的技術(shù)授權(quán)與人才回流交易,把Shazeer和部分Character.AI團(tuán)隊(duì)重新請回Google,讓他參與Gemini模型研發(fā)。不到兩年后,這位Gemini聯(lián)合負(fù)責(zé)人再次離開Google,轉(zhuǎn)身去了OpenAI。

據(jù)OpenAI首席研究官M(fèi)ark Chen發(fā)帖,Shazeer將擔(dān)任OpenAI新的架構(gòu)研究負(fù)責(zé)人。



Sam Altman也發(fā)帖表示,從OpenAI創(chuàng)立之初,Noam就是他最想合作的人之一。他等這一天等了十年,但很值得。



01

被Google反復(fù)追回的人,

又離開了Google

Noam Shazeer并不是第一次離開Google,從他的領(lǐng)英賬號(hào)來看,他的職業(yè)生涯幾乎一直在和谷歌“拉拉扯扯”。

Shazeer曾在2024年8月播出的Dwarkesh Podcast訪談中說,自己似乎每隔12年就會(huì)重新加入一次Google:2000年一次,2012年一次,2024年又一次。



2000年12月,Shazeer加入Google,成為公司早期的軟件工程師。那時(shí)的Google還很年輕,他也是最早一批加入公司的工程師之一。

Shazeer最早參與的重要項(xiàng)目之一,是改進(jìn)Google搜索的拼寫糾錯(cuò)系統(tǒng)。但他感興趣的不只是搜索——還有AI。

他在播客里說,自己當(dāng)年加入Google,有一個(gè)很樸素的想法:先賺一些錢,以后就可以長期做AI研究。

2009年,Shazeer曾短暫離開Google。公開資料并沒有詳細(xì)說明這次離開的原因。后來他在播客中回憶,幾年后自己回Google和妻子吃午飯,碰巧坐到了Jeff Dean和早期Google Brain團(tuán)隊(duì)旁邊,被那群人重新吸引。

2012 年,Shazeer重新加入Google。那一年,Google Brain正處在早期階段,Jeff Dean等人正在把深度學(xué)習(xí)從研究項(xiàng)目推進(jìn)到Google內(nèi)部更核心的位置。這次回歸也讓Shazeer從早期搜索工程體系,轉(zhuǎn)向Google的AI主航道。

幾年后,Shazeer的名字開始真正進(jìn)入現(xiàn)代AI史。

2017年,他和Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin等人共同發(fā)表《Attention Is All You Need》,提出了Transformer架構(gòu)。



后來發(fā)生的事情,已經(jīng)不需要太多解釋。幾乎所有主流大模型,底層結(jié)構(gòu)都繞不開Transformer。

Transformer之外,Shazeer很早就參與推動(dòng)稀疏MoE,也就是混合專家模型——這條路線的核心思想是,不讓每次計(jì)算都激活整個(gè)模型,而是根據(jù)不同輸入調(diào)用不同“專家”模塊,從而在擴(kuò)大模型容量的同時(shí)控制計(jì)算成本。

后來,MoE成為大模型擴(kuò)展和效率優(yōu)化的重要方向。

2021年,Shazeer和Google同事Daniel De Freitas離開公司,創(chuàng)辦Character.AI。據(jù)傳,這件事的導(dǎo)火索是Google拒絕公開發(fā)布他們參與開發(fā)的一款聊天機(jī)器人。



那款產(chǎn)品最初名為Meena,目標(biāo)是讓AI能圍繞廣泛話題展開自然對話。

據(jù)《華爾街日報(bào)》報(bào)道,Shazeer曾在一份內(nèi)部備忘錄《Meena Eats the World》中預(yù)測,這類聊天機(jī)器人有可能取代Google搜索,并創(chuàng)造數(shù)萬億美元收入。

但Google沒有選擇發(fā)布它,高管給出的理由包括安全性和公平性風(fēng)險(xiǎn)。對Google來說這或許是謹(jǐn)慎,但對Shazeer這樣的人來說,更像是一個(gè)巨大機(jī)會(huì)被放下——而機(jī)會(huì)被放下,往往意味著被錯(cuò)過。所以Shazeer離開了。

一年后,OpenAI用另一種方式證明了Shazeer的判斷。2022年11月,ChatGPT讓全世界意識(shí)到,聊天機(jī)器人可能成為普通人接觸AI的第一入口。

Character.AI也在這股浪潮中快速起勢。

2023年3月,Character.AI完成1.5億美元融資,估值達(dá)到10億美元。它主打各種可對話的AI角色,用戶可以和實(shí)用助手、虛構(gòu)人物甚至名人形象聊天。



當(dāng)年沒有放行Meena的Google,最后又不得不把Shazeer請回來。

2024年,Google與Character.AI達(dá)成一筆特殊交易:Google獲得Character.AI的部分技術(shù)授權(quán),同時(shí)把Shazeer、Daniel De Freitas以及部分研究團(tuán)隊(duì)帶回Google DeepMind。

為了拿到技術(shù)和人,Google付出的代價(jià)高達(dá)約27億美元。

據(jù)《華爾街日報(bào)》報(bào)道,Shazeer也因?yàn)槌钟蠧haracter.AI股份,在這筆交易中獲得了數(shù)億美元收益。

換句話說,Google當(dāng)年拒絕發(fā)布的聊天機(jī)器人路線,最后以另一種昂貴的方式回到了Google。

回歸后,Shazeer加入Gemini核心領(lǐng)導(dǎo)層,參與Google最重要的大模型研發(fā)。他的頭銜變成了Google工程副總裁、Gemini模型聯(lián)合負(fù)責(zé)人。

不到兩年后,劇情又迎來轉(zhuǎn)折——Shazeer又一次離開Google。這一次,他去的是做出ChatGPT的OpenAI。

細(xì)想來,他的故事多少像是一段關(guān)于chatbot的孽緣。

02

Transformer之后,

下一個(gè)改變時(shí)代的架構(gòu)

據(jù)OpenAI首席研究官M(fèi)ark Chen的說法,Shazeer將擔(dān)任OpenAI新的架構(gòu)研究負(fù)責(zé)人。

過去幾年,大模型行業(yè)最熟悉的敘事是scaling law:更多數(shù)據(jù)、更大模型、更多算力、更長上下文,帶來更強(qiáng)能力。

但從2024年開始,越來越多跡象表明,單純擴(kuò)大預(yù)訓(xùn)練規(guī)模的邊際收益正在下降。

Ilya Sutskever曾公開表示,預(yù)訓(xùn)練作為過去幾年最重要的scaling配方,正在接近數(shù)據(jù)和方法上的邊界;如果只是把規(guī)模再放大100倍,并不會(huì)自動(dòng)帶來下一次GPT-3到GPT-4式的跨越。

另一方面,Transformer本身的短板也開始暴露出來。

前些年,大家還會(huì)把問題理解成“模型還不夠大”或者“上下文還不夠長”,但現(xiàn)在越來越多研究顯示,很多能力瓶頸并不只是規(guī)模問題,而是架構(gòu)問題。

比如,長上下文不等于真正記憶。模型可以在幾十萬甚至上百萬token的上下文里檢索信息,但這不代表它真的維護(hù)了一個(gè)穩(wěn)定的內(nèi)部狀態(tài)。它能回看過去,不等于它清楚當(dāng)下的情況。

再比如,思維鏈不等于真正推理。Chain-of-Thought、reasoning model、test-time compute的流行,說明模型確實(shí)需要更多中間計(jì)算。但如果每一點(diǎn)狀態(tài)變化、每一個(gè)簡單推理,都要靠顯式文字寫出來,再重新喂回模型,本質(zhì)上是一種非常昂貴的補(bǔ)丁。

Google DeepMind前段時(shí)間發(fā)的論文《The Topological Trouble With Transformers》(Transformer的拓?fù)淅Ь常懻摰木褪巧鲜鰡栴}。



論文指出,純前饋Transformer在動(dòng)態(tài)狀態(tài)追蹤上存在結(jié)構(gòu)性短板。Transformer很擅長回看上下文,卻不天然擅長維護(hù)一個(gè)持續(xù)變化的內(nèi)部狀態(tài)。

論文舉了幾個(gè)直觀的例子:模型可以在上下文里看到前面的對話,卻仍然在多輪交互里出現(xiàn)前后不一致;它可以看到關(guān)于“bank”的上下文,卻在后續(xù)問題里從把這個(gè)詞從“河岸”理解成“銀行”;它也可能在猜數(shù)字游戲里給出互相矛盾的反饋。

如果一個(gè)模型只是把過去全部放進(jìn)窗口里,再通過注意力機(jī)制去查找,它更像是在翻一本很長的筆記,而不是持續(xù)擁有一個(gè)會(huì)更新的記憶。

說起來,這背后甚至帶有一點(diǎn)認(rèn)知科學(xué)和哲學(xué)意味。以人類本身為例,人的記憶和想象力共享一個(gè)高度重疊的核心神經(jīng)網(wǎng)絡(luò)——記憶并不是把過去完整存檔,然后在需要時(shí)原樣調(diào)取。很多時(shí)候,記憶更像是一種回溯性的重建:大腦在當(dāng)下重新組織線索、補(bǔ)全語境,并把過去、想象和判斷混合成一個(gè)可以行動(dòng)的狀態(tài)。

真正的智能,尤其是長程推理、多輪對話、規(guī)劃、代碼代理和復(fù)雜任務(wù)執(zhí)行,需要的不止是回顧過去,還要理解當(dāng)下實(shí)在的狀態(tài)。

當(dāng)然,Transformer畢竟是很久之前的底層架構(gòu),這篇說的“短板”其實(shí)更像是放在現(xiàn)在的評(píng)價(jià)框架里去看過去的一個(gè)架構(gòu)。

但也恰恰說明,Transformer未必一定適合我們當(dāng)下對于智能的需求。

現(xiàn)在圍繞Transformer的改造已經(jīng)層出不窮:MoE試圖解決參數(shù)規(guī)模和計(jì)算成本之間的矛盾;高效解碼試圖降低推理成本;長上下文試圖擴(kuò)展模型的記憶邊界;state-space model、遞歸結(jié)構(gòu)、latent reasoning、test-time compute,則試圖補(bǔ)上狀態(tài)追蹤、長期一致性和動(dòng)態(tài)推理的短板。

AI行業(yè)漸漸形成了一個(gè)新的共識(shí)——下一代模型不能只是更大的Transformer,它必須更會(huì)組織計(jì)算、更會(huì)維護(hù)狀態(tài)、更會(huì)在推理過程中更新自己對世界的表示。

于是,架構(gòu)問題又被翻了出來。

Shazeer加入OpenAI的象征意義就在于此,架構(gòu)研究負(fù)責(zé)人這個(gè)崗位指向的,正是前沿模型競爭最底層的問題。

這讓Shazeer的跳槽不再是“Transformer之父去OpenAI繼續(xù)加強(qiáng)Transformer”的故事,更像是一個(gè)參與定義Transformer時(shí)代的人,開始參與尋找Transformer之后的下一步。

03

機(jī)會(huì)成本、人才戰(zhàn)爭和下一代模型

對Google來說,Shazeer的離開當(dāng)然是損失——這個(gè)損失并不只是少了一位Gemini聯(lián)合負(fù)責(zé)人,還指向Google AI史里那個(gè)反復(fù)出現(xiàn)的問題:它常常很早看到未來,卻未必能最快把未來推到用戶面前。

Shazeer在播客中回憶,Larry Page以前常說,Google第二大的成本是稅,最大的成本是機(jī)會(huì)成本。(以防萬一,Shazeer還補(bǔ)了一句:如果Page沒說過,那自己已經(jīng)誤引他很多年了。)

Google擁有世界上最強(qiáng)的研究人員、最完整的工程體系、最先進(jìn)的TPU和數(shù)據(jù)中心、以及足夠龐大的產(chǎn)品入口。但越是這樣的大公司,越要在安全、公平、組織邊界和產(chǎn)品化風(fēng)險(xiǎn)之間反復(fù)權(quán)衡。

在AI這樣一個(gè)窗口期極短的行業(yè)里,謹(jǐn)慎本身可能是必要的,但謹(jǐn)慎也可能變成昂貴的延遲、機(jī)會(huì)的流失。

而對OpenAI來說,Shazeer的加入,意義非常重大——就連Sam Altman都表示“從OpenAI創(chuàng)立之初,Noam就是他最想合作的人之一”。

OpenAI得到的是一組極其稀缺的經(jīng)驗(yàn)集合:Transformer、MoE、大規(guī)模訓(xùn)練、高效解碼、對話模型、基礎(chǔ)模型工程,以及在Google這種超大規(guī)模系統(tǒng)里多年打磨出來的架構(gòu)直覺。

大模型架構(gòu)研究并不是提出一個(gè)漂亮想法就結(jié)束了。Shazeer在播客里說過,小規(guī)模研究最理想的狀態(tài),是早上醒來想到一個(gè)主意,當(dāng)天寫出來,跑一些實(shí)驗(yàn),很快看到初步結(jié)果。

而前沿模型研發(fā)真正困難的地方,恰恰在于從“小實(shí)驗(yàn)”走向“大系統(tǒng)”。一個(gè)改進(jìn)在小模型上看起來有效,放大到最大規(guī)模訓(xùn)練時(shí)未必還能成立;幾個(gè)單獨(dú)有效的技巧放在一起,也未必能協(xié)同工作。

到了最大規(guī)模訓(xùn)練,很多實(shí)驗(yàn)幾乎無法真正加速。最后仍然是N=1的實(shí)驗(yàn):一群最聰明的人坐在房間里,盯著訓(xùn)練結(jié)果,判斷到底是哪一部分起了作用,哪一部分拖了后腿。

OpenAI現(xiàn)在需要的,不只是更多GPU、或者再訓(xùn)練一個(gè)更大的模型。它需要更底層的架構(gòu)判斷:把有潛力的結(jié)構(gòu)放大到真實(shí)訓(xùn)練系統(tǒng)里,把效率提升轉(zhuǎn)化為成本優(yōu)勢,并用新的架構(gòu)變化打開下一代能力。

Shazeer最可貴的地方就在于判斷能力。

與此同時(shí),OpenAI正在面對十分沉重的財(cái)務(wù)壓力。

Financial Times報(bào)道稱,OpenAI 2025年支出達(dá)到約340億美元,凈虧損約390億美元;另有泄露財(cái)務(wù)文件口徑顯示,歸屬于OpenAI的凈虧損約為385億美元。

這里面包含不少復(fù)雜的會(huì)計(jì)和非現(xiàn)金項(xiàng)目,但方向很清楚:前沿模型競爭正在變成一場極其昂貴的戰(zhàn)爭。

OpenAI的緊迫感,部分也來自它最直接的對手Anthropic。

今年6月,Anthropic和OpenAI先后提交IPO文件,兩家公司幾乎在同一時(shí)間把自己推向公開市場。

在這個(gè)節(jié)點(diǎn)上,Anthropic一直在補(bǔ)強(qiáng)核心人才。今年4月,Anthropic請來前Microsoft Azure AI高管Eric Boyd擔(dān)任基礎(chǔ)設(shè)施負(fù)責(zé)人,負(fù)責(zé)支撐Claude繼續(xù)擴(kuò)張所需的底層系統(tǒng)。5月,Anthropic還拉來了OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy,讓他加入Claude的預(yù)訓(xùn)練團(tuán)隊(duì),并組建一個(gè)用Claude加速預(yù)訓(xùn)練研究的小組。

于是,OpenAI也在人才上抓緊補(bǔ)強(qiáng):Shazeer負(fù)責(zé)架構(gòu)研究,Clint Gibler加入OpenAI Cyber團(tuán)隊(duì),分別指向模型底層能力和安全能力。

這場人才戰(zhàn)背后,爭奪的是誰能更快找到下一代模型的訓(xùn)練方式、推理方式和組織計(jì)算的方式。OpenAI如果要在上市前繼續(xù)證明自己的領(lǐng)先性,就必須證明自己有能力把模型做得更強(qiáng)、更穩(wěn)定、更便宜。

而現(xiàn)在,OpenAI把這個(gè)問題交給了曾經(jīng)一位參與定義Transformer的人。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
又一個(gè)布倫森!跳出合同降薪續(xù)約,3年1.2億重情義,濃眉相形見絀

又一個(gè)布倫森!跳出合同降薪續(xù)約,3年1.2億重情義,濃眉相形見絀

你的籃球頻道
2026-06-19 09:45:44
流浪26年滿身污垢的沈巍,如今身價(jià)百萬還有小15歲女友,他憑的啥

流浪26年滿身污垢的沈巍,如今身價(jià)百萬還有小15歲女友,他憑的啥

從零到一研究所
2026-06-18 16:15:07
中國移動(dòng)董事、黨組副書記王利民履新司法部黨組成員、政治部主任

中國移動(dòng)董事、黨組副書記王利民履新司法部黨組成員、政治部主任

大風(fēng)新聞
2026-06-19 11:31:21
哥哥給哈佛20多億,媽媽給麻省11億,家族每年從中國商場收租百億

哥哥給哈佛20多億,媽媽給麻省11億,家族每年從中國商場收租百億

花小貓的美食日常
2026-06-19 01:56:30
不光停發(fā)績效,很多單位工資都發(fā)不出了!

不光停發(fā)績效,很多單位工資都發(fā)不出了!

細(xì)說職場
2026-06-19 15:00:25
FIFA:因科內(nèi)重傷世界杯報(bào)銷,薩索洛可獲最高750萬歐元補(bǔ)償

FIFA:因科內(nèi)重傷世界杯報(bào)銷,薩索洛可獲最高750萬歐元補(bǔ)償

懂球帝
2026-06-19 11:03:12
克洛澤16球王座終于有人摸到了——目前或僅有這三人有機(jī)會(huì)!

克洛澤16球王座終于有人摸到了——目前或僅有這三人有機(jī)會(huì)!

觀星娛記
2026-06-19 11:55:14
上海一餐館內(nèi)男子為護(hù)孕妻兩次勸煙被打,打人者被處500元處罰

上海一餐館內(nèi)男子為護(hù)孕妻兩次勸煙被打,打人者被處500元處罰

封面新聞
2026-06-19 15:14:19
私生活混亂、被央視“開除”、陪睡上位,她身上哪個(gè)標(biāo)簽是真的?

私生活混亂、被央視“開除”、陪睡上位,她身上哪個(gè)標(biāo)簽是真的?

素衣讀史
2026-06-18 21:37:31
整治冒充、偽裝、夾帶、黑灰產(chǎn)!中央網(wǎng)信辦專項(xiàng)治理賬號(hào)亂象

整治冒充、偽裝、夾帶、黑灰產(chǎn)!中央網(wǎng)信辦專項(xiàng)治理賬號(hào)亂象

南方都市報(bào)
2026-06-19 10:41:10
狂砸2200億出海,兩年虧光6年利潤,郭廣昌到底經(jīng)歷了什么?

狂砸2200億出海,兩年虧光6年利潤,郭廣昌到底經(jīng)歷了什么?

青眼財(cái)經(jīng)
2026-06-17 23:50:23
卡塔爾遭6球血洗,洛佩特吉怒噴加拿大:對手僅剩9人還不收手

卡塔爾遭6球血洗,洛佩特吉怒噴加拿大:對手僅剩9人還不收手

星耀國際足壇
2026-06-19 14:52:49
“雷仁勛”刷屏!小女孩拆穿“雷軍的新裝”:小米股價(jià)一年暴跌60%,市值蒸發(fā)近萬億

“雷仁勛”刷屏!小女孩拆穿“雷軍的新裝”:小米股價(jià)一年暴跌60%,市值蒸發(fā)近萬億

新浪財(cái)經(jīng)
2026-06-19 15:51:18
男子深夜醉駕致16歲少女被撞身亡,血檢濃度238mg/100mL,最初認(rèn)定肇事者全責(zé),申請復(fù)議后變主責(zé),警方回應(yīng):按正規(guī)程序進(jìn)行

男子深夜醉駕致16歲少女被撞身亡,血檢濃度238mg/100mL,最初認(rèn)定肇事者全責(zé),申請復(fù)議后變主責(zé),警方回應(yīng):按正規(guī)程序進(jìn)行

大風(fēng)新聞
2026-06-19 15:30:09
寶媽避雨被趕后續(xù):大批顧客退單,商家道歉也無果,門店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,商家道歉也無果,門店口碑崩了

千言娛樂記
2026-06-18 18:59:27
全網(wǎng)喊話韋東奕做高考數(shù)學(xué)卷,沒想到他的一句話,就讓千萬網(wǎng)友瞬間服氣

全網(wǎng)喊話韋東奕做高考數(shù)學(xué)卷,沒想到他的一句話,就讓千萬網(wǎng)友瞬間服氣

LULU生活家
2026-06-18 08:43:33
突發(fā),全線跳水!會(huì)談取消!美伊,重大變局

突發(fā),全線跳水!會(huì)談取消!美伊,重大變局

新浪財(cái)經(jīng)
2026-06-19 12:39:43
亂了!世界杯賽后爆發(fā)大規(guī)模沖突,比起6比0,更慘的是斷腿重傷

亂了!世界杯賽后爆發(fā)大規(guī)模沖突,比起6比0,更慘的是斷腿重傷

觀察鑒娛
2026-06-19 14:51:34
中美日3大經(jīng)濟(jì)體負(fù)債出爐:美國36萬億,日本9.1萬億,中國意外

中美日3大經(jīng)濟(jì)體負(fù)債出爐:美國36萬億,日本9.1萬億,中國意外

時(shí)尚的弄潮
2026-06-19 08:47:45
柬埔寨電詐最大黑手竟然是副總理?

柬埔寨電詐最大黑手竟然是副總理?

鳳眼論
2026-06-18 18:45:10
2026-06-19 18:39:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2556文章數(shù) 8066關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

吳倩自曝小時(shí)被爸爸打掉牙齒硬吞進(jìn)肚

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

本地
親子
房產(chǎn)
家居
公開課

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

親子要聞

嬰兒RSV預(yù)防迎來新選擇,創(chuàng)新單抗為寶寶呼吸健康護(hù)航

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調(diào)規(guī)!

家居要聞

綠意盎然 自然之境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版