網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

32問理想AI轉(zhuǎn)型：從輔助駕駛、自研芯片到具身智能，高管集中回應(yīng)外界質(zhì)疑

2026-06-18 20:22:19　來源: 車東西

北京舉報

分享至

車東西（公眾號：chedongxi）
作者｜國仁、頤圣
編輯｜志豪

車東西6月18日消息，在日前舉行的Livis Day理想汽車軟件與具身智能發(fā)布會上，理想汽車正式發(fā)布了圍繞軟件、AI芯片、基座模型和具身智能的一系列技術(shù)進(jìn)展。

理想汽車介紹了自研AI推理芯片馬赫M100 Ultra、馬赫 VLA、3D ViT、馬赫Mind等核心能力，并進(jìn)一步闡釋了其從電動車向“具身智能汽車”演進(jìn)的技術(shù)路徑。

發(fā)布會后，理想汽車CTO謝炎、理想汽車基座模型負(fù)責(zé)人詹錕接受了包括車東西在內(nèi)的媒體采訪。

▲理想汽車CTO謝炎

兩位高管圍繞L9 Livis上市后的輔助駕駛體驗反饋、理想追趕特斯拉FSD V14的路徑、自研芯片馬赫M100的架構(gòu)和量產(chǎn)挑戰(zhàn)、車內(nèi)AI算力中心、艙駕融合、基座模型以及具身智能汽車等話題進(jìn)行了詳細(xì)回應(yīng)。

▲理想汽車基座模型負(fù)責(zé)人詹錕

車東西在不改變原意的情況下進(jìn)行了部分編輯，以下為采訪實錄：

一、用戶體驗關(guān)怎么過？正視與FSD差距、苦練輔助駕駛基本功

1、（車東西總編張國仁提問）L9 Livis上市后，有不少用戶反饋智駕變道和加速度不夠積極。請問這主要是什么因素影響？芯片和平臺遷移后，怎么才能恢復(fù)并超越此前的體驗水平？要達(dá)到特斯拉FSD V14的效果，我們還需要做哪些工作？

謝炎：其實（輔助駕駛）的整體能力，內(nèi)部評分比之前高很多，這個模型現(xiàn)在的上限非常高，變道切換非常類人。您講到加速度，后續(xù)版本就會改進(jìn)。這不是真正難的問題，真正難的問題是要擴大模型的感知與認(rèn)知能力的上限。

看這個版本的模型在很短時間內(nèi)，已經(jīng)達(dá)到了量產(chǎn)水平。很多公司都是先發(fā)芯片，再花一段時間適配上車。我們不僅提供了高階的智駕、城市NOA（城區(qū)領(lǐng)航輔助駕駛），而且比上一版本能力強很多。當(dāng)前版本在特別小的路上開，能夠繞開所有的車，在非常窄的3米路況上也可以通行。

詹錕：我承認(rèn)當(dāng)前版本有一些特性，不一定那么討好?！奥边@個反饋，實際上是我們這個版本的選擇，這不是一個難的事情，只是風(fēng)格的選擇。我相信你能感受到它的舒適性非常好，包括加減速、平順度比之前高很多，這一代確實比上一代好不少。

真正的難題是能不能追上FSD，我認(rèn)為追上FSD有兩個層面。

第一是基礎(chǔ)體驗，具體是三方面：安全感、效率、舒適度是否能達(dá)到FSD的同等水平。相信大家如果開過FSD，它的安全感非常足，效率很好，舒適度很好，這是它的基本功。我不一定跑很難的路，但這些基本功可以達(dá)到這個水平。

第二是能力，這一點也很難追。FSD有哪些能力是別人沒有的？比如特斯拉會禮讓特殊車輛，有極窄通行時的感知精準(zhǔn)度，它會識別交警指揮，這些能力非常強。

如果我們能做到這兩項，就能追上FSD。在基礎(chǔ)體驗上，這需要非常好的評價體系。我們希望從自己的測試團隊和產(chǎn)品團隊開始，跟用戶和媒體一起想，怎么去評價我們的模型——它的安全感、舒適和效率怎么平衡。這里有很多方法，我們很有信心可以追上FSD V14的水平。再加上我們芯片性能還沒完全釋放，我們可以效率更高、反應(yīng)更快，所以這個問題不大。

第二個關(guān)于能力，這里有架構(gòu)升級的機會。為什么別人沒有、只有特斯拉有？這里有我們的一些思考。我們會去做這樣的改進(jìn)，把這些能力提升上來。大家想想，這些能力是怎么來的？為什么別人沒有？可能是以前的范式限制了這些能力，有架構(gòu)的原因，有數(shù)據(jù)的原因。它怎么就能找到這么多倒車數(shù)據(jù)？這是采集的還是合成的？怎么把這些坑坑洼洼的信息傳回去？這在架構(gòu)上有很好的設(shè)計。我們在這個層面做了很多嘗試，目前也有一些初步的實踐結(jié)果。如果這兩個方面能追上FSD V14，就是一個很厲害的結(jié)果。

2、數(shù)據(jù)是這個時代最寶貴的資產(chǎn)。隨著理想車隊規(guī)模的躍升，從理想內(nèi)部來看，數(shù)據(jù)的邊際效應(yīng)是不是出現(xiàn)了衰減？我們是怎么定義價值數(shù)據(jù)的？

詹錕：現(xiàn)在大家對于自動駕駛來說，數(shù)據(jù)的理解逐漸收斂了。

第一，數(shù)據(jù)的量要足夠大，數(shù)據(jù)量足夠大的本質(zhì)是希望收集到更多的Corner Case（長尾場景）。從Normal Case來看，現(xiàn)在的供應(yīng)商都已經(jīng)可以采集了，找個幾百人的車隊就可以去采，Normal Case是足夠的。但是采集Corner Case非常難，必須要足夠大的車隊才行。

基數(shù)大，但不是說把所有數(shù)據(jù)都傳回來，這沒有意義?，F(xiàn)在大家有很多方法在車端做出很好的neural trigger（神經(jīng)網(wǎng)絡(luò)觸發(fā)器），來判斷這個場景是難場景還是簡單場景，然后把這些關(guān)鍵數(shù)據(jù)傳回來。這也是現(xiàn)在特斯拉很強的重要原因之一。

對我們來說，我們現(xiàn)在規(guī)模已經(jīng)很大了，主要來源于我們很早就做了很好的基建統(tǒng)一。我們從理想ONE（參數(shù)丨圖片）開始就可以回傳數(shù)據(jù)了。但從理想L9開始，是全棧所有數(shù)據(jù)回傳。現(xiàn)在到了Livis具身智能更強了，現(xiàn)在回傳的數(shù)據(jù)可以理解為達(dá)到了L4自動駕駛的公司采集車隊的數(shù)據(jù)質(zhì)量，360°點云和攝像頭數(shù)據(jù)做了精準(zhǔn)的對齊，這些數(shù)據(jù)給了我們長尾收斂、思考問題的機會。

第二點，質(zhì)量要高，主要指行為質(zhì)量高?，F(xiàn)在大家逐漸收斂到端到端的范式，無論做VLA（視覺-語言-行為模型）、World Model（世界模型）還是Vision-Action（視覺-動作模型）都可以，但是一定得知道Action的行為，這時候行為質(zhì)量就非常重要，行為的干凈程度、一致性很重要。這對于使用眾包車隊的公司來說很有挑戰(zhàn)。

因為每個人的開車習(xí)慣不一樣，怎么在這么多的眾包用戶中找到一致行。這是我們努力做的事，而且也看到了很多機會點。這相比于采集車隊來說，難度就在這里。采集車隊的眾包行為沒那么好控制，但我通過算法可以迅速把好的行為留下來，壞的行為去掉。比如每次過紅綠燈時，是不是穩(wěn)定的加速度；遇到丁字路口時，能否穩(wěn)定減速；每次超車時是否合理變道，這些都需要清晰的判斷。

正因為我們有很大的車隊，所以可以篩選出很多高質(zhì)量的用戶行為和用戶數(shù)據(jù)。我們用后面的方法來篩選，就簡單很多。因為他在發(fā)起行為時，我不確定他的行為好不好。但他開完以后，通過看他的后車距離、變道幅度和角度，就知道是否合理。所以我通過后面完整的數(shù)據(jù)來看，就可以知道他的每一個行為是不是合理。這對于我們來說非常重要，也是我們現(xiàn)在投入最大力度做的事情。

現(xiàn)在數(shù)據(jù)規(guī)模上去以后的邊際效應(yīng)有沒有衰減？首先，模型能力要朝著100分去努力，而這一定是個“對數(shù)曲線”，是慢慢衰減的，不可能線性增長。但是我們的數(shù)據(jù)質(zhì)量，能隨著車隊規(guī)模的增大而增長，其實也在抵抗這個對數(shù)，我們有更多的機會采集到我們想要的數(shù)據(jù)。雖然確實越往后面，數(shù)據(jù)收斂的作用就沒那么快了，但我們也希望通過規(guī)模，把它的速度加起來。

3、前年有一個共識，理想、華為、小鵬處于自動駕駛的第一梯隊。接下來VLA、世界模型、數(shù)據(jù)驅(qū)動，大家投入了很大的數(shù)據(jù)、算力和資金。大家認(rèn)為隨著時間延長，各家的能力差距會越來越大。但從最近的表現(xiàn)來看，差距反而在縮小，自動駕駛的Scaling Law似乎沒有起來。接下來理想要拉大差距的話，會做什么事？

詹錕：一年前到現(xiàn)在，智駕格局確實發(fā)生了變化，感覺差距變小了。但從另一個角度看，從一年前到現(xiàn)在，很多玩家已經(jīng)不在了，現(xiàn)在至少智駕的玩家收斂了。

有幾個原因。一是智駕是重投入，它不是把一個公司的算法帶到另一個公司就能轉(zhuǎn)起來，它是一個系統(tǒng)，涉及到系統(tǒng)、人、技術(shù)、算力、平臺，這是很大的壁壘，無法在短期內(nèi)建起來。

為什么感覺第一梯隊差距沒拉大？這里要思考，我們?nèi)绾谓⒆o城河，靠什么能讓別人無法快速追上。我認(rèn)為要參考特斯拉。

第一，全棧才能建立真正的護城河。算力、芯片、基礎(chǔ)設(shè)施能不能完全統(tǒng)一在自己的可控范圍內(nèi)，這很重要。如果只是算法，中美之間的人才流動很快，很容易被遷移。但如果整套技術(shù)是全棧的，遷移成本很高，也很難。

第二，下苦功夫。（也就是）愿不愿意把精力投入到苦功夫上，是護城河。哪些是苦功夫？比如精細(xì)地洗數(shù)據(jù)。這里有很多細(xì)節(jié)，這些細(xì)節(jié)并不高大上，但這些一點一滴的細(xì)節(jié)才能形成護城河。我們也會在這方面持續(xù)加大投入，逐步把護城河建起來?，F(xiàn)在已經(jīng)有全棧自研的機會了，我們會加大投入，把這些苦功夫做下來。

雖然第一梯隊之間的差距感覺變小了，但大家跟特斯拉的距離并沒有縮小，特斯拉還是很強。如果我們完成年底追上特斯拉的計劃，是有機會脫穎而出的，也是我們一直想做的事情。

4、昨天介紹的馬赫VLA，我理解這是一套技術(shù)體系而不是一個單獨的模型，現(xiàn)在的智能駕駛模型中還有“L”（Language語言）的部分嗎？

詹錕：現(xiàn)在自動駕駛的架構(gòu)，只要往后面走，大家都會有一個共同的趨勢，就是把VLA（視覺-語言-行為模型）和World Model（世界模型）整合在一起。從長遠(yuǎn)來看，沒有誰不往這個方向走。而且Language問題，無論做VLA還是World Model，里面的Prompt（提示）都要用Language。所以肯定有Language，只是Language怎么用的問題。

我覺得更本質(zhì)的問題是馬赫VLA到底是Language Based Model還是Vision Based Model？昨天說的機器智能和語言智能，我覺得這兩個可能正好是兩個不同方向的base。機器智能來說，我覺得Vision Based（基于視覺）是更合理的，它是對空間理解、對3D空間的感知、對環(huán)境服務(wù)是更合理的。Language肯定有用，對理解環(huán)境、理解交通、理解指導(dǎo)、理解復(fù)雜的思考決策都是有價值的。馬斯克一直在說要把Reasoning（推理）上車，雖然還沒上，但大家都在往這方向做，而且Language一直是我們很重要的一個中間監(jiān)督項。

但對于語言智能來說，Language Based（基于語言）永遠(yuǎn)是最好的，沒有哪個語言智能是用Vision Based的。但要不要Vision（視覺）？那必須要，否則怎么能看到車內(nèi)人的動作呢？從長遠(yuǎn)來看，基于Vision和Language原生的基礎(chǔ)模型，可能是長遠(yuǎn)的未來趨勢。

謝炎：我再補充一下。大家問Language的問題比較多，回歸到本質(zhì)，這都是方法。如果要走向L3、L4，要解決更泛化的問題時，模型需要具備像人類一樣的思考能力。

如果它只有Vision和Action（視覺和動作），它有很多數(shù)據(jù)，碰到分布以外的情況就會不知道怎么辦。比如出現(xiàn)一頭鴕鳥和一頭大象時，應(yīng)該怎么處理？如果是鴕鳥，碰一下沒事；如果碰到大象，碰一下可能就會翻車。這只能通過大量的數(shù)據(jù)，給它幾十億公里的數(shù)據(jù)。

而一個動物，哪怕學(xué)會了所有常見情況，碰到這種從未見過的情況完全不會處理，它不知道做什么選擇是對的。

我們認(rèn)為越往L3、L4走，解決的問題越來越接近90%、95%、98%之后的問題——這些從來沒見過的問題，需要模型具備像人類一樣思考的能力。而得到像人一樣推理和思考能力的來源是語言模型。

人和動物的最大區(qū)別，是人以語言作為符號進(jìn)行高層次的思考，這些能力來自于語言，而不是來自于視覺。我們認(rèn)為越往后走，語言的重要性會越突出，這也是未來需要很大算力的原因。因為如果只有Vision-Action，算力到了一定程度就夠了。但如果要往后走，模型需要理解各種場景，比如有個警察在做手勢，系統(tǒng)要理解他是在讓你做什么，這不是靠收集數(shù)據(jù)或生成數(shù)據(jù)就能解決的問題。

5、今年理想新做的3DViT技術(shù)，之前的智駕感知是先做BEV，先拍圖，后面再做OCC立起來，再到3DViT，更接近于人類的感知。倒著看有點像彎路，為什么會走這個彎路？什么條件達(dá)成了，到了今天的地步，以后會不會有新的方向進(jìn)展？

詹錕：我認(rèn)為這不叫技術(shù)的彎路。無論是做模型還是三維空間建模，我們把OCC定義為空間建模，這些思想都來自于上世紀(jì)。CNN（卷積神經(jīng)網(wǎng)絡(luò)）是80年代的東西，只不過2012年GPU發(fā)展時才爆發(fā)。LSTM（長短期記憶網(wǎng)絡(luò)）也是1997的東西，到了2010年才逐漸應(yīng)用。Transformer也是如此，稠密計算很早就有了，但之前沒有爆發(fā)。本質(zhì)原因是思想要隨著當(dāng)前的基礎(chǔ)設(shè)施、硬件、算力統(tǒng)籌升級，不是說有一個想法就能直接用起來。所以技術(shù)迭代會一直跟隨當(dāng)前的環(huán)境、硬件、任務(wù)需要在變。

從自動駕駛來說，2022年特斯拉在發(fā)布會上講BEV方案，方案也不是新的，只是基于它的強大算力，在特征級把場景做融合，這是大家沒有想到的。那會兒由于算力就那么大，不能做很深的稠密高度估計，只能變成單層或者采樣很稀疏的BEV。到了OCC階段，是把稀疏變密，這是算力或硬件的一次升級帶來的東西。

3DViT是什么？可以理解為基于3DGS（三維高斯濺射）或全新稠密三維空間的新的三維表示。從2025年到2026年，CVPR（計算機視覺與模式識別會議）的Best Paper都是這個領(lǐng)域。去年的論文是劍橋大學(xué)老師做的，基于圖像直接投射出三維空間，直接預(yù)測三維深度。2026年的CVPR是DeepMind基于傳感器把三維空間動靜分離。所以我們未來三年內(nèi)，就是基于這個路徑做。我們把大家之前認(rèn)為的柵格化、需要人類表征的東西，變成不用表征。OCC先不定義類別，任何物體和任何元素我都可以投射三維空間，它有外觀、RGB、紋理、屬性。這樣的建模方式需要隨著下一代的算力增加才能做到。

它不是繞彎路，而是思想隨著條件的成熟才能用起來。隨著大家相信Scaling Law（規(guī)模定律），把模型規(guī)模和參數(shù)規(guī)模越提越高，讓這些思考發(fā)揮越來越大的作用。如果算力不夠用，規(guī)模不夠，想法再好也實現(xiàn)不了效果。

謝炎：我補充一下。高科技技術(shù)產(chǎn)品的商業(yè)化落地是一步一步的。比如特斯拉早期沒有Mobileye，就沒有今天的FSD，它不可能做到今天這種程度。今天來看，有人會說Mobileye的方法太古老了，為什么它不能一下子做到今天的端到端呢？因為當(dāng)時的條件完全不具備。而條件完全不具備時去做，不能完全落地，也不能商業(yè)化。所以肯定先從Mobileye的技術(shù)棧開始，再到FSD的第一代，再不斷完善。它在2021年有很多規(guī)則，現(xiàn)在規(guī)則越來越少。商業(yè)化是一步一步做的，大家認(rèn)為有好的想法就應(yīng)該一步到位，這不太現(xiàn)實。

6、3DViT我們大概是什么時候開始研發(fā)這個技術(shù)路徑的？3DViT目前能達(dá)到跟激光雷達(dá)一樣的效果嗎？

詹錕：3DViT來自于去年的CVPR的論文VGGT（VGGT: Visual Geometry Grounded Transformer），這證明了2D視覺也能學(xué)會完整的3D空間結(jié)構(gòu)，證明了Scaling Law在3D空間的全新可行性。

第二，之前團隊一直在往這方面探索和嘗試，中間做了很多方案的取舍和權(quán)衡。最后因為我們看到3D ViT對空間深度的理解、物體精細(xì)度的理解能達(dá)到激光雷達(dá)級別的效果，我們?nèi)ツ瓴耪綇难芯刻剿麟A段轉(zhuǎn)入產(chǎn)品開發(fā)階段。在這個過程中，我們把它變成一個真實項目，放到最新的馬赫VLA里面來。原來馬赫VLA不一定使用3D ViT，但有了會更好。3D ViT后續(xù)還有更大的改進(jìn)與優(yōu)化空間，這也是追上FSD V14很重要的一環(huán)，中間的視覺信息能不能表征清楚，這是非常關(guān)鍵的。

3D ViT是一個純視覺方案，它不依賴于激光雷達(dá)。它基于視覺，把空間建模成帶有色彩信息的全彩點云，基于更強的視覺編碼器和空間視覺表征，做到更豐富的3D理解。

關(guān)于幀率和激光雷達(dá)效果，這其實是兩個問題。高幀率主要是提高反應(yīng)速度，因為激光雷達(dá)幀率有限，只有10Hz，視覺能做到30Hz甚至更高，我們基于視覺能做到更高的反應(yīng)速度。

能不能達(dá)到激光雷達(dá)的效果？我們是有信心的。因為我們最新所有的車都標(biāo)配了激光雷達(dá)，激光雷達(dá)對純視覺方案有非常強的監(jiān)督和校驗作用。不一定要達(dá)到跟激光雷達(dá)完全一樣的精度嗎？特別是看遠(yuǎn)處時，人也分不清大貨車是20.8米還是19.8米。但在極近處，人對深度的感知非常敏感，我們也是如此，在極近處能達(dá)到激光雷達(dá)的水平，這是上線的標(biāo)準(zhǔn)。另外，理解空間以后更重要的是做出更擬人的行為決策。

7、3DViT先開始是基于Thor芯片，然后是過來才融合的馬赫M100？

詹錕：3D ViT一開始就是在馬赫M100做的驗證，不是從Thor遷移過來的。

8、3DViT能識別近處物體。在融合了3DViT，它以后會對低矮物體進(jìn)行識別嗎？

詹錕：低矮物體的識別涉及兩方面：一是能不能識別，二是識別精度多高。近處物體的數(shù)據(jù)精度一定更高，通過激光雷達(dá)采集回來做監(jiān)督，可以很好地提升識別精度。另外，其實不只是能不能識別的問題，更關(guān)鍵的是識別后能不能做出合理的避讓動作，這是個綜合問題，不但要能理解，理解后還要做出合理的行動。在最新的馬赫VLA里，這方面會做得更好，昨天發(fā)布會上也展示了很多VLA在復(fù)雜場景下的避讓案例。

9、第一，關(guān)于3D ViT，3D結(jié)構(gòu)對人來說很直觀，但對模型來說完全不直觀，3D ViT對智駕行為的改善，具體體現(xiàn)在哪些方面？第二，昨天發(fā)布會上提到強化學(xué)習(xí)數(shù)據(jù)提升了15倍，在馬赫M100平臺上，具體會在哪些場景去做強化學(xué)習(xí)？

詹錕：先說第一個問題。人眼有兩個非常重要的特性：第一是實時雙目，雙目天然就帶了3D結(jié)構(gòu)，這一點很厲害；第二是前額葉很強，能抽取非常高維特征的表征。做深度學(xué)習(xí)本質(zhì)上是在做表征學(xué)習(xí)，就是把信息映射到高維空間的特征，這個特征長什么樣子我們沒法直觀描述，但它要包含所有下游想要的信息，這是大腦在做的事。

人的雙眼時刻去觀察3D物理空間以后，大腦中整個物理空間會有很強烈的3D感。但是攝像頭，特別是單目攝像頭，天然是沒有3D感的。人眼如果遮住一只，當(dāng)習(xí)慣了雙眼訓(xùn)練以后，單目也能看到3D結(jié)構(gòu)，因為前額葉已經(jīng)把這種能力固化下來了。

對機器來說也是這個思路：用很高維的3D空間數(shù)據(jù)去訓(xùn)練它。即便攝像頭在移動中，也能構(gòu)建出三維空間，這就是典型的3D建模思路。任何一段視頻進(jìn)來，通過三維建模構(gòu)建出三維空間，任何一個單目攝像頭就可以知道三維空間是什么樣，跟人的思路一模一樣。通過這種方式，3D ViT就可以深刻理解3D環(huán)境。

補充一點，激光雷達(dá)也能理解3D環(huán)境，它是主動光。但3D ViT的特點是，除了理解環(huán)境的3D結(jié)構(gòu)外，還能理解3D物體的屬性、紋理、類型，因為它有RGB（色彩信息），保留了所有信息。甚至還能做tracking（目標(biāo)追蹤），就是對移動物體做動靜分離，在3D環(huán)境中很容易判斷目標(biāo)是動還是不動，這就是光流的作用。把這些能力結(jié)合以后，高維的視覺表征就非常豐富，不會有遺漏。比如地面有個坑和溝，就很容易識別出來。

如果我拿BEV來表達(dá)的話，我沒有定義什么是溝和坑，對下游決策來說就缺少了這個信息，這就叫高維表征的缺失。所以只有解決了這個問題，才能給下游提供更完整的信息，下游才能根據(jù)這些表征做出正確的動作。

以前大家熟知的“The Bitter Lesson”（苦澀的教訓(xùn)），是指機器不要加任何人為先驗，用數(shù)據(jù)訓(xùn)練，一定做得比人更好?，F(xiàn)在最新的理念是“Vision Bitter Lesson”（視覺苦澀教訓(xùn)），就是怎么判斷視覺表征好不好？看有沒有做出對應(yīng)的動作。

我們通過構(gòu)建一個非常好的三維空間表征標(biāo)準(zhǔn)，讓下游把動作真正理解好，這樣視覺能力就得到了充分的展現(xiàn)。

第二個問題，強化學(xué)習(xí)。強化學(xué)習(xí)最重要的是決策和行為的聯(lián)合優(yōu)化?，F(xiàn)在所有訓(xùn)練范式中，強化學(xué)習(xí)都是post-training（后訓(xùn)練）階段的一部分，主要針對訓(xùn)練中的弱勢場景、數(shù)據(jù)分布不好的場景、或者混淆度高的場景。這需要有很精細(xì)的拆分方法，把這些場景識別出來后，讓模型在里面自主探索，通過reward（獎勵信號）給它反饋探索的結(jié)果對不對，對決策和行為做聯(lián)合強化。具體場景非常多，比如繞行、變道等，都是通過這套方法論，找到post-training中的弱勢場景來做強化，不是一概而論的。

二、馬赫M100已量產(chǎn)上車架構(gòu)、編譯器和持續(xù)迭代是難點

10、昨天看到馬赫M100推出來很驚喜，您四年前看到了什么、堅持了什么？當(dāng)時整個行業(yè)都還在馮·諾依曼架構(gòu)的路徑依賴中，您當(dāng)時看到了什么需求和變化？

第二，您昨天提到整個鏈條要從頭到尾全部變短才是真正的全棧優(yōu)化，背后的組織是怎么實現(xiàn)的？從產(chǎn)品到技術(shù)到組織，您作為CTO是如何重構(gòu)協(xié)作體系的？

謝炎：四年前，我們給自己立了一個很高的目標(biāo)，這個目標(biāo)也是一個非常合理的目標(biāo)——就是自研。我們?yōu)槭裁匆匝?？我和李想有一個非常一致的意見：自研不是為了證明自己有能力做，而是真正去解決問題。

四年前我們看到的問題：一是算力成本非常高，而且會不斷變高，因為車內(nèi)需要越來越多的AI算力。二是我們希望通過自研做得更好。當(dāng)時我們用英偉達(dá)和地平線，我們給自己定的目標(biāo)是，如果做不到比外購芯片更好，那做的意義不大。當(dāng)時定的目標(biāo)是4倍Orin的性能。

當(dāng)然這個目標(biāo)不是瞎定的，我們花了半年時間進(jìn)行分析。如果要達(dá)到這個目標(biāo)，背后有一套邏輯——要做得比英偉達(dá)更好，用英偉達(dá)的技術(shù)路線是不可行的。因為英偉達(dá)早啟動幾十年，積累深，資源還多幾個數(shù)量級。就像跟博爾特在100米賽道上，他比你早跑2秒，那你不可能超過，唯一的機會就是跑另外一條路徑。

在這個思路的指引下，我們開始看其他技術(shù)路線。就是扔掉所有以前的架構(gòu)依賴，回到本質(zhì)，從第一性原理看AI計算本身還有什么機會。我在讀研究生時，我導(dǎo)師高光榮教授是數(shù)據(jù)流架構(gòu)的奠基人之一，他在MIT時就做這個事。當(dāng)然在通用計算時代并不成功。我們發(fā)現(xiàn)他的思想本質(zhì)是：要做的是計算，馮·諾依曼架構(gòu)相當(dāng)于幫人類做一個中介去實現(xiàn)計算，中間有翻譯層，這個翻譯幫助人類更好地去編程，但這個中介和翻譯會降低效率。如果回到計算的本質(zhì)，可以把中間的翻譯拿掉。當(dāng)然的確很少有企業(yè)做過實踐，中國也是如此。所以大家看到的機會都是一樣的，關(guān)鍵是如何極致地解決這個問題，從第一性原理來倒推。我們四年前定了這樣的目標(biāo)，并且覺得是可行的。

關(guān)于組織協(xié)作。為什么垂直整合比較重要？因為要做到這一點，只有硬件團隊不夠，還必須有模型團隊。我們設(shè)計芯片時，軟件團隊、模型團隊坐在一起分析?？赡芨渌静灰粯樱覀兪沁@幾個團隊坐在一起，而且大家比較興奮——之前很多做軟件的人根本沒有機會直接對硬件團隊提需求。

在組織上，我們希望以某一個核心的、有挑戰(zhàn)的目標(biāo)為中心，圍繞它構(gòu)建項目團隊。實際團隊是分開的，但像一團篝火一樣，有硬件的人、有軟件的人、有模型的人，大家在大目標(biāo)下一起共創(chuàng)、一起實現(xiàn)。我們內(nèi)部越來越多的項目會往這個方向走。它不是一個硬的組織隔離，而是一種軟的合作機制。

11、第一，馬赫M100是否因為沒設(shè)計PCIe接口，導(dǎo)致對自動駕駛來說兩顆芯片協(xié)同用處不大？額外一顆芯片的核心用處是什么？第二，馬赫M100是不是對帶寬需求不，對片上存儲需求更高？第三，兩位老師怎么看一些人覺得“理想太喜歡類比是因為技術(shù)判斷力不足”這個觀點？

謝炎：我認(rèn)為未來智駕需要更多的算力?；氐?022年我們設(shè)計芯片時的目標(biāo)，它的性能是當(dāng)時最好芯片的4倍，我們覺得夠了。PCIe控制器本身也占一些面積和成本，所以就沒有加，覺得四年以后怎么也夠了。某種程度來說，我認(rèn)為加上會更好，因為有可能未來智駕需要更多的算力。但沒有PCIe不代表這個芯片不行，其實是完全可行的。

可以想象當(dāng)未來的智駕能力更強時，也許不是幾年，也許是兩年后，需求就不一樣了，這也是我們設(shè)計未來芯片時會考慮到的點。

按照昨天發(fā)布的場景，今天有一些云端的大模型最終要落到本地，特別是跟艙內(nèi)視覺相關(guān)的。很多人會敏感，覺得艙內(nèi)攝像頭把車內(nèi)信息都上傳到云端不安全，所以這些信息應(yīng)該在本地處理。比如在地庫跟一輛車像跟機器人一樣交流，而地庫沒有信號，所以需要很強的本地大模型，幾B到幾十B的模型。所以會有另外一顆芯片，更好地承擔(dān)這部分工作。

關(guān)于第二個問題，我們對帶寬的要求會低，但這也并不是設(shè)計SRAM容量（不是顯存）的直接原因?，F(xiàn)在HBM（高帶寬內(nèi)存）很火，很多人覺得帶寬越高越好。計算，帶寬，SRAM等等都是需要晶體管代價來實現(xiàn)，最終的設(shè)計都是成本/綜合性能等多方面的綜合設(shè)計考量后的一種選擇。不同的架構(gòu)設(shè)計，僅僅靠一兩個指標(biāo)來做簡單對比，既不合理也不專業(yè)。這就像打拳擊比賽，高有高的優(yōu)勢，體重大有體重大的優(yōu)勢，但不是由單一指標(biāo)決定了勝負(fù)，最終比的是拳擊這個運動的結(jié)果。泰森，既不是最高也不是最重的，卻是拳擊最強的那一個。

M100 通過編譯器顯式編排數(shù)據(jù)搬運與計算時序，絕大多數(shù)張量數(shù)據(jù)在片上流動完成算子運算與中間結(jié)果傳遞，大幅減少了對于直接進(jìn)出 DDR 的訪存次數(shù)，因此對外部 DDR 帶寬依賴更低。

關(guān)于第三個問題。我在內(nèi)部也希望給大家做類比，因為類比是幫助大家理解，只有理解的比較深，才能做出合適的類比。類比不等于我們不知道背后的原因，相反，我們希望通過類比把復(fù)雜的原理講得更清楚。大家如果關(guān)注理想汽車的技術(shù)，會發(fā)現(xiàn)無論是在芯片還是智駕領(lǐng)域，我們都有大量公開的技術(shù)論文。每年我們都會發(fā)表幾十篇頂會論文，覆蓋從模型、系統(tǒng)到芯片的完整技術(shù)鏈路，而且這些論文對技術(shù)思考和實現(xiàn)路徑都有比較清晰的闡述。

如果大家感興趣，可以去看一下我們的論文，會看到我們背后的技術(shù)思考到底是什么。所以我們的類比并不是憑空產(chǎn)生的，也不是為了包裝概念，而是建立在真實技術(shù)原理之上的。一個有技術(shù)根基、有原理支撐的類比，才是有效的類比。

詹錕：關(guān)于類比的問題，我來補充一下。類比有兩種。

第一種是幫助對外宣傳和溝通，幫助大家理解。類比成人、類比成大腦，這是為了幫助大家更好地理解技術(shù)。

第二種類比，大家也要關(guān)注。從第一性原理出發(fā)，我們在思考為什么要造未來的硅基人或具身智能，這個類比是從第一性原理看到的，而不是生硬地從技術(shù)上對應(yīng)到一個簡單的事物。其實技術(shù)思考很深刻，我們有很多深入的工作、精細(xì)的工作在做。從2022年到現(xiàn)在，我們發(fā)了近200篇論文或技術(shù)報告，這個數(shù)量非常多。雖然不是所有頂會都有中稿的文章，但投稿的文章更是不知道有多少篇了，我們在這方面有非常深的研究。

類比只是為了幫助大家理解，深入淺出地做一些說明而已。但其實技術(shù)思考是很深入的，并不是簡單類比一個簡單的事物。

12、看了芯片設(shè)計的架構(gòu)之后，理想的核心思路是針對很多場景做特定的優(yōu)化與加速。如果未來同時引入了大量的Agent應(yīng)用，這套架構(gòu)能不能很好地應(yīng)對Agent爆發(fā)式的流量？模型的通用性是一方面，帶寬和并行能力能不能應(yīng)對Agent的爆發(fā)？

謝炎：您可能想問它的通用性問題。我們芯片第一個重要的業(yè)務(wù)毫無疑問是自動駕駛，但我們沒有做成只能跑一個模型。它的數(shù)據(jù)流可以跑任何模型算子，不僅可以跑自動駕駛，也可以跑語言模型，昨天我介紹了我們能跑Qwen 35B（通義千問350億參數(shù)模型）。

我們是個端側(cè)芯片。作為端側(cè)芯片，它的服務(wù)query（請求）不會很多。如果我們設(shè)計一個云端芯片，是同時服務(wù)1000個用戶。但端側(cè)芯片的要求不一樣，它服務(wù)的對象往往只有一兩個任務(wù)，它要求的是更短的延時，而不是服務(wù)更多的對象。如果是云端芯片，架構(gòu)還是數(shù)據(jù)流，但設(shè)計和端側(cè)芯片就不一樣了。

13、馬赫M100芯片對編譯器的要求非常高，編譯任務(wù)非常重。跟傳統(tǒng)編譯器相比，有什么不一樣？做這個編譯器對人才的要求有什么不一樣？未來芯片的競爭會不會變成對新型編譯器人才的競爭？

謝炎：我自己在研究生時代就做編譯器。像通用CPU的編譯器，其實也很難。一直以來，編譯器就不是一個容易的事，如果學(xué)計算機會知道編譯器是計算機里最難的課，比操作系統(tǒng)還難。

數(shù)據(jù)流和傳統(tǒng)的馮諾伊曼架構(gòu)不同。馮諾伊曼架構(gòu)是為了適應(yīng)人類的思考，把計算抽象成順序的指令，這樣人可以一步步做推理。而數(shù)據(jù)流是大規(guī)模的并發(fā)，多條數(shù)據(jù)流同時在進(jìn)行，它不僅在時間上往前推，在空間上也要布局，叫時間空間編譯。再加上我們沒有指令順序，基本上是用消費者-生產(chǎn)者的模式，大量的消費者和生產(chǎn)者在同步進(jìn)行，這需要完全不一樣的編譯框架。我們做這個事花了大量的時間。

▲數(shù)據(jù)流架構(gòu)

我們對人才的要求是，不僅要懂編譯，也要懂架構(gòu)。反過來講，做硬件的人也要懂軟件編譯器怎么用。所以我們的編譯團隊也是架構(gòu)團隊，這個芯片是軟件、硬件、架構(gòu)團隊一起設(shè)計的。

關(guān)于未來的人才競爭，我非常同意Jack B.Dennis教授的一句話，他是數(shù)據(jù)流的鼻祖，我的導(dǎo)師是他的學(xué)生。他在2000年講了一句話，他說現(xiàn)在計算機分工太細(xì)了，硬件的人不懂軟件，芯片的人不懂編譯器，軟件的人不知道硬件怎么work（運作）。大家沒有意識到，當(dāng)同時看到硬件與軟件，本質(zhì)就是計算機完整的圖景，當(dāng)看到所有東西時，就可以創(chuàng)造更大的創(chuàng)新?？从嬎銠C理論的話，它本身不分硬件軟件，本質(zhì)就是如何讓一個計算任務(wù)完成。為什么后面分出了硬件與軟件？因為有一部分用軟件來抽象效率更高，有一部分用硬件來抽象效率更高。但當(dāng)需要更大的創(chuàng)新時，應(yīng)該打破這個邊界，重新看計算機是怎么設(shè)計的。

今天美國非常創(chuàng)新的公司，他們思考的東西是從根本上打破軟硬件的邊界——把傳統(tǒng)認(rèn)為是軟件的東西放到硬件上，把傳統(tǒng)認(rèn)為是硬件的東西放到軟件上，這樣才能得到劃時代的創(chuàng)新。如果原來怎么做，今天還是怎么做，性能的提升速度遠(yuǎn)遠(yuǎn)趕不上需求。今天摩爾定律越來越弱了，縮放定律已經(jīng)失效了很多年，會拖慢整個AI發(fā)展的速度。

14、馬赫M100芯片在理想的定義里是一款A(yù)I推理芯片，而不是AI訓(xùn)練芯片，這兩者的邊界是什么，背后的思考是什么？在AI訓(xùn)練領(lǐng)域英偉達(dá)已經(jīng)很壟斷了，跟它做競爭是不是很難追上？AI推理是個非常好的市場，你們怎么看AI芯片領(lǐng)域未來的市場格局或規(guī)模？

謝炎：我認(rèn)為AI計算的算力市場，最終會出現(xiàn)99%的推理，訓(xùn)練只占很小的部分。從這個角度來講，今天中國和美國大量的公司在為了更高的效率專門做推理芯片，也是這個原因，因為最終推理市場更大。如果推理市場沒起來，說明AI沒有真正落地。

從我們的角度而言，我們公司先要解決推理問題。訓(xùn)練的話，用市場上好的訓(xùn)練芯片，目前夠我們用了。

從經(jīng)濟模型角度來講，訓(xùn)練要的是效率，它對成本不太敏感。訓(xùn)練要的是在足夠短的時間內(nèi)迭代。至于成本高了50%，甚至高了100%，也沒關(guān)系。英偉達(dá)最高端的芯片，很多公司以翻倍的價格也愿意買。但是推理芯片不一樣，它要同時考慮成本與效率，而且考慮成本的比重非常高。從解決公司和業(yè)務(wù)問題來講，推理問題更大，它跟我們想要達(dá)到目標(biāo)的gap（差距）更大。如果我們做一件事的話，我們就解決機會最大的問題。

15、第一，昨天理想說是全世界性能最強的AI芯片，引起了很大的討論，有一些質(zhì)疑的聲音。跟這些友商相比，理想的領(lǐng)先性體現(xiàn)在哪些方面？第二，去年M100流片，為什么今年才量產(chǎn)上車，有什么考量？在做芯片過程中，有什么挑戰(zhàn)或故事可以分享下嗎？你們評估過理想自研芯片預(yù)計達(dá)到多少的出貨量，才能回本呢？

謝炎：我們?yōu)槭裁锤艺f自己是世界第一呢？因為我們跟市面上標(biāo)準(zhǔn)可以獲得的芯片做對比，它是英偉達(dá)Thor-U三倍的性能。我們可以拿出Benchmark（基準(zhǔn)測試），甚至可以讓第三方做測試。我們也跟一個第三方測試機構(gòu)聊過，測試機構(gòu)說其它家都不愿意拿出來做比較。如果要公平地比較，可以拿到一個公平、綜合的Benchmark去做合適的比較。

對于上車時間我們已經(jīng)做得很快了。做芯片基本要5年時間，而我們用了近4年時間就實現(xiàn)了上車，而且模型都可以正常跑起來。

至于在過程中遇到的困難，肯定是有的。軟件、編譯、模型適配，這都是有很多困難在里面，而且這些坑只有實際做了才知道。昨天有些同行說，看了我們的論文以后，說把論文寫得那么詳細(xì)，別人家著論文是不是就可以復(fù)刻。但我們不擔(dān)心，因為把這個架構(gòu)要落地是非常長的距離，而且中間有很多坑，只有真正做才知道，才能邁過去，邁不過去，就停在那兒了。

第二，我覺得數(shù)據(jù)流架構(gòu)for AI是一個大的技術(shù)方向，它比其它架構(gòu)更適合，我希望更多的同行能跟隨這條路。就像馮·諾伊曼提出來技術(shù)路線，很多公司跟隨。從更長時間來看，這不是一件壞事。

16、動態(tài)數(shù)據(jù)流編譯器到底難在哪，我們花了多長時間，最后是怎么攻克的？

謝炎：我們從一開始設(shè)計時就開始了，并不是流片回來再做編譯器。在流片前，甚至設(shè)計時，就開始做編譯器工作了，在流片前，已經(jīng)把很多模型給跑通了。至于難點，傳統(tǒng)的CPU編譯器經(jīng)過幾十年發(fā)展，已經(jīng)有一套成熟的理論，follow就好，像英偉達(dá)的上層架構(gòu)、谷歌的架構(gòu)，已經(jīng)非常成熟，前人已經(jīng)把樓的基礎(chǔ)建得很好了，大家只要在此基礎(chǔ)上做差異化的東西就可以。

而數(shù)據(jù)流是完全不同的架構(gòu)，它要解決的問題非常類似于超級計算機或大規(guī)模計算機集群要解決的問題——當(dāng)規(guī)模擴大到幾十萬臺計算機、上百萬顆核，它們之間互相通信、互相協(xié)作時，沒辦法通過一個中央管理員去管幾十萬顆核。傳統(tǒng)馮·諾依曼架構(gòu)的調(diào)度方式在這個規(guī)模上就不可行了，這是一個超大規(guī)模的并行調(diào)度問題。

17、去年年中，為什么還要重新做編譯器開發(fā)？去年年中迭代的那一版主要是解決什么問題？

謝炎：編譯器工作不是做完就結(jié)束了。從流片前、回片后、部署上車后，一直會持續(xù)迭代，因為編譯器的核心任務(wù)是把硬件效率發(fā)揮出來，需要一版一版不斷優(yōu)化。去年年中那一版主要是把性能優(yōu)勢充分發(fā)揮出來。

我在20多年前學(xué)編譯課時，老師第一課就講：編譯問題是個NP-Complete（NP完全）問題，是計算機理論里最難的問題之一。大家并不知道最佳性能點在哪，但可以不斷逼近。所以“跑通”跟“跑到最好”距離非常大，而且最好永遠(yuǎn)不可及，只能不斷逼近。我們在跑馬赫VLA模型時，性能已經(jīng)是ThorU的三倍了，但我們覺得依然有潛力可挖，依然在繼續(xù)迭代編譯器。

18、我想問幾個芯片相關(guān)的問題。首先關(guān)于數(shù)據(jù)流架構(gòu)的局限性，之前的CNN模型映射到數(shù)據(jù)流架構(gòu)會比較好，但現(xiàn)在模型進(jìn)化到了Transformer和MoE結(jié)構(gòu)，芯片是否還適合模型架構(gòu)的進(jìn)化？

謝炎：我認(rèn)為數(shù)據(jù)流架構(gòu)比馮·諾依曼架構(gòu)更貼近計算的本質(zhì)。馮·諾依曼做的事情是為了人類編程方便，抽象了數(shù)據(jù)的順序指令流，GPGPU（通用圖形處理器）也是多個指令流，做SIMT（Single Instruction Multiple Threads，單指令多線程模型）。為了人類編程方便，用指令流順序表達(dá)，又要有高并行度，所以需要做很多硬件額外開銷，把并行度重新挖出來。

我認(rèn)為數(shù)據(jù)流最重要的一個思想是：假設(shè)對人類編程的方便性降低，我靠很強的編譯器，甚至靠AI編譯器，能不能拿掉這部分額外開銷？CPU和GPU架構(gòu)里有大量的晶體管開銷用在cache coherence（緩存一致性），比如instruction reordering（指令重排序）、branch prediction（分支預(yù)測）。一個CPU，30%的晶體管開銷在這上面。如果不用馮·諾依曼架構(gòu)，這些都可以拿掉。

cache coherence（緩存一致性）也是同樣的道理，不僅緩存一致性本身會占用晶體管規(guī)模，更大的問題是，為了做到緩存一致性，并行規(guī)模不會特別大。如果把scalability（可擴展性）拉起來的話，緩存一致性就是個災(zāi)難，這是不可行的。早期有研究表明，8到16核做緩存一致性就非常困難了，時間開銷很大，效率開銷也很大。

講到本質(zhì)，就是這些額外開銷能不能拿掉。這樣做的代價就是編譯難度會變大，調(diào)度難度會變大。在過去這不可行，首先并行度沒那么高，除了高性能計算，就是所謂的超級計算機，模擬核爆炸或預(yù)測天氣，這種場景并行度非常高，這種場景下用programming model（編程模型）是有意義的。

AI有大量的并行，需要分配到不同的計算單元時，這個架構(gòu)就有優(yōu)勢了。我昨天講了，幫把晶體管利用率提升。

MoE和Transformer的計算密度沒那么高，特別是decode階段可能計算密度沒那么高，帶寬瓶頸會更大，這的確是需要解決的問題。在計算密度不高的workload（工作負(fù)載）里，斯坦福去年有一篇論文講Mega kernel（一項針對大語言模型低延遲推理的系統(tǒng)級優(yōu)化技術(shù)），它把kernel做大，就是為了避免數(shù)據(jù)頻繁進(jìn)出。Groq和Cerebras為什么要做那么大的片上內(nèi)存？就是因為數(shù)據(jù)全放在片上的效率更高，可以不進(jìn)出DDR（雙倍速率內(nèi)存），因為DDR的瓶頸很高，而且成本也很高。今天大家都要用HBM（高帶寬內(nèi)存），但都不想用HBM，因為太貴了?；氐杰嚿细侨绱耍覀冇貌涣薍BM。我們通過架構(gòu)的方式把進(jìn)出DDR變少，讓效率進(jìn)一步提升，不僅是晶體管利用率提升，計算效率也提升。

19、芯片上有24核CPU的結(jié)構(gòu)，包括NPU里面也有RISC-V的CPU核存在，這些是不是用來處理動態(tài)數(shù)據(jù)流或動態(tài)決策，就是靜態(tài)編譯沒辦法處理的情況下，會轉(zhuǎn)到CPU上？

謝炎：其實24核的CPU只用來跑Linux，因為它是個SOC（片上系統(tǒng)），需要一個操作系統(tǒng)來控制AI的workload（工作負(fù)載），還要跟外界通訊，還要做IO（輸入輸出）。今天的自動駕駛除了AI推理還有其他任務(wù)，這些任務(wù)更適合CPU做，所以CPU不可缺。再往后走，Agent場景中30%是AI推理，30%是CPU，30%是IO。如果到了Agent的intensive workload（密集型負(fù)載），我的觀點是CPU和AI都重要，這不矛盾。但AI是計算最需要解決的問題，因為模型的規(guī)模會變大，主要增大的部分就是AI的推理部分。

20、這兩年有很多車企都發(fā)布了自己的芯片，正常來講芯片是高投入、長研發(fā)、需要驗證的產(chǎn)品，但這兩年頭部車企都在做芯片。從理想的角度來講，您覺得未來有多少車企會真正做成自研芯片？在當(dāng)下芯片產(chǎn)業(yè)鏈快速發(fā)展的情況下，哪些環(huán)節(jié)是被加速的，哪些過程是必須要經(jīng)歷的？

謝炎：第一，為什么這么多車企都發(fā)布芯片，是不是這件事很容易？我想說其實挺不容易。我們自己做這顆芯片花了4年，在新勢力里我們啟動最晚。大家要看發(fā)布芯片后，最終結(jié)果是最領(lǐng)先的模型什么時候真正落到車上。從這個時間來看，除了我們以外，其他家一般要5年時間甚至更長，我們是最快的。所以要有點耐心，第一顆芯片如果真的自己做的話，沒那么容易，一般要花5年時間。

做一顆芯片和做一顆領(lǐng)先的芯片，難度又是不一樣的。有些公司做了芯片，但這顆芯片不夠領(lǐng)先。我跟李想說過，我最擔(dān)心的事不是做不出來，最糟糕的事情是做出來了但它不領(lǐng)先，那公司這個錢就白花了，這是我最不想看到的結(jié)局。

我們看業(yè)界，并不是每一家公司都能做到。現(xiàn)在很多公司宣布做了，但并沒有真正落到車上。要看它什么時候落到車上，什么時候把最高端的智駕用自研芯片跑起來，并且還能做好用戶體驗。再者，看是不是所有車都能用。有的公司為了證明自己能用，只用了一款車型，出貨量只有幾千輛，其他車還是用外購芯片，說明它也知道這件事并沒有幫它解決真正的問題。

我認(rèn)為要看幾個指標(biāo)：全量的車能不能用上，能不能快速上車，能不能跑最先進(jìn)或最新一代模型，并且部署到所有車上。另外一個指標(biāo)是能不能持續(xù)迭代。做一代芯片不說明問題，最終要做出第二代、第三代。很多公司只做了第一代，第二代就不做了。有些公司也可能買個IP就做了，也可以宣傳自己自研。

但我們不是，因為我們連論文都可以看到，這個世界上沒有第二個芯片跟我們做的一樣，完全沒有，甚至連這個思路都是我們提出來的，沒有任何已有的IP可以follow。

▲理想自研芯片論文入選ISCA2026

21、在芯片產(chǎn)業(yè)鏈里，哪些環(huán)節(jié)是可以被加速的，哪些環(huán)節(jié)是必須要自己踩坑的？

謝炎：有些技術(shù)是成熟的，比如偏后端的部分，有點像造房子，找工程隊壘磚，是可以找到供應(yīng)鏈加速的。但是真正要做到量產(chǎn)、做到最領(lǐng)先，設(shè)計肯定要自己做，軟件要自己做。如果連軟件都外包給別人的話，就不可能迭代芯片性能。當(dāng)然生產(chǎn)一般都是fabless，大家不會自己再去造工廠，這是另外一回事，生產(chǎn)今天是成熟的。

回到國內(nèi)，我們會越做越深。如果做芯片要持續(xù)領(lǐng)先的話，僅僅做芯片設(shè)計，做成GDS2（版圖數(shù)據(jù)庫），交給Fab（晶圓廠）去做流片，這也不夠。很多部分要跟封裝廠聯(lián)合設(shè)計，要垂直整合。有些技術(shù)不僅僅是貨架商品，由別人提供就可以，但要深入到封裝制造領(lǐng)域才能領(lǐng)先。我們不會停留于此，會越做越深。

三、艙駕融合不是芯片融合車內(nèi)AI算力要統(tǒng)一調(diào)度

22、五年后或者再往后看兩代產(chǎn)品，理想汽車車內(nèi)的算力中心有沒有可能全部使用自研的馬赫芯片？第二，我們看到提升模型幀率對系統(tǒng)體驗有明顯改善，什么時候能看到更高幀率的模型上車，是7月、9月還是12月？

謝炎：我先回答第一個問題。您說得很對，我們就是這么思考的。雖然業(yè)內(nèi)有一個說法叫“艙駕一體”，我們認(rèn)為艙駕一體最核心的是AI算力部分，其他部分是不是一體沒那么關(guān)鍵。因為座艙系統(tǒng)跟AI智駕系統(tǒng)可以完全獨立，但AI算力可以集中在一起，這樣分配效率會高很多。所以我們路線圖的最終形態(tài)是車內(nèi)一個AI計算中心，所有AI任務(wù)都可以到這個計算中心去計算。就像筆記本上跑OpenClaw一樣，AI的計算不在筆記本上，而是在Token Provider Server（Token供應(yīng)服務(wù)器）上，車?yán)镆差愃?，有一個Token Server（Token服務(wù)器）。

這個Token Server的優(yōu)勢：第一，效率非常高。第二，能做到不同任務(wù)互相隔離、互不影響。比如智駕任務(wù)的確定性——無論是內(nèi)存還是帶寬，能夠保證不被其他任務(wù)干擾，這是軟件和硬件一起設(shè)計才能實現(xiàn)的。只靠芯片提供商做不到這一點，需要軟件跟硬件一起配合設(shè)計。

我們的優(yōu)勢在于，可以把一些計算單元完全隔離給智駕用，另一部分給其他任務(wù)用。如果是通用的SRT（Secure Reliable Transport，安全可靠傳輸協(xié)議）?架構(gòu)，它不能完全做到這一點，因為這些東西藏在硬件里，而硬件并不知道上層應(yīng)用的語義。它不知道下面跑的線程是智駕任務(wù)還是其他任務(wù)，或者說它做這些事情的代價非常高。就像我昨天發(fā)布會說的，我們走向數(shù)據(jù)流架構(gòu)有很多原因，有效率的原因，也有AI場景下多任務(wù)需要并行運行、對時延非常敏感、對資源確定性要求很高的原因。

詹錕：首先，LiDAR（激光雷達(dá)）我們不是去掉了。但LiDAR能不能作為前融合的主傳感器，這需要我們思考。如果我想提高幀率，LiDAR的幀率有物理限制，因為機械結(jié)構(gòu)的原因，10到15赫茲就到頂了，不能再高。如果想做到更高的輸入頻率，只能靠視覺。更高的輸入頻率對細(xì)節(jié)反應(yīng)有很大提升，像特斯拉的細(xì)節(jié)反應(yīng)速度就是這么來的，這是上限。所以我們必須拉高上限，基于純視覺把輸入上限拉高。我們正在往這個方向做，大概率會在某一個節(jié)點切入到類似的水平。

我們內(nèi)部有很多版本的純視覺方案，最難的是看效果怎么樣，這不是拍腦袋的事，要以實踐結(jié)果來證明。特斯拉是36赫茲的輸入，輸出不一定是36赫茲。所以我們肯定要提高幀率，接下來會先上15赫茲、20赫茲。將來一定會以更高的幀率做輸入，純視覺帶來更好效果以后，我們就會替換上來。

第二，我們認(rèn)為LiDAR有一個很大的優(yōu)勢，就是對L3和L4場景下的安全兜底。我們會一直往 L4 這些方向去努力。我們能不能在真正的安全底線下做得更好，這是很重要的事。畢竟純視覺輸入信息有限，而LiDAR在極端情況下可以解決很多問題，所以LiDAR的作用很重要，我們會通過其他方式保證更強的安全。

基于這樣的判斷，下半年最重要的兩件事：第一，用純視覺提高幀率，把芯片性能發(fā)揮到更大，反應(yīng)速度大幅提升。第二，LiDAR會承擔(dān)很重要的數(shù)據(jù)采集環(huán)節(jié)，它對L3、L4各種極端場景很有幫助，我們會持續(xù)提升安全，安全不能妥協(xié)。

23、為什么現(xiàn)在的大算力芯片方案，比如英偉達(dá)、小鵬、理想自研的這些，都沒有做芯片級的艙駕融合，反倒是高通在低算力的驍龍8650上做了這件事？這是為什么？

謝炎：這個問題很好，好多年前就和一些芯片同行討論過。從本質(zhì)上講，艙和駕是兩個獨立系統(tǒng)。特別是對高端的L3往L4走，智駕需要一個更高確定性的系統(tǒng)，內(nèi)存是專屬、計算資源是專屬，這時融合的意義就小了很多。因為資源不能實時切換，實時切換會降低確定性。如果變成越來越獨占的方向，融合的價值就不大了——畢竟只是把芯片拼在一起，但資源還是兩份，并不會帶來成本的降低，甚至?xí)绊懶省?/p>

對低端來說，L2對切換的實時性要求不高，有一部分確實可以有限地共享，但我認(rèn)為也不多，未來會證明這一點，因為今天只是個概念。

我認(rèn)為真正的艙駕融合是艙需要的資源和駕需要的資源在物理上完全是一塊，可以動態(tài)共享。不是形式上放在一起，但實際切成兩半，這不叫融合。融合就像筆記本跑瀏覽器和其他應(yīng)用程序，筆記本的內(nèi)存完全可以共用，一會兒跑這個，一會兒跑那個。

現(xiàn)在的艙駕融合系統(tǒng)肯定還是分開的，今天做不到一會兒跑這個一會兒跑那個。如果做到的話，融合的價值確實很大，但做不到的話，只是減少一定的成本——因為把兩個芯片放成一個芯片，晶體管數(shù)目也許不變，只是省了一次封裝的成本。對中低端芯片來說這部分錢可以省，但也省不了太多。我的觀點是，越往后走智駕越來越高端，艙駕融合這件事可能意義并不大。

如果把這些芯片做得更近一點，在一塊板上做成很小體積的集成化方案，這是可以的，并不一定要做成一塊芯片，也可以多塊芯片放在一起。

24、做基座模型是不是汽車公司想站在AI前沿的必要基礎(chǔ)能力？基座模型有沒有可能也出現(xiàn)類似的外部統(tǒng)一生態(tài)，可以給所有公司去適用？

第二個問題關(guān)于艙駕融合，怎么確保智駕鏈路的可靠性不受影響？在算力分配上，座艙運行大模型推理時需要較大的算力和內(nèi)存，怎么確保智駕的算力不受擠占？另外在產(chǎn)品開發(fā)節(jié)奏上，座艙需要快速迭代，智駕需要更長的驗證周期，兩者怎么協(xié)調(diào)？

詹錕：關(guān)于基座模型，我認(rèn)為答案是肯定的。只要想走具身智能和AI方向，基座模型一定是必爭之地?；Ｐ筒惶赡芟馩S（操作系統(tǒng)）一樣有一個標(biāo)準(zhǔn)件，因為每個人的場景任務(wù)不一樣，需求也不一樣，所以基座模型需要自己建。特別是語言模型的基座，做汽車有汽車的基座，我們對視覺語言的重視更多，參數(shù)量的分配比例也跟通用模型不同。

所以基座模型一定要做?，F(xiàn)在大家都講基座模型，其實每個公司表述的意思都不一樣，要看具體是什么含義。核心有兩種類型的任務(wù)——語言智能和機器智能，這兩個對基座模型的需求是不一樣的。可以共用一個云端大模型做基礎(chǔ)，但實際使用中一定是有區(qū)分、有差異化的，我們也是在往這個方向做。我們已經(jīng)有非常強大的統(tǒng)一基座模型，可以構(gòu)建物理環(huán)境，我們對它有很多反饋和評價機制。但真正落到車上時，需要有裁剪、有取舍、有參數(shù)量的適配、芯片能否承載，我們要做不同的改造。

至于將來會不會有一個技術(shù)收斂的外部模型給所有廠商直接用？如果說有開源的pre-training（預(yù)訓(xùn)練）模型，這是有可能的。但想讓一個pre-training模型就直接給大家當(dāng)基座用，我覺很難。大概率大家還是要做很強的post-training（后訓(xùn)練），才能變成真正能用的基座模型。

謝炎：我來回答第二個問題。簡單說，你可以想象一個職業(yè)司機和一個生活助手，這是兩個角色，不是一個人。不是說一個人可以一會兒開車，一會兒放音樂。算力和相關(guān)軟硬件基礎(chǔ)設(shè)施也是獨立的，這是兩套系統(tǒng)。我們的算力可以靈活分配給不同角色使用，但在使用時，兩者不會互相干擾。

25、第一，能否透露一下馬赫Mind-Pro模型的架構(gòu)和參數(shù)量？未來有沒有考慮過像小米MIMO那樣對外開源？

第二，李想總在羅永浩的節(jié)目中聊過，想基于下一代馬赫芯片做一個家庭算力中心，類似英偉達(dá)DGX Spark的理念。這個項目現(xiàn)在是否在推進(jìn)中？出于什么考慮？適用于怎樣的場景？

詹錕：第一個問題，Mind-Pro是一個性能不錯的主流模型。模型架構(gòu)采用了MHA（多頭注意力）、GQA（分組查詢注意力）之類的架構(gòu)設(shè)計。

要不要對外輸出？這是一個商業(yè)選擇問題。我們自己車的本體有強烈的優(yōu)化傾向性，沒有必要對外去卷coding（代碼能力）這個賽道?，F(xiàn)在大家賣token主要還是往coding方向走，我們沒必要卷這個方向。

但我們?yōu)槭裁丛谶@些benchmark（基準(zhǔn)測試）上取得了不錯的成績？因為我們對自己的硬件本體有非常深刻的理解。我們車上有很多硬件資源需要調(diào)度，如果用其他第三方大模型去試，效果不會比我們好，反應(yīng)還很慢，常識錯誤也很多。我們通過強化學(xué)習(xí)以后，模型對車身運動有很強的理解——知道車身如何晃動，里面有很多tools（工具接口）可以調(diào)用。只有基于自己的本體做了強化以后，才會有非常深刻的優(yōu)勢。我們不一定要跟別人去卷coding，因為那是另一個賽道了，不符合理想汽車的主路徑。

▲馬赫Mind-Pro跑分

如果有機會往具身應(yīng)用方向做開源的話，從長遠(yuǎn)來看可能有這個機會，但目前各家硬件差異較大，并不一定完全能通用。這是我們想做的方向——把我們的模型跟Agent和物理世界結(jié)合得更好，這就是馬赫Mind要解決的問題。

▲馬赫Mind-Pro性能對比

謝炎：我來回答第二個問題。我們做的M100本質(zhì)上是一個通用AI推理芯片，理論上講，它能很好地推理自動駕駛模型，也可以推理語言模型。有同事說這個芯片這么好，能不能裝到家里面，因為他需要一個私人的家庭算力。出發(fā)點是從這里開始的。下一代芯片毫無疑問會更強，經(jīng)過一定的改造，我相信放在家里非常有競爭力。

四、全棧自研有門檻要看組織、數(shù)據(jù)和工程投入

26、理想汽車這幾年經(jīng)過很多次智能化的體系調(diào)整，最終把芯片、基座模型和智能輔助駕駛整合成統(tǒng)一的團隊，您作為CTO視角來看，理想的“三位一體”和特斯拉的FSD、HW、xAI相比，差異化的護城河在哪？是組織效率，還是技術(shù)路徑的差異？

謝炎：這個問題很好。跟特斯拉相比，大家出發(fā)點是一樣的。如果想圍繞AI做出強競爭力有兩方面。

第一是，需要快速迭代。今天的AI發(fā)展很快。從芯片領(lǐng)域來說，英偉達(dá)也迭代很快，不僅是自己迭代快，還不斷收購公司補充自己的技術(shù)，說明這個行業(yè)競爭非常激烈。所以迭代快，是我們進(jìn)行組織整合的一個目標(biāo)，幾個團隊更緊密地合作，迭代速度會上去。

第二是，需要垂直整合。理想汽車推崇構(gòu)建垂直整合的競爭力。在這個時代，如果沒有自己的芯片，只做自己的模型，那么如果遇到需要芯片和模型聯(lián)合設(shè)計，才能把問題解決得更好的情況下，我們就失去了這樣的機會，特別是一些大的創(chuàng)新。

我個人觀點是，當(dāng)技術(shù)發(fā)展到平臺期時，這時分工會很細(xì)。比如PC（計算機）發(fā)展到2010年時，分工非常細(xì)了，操作系統(tǒng)歸操作系統(tǒng)、應(yīng)用歸應(yīng)用、芯片歸芯片、制造歸制造。但是如果技術(shù)處于高速發(fā)展期，斜率非常高時，就會發(fā)現(xiàn)很多公司又回過頭來做整合，因為需要在技術(shù)邊界上把分工打破，重新做整合。

比如英偉達(dá)之前只做芯片，現(xiàn)在英偉達(dá)連封裝和機架都開始收購公司來做。所以英偉達(dá)要解決更進(jìn)一步的問題時，需要上下游一起來做，如果分成多家公司來做，其實效率是非常低的，甚至是不可能的。英偉達(dá)做Vera Rubin（AI超級芯片平臺）時，可以看到不僅是多種處理器，而且機架、散熱技術(shù)、互聯(lián)技術(shù)都是英偉達(dá)來做。雖然英偉達(dá)是做計算的公司，但現(xiàn)在全拓展開了。我認(rèn)為技術(shù)快速發(fā)展的時代，這是有志于領(lǐng)先的公司肯定要走的一條路。當(dāng)然這個投入肯定不小，很多公司不具備這種能力。在我們團隊，以我個人為例，我的背景是做過操作系統(tǒng)、架構(gòu)、應(yīng)用層等AI各個方向，所以我們的整合效率相對更高一些。

除此之外，組織規(guī)模小一點也是優(yōu)勢。如果需要高密度、高整合度，組織規(guī)模不能太大，如果組織規(guī)模太大，就會導(dǎo)致很多部門墻。這是為什么我在公司強調(diào)要保證比較小的組織規(guī)模的原因，就是想讓大家合作得更緊密些。如果團隊規(guī)模很大，每個團隊都給自己立一道墻，自己成為一道閉環(huán)，相互之間的合作就會很難。

27、垂直整合和水平分工在歷史上會不停地重復(fù)發(fā)生。特斯拉最早用Mobileye方案，接下來軟件自研、硬件用英偉達(dá)，最后全部自研。請問自研芯片背后需要什么條件？比如銷量、營收、研發(fā)投入。目前自動駕駛迭代速度很快，芯片要持續(xù)迭代的話，需要什么樣的條件？

謝炎：如果業(yè)務(wù)需要自研核心技術(shù)，比如芯片，先期投入的確不小，可能一年要好幾億。

第一個條件是達(dá)到一定的營收規(guī)模。對車企來說，營收規(guī)模一年1000億以上，研發(fā)投入至少10%，就有大幾十億到上百億，每年投錢研發(fā)芯片是可以的。

第二個條件是，研發(fā)芯片解決的問題，要能讓產(chǎn)品能力更強?；氐绞昵埃恍┓康禺a(chǎn)公司也做高科技，問題是它投入的高科技對主營業(yè)務(wù)幫助非常小。比如我是房地產(chǎn)公司去投芯片，這個意義不大，芯片對賣房子沒幫助，對未來也沒幫助，更多是象征意義，而沒有實際意義。

以上是最重要的兩個條件。

這里有個誤區(qū)，很多人說芯片要有很大的出貨規(guī)模才行。其實芯片的成本和面積相關(guān)。一輛車上的芯片，比如Livis是2顆馬赫M100，加起來800平方毫米。而一部高端手機芯片大概100平方毫米，所以一輛車的智駕芯片相當(dāng)于8臺手機的芯片面積。會有人說車的量比較少，但成本不僅僅跟數(shù)量有關(guān)，也跟面積有關(guān)。這樣算下來，大幾十萬輛車需要的晶圓面積非常大，完全可以攤薄成本。所以成本不能僅用顆數(shù)來衡量。有的IT公司說一年出貨好幾億顆，但其實每顆面積非常小。不能脫離背景只談量，這是不完整的。

我們在馬赫M100立項時算過，做這個芯片不會讓公司的效益變差，而是會變好。我們不是為了證明自己能做而做，不僅性能要做到最好，在成本上也要幫助公司省錢。

28、理想說的全域一體，到底有什么核心優(yōu)勢？放到中長期來說，這是不是一個趨勢性的東西？另外，現(xiàn)在技術(shù)路線迭代非?？欤蛞惑w中長期能給理想帶來什么樣的差異化賦能？

第二個問題，從您的實踐來看，一家車企要做哪些事，從組織架構(gòu)、人員、到技術(shù)上，才能說明他是真正在往具身智能方向走，有真實的投入？能否給我們一個評判的參考維度？

謝炎：全域到底解決什么問題？假設(shè)我們停留在L2、L2+，以自動駕駛為例，不做垂直整合也可以，無非是從供應(yīng)商采買。車還是人類監(jiān)督，人類隨時準(zhǔn)備接管，開得慢一點、效率低一點也沒關(guān)系，要求不高。但昨天（發(fā)布會上）理想希望它像機器人一樣獨立地完成任務(wù)，那對它的智能要求就非常高了。不僅是腦子，對手腳的掌握、對加速、輪子、縱向橫向的控制，要求都很高。

從L2往L3走的時候有很多問題，今天沒有供應(yīng)商可以解決。分開采買，可以買系統(tǒng)、買線控，但加在一起，有大量的冗余，成本又高，延遲又高，出了問題還很難定位。所以要解決未知問題、想達(dá)到更高標(biāo)準(zhǔn)時，領(lǐng)先企業(yè)一定會選擇一起做。當(dāng)然我不排除20年后技術(shù)進(jìn)入平臺期時，會拆分出各種供應(yīng)商。但在技術(shù)還沒收斂的階段，要達(dá)到這個目標(biāo)，必須自己整合。

就是因為一些問題不好解決，我們才要自己出手，而且這些問題是長期性、重要性的問題。比如L3、L4，今天沒有人完全做到，特斯拉也沒完全做到，這是無人區(qū)，我們需要解決這些問題，需要投入巨大的資源。

車的內(nèi)卷就是因為同質(zhì)化。要擺脫同質(zhì)化，就是要做別人不好做或做不到的事。這些事如果供應(yīng)商能做到，那又同質(zhì)化了。這就是基本邏輯。

29、您剛才提到不擔(dān)心把論文的技術(shù)細(xì)節(jié)公開出來，別人把技術(shù)學(xué)走。能否舉一個具體的例子說明？

謝炎：理想的論文非常多，但論文只有幾千個字，只是架構(gòu)的思想。比如芯片要在合理成本下實現(xiàn)，流片的話面積很重要，面積不能太大。如何把我們講的算力和架構(gòu)落到可控的面積內(nèi)，這里面有大量的工程工作。我們一開始認(rèn)為面積控制比較難，甚至認(rèn)為不可能控制住，這些都需要工程去克服，而這些細(xì)節(jié)在論文里是看不到的。打個比方，這張桌子有四條腿，但真正去做的時候有很多細(xì)節(jié)。

30、會有發(fā)論文數(shù)量方面的KPI嗎？

謝炎：發(fā)論文更多是為了跟業(yè)界做交流，思想的交流很重要。往前做的時候，有更多的交流，也幫我們看看想法有什么不足，也可以去業(yè)界吸收別人的優(yōu)點。因為不講自己的東西，對別人深入了解、給你提建議也是不利的，所以這是有益的。當(dāng)然我們沒有把它當(dāng)做指標(biāo)，因為當(dāng)做指標(biāo)就變味了。

五、車是具身智能第一站基座模型和具身智能模型不能復(fù)用

31、詹錕老師也是基座模型的負(fù)責(zé)人，我想問一個技術(shù)方向的問題。基座模型怎么從車擴展到其他終端？它的瓶頸是數(shù)據(jù)、運控，還是模型本身的范式？所以能不能真正統(tǒng)一車和機器人這兩種不同的終端形態(tài)？

詹錕：我認(rèn)為這個gap（差距）很大。切換到機器人的導(dǎo)航?jīng)]問題，但如果切換到操作上，模型不是那么一樣?；蛘哒fFoundation（基座）只是一個非?；镜模竺嬉欢ㄊ乔Р钊f別，這一點要確認(rèn)。

車?yán)锩姘薒anguage語言智能，這直接遷移到機器人的概率是非常大的——交互、思考、長程規(guī)劃。DeepMind Robotics團隊有個ER模型（Gemini Robotics-ER），就是來自Gemini的，把語言思考上的能力從通用場景遷移到機器人上。

我們把物理機器人分成三個關(guān)鍵任務(wù)。一是具身交互，我們跟它溝通、交流、思考，讓它做任務(wù)規(guī)劃。二是移動，自動駕駛能不能從A點到B點，無碰撞、安全、高效地到達(dá)目的地。三是操作，狹義的具身，是一個獨立任務(wù)，是開放性場景，業(yè)界很多人都在探索，包括硬件、數(shù)據(jù)都是不完善的。這三個任務(wù)任意的組合，都會形成非常有價值的商業(yè)模式與價值形態(tài)。

這是我們的想法，我們的車有機會把這三點都涵蓋。涵蓋以后，我們想長成任何一個物理的具身本體都有非常大的機會。我們肯定有云端的共同基座，但這個基座是不是放在任何任務(wù)上就能直接用？我覺得比較難。

但它作為基座，提供海量的數(shù)據(jù)支持、訓(xùn)練環(huán)境，能提供Foundation Model（基座模型）的baseline（基線），可以快速做下個任務(wù)的收斂，這是很有幫助的。所以這也是我們成立基座模型團隊的原因，我們會有基座來支撐各個業(yè)務(wù)，但每個業(yè)務(wù)有自己的特點。

32、昨天理想提出了具身智能汽車的定義——電動車、職業(yè)司機、AI計算機、生活助手四位一體。但從用戶感知來說，這四個方面的價值點和感知清晰度肯定不太一樣。汽車本身又特別同質(zhì)化，如果看未來三年，從具身智能汽車的角度，這四塊拆開來看，哪部分的競爭最關(guān)鍵？最大的差異化在哪？

謝炎：我覺得這四個能力其實不是割裂存在的，而是共同構(gòu)成具身智能汽車的完整能力體系。

電動車解決的是移動能力，讓智能真正能夠進(jìn)入物理世界；職業(yè)司機解決的是執(zhí)行能力，讓車輛能夠安全可靠地完成出行和任務(wù)；AI計算機提供的是算力和系統(tǒng)基礎(chǔ)，支撐越來越復(fù)雜的模型和能力運行；生活助手則是交互入口，讓用戶能夠以最自然的方式使用這些能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.