對話｜理想汽車CTO謝炎：我們憑什么做出“全世界性能最強AI芯片”

2026-06-19 08:55:03　來源: 藍鯨新聞

上海舉報

分享至

圖片來源：視覺中國

藍鯨新聞6月19日訊（記者李卓玲）近兩年來，車企"造芯"消息不斷。

今年5月底，比亞迪發(fā)布首款4nm制程智駕芯片璇璣A3，并官宣已開啟規(guī)?；慨a(chǎn)，支持L3、L4自動駕駛。按照官方的說法，這款自研4nm智駕芯片，代表了中國智駕芯片的最高水平。更早前，蔚來于2025年推出自研神璣NX9031，將其稱為"全球首顆車規(guī)級5nm智駕芯片"；同年小鵬自研圖靈AI芯片也宣告量產(chǎn)上車，小鵬將其稱為"全球首顆多端通用芯片"。

6月15日，在Livis Day理想汽車軟件與具身智能發(fā)布會上，理想透露了自研芯片馬赫M100的更多研發(fā)細節(jié)。該芯片采用5納米車規(guī)級工藝，單芯片算力1280TOPS，雙芯算力2560TOPS，于2022年正式立項，并于2026年5月實現(xiàn)量產(chǎn)上車。

理想汽車CEO李想彼時直言，這是"全世界性能最強AI芯片"。該言論一出，隨即引發(fā)熱議，甚至是質(zhì)疑，有意見認為"都說自己領先，到底誰更優(yōu)秀"。

對于為何敢說自己是"世界第一"？理想汽車CTO謝炎日前在接受藍鯨汽車記者采訪時回應，主要是因為跟市面上標準可以獲得的芯片做對比，它是英偉達Thor-U三倍的性能。"我們可以拿出Benchmark（基準測試），甚至可以讓第三方做測試。我們也跟一個第三方測試機構聊過，測試機構說其它家都不愿意拿出來做比較。如果要公平地比較，可以拿到一個公平、綜合的Benchmark去做合適的比較。"

理想汽車CTO謝炎圖片來源：理想汽車

談及自研芯片原因，謝炎回憶，四年前芯片立項時與李想達成共識：自研不是為了證明自己有能力做，而是真正去解決問題。

"四年前我們看到的問題一是算力成本非常高，而且會不斷變高，因為車內(nèi)需要越來越多的AI算力。二是我們希望通過自研做得更好。當時我們用英偉達和地平線，我們給自己定的目標是，如果做不到比外購芯片更好，那做的意義不大。當時定的目標是4倍Orin的性能。"

但在內(nèi)部看來，要達成這一目標，即要做得比英偉達更好，用英偉達的技術路線是不可行的。"因為英偉達比你早啟動幾十年，積累比你深，資源比你多幾個數(shù)量級。"

基于此，唯一的機會就是跑另外一條路徑：放棄主流的馮·諾依曼架構，轉(zhuǎn)而選擇數(shù)據(jù)流架構。"馮·諾依曼架構相當于幫人類做一個中介去實現(xiàn)計算，中間有翻譯層，這個翻譯幫助人類更好地去編程，但這個中介和翻譯會降低效率。如果回到計算的本質(zhì)，可以把中間的翻譯拿掉。當然的確很少有企業(yè)做過實踐，中國也是如此。所以大家看到的機會都是一樣的，關鍵是如何極致地解決這個問題，從第一性原理來倒推。我們四年前定了這樣的目標，并且覺得是可行的。"謝炎表示。

按照謝炎的說法，馮·諾依曼架構用七十年推動了通用計算的輝煌，理想汽車希望以馬赫M100為起點，用數(shù)據(jù)流架構接過歷史的這一棒，繼續(xù)推動AI計算再輝煌七十年。

作為理想芯片自研項目的負責人，謝炎于2022年7月加盟理想，隨后很快晉升為理想CTO。謝炎剛加入時，理想芯片團隊只有兩名員工。

被藍鯨汽車記者問及整個自研芯片過程中有否遇到什么挑戰(zhàn)時，謝炎直言，遇到困難肯定是有的，軟件、編譯、模型適配，這都是有很多困難在里面，而且這些坑只有你做了才知道。"我覺得數(shù)據(jù)流架構for AI是一個大的技術方向，它比其它架構更適合，我希望更多的同行能跟隨這條路。就像馮·諾伊曼提出來技術路線，很多公司跟隨。從更長時間來看，這不是一件壞事。"

值得關注的是，今年以來，理想被曝多次調(diào)整組織架構：先是2月重組智能化部門，形成軟件本體、基座模型等團隊；隨后，今年5月，其基座模型部門被曝新增3個與具身智能相關的二級部門等。

藍鯨汽車記者了解到，目前理想汽車研發(fā)體系主要有Infra團隊，負責算力基礎設施與數(shù)據(jù)工程；基座模型團隊負責多模態(tài)預訓練與后訓練；軟件本體團隊負責通用Agent、工具鏈、記憶與上下文工程；硬件本體團隊負責芯片、傳感器、機器人硬件；評估團隊負責獨立評估Agent/Robot工作質(zhì)量。

對于組織架構調(diào)整，謝炎回應，技術迭代快是理想進行組織整合的一個目標。在其看來，如果技術處于高速發(fā)展期時，很多公司會回過頭來做整合，因為需要在技術邊界上把分工打破。

"除此之外，組織規(guī)模小一點也是優(yōu)勢。如果需要高密度、高整合度，組織規(guī)模不能太大，如果組織規(guī)模太大，就會導致很多部門墻。這是為什么我在公司強調(diào)要保證比較小的組織規(guī)模的原因，就是想讓大家合作得更緊密些。"

以下為與理想汽車CTO謝炎、理想汽車基座模型負責人詹錕對話實錄（經(jīng)編輯刪減整理）：

"自研芯片要做得比英偉達更好，用英偉達的技術路線是不可行的"

提問：為何馬赫M100會采用動態(tài)數(shù)據(jù)流架構？該芯片四年前立項時，整個行業(yè)都還在馮·諾依曼架構的路徑依賴中，您當時看到了什么需求和變化？

謝炎：四年前，我們給自己立了一個很高的目標，這個目標也是一個非常合理的目標：就是自研。我們?yōu)槭裁匆匝?？我和李想有一個非常一致的意見：自研不是為了證明自己有能力做，而是真正去解決問題。

四年前我們看到的問題：一是算力成本非常高，而且會不斷變高，因為車內(nèi)需要越來越多的AI算力。二是我們希望通過自研做得更好。當時我們用英偉達和地平線，我們給自己定的目標是，如果做不到比外購芯片更好，那做的意義不大。當時定的目標是4倍Orin的性能。

當然這個目標不是瞎定的，我們花了半年時間進行分析。如果要達到這個目標，背后有一套邏輯：你要做得比英偉達更好，用英偉達的技術路線是不可行的。因為英偉達比你早啟動幾十年，積累比你深，資源比你多幾個數(shù)量級。就像你跟博爾特在100米賽道上，他比你早跑2秒，你不可能超過。你唯一的機會就是跑另外一條路徑。

在這個思路的指引下，我們開始看其他技術路線。就是扔掉所有以前的架構依賴，回到本質(zhì)，從第一性原理看AI計算本身還有什么機會。我在讀研究生時，我導師高光榮教授是數(shù)據(jù)流架構的奠基人之一，他在MIT時就做這個事。當然在通用計算時代并不成功。我們發(fā)現(xiàn)他的思想本質(zhì)是：你要做的是計算，馮·諾依曼架構相當于幫人類做一個中介去實現(xiàn)計算，中間有翻譯層，這個翻譯幫助人類更好地去編程，但這個中介和翻譯會降低效率。如果回到計算的本質(zhì)，可以把中間的翻譯拿掉。當然的確很少有企業(yè)做過實踐，中國也是如此。所以大家看到的機會都是一樣的，關鍵是如何極致地解決這個問題，從第一性原理來倒推。我們四年前定了這樣的目標，并且覺得是可行的。

圖片來源：理想汽車

提問：馬赫M100芯片在理想的定義里是一款AI推理芯片，而不是AI訓練芯片，這兩者的邊界是什么，背后的思考是什么？在AI訓練領域英偉達已經(jīng)很壟斷了，跟它做競爭是不是很難追上？

謝炎：我認為AI計算的算力市場，最終會出現(xiàn)99%的推理，訓練只占很小的部分。從這個角度來講，今天中國和美國大量的公司在為了更高的效率專門做推理芯片，也是這個原因，因為最終推理市場更大。如果推理市場沒起來，說明AI沒有真正落地。

從我們的角度而言，我們公司先要解決推理問題。訓練的話，用市場上好的訓練芯片，目前夠我們用了。

從經(jīng)濟模型角度來講，訓練要的是效率，它對成本不太敏感。訓練要的是在足夠短的時間內(nèi)迭代。至于成本高了50%，甚至高了100%，也沒關系。英偉達最高端的芯片，很多公司以翻倍的價格也愿意買。但是推理芯片不一樣，它要同時考慮成本與效率，而且考慮成本的比重非常高。從解決公司和業(yè)務問題來講，推理問題更大，它跟我們想要達到目標的gap（差距）更大。如果我們做一件事的話，我們就解決機會最大的問題。

提問：請問自研芯片背后需要什么條件，比如銷量、營收、研發(fā)投入等？

謝炎：如果你的業(yè)務需要自研核心技術，比如芯片，先期投入的確不小，可能一年要好幾億。

第一個條件是達到一定的營收規(guī)模。對車企來說，營收規(guī)模一年1000億以上，研發(fā)投入至少10%，就有大幾十億到上百億，每年投錢研發(fā)芯片是可以的。

第二個條件是，你研發(fā)芯片解決的問題，要能讓你的產(chǎn)品能力更強。回到十年前，一些房地產(chǎn)公司也做高科技，問題是它投入的高科技對主營業(yè)務幫助非常小。比如我是房地產(chǎn)公司去投芯片，這個意義不大，芯片對賣房子沒幫助，對未來也沒幫助，更多是象征意義，而沒有實際意義。

以上是最重要的兩個條件。

這里有個誤區(qū)，很多人說芯片要有很大的出貨規(guī)模才行。其實芯片的成本和面積相關。一輛車上的芯片，比如Livis是2顆馬赫M100，加起來800平方毫米。而一部高端手機芯片大概100平方毫米，所以一輛車的智駕芯片相當于8臺手機的芯片面積。你會說車的量比較少，但成本不僅僅跟數(shù)量有關，也跟面積有關。這樣算下來，大幾十萬輛車需要的晶圓面積非常大，完全可以攤薄成本。所以成本不能僅用顆數(shù)來衡量。有的IT公司說一年出貨好幾億顆，但其實每顆面積非常小。不能脫離背景只談量，這是不完整的。

我們在馬赫M100立項時算過，做這個芯片不會讓公司的效益變差，而是會變好。我們不是為了證明自己能做而做，不僅性能要做到最好，在成本上也要幫助公司省錢。

提問：理想自研芯片從2022年立項，去年流片，為什么今年才量產(chǎn)上車，有什么考量？在做芯片過程中，有什么挑戰(zhàn)或故事可以分享下嗎？

謝炎：對于上車時間我們已經(jīng)做得很快了。做芯片基本要5年時間，而我們基本快4年年時間就上車，而且把所有模型都跑起來，這已經(jīng)很快了。

至于在過程中遇到的困難，肯定是有的。軟件、編譯、模型適配，這都是有很多困難在里面，而且這些坑只有你做了才知道。日前有些同行說，看了我們的論文以后，說你們把論文寫得那么詳細，別人家拿你的論文是不是就可以復刻。但我們不擔心，因為把這個架構要落地是非常長的距離，而且中間有很多坑，只有真正做才知道，才能邁過去，邁不過去，就停在那兒了。

第二，我覺得數(shù)據(jù)流架構for AI是一個大的技術方向，它比其它架構更適合，我希望更多的同行能跟隨這條路。就像馮·諾伊曼提出來技術路線，很多公司跟隨。從更長時間來看，這不是一件壞事。

談車企自研芯片：很多公司宣布做了，但并沒真正落到車上

提問：李想日前說馬赫M100"是全世界性能最強的AI芯片"引起了很大的討論，包括有些質(zhì)疑聲音會說小鵬、蔚來、比亞迪也都說自己很領先。那么，跟這些友商相比，理想的領先性體現(xiàn)在哪些方面，或者被市場低估了哪些方面？

謝炎：我們?yōu)槭裁锤艺f自己是世界第一呢？因為我們跟市面上標準可以獲得的芯片做對比，它是英偉達Thor-U三倍的性能。我們可以拿出Benchmark（基準測試），甚至可以讓第三方做測試。我們也跟一個第三方測試機構聊過，測試機構說其它家都不愿意拿出來做比較。如果要公平地比較，可以拿到一個公平、綜合的Benchmark去做合適的比較。

提問：這兩年很多車企都發(fā)布了自己的芯片，正常來講芯片是高投入、長研發(fā)、需要驗證的產(chǎn)品，這是否意味著這件事很容易？

謝炎：我想說其實挺不容易。我們自己做這顆芯片花了4年，在新勢力里我們啟動最晚。大家要看發(fā)布芯片后，最終結果是最領先的模型什么時候真正落到車上。從這個時間來看，除了我們以外，其他家一般要5年時間甚至更長，我們是最快的。所以要有點耐心，第一顆芯片如果真的自己做的話，沒那么容易，一般要花5年時間。

做一顆芯片和做一顆領先的芯片，難度又是不一樣的。有些公司做了芯片，但這顆芯片不夠領先。我跟李想說過，我最擔心的事不是做不出來，最糟糕的事情是做出來了但它不領先，那公司這個錢就白花了，這是我最不想看到的結局。

我們看業(yè)界，并不是每一家公司都能做到。現(xiàn)在很多公司宣布做了，但并沒有真正落到車上。要看它什么時候落到車上，什么時候把最高端的智駕用自研芯片跑起來，并且還能做好用戶體驗。再者，看是不是所有車都能用。有的公司為了證明自己能用，只用了一款車型，出貨量只有幾千輛，其他車還是用外購芯片，說明它也知道這件事并沒有幫它解決真正的問題。

我認為要看幾個指標：全量的車能不能用上，能不能快速上車，能不能跑最先進或最新一代模型，并且部署到所有車上。另外一個指標是能不能持續(xù)迭代。做一代芯片不說明問題，最終要做出第二代、第三代。很多公司只做了第一代，第二代就不做了。有些公司也可能買個IP就做了，也可以宣傳自己自研。

但我們不是，因為我們連論文都可以看到，這個世界上沒有第二個芯片跟我們做的一樣，完全沒有，甚至連這個思路都是我們提出來的，沒有任何已有的IP可以follow。

提問：在芯片產(chǎn)業(yè)鏈里，哪些環(huán)節(jié)是可以被加速的，哪些環(huán)節(jié)是必須要自己踩坑的？

謝炎：有些技術是成熟的，比如偏后端的部分，有點像造房子，你找工程隊，比如壘磚，是可以找到供應鏈幫你加速的。但是真正要做到量產(chǎn)、做到最領先，設計肯定要自己做，軟件要自己做。如果你連軟件都外包給別人的話，你不可能迭代芯片性能。當然生產(chǎn)一般都是fabless，大家不會自己再去造工廠，這是另外一回事，生產(chǎn)今天是成熟的。

回到國內(nèi)，我們會越做越深。如果做芯片要持續(xù)領先的話，僅僅做芯片設計，做成GDS2（版圖數(shù)據(jù)庫），交給Fab（晶圓廠）去做流片，這也不夠。很多部分要跟封裝廠聯(lián)合設計，要垂直整合。有些技術不僅僅是貨架商品，由別人提供就可以，你要深入到封裝制造領域才能領先。我們不會停留于此，會越做越深。

提問：李想在羅永浩的節(jié)目中聊過，想基于下一代馬赫芯片做一個家庭算力中心，類似英偉達DGX Spark的理念。這個項目現(xiàn)在是否在推進中？出于什么考慮？適用于怎樣的場景？

謝炎：我們做的M100本質(zhì)上是一個通用AI推理芯片，理論上講，它能很好地推理自動駕駛模型，也可以推理語言模型。有人說這個芯片這么好，能不能裝到家里面，因為他需要一個私人的家庭算力。出發(fā)點是從這里開始的。下一代芯片毫無疑問會更強，經(jīng)過一定的改造，我相信放在家里非常有競爭力。

談組織：規(guī)模太大會導致部門墻，迭代快是進行整合的目標

提問：理想汽車這幾年經(jīng)過很多次智能化的體系調(diào)整，最終把芯片、基座模型和智能輔助駕駛整合成統(tǒng)一的團隊，從CTO視角來看，理想的"三位一體"和特斯拉的FSD、HW、xAI相比，差異化的護城河在哪？

謝炎：跟特斯拉相比，大家出發(fā)點是一樣的。如果想圍繞AI做出強競爭力有兩方面。第一是，需要快速迭代。今天的AI發(fā)展很快。從芯片領域來說，英偉達也迭代很快，不僅是自己迭代快，還不斷收購公司補充自己的技術，說明這個行業(yè)競爭非常激烈。所以迭代快，是我們進行組織整合的一個目標，幾個團隊更緊密地合作，迭代速度會上去。

第二是，需要垂直整合。理想汽車推崇構建垂直整合的競爭力。在這個時代，如果沒有自己的芯片，只做自己的模型，那么如果遇到需要芯片和模型聯(lián)合設計，才能把問題解決得更好的情況下，我們就失去了這樣的機會，特別是一些大的創(chuàng)新。

我個人觀點是，當技術發(fā)展到平臺期時，這時分工會很細。比如PC計算機發(fā)展到2010年時，分工非常細了，操作系統(tǒng)歸操作系統(tǒng)、應用歸應用、芯片歸芯片、制造歸制造。但是如果技術處于高速發(fā)展期，斜率非常高時，你會發(fā)現(xiàn)很多公司又回過頭來做整合，因為需要在技術邊界上把分工打破，重新做整合。

比如英偉達之前只做芯片，現(xiàn)在英偉達連封裝和機架都開始收購公司來做。所以英偉達要解決更進一步的問題時，需要上下游一起來做，如果分成多家公司來做，其實效率是非常低的，甚至是不可能的。英偉達做Vera Rubin（AI超級芯片平臺）時，可以看到不僅是多種處理器，而且機架、散熱技術、互聯(lián)技術都是英偉達來做。雖然英偉達是做計算的公司，但現(xiàn)在全拓展開了。我認為技術快速發(fā)展的時代，這是有志于領先的公司肯定要走的一條路。當然這個投入肯定不小，很多公司不具備這種能力。在我們團隊，以我個人為例，我的背景是做過操作系統(tǒng)、架構、應用層等AI各個方向，所以我們的整合效率相對更高一些。

除此之外，組織規(guī)模小一點也是優(yōu)勢。如果需要高密度、高整合度，組織規(guī)模不能太大，如果組織規(guī)模太大，就會導致很多部門墻。這是為什么我在公司強調(diào)要保證比較小的組織規(guī)模的原因，就是想讓大家合作得更緊密些。如果團隊規(guī)模很大，每個團隊都給自己立一道墻，自己成為一道閉環(huán)，相互之間的合作就會很難。

提問：從產(chǎn)品到技術到組織，您作為CTO是如何重構協(xié)作體系的？

謝炎：關于組織協(xié)作。為什么垂直整合比較重要？因為要做到這一點，只有硬件團隊不夠，還必須有模型團隊。我們設計芯片時，軟件團隊、模型團隊坐在一起分析。可能跟其他公司不一樣，我們是這幾個團隊坐在一起，而且大家比較興奮：之前很多做軟件的人根本沒有機會直接對硬件團隊提需求。

在組織上，我們希望以某一個核心的、有挑戰(zhàn)的目標為中心，圍繞它構建項目團隊。實際團隊是分開的，但像一團篝火一樣，有硬件的人、有軟件的人、有模型的人，大家在大目標下一起共創(chuàng)、一起實現(xiàn)。我們內(nèi)部越來越多的項目會往這個方向走。它不是一個硬的組織隔離，而是一種軟的合作機制。

"要追上特斯拉FSD V14需在基礎體驗、能力上下功夫"

提問：馬赫VLA模型要達到特斯拉FSD V14的效果，還需要做哪些工作？

詹錕：真正的難題是能不能追上FSD。我講講我的想法。什么叫追趕FSD，怎么算追上FSD V14？業(yè)界都說要追上FSD的水平，但不一定能追上。

我認為追上FSD有兩個層面。

第一是基礎體驗，具體是三方面：安全感、效率、舒適度是否能達到FSD的同等水平。相信大家如果開過FSD，它的安全感非常足，效率很好，舒適度很好，這是它的基本功。我不一定跑很難的路，但這些基本功可以達到這個水平。

第二是能力，這一點也很難追。FSD有哪些能力是別人沒有的？比如特斯拉會禮讓特殊車輛，有極窄通行時的感知精準度，它會識別交警指揮，這些能力非常強。

如果我們能做到這兩項，就能追上FSD。在基礎體驗上，這需要非常好的評價體系。我們希望從自己的測試團隊和產(chǎn)品團隊開始，跟用戶和媒體一起想，怎么去評價我們的模型：它的安全感、舒適和效率怎么平衡。這里有很多方法，我們很有信心可以追上FSD V14的水平。再加上我們芯片性能還沒完全釋放，我們可以效率更高、反應更快，所以這個問題不大。

關于能力方面，這里有架構升級的機會。為什么別人沒有、只有特斯拉有？這里有我們的一些思考。我們會去做這樣的改進，把這些能力提升上來。大家想想，這些能力是怎么來的？為什么別人沒有？可能是以前的范式限制了這些能力，有架構的原因，有數(shù)據(jù)的原因。它怎么就能找到這么多倒車數(shù)據(jù)？這是采集的還是合成的？怎么把這些坑坑洼洼的信息傳回去？這在架構上有很好的設計。我們在這個層面做了很多嘗試，目前也有一些初步的實踐結果。如果這兩個方面能追上FSD V14，就是一個很厲害的結果。

提問：我們看到提升模型幀率對系統(tǒng)體驗有明顯改善，什么時候能看到更高幀率的模型上車？

詹錕：首先，LiDAR（激光雷達）我們不是去掉了。但LiDAR能不能作為前融合的主傳感器，這需要我們思考。如果我想提高幀率，LiDAR的幀率有物理限制，因為機械結構的原因，10到15赫茲就到頂了，不能再高。如果想做到更高的輸入頻率，只能靠視覺。更高的輸入頻率對細節(jié)反應有很大提升，像特斯拉的細節(jié)反應速度就是這么來的，這是上限。所以我們必須拉高上限，基于純視覺把輸入上限拉高。我們正在往這個方向做，大概率會在某一個節(jié)點切入到類似的水平。

我們內(nèi)部有很多版本的純視覺方案，最難的是看效果怎么樣，這不是拍腦袋的事，要以實踐結果來證明。特斯拉是36赫茲的輸入，輸出不一定是36赫茲。所以我們肯定要提高幀率，接下來會先上15赫茲、20赫茲。趨勢就是這樣，一定會以更高的幀率做輸入，純視覺帶來更好效果以后，我們就會替換上來。

第二，我們認為LiDAR有一個很大的優(yōu)勢，就是對L3和L4場景下的安全兜底。我們會一直往L4這些方向去努力。我們能不能在真正的安全底線下做得更好，這是很重要的事。畢竟純視覺輸入信息有限，而LiDAR在極端情況下可以幫你解決很多問題，所以LiDAR的作用很重要，我們會通過其他方式保證更強的安全。

基于這樣的判斷，下半年最重要的兩件事：第一，用純視覺提高幀率，把芯片性能發(fā)揮到更大，反應速度大幅提升。第二，LiDAR會承擔很重要的數(shù)據(jù)采集環(huán)節(jié)，它對L3、L4各種極端場景很有幫助，我們會持續(xù)提升安全，安全不能妥協(xié)。

提問：蔚來和小鵬也都在做基座模型，做基座模型是不是汽車公司想站在AI前沿的必要基礎能力？

詹錕：關于基座模型，我認為答案是肯定的。只要想走具身智能和AI方向，基座模型一定是必爭之地。基座模型不太可能像OS（操作系統(tǒng)）一樣有一個標準件，因為每個人的場景任務不一樣，需求也不一樣，所以基座模型需要自己建。特別是語言模型的基座，做汽車有汽車的基座，我們對視覺語言的重視更多，參數(shù)量的分配比例也跟通用模型不同。

所以基座模型一定要做?，F(xiàn)在大家都講基座模型，其實每個公司表述的意思都不一樣，要看具體是什么含義。核心有兩種類型的任務：語言智能和機器智能，這兩個對基座模型的需求是不一樣的。可以共用一個云端大模型做基礎，但實際使用中一定是有區(qū)分、有差異化的，我們也是在往這個方向做。我們已經(jīng)有非常強大的統(tǒng)一基座模型，可以構建物理環(huán)境，我們對它有很多反饋和評價機制。但真正落到車上時，需要有裁剪、有取舍、有參數(shù)量的適配、芯片能否承載，我們要做不同的改造。

提問：手機行業(yè)一開始大家都做操作系統(tǒng)和芯片，最后收斂到安卓生態(tài)。那么基座模型有沒有可能也出現(xiàn)類似的外部統(tǒng)一生態(tài)，可以給所有公司去適用？

詹錕：至于將來會不會有一個技術收斂的外部模型給所有廠商直接用？如果說有開源的pre-training（預訓練）模型，這是有可能的。但你想讓一個pre-training模型就直接給大家當基座用，我覺很難。大概率大家還是要做很強的post-training（后訓練），才能變成真正能用的基座模型。

談艙駕融合：核心在AI算力，其他部分是否一體并非關鍵

提問：馬赫M100芯片可以跑在不同的AI場景下，那么后續(xù)理想汽車車內(nèi)的算力中心有沒有可能全部使用自研馬赫芯片？

謝炎：我們就是這么思考的。雖然業(yè)內(nèi)有一個說法叫"艙駕一體"，我們認為艙駕一體最核心的是AI算力部分，其他部分是不是一體沒那么關鍵。因為座艙系統(tǒng)跟AI智駕系統(tǒng)可以完全獨立，但AI算力可以集中在一起，這樣分配效率會高很多。所以我們路線圖的最終形態(tài)是車內(nèi)一個AI計算中心，所有AI任務都可以到這個計算中心去計算。就像筆記本上跑OpenClaw一樣，AI的計算不在筆記本上，而是在Token Provider Server（Token供應服務器）上，車里也類似，有一個Token Server（Token服務器）。

這個Token Server的優(yōu)勢：第一，效率非常高。第二，能做到不同任務互相隔離、互不影響。比如智駕任務的確定性：無論是內(nèi)存還是帶寬，能夠保證不被其他任務干擾，這是軟件和硬件一起設計才能實現(xiàn)的。只靠芯片提供商做不到這一點，需要軟件跟硬件一起配合設計。

我們的優(yōu)勢在于，可以把一些計算單元完全隔離給智駕用，另一部分給其他任務用。如果是通用的SRT（Secure Reliable Transport，安全可靠傳輸協(xié)議）架構，它不能完全做到這一點，因為這些東西藏在硬件里，而硬件并不知道上層應用的語義。它不知道下面跑的線程是智駕任務還是其他任務，或者說它做這些事情的代價非常高。就像日前發(fā)布會說的，我們走向數(shù)據(jù)流架構有很多原因，有效率的原因，也有AI場景下多任務需要并行運行、對時延非常敏感、對資源確定性要求很高的原因。

提問：為什么現(xiàn)在的大算力芯片方案，比如英偉達或小鵬、理想自研的這些，都沒有做芯片級的艙駕融合，反倒是高通在低算力芯片方案上做了這件事？這是為什么？

謝炎：從本質(zhì)上講，艙和駕是兩個獨立系統(tǒng)。特別是對高端的L3往L4走，智駕需要一個更高確定性的系統(tǒng)，內(nèi)存是專屬、計算資源是專屬，這時融合的意義就小了很多。因為資源不能實時切換，實時切換會降低確定性。如果變成越來越獨占的方向，融合的價值就不大了：你只是把芯片拼在一起，但資源還是兩份，并不會帶來成本的降低，甚至會影響效率。

對低端來說，L2對切換的實時性要求不高，有一部分確實可以有限地共享，但我認為也不多，未來會證明這一點，因為今天只是個概念。

我認為真正的艙駕融合是艙需要的資源和駕需要的資源在物理上完全是一塊，可以動態(tài)共享。不是形式上放在一起，但實際切成兩半，這不叫融合。融合就像你的筆記本跑瀏覽器和其他應用程序，筆記本的內(nèi)存完全可以共用，一會兒跑這個，一會兒跑那個。你看現(xiàn)在那些艙駕融合系統(tǒng)，它肯定還是分開的，今天做不到一會兒跑這個一會兒跑那個。如果做到的話，融合的價值確實很大，但做不到的話，只是減少一定的成本：因為把兩個芯片放成一個芯片，晶體管數(shù)目也許不變，只是省了一次封裝的成本。對中低端芯片來說這部分錢可以省，但也省不了太多。我的觀點是，越往后走智駕越來越高端，艙駕融合這件事可能意義并不大。

如果把這些芯片做得更近一點，在一塊板上做成很小體積的集成化方案，這是可以的，并不一定要做成一塊芯片，也可以多塊芯片放在一起。

提問：如果座艙和智駕共用一個統(tǒng)一的模型底座，座艙允許一定的不確定性，但自動駕駛對安全和確定性要求更高，你怎么確保智駕鏈路的可靠性不受影響？在算力分配上，座艙運行大模型推理時需要較大的算力和內(nèi)存，怎么確保智駕的算力不受擠占？

謝炎：簡單說，你可以想象一個職業(yè)司機和一個生活助手，這是兩個角色，不是一個人。不是說一個人一會兒給你開車，一會兒幫你放音樂。你可以想象下面的算力和相關軟硬件基礎設施也是獨立的，這是兩套系統(tǒng)。我們的算力可以靈活分配給不同角色使用，但在使用時，兩者不會互相干擾。

談3DViT：讓純視覺達到激光雷達級別的空間理解

提問：之前的智駕感知是先做BEV（鳥瞰圖），先拍圖，后面再做OCC（占用網(wǎng)絡）立起來，再到今年理想新做3DViT（三維視覺Transformer），更接近于人類的感知。倒著看有點像彎路，為什么會走這個彎路？

詹錕：我認為這不叫技術的彎路。無論是做模型還是三維空間建模，我們把OCC定義為空間建模，這些思想都來自于上世紀。CNN（卷積神經(jīng)網(wǎng)絡）是80年代的東西，只不過2012年GPU發(fā)展時才爆發(fā)。LSTM（長短期記憶網(wǎng)絡）也是1997的東西，到了2010年才逐漸應用。Transformer也是如此，稠密計算很早就有了，但之前沒有爆發(fā)。本質(zhì)原因是你的思想要隨著當前的基礎設施、硬件、算力統(tǒng)籌升級，不是說有一個想法就能直接用起來。所以技術迭代會一直跟隨當前的環(huán)境、硬件、任務需要在變。

從自動駕駛來說，2022年特斯拉在發(fā)布會上講BEV方案，方案也不是新的，只是基于它的強大算力，在特征級把場景做融合，這是大家沒有想到的。那會兒由于算力就那么大，不能做很深的稠密高度估計，只能變成單層或者采樣很稀疏的BEV。到了OCC階段，是把稀疏變密，這是算力或硬件的一次升級帶來的東西。

3DViT是什么？可以理解為基于3DGS（三維高斯濺射）或全新稠密三維空間的新的三維表示。從2025年到2026年，CVPR（計算機視覺與模式識別會議）的Best Paper都是這個領域。去年的論文是劍橋大學老師做的，基于圖像直接投射出三維空間，直接預測三維深度。2026年的CVPR是DeepMind基于傳感器把三維空間動靜分離。所以我們未來三年內(nèi)，就是基于這個路徑做。我們把大家之前認為的柵格化、需要人類表征的東西，變成不用表征。OCC先不定義類別，任何物體和任何元素我都可以投射三維空間，它有外觀、RGB、紋理、屬性。這樣的建模方式需要隨著下一代的算力增加才能做到。

它不是繞彎路，而是你的思想隨著條件的成熟才能用起來。隨著大家相信Scaling Law（規(guī)模定律），把模型規(guī)模和參數(shù)規(guī)模越提越高，讓這些思考發(fā)揮越來越大的作用。如果算力不夠用，規(guī)模不夠，你的想法再好也實現(xiàn)不了效果。

謝炎：我補充一下。高科技技術產(chǎn)品的商業(yè)化落地是一步一步的。比如特斯拉早期沒有Mobileye，就沒有今天的FSD，它不可能做到今天這種程度。今天來看，你會說Mobileye的方法太古老了，為什么它不能一下子做到今天的端到端呢？因為當時的條件完全不具備。而條件完全不具備時你去做，不能完全落地，也不能商業(yè)化。所以肯定先從Mobileye的技術棧開始，再到FSD的第一代，再不斷完善。它在2021年有很多規(guī)則，現(xiàn)在規(guī)則越來越少。商業(yè)化是一步一步做的，大家認為有好的想法就應該一步到位，這不太現(xiàn)實。

提問：大概是什么時候開始研發(fā)3DViT這個技術路徑的？3DViT目前能達到跟激光雷達一樣的效果嗎？

詹錕：3DViT來自于去年的CVPR的論文VGGT（VGGT: Visual Geometry Grounded Transformer），這證明了2D視覺也能學會完整的3D空間結構，證明了Scaling Law在3D空間的全新可行性。

第二，之前團隊一直在往這方面探索和嘗試，中間做了很多方案的取舍和權衡。最后因為我們看到3D ViT對空間深度的理解、物體精細度的理解能達到激光雷達級別的效果，我們?nèi)ツ瓴耪綇难芯刻剿麟A段轉(zhuǎn)入產(chǎn)品開發(fā)階段。在這個過程中，我們把它變成一個真實項目，放到最新的馬赫VLA里面來。原來馬赫VLA不一定使用3D ViT，但有了會更好。3D ViT后續(xù)還有更大的改進與優(yōu)化空間，這也是追上FSD V14很重要的一環(huán)，中間的視覺信息能不能表征清楚，這是非常關鍵的。

3D ViT是一個純視覺方案，它不依賴于激光雷達。它基于視覺，把空間建模成帶有色彩信息的全彩點云，基于更強的視覺編碼器和空間視覺表征，做到更豐富的3D理解。

關于幀率和激光雷達效果，這其實是兩個問題。高幀率主要是提高反應速度，因為激光雷達幀率有限，只有10Hz，視覺能做到30Hz甚至更高，我們基于視覺能做到更高的反應速度。

能不能達到激光雷達的效果？我們是有信心的。因為我們最新所有的車都標配了激光雷達，激光雷達對純視覺方案有非常強的監(jiān)督和校驗作用。一定要達到跟激光雷達完全一樣的精度嗎？不一定。特別是看遠處時，人也分不清大貨車是20.8米還是19.8米。但在極近處，人對深度的感知非常敏感，我們也是如此，在極近處能達到激光雷達的水平，這是上線的標準。另外，理解空間以后更重要的是做出更擬人的行為決策。

談智駕格局：第一梯隊差距感覺變小了，但大家跟特斯拉的距離沒縮小

提問：前年有一個共識，理想、華為、小鵬處于自動駕駛的第一梯隊。接下來VLA、世界模型、數(shù)據(jù)驅(qū)動，大家投入了很大的數(shù)據(jù)、算力和資金。大家認為隨著時間延長，各家的能力差距會越來越大。但從最近的表現(xiàn)來看，差距反而在縮小，自動駕駛的Scaling Law（規(guī)模效應）似乎沒有起來。接下來理想要拉大差距的話，會做什么事？

詹錕：一年前到現(xiàn)在，智駕格局確實發(fā)生了變化，感覺差距變小了。但從另一個角度看，從一年前到現(xiàn)在，很多玩家已經(jīng)不在了，現(xiàn)在至少智駕的玩家收斂了。

有幾個原因。一是智駕是重投入，它不是把一個公司的算法帶到另一個公司就能轉(zhuǎn)起來，它是一個系統(tǒng)，涉及到系統(tǒng)、人、技術、算力、平臺，這是很大的壁壘，無法在短期內(nèi)建起來。

為什么你感覺第一梯隊差距沒拉大？這里要思考，我們?nèi)绾谓⒆o城河，靠什么能讓別人無法快速追上。我認為要參考特斯拉。

第一，全棧才能建立真正的護城河。你的算力、芯片、基礎設施能不能完全統(tǒng)一在自己的可控范圍內(nèi)，這很重要。如果你只是算法，中美之間的人才流動很快，很容易被遷移。但如果你是全棧的，遷移成本很高，也很難。

第二，下苦功夫。你愿不愿意把精力投入到苦功夫上，這是護城河。哪些是苦功夫？比如精細地洗數(shù)據(jù)。這里有很多細節(jié)，這些細節(jié)并不高大上，但這些一點一滴的細節(jié)才能形成護城河。我們也會在這方面持續(xù)加大投入，逐步把護城河建起來?，F(xiàn)在已經(jīng)有全棧自研的機會了，我們會加大投入，把這些苦功夫做下來。

雖然第一梯隊之間的差距感覺變小了，但大家跟特斯拉的距離并沒有縮小，特斯拉還是很強。如果我們完成年底追上特斯拉的計劃，是有機會脫穎而出的，也是我們一直想做的事情。

提問：我們一直在提全域的軟硬一體，包括主動懸架等系統(tǒng)，其他車企也做了一些零散式的開發(fā)。理想說的全域一體，到底有什么核心優(yōu)勢？

謝炎：全域到底解決什么問題？假設我們停留在L2、L2+，以自動駕駛為例，不做垂直整合也可以，無非是從供應商采買。車還是人類監(jiān)督，人類隨時準備接管，開得慢一點、效率低一點也沒關系，要求不高。但日前發(fā)布會上理想希望它像機器人一樣獨立地完成任務，那對它的智能要求就非常高了。不僅是腦子，對手腳的掌握、對加速、輪子、縱向橫向的控制，要求都很高。

從L2往L3走的時候有很多問題，今天沒有供應商可以解決。你分開采買，可以給你系統(tǒng)、給你線控，但加在一起，有大量的冗余，成本又高，延遲又高，出了問題還很難定位。所以要解決未知問題、想達到更高標準時，領先企業(yè)一定會選擇一起做。當然我不排除20年后技術進入平臺期時，會拆分出各種供應商。但在技術還沒收斂的階段，要達到這個目標，必須自己整合。

就是因為一些問題不好解決，我們才要自己出手，而且這些問題是長期性、重要性的問題。比如L3、L4，今天沒有人完全做到，特斯拉也沒完全做到，這是無人區(qū)，你需要解決這些問題，需要投入巨大的資源。

車的內(nèi)卷就是因為同質(zhì)化。要擺脫同質(zhì)化，就是要做別人不好做或做不到的事。這些事如果供應商能做到，那又同質(zhì)化了。這就是基本邏輯。

提問：理想日前提出具身智能汽車的定義，即電動車、職業(yè)司機、AI計算機、生活助手四位一體。若這四塊拆開來看，未來三年哪部分的競爭最關鍵？

謝炎：我覺得這四個能力其實不是割裂存在的，而是共同構成具身智能汽車的完整能力體系。

電動車解決的是移動能力，讓智能真正能夠進入物理世界；職業(yè)司機解決的是執(zhí)行能力，讓車輛能夠安全可靠地完成出行和任務；AI計算機提供的是算力和系統(tǒng)基礎，支撐越來越復雜的模型和能力運行；生活助手則是交互入口，讓用戶能夠以最自然的方式使用這些能力。

提問：有意見認為理想喜歡用類比，是因為研發(fā)人員覺得李想聽不懂技術，技術判斷穿透力不足，能否回應一下？

謝炎：我在內(nèi)部也希望給大家做類比，因為類比是幫助大家理解，只有理解的比較深，才能做出合適的類比。類比不等于我們不知道背后的原因，相反，我們希望通過類比把復雜的原理講得更清楚。大家如果關注理想汽車的技術，會發(fā)現(xiàn)無論是在芯片還是智駕領域，我們都有大量公開的技術論文。每年我們都會發(fā)表幾十篇頂會論文，覆蓋從模型、系統(tǒng)到芯片的完整技術鏈路，而且這些論文對技術思考和實現(xiàn)路徑都有比較清晰的闡述。

如果感興趣，可以去看一下我們的論文，會看到我們背后的技術思考到底是什么。所以我們的類比并不是憑空產(chǎn)生的，也不是為了包裝概念，而是建立在真實技術原理之上的。一個有技術根基、有原理支撐的類比，才是有效的類比。

詹錕：關于類比的問題，我來補充一下。類比有兩種。

第一種是幫助對外宣傳和溝通，幫助大家理解。類比成人、類比成大腦，這是為了幫助大家更好地理解技術。

第二種類比，大家也要關注。從第一性原理出發(fā)，我們在思考為什么要造未來的硅基人或具身智能，這個類比是從第一性原理看到的，而不是生硬地從技術上對應到一個簡單的事物。其實技術思考很深刻，我們有很多深入的工作、精細的工作在做。從2022年到現(xiàn)在，我們發(fā)了近200篇論文或技術報告，這個數(shù)量非常多。雖然不是所有頂會都有中稿的文章，但投稿的文章更是不知道有多少篇了，我們在這方面有非常深的研究。

類比只是為了幫助大家理解，深入淺出地做一些說明而已。但其實技術思考是很深入的，并不是簡單類比一個簡單的事物。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.