免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

走進(jìn)數(shù)采工廠:深聊機(jī)器人數(shù)據(jù)荒漠、四層金字塔與種樹人

0
分享至

文 | 硅谷101

當(dāng)Scaling Law讓大語(yǔ)言模型一路狂飆,用萬(wàn)億參數(shù)涌現(xiàn)一代又一代更強(qiáng)大的智能之際,機(jī)器人領(lǐng)域卻被數(shù)據(jù)荒漠所困,讓具身智能的泛化性和自主性進(jìn)展遲緩。


為什么AI能用的數(shù)據(jù),機(jī)器人用不了?機(jī)器人的四層數(shù)據(jù)金字塔是如何運(yùn)作的?每一層的進(jìn)展和技術(shù)困境分別是什么,以及,我們?nèi)绾尾拍芙鉀Q機(jī)器人的數(shù)據(jù)難題呢?

這篇文章繼續(xù)我們的“機(jī)器人專輯”,之前我們已經(jīng)講過(guò)了靈巧手、機(jī)器人閉源模型和開源模型,這一期我們來(lái)聊聊這個(gè)領(lǐng)域一個(gè)非常核心的部分:數(shù)據(jù)。

為此,我們飛到上海,走進(jìn)了機(jī)器人數(shù)采工廠,甚至有機(jī)會(huì)親自嘗試了一下“遙操作采集員”這份工作。除此之外,我們也跟智元、Sharpa等機(jī)器人公司們一起深入聊了聊,當(dāng)前機(jī)器人數(shù)據(jù)的技術(shù)路線以及未來(lái)發(fā)展。

稀缺的機(jī)器人數(shù)據(jù),真實(shí)缺口有多大?

首先我們來(lái)回答一個(gè)問(wèn)題:什么是機(jī)器人數(shù)據(jù)?它跟AI大語(yǔ)言模型,以及圖片和視頻模型的數(shù)據(jù)有什么不同呢?

大語(yǔ)言模型是靠“吃掉互聯(lián)網(wǎng)”變聰明的。GPT-4的訓(xùn)練數(shù)據(jù)量以萬(wàn)億token計(jì),相當(dāng)于把人類有記錄的知識(shí)積累全部攝入。

簡(jiǎn)單來(lái)說(shuō),AI生文、生圖以及生聲音、生視頻的模型參數(shù)都可以在互聯(lián)網(wǎng)上找到。大語(yǔ)言模型用的是“世界的文本語(yǔ)言”,包括文本、代碼以及標(biāo)注過(guò)的結(jié)構(gòu)化文本,來(lái)幫助AI理解和生成“語(yǔ)言序列”。類似的,圖像模型用的是“世界的瞬間截圖”,聲音模型用的是“世界的震動(dòng)信號(hào)”,而視頻模型用的是“世界的連續(xù)變化”,而這些數(shù)據(jù),都大量存在互聯(lián)網(wǎng)上。

而機(jī)器人需要的數(shù)據(jù)是具身本體在真實(shí)物理世界里,和具體物體發(fā)生具體交互時(shí)產(chǎn)生的多維度傳感器信號(hào):視覺(jué)、力覺(jué)、關(guān)節(jié)位置、電機(jī)控制量,全部精確同步,時(shí)間戳對(duì)齊,才構(gòu)成一條有用的訓(xùn)練軌跡。

這些信息從來(lái)沒(méi)有被系統(tǒng)性地記錄過(guò),也沒(méi)有任何理由會(huì)被被動(dòng)產(chǎn)生。


姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 機(jī)器人完整的數(shù)據(jù),包括各種傳感器所帶來(lái)的數(shù)據(jù),有視頻,還有力觸覺(jué)傳感器等。它的輸出是對(duì)身體上每一個(gè)電機(jī)關(guān)節(jié)的控制量,能夠控制全身多達(dá)幾十個(gè)自由度的關(guān)節(jié)協(xié)調(diào)配合,去完成具體的任務(wù)。 它的難點(diǎn)就在于這些數(shù)據(jù)天然是不存在互聯(lián)網(wǎng)上的,它需要我們以某種方式去采集,無(wú)論是在真實(shí)環(huán)境里采集,還是在虛擬世界里采集,都需要先布設(shè)機(jī)器人、搭建場(chǎng)景,再引入遙操人員來(lái)控制機(jī)器人采集這類數(shù)據(jù)。


張凱峰 Sharpa研究科學(xué)家、學(xué)術(shù)負(fù)責(zé)人 我覺(jué)得數(shù)據(jù)最大的難點(diǎn)在于我們沒(méi)有辦法采集到機(jī)器人自己在干活的數(shù)據(jù),我們能采集到的其實(shí)是人在操作的數(shù)據(jù),比如動(dòng)作捕捉(MOCAP data),比如YouTube數(shù)據(jù)。所以要做好teleoperation(遙操)、讓機(jī)器人自己去操作其實(shí)比較困難,主要原因是機(jī)器操作員是感受不到機(jī)器人的感受。

這就是整個(gè)行業(yè)數(shù)據(jù)困境的根源:每一條高質(zhì)量數(shù)據(jù)都必須從零開始生產(chǎn)。我們來(lái)用幾個(gè)數(shù)字,試圖展示一下這個(gè)缺口有多大。

谷歌DeepMind在研發(fā)機(jī)器人模型RT系列第一代時(shí),調(diào)動(dòng)了13臺(tái)機(jī)器人,在辦公室廚房環(huán)境里持續(xù)采集了整整17個(gè)月,才積累了約13萬(wàn)條操作軌跡、覆蓋700多項(xiàng)技能。

為了訓(xùn)練RT-2,谷歌聯(lián)合了全球34所研究機(jī)構(gòu),把60個(gè)已有數(shù)據(jù)集全部合并,加上來(lái)自22種機(jī)器人平臺(tái)的真機(jī)數(shù)據(jù),才湊出了Open X-Embodiment,一個(gè)包含超過(guò)100萬(wàn)條操作軌跡的開源數(shù)據(jù)集。


這已經(jīng)被認(rèn)為是目前全球最大的跨機(jī)構(gòu)真機(jī)數(shù)據(jù)集,但即便如此,它涵蓋的527項(xiàng)技能和對(duì)應(yīng)的場(chǎng)景,和現(xiàn)實(shí)世界的需求之間,依然是以數(shù)量級(jí)計(jì)的差距。

面對(duì)如此難獲得的機(jī)器人數(shù)據(jù),怎么辦呢?如今,行業(yè)摸索出了四條并行路線。它們的質(zhì)量從低到高排列,構(gòu)成一個(gè)金字塔,每一層都有自己的優(yōu)勢(shì)、上限和真實(shí)代價(jià),接下來(lái)我們來(lái)一層一層給大家拆解。

數(shù)據(jù)金字塔頂層,準(zhǔn)確但昂貴的真機(jī)數(shù)據(jù)

金字塔的頂層,就是遙操數(shù)據(jù),又被稱為“真機(jī)數(shù)據(jù)”。操作員通過(guò)外骨骼或遙操系統(tǒng),實(shí)時(shí)控制機(jī)器人在真實(shí)場(chǎng)景里完成操作,機(jī)器人所有傳感器全程錄制。這層數(shù)據(jù)信息最完整,真實(shí)的物理接觸、真實(shí)的不確定性、真實(shí)的失敗和恢復(fù),是今天讓機(jī)器人真正能在現(xiàn)實(shí)場(chǎng)景落地的核心原材料。

我們也正好有機(jī)會(huì)來(lái)到上海,走進(jìn)智元機(jī)器人的數(shù)據(jù)采集工廠,看看真機(jī)數(shù)據(jù)是怎么采集的。

姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 我們這里有200臺(tái)機(jī)器,每臺(tái)機(jī)器至少配一個(gè)采集員,有些任務(wù)還會(huì)配備一位同事來(lái)搭配布置場(chǎng)景。

但你以為遙操員是一個(gè)很簡(jiǎn)單的工作嗎?答案是:并不是。反正我們?cè)诂F(xiàn)場(chǎng)試了一下,發(fā)現(xiàn)這個(gè)工作還是很有門檻的。

陳茜 硅谷101聯(lián)合創(chuàng)始人 一個(gè)數(shù)據(jù)采集員,他需要什么樣的資質(zhì)才能把這個(gè)數(shù)據(jù)采集好呢?
姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 我覺(jué)得最重要的是天賦,好的數(shù)據(jù)采集員和差的數(shù)據(jù)采集員,效率可能相差3倍。我認(rèn)為一個(gè)有天賦的數(shù)據(jù)采集員,首先是協(xié)調(diào)性非常好、空間感特別強(qiáng)的人。因?yàn)樵诓杉瘮?shù)據(jù)的過(guò)程中,其實(shí)是在隔空控制另外一個(gè)身體,沒(méi)有直觀的觸覺(jué)反饋,只能通過(guò)肉眼來(lái)閉環(huán)。機(jī)器人手臂和人手臂的構(gòu)型也不一樣,人能達(dá)到的很多姿態(tài),機(jī)器人未必能夠到,所以還要預(yù)判機(jī)器人怎樣才能更高效地夠到目標(biāo),再去設(shè)計(jì)自己的動(dòng)作軌跡。其次是對(duì)空間的精度判斷要很準(zhǔn),如果空間感差,明明想讓機(jī)器人去抓,結(jié)果抓過(guò)了,或夠不到,或一夾就滑,這種情況都非常常見(jiàn)。還有就是體力要好,一天下來(lái)其實(shí)非常辛苦。
智元機(jī)器人采集員 有些人是站著采的,有些人坐著采,兩種感覺(jué)不一樣。
陳茜 硅谷101聯(lián)合創(chuàng)始人 從剛?cè)腴T的一個(gè)采集員到你這樣的金牌采集員需要多長(zhǎng)時(shí)間?
智元機(jī)器人采集員 入職需要一周培訓(xùn)時(shí)間,培訓(xùn)完先入門,之后任務(wù)難度逐級(jí)遞加。
姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 即使是有天賦的采集員,從零基礎(chǔ)到九成功力,大概也要一個(gè)月。Zero to hero(從平凡到英雄),要一個(gè)月吧。

對(duì)于一個(gè)專業(yè)的金牌數(shù)據(jù)采集員來(lái)說(shuō),我剛才失敗了N次的機(jī)器人擺放字母的任務(wù),他一次就搞定了,而這樣的數(shù)據(jù)采集,為的就是機(jī)器人的精確控制能力。但就算是專家水平的遙操員,也不是每一條都可以被算作是有效數(shù)據(jù)的。

陳茜 硅谷101聯(lián)合創(chuàng)始人 人類遙操數(shù)據(jù)的成功率是多少?任務(wù)難易程度不一樣可能也會(huì)影響,我很好奇這個(gè)效率怎么算?
姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 一個(gè)專業(yè)遙操員,8小時(shí)工作大概能平均產(chǎn)出2到3小時(shí)的有效數(shù)據(jù)。因?yàn)橹虚g必然會(huì)涉及兩個(gè)采集之間的場(chǎng)景布置、數(shù)據(jù)上傳,以及操作失敗后的丟棄和重試。
陳茜 硅谷101聯(lián)合創(chuàng)始人 所以就大概1/ 4。

所以,真機(jī)數(shù)據(jù)的優(yōu)勢(shì)是準(zhǔn)確,更容易直接部署、后期調(diào)參成本也更低,但它的代價(jià)也非常直白:貴,并且慢,不容易指數(shù)級(jí)擴(kuò)張。

數(shù)采工廠涉及到硬件成本、場(chǎng)地成本、人工標(biāo)注和監(jiān)督成本,以及時(shí)間成本,與互聯(lián)網(wǎng)數(shù)據(jù)相比,規(guī)模完全不是一個(gè)量級(jí)。

姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 我們今年真機(jī)產(chǎn)能有200萬(wàn)小時(shí),對(duì)應(yīng)著接近2000臺(tái)機(jī)器人和背后規(guī)模相當(dāng)?shù)牟杉瘑T團(tuán)隊(duì)。
陳茜 硅谷101聯(lián)合創(chuàng)始人 這個(gè)規(guī)模會(huì)越來(lái)越大嗎?
姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 真機(jī)今年差不多穩(wěn)定在這個(gè)水平,當(dāng)然也會(huì)根據(jù)市場(chǎng)的動(dòng)態(tài)需求相應(yīng)擴(kuò)產(chǎn)。 不可否認(rèn),人力成本我相信一定會(huì)是將來(lái)競(jìng)爭(zhēng)力和效率里非常重要的一環(huán)。這也是為什么中國(guó)發(fā)展起了大量的數(shù)據(jù)采集,而美國(guó)相對(duì)進(jìn)展比較緩慢,此前特斯拉招聘采集員的薪酬就是50美元一小時(shí)。如果是100萬(wàn)小時(shí),今天放在全球就一定是碾壓式的存在了。
陳茜 硅谷101聯(lián)合創(chuàng)始人 但100萬(wàn)小時(shí)就能解決問(wèn)題了嗎?
姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 我覺(jué)得在一些特定領(lǐng)域100萬(wàn)小時(shí)應(yīng)該可以達(dá)到非常好的效果了。今年我們接觸了很多有數(shù)據(jù)需求的客戶,作為覓蜂的話,我們也在看很多客戶的需求,提出100萬(wàn)小時(shí)需求的單個(gè)客戶已經(jīng)非常多了。這只是第一步,大家到了100萬(wàn)一定會(huì)想1000萬(wàn)。但即使是1億小時(shí),對(duì)于大型人工智能公司每年的基礎(chǔ)設(shè)施投入來(lái)講,也還是一個(gè)非??煽氐牟糠帧?/blockquote>


順便說(shuō)一句,智元正在將真機(jī)數(shù)據(jù)做成一站式的物理AI數(shù)據(jù)服務(wù)平臺(tái),想要解決的就是當(dāng)前機(jī)器人行業(yè)面臨的真機(jī)交互數(shù)據(jù)荒漠的問(wèn)題。

覓蜂科技,押注的是構(gòu)建物理 AI 數(shù)據(jù)基礎(chǔ)設(shè)施,實(shí)現(xiàn)真機(jī)遙操、無(wú)本體采集、仿真數(shù)據(jù)全范式覆蓋,并打通硬件、軟件、平臺(tái)、運(yùn)營(yíng)的全鏈路。覓蜂科技2026年真機(jī)遙操產(chǎn)能接近200萬(wàn)小時(shí),同時(shí)規(guī)劃采集約800萬(wàn)小時(shí)的Human-Centric數(shù)據(jù),背后是將近2000臺(tái)機(jī)器人和對(duì)應(yīng)規(guī)模的采集團(tuán)隊(duì),在中國(guó)國(guó)內(nèi)以及東南亞多地同步運(yùn)作。 可以看到,這就是機(jī)器人行業(yè)中的“石油業(yè)務(wù)”,而數(shù)據(jù)生態(tài)正在迅速崛起,并且需求量非常大。

金字塔第二層,仿真合成數(shù)據(jù)

金字塔從上往下的第二層,就是“仿真合成數(shù)據(jù)”這條規(guī)模效應(yīng)最極致的路線,這也是黃仁勛的英偉達(dá)重點(diǎn)押注的路線。

順便說(shuō)個(gè)小八卦,聽(tīng)說(shuō)黃仁勛的一兒一女都在英偉達(dá)的Physical AI仿真部門,可見(jiàn)老黃對(duì)這一塊有多看重。

簡(jiǎn)單來(lái)說(shuō),這不是從真實(shí)世界采集,而是在虛擬環(huán)境里“生成出來(lái)”的數(shù)據(jù)。與一條一條訓(xùn)出來(lái)的真機(jī)數(shù)據(jù)做個(gè)對(duì)比:英偉達(dá)Isaac Lab可以在單臺(tái)GPU上并行運(yùn)行成千上萬(wàn)個(gè)虛擬機(jī)器人同時(shí)訓(xùn)練。規(guī)??梢允菬o(wú)限的,你想要多少數(shù)據(jù),就有多少數(shù)據(jù)。


比如說(shuō),機(jī)器人公司Sharpa在2026年CES上超火出圈的乒乓球機(jī)器人,就是花了40個(gè)小時(shí)用純仿真數(shù)據(jù)訓(xùn)練出了0.2秒量級(jí)的擊球反應(yīng)速度,這就是這條路線的一個(gè)具體案例。

仿真還能做一件真機(jī)采集做不到的事:生成現(xiàn)實(shí)中極難遇到的邊緣場(chǎng)景。機(jī)器人在仿真里可以反復(fù)摔倒、反復(fù)失敗,所有失敗都成為數(shù)據(jù),而不造成任何真實(shí)損失。

此外,Sharpa的研究科學(xué)家還告訴我們,仿真技術(shù)讓“觸覺(jué)”這種真機(jī)更難采集的數(shù)據(jù)有了新的突破。

張凱峰 Sharpa研究科學(xué)家、學(xué)術(shù)負(fù)責(zé)人 我們最近跟英偉達(dá)合作了一個(gè)觸覺(jué)仿真工具叫Tacmap,它做了這樣一件事:對(duì)于傳統(tǒng)視觸覺(jué)而言,你需要在simulation(仿真)里建模視觸覺(jué)指尖,但你沒(méi)辦法在simulation(仿真)里安裝攝像頭去觀察marker(標(biāo)記)點(diǎn)的形變。所以我們提出了Tacmap。


它用物體與指尖穿膜的深度圖作為介質(zhì),在仿真里可以高效獲取這個(gè)deformation map(形變圖),并且具有良好的物理特性。在現(xiàn)實(shí)環(huán)境中,我們也通過(guò)類似方式獲取deformation map(形變圖),通過(guò)大量數(shù)據(jù)采集訓(xùn)練了一個(gè)翻譯模型叫translation model,將raw image(原始圖像)翻譯成deformation map(形變圖)?;谶@個(gè)deformation map(形變圖),我們實(shí)現(xiàn)了一些技能的Sim-to-Real(從仿真到現(xiàn)實(shí)),能夠完成一些精細(xì)化操作。

當(dāng)然,這個(gè)路線有一個(gè)巨大的漏洞,就是嘉賓剛才提到的Sim-to-Real Gap,字面意思是“仿真到現(xiàn)實(shí)的鴻溝”。問(wèn)題的本質(zhì)是:機(jī)器人在虛擬環(huán)境里練得再好,放到真實(shí)世界里往往會(huì)出問(wèn)題。為什么會(huì)這樣呢?

因?yàn)榉抡姝h(huán)境是人用代碼構(gòu)建的物理世界的近似,但真實(shí)世界的物理復(fù)雜得多。

舉一個(gè)最簡(jiǎn)單的例子:機(jī)器人在仿真里學(xué)會(huì)了抓一個(gè)塑料杯子,仿真里這個(gè)杯子的重量、摩擦系數(shù)、形變方式都是固定的參數(shù)。但真實(shí)世界里,濕手拿杯子和干手拿杯子的摩擦系數(shù)不一樣,杯子里有沒(méi)有水重量也不一樣,光滑桌面和粗糙桌面上的杯子滑動(dòng)方式不一樣。這些細(xì)節(jié),仿真里要么沒(méi)建模,要么建模不夠精確。

總的來(lái)說(shuō),運(yùn)動(dòng)學(xué)層面的問(wèn)題,包括關(guān)節(jié)怎么彎、手臂走什么軌跡,相對(duì)容易在仿真里做好,放到真機(jī)上效果也還行。但真正難的是動(dòng)力學(xué)層面,比如物體之間接觸時(shí)力怎么傳遞、軟性材料怎么形變、液體怎么流動(dòng)。這些現(xiàn)象對(duì)今天的物理引擎來(lái)說(shuō)還很難完整復(fù)現(xiàn)。


結(jié)果就是:機(jī)器人在仿真里練了一萬(wàn)次疊衣服,放到真實(shí)的毛衣面前,因?yàn)椴剂系娜彳洺潭群头抡胬锏膮?shù)對(duì)不上,動(dòng)作就會(huì)出錯(cuò)。這不是模型不夠聰明,是它從來(lái)沒(méi)有經(jīng)歷過(guò)真實(shí)的物理接觸。

目前,行業(yè)中的解決辦法包括:域隨機(jī)化(不去做一個(gè)“完美仿真”,而是做“很多不一樣的仿真”,逼模型學(xué)會(huì)忽略差異、抓住本質(zhì)),還有把仿真做得更好更真(這也是英偉達(dá)主要在做的事情),以及用少量的真機(jī)數(shù)據(jù)去微調(diào)。但張凱峰認(rèn)為,最終還需要一個(gè)更創(chuàng)新的解決之道。

張凱峰 Sharpa研究科學(xué)家、學(xué)術(shù)負(fù)責(zé)人 現(xiàn)在很難解決的一個(gè)動(dòng)力學(xué)的Sim-to-Real Gap(從仿真到現(xiàn)實(shí)的鴻溝)是環(huán)境的dynamics(動(dòng)力學(xué)),也就是說(shuō)你很難對(duì)齊這個(gè)物理世界的環(huán)境和現(xiàn)實(shí)世界的環(huán)境的遷移,也就是我們所說(shuō)的transition model(狀態(tài)轉(zhuǎn)移模型),所以這是我覺(jué)得是目前還需要一些科學(xué)方法上的創(chuàng)新。

除了Sim-to-real,Real-to-sim Gap(從現(xiàn)實(shí)到仿真的鴻溝)也是目前行業(yè)中的核心挑戰(zhàn),這個(gè)詞和Sim-to-real是反過(guò)來(lái)的,意思是你沒(méi)辦法把真實(shí)世界準(zhǔn)確“搬進(jìn)”仿真里。

因?yàn)楝F(xiàn)實(shí)世界太復(fù)雜了,咱們的真實(shí)環(huán)境中有無(wú)限的細(xì)節(jié)、噪音和不規(guī)則的事件,還有很多難以觀測(cè)的參數(shù)。所以仿真世界,其實(shí)沒(méi)有那么好建。

金字塔第三層,動(dòng)捕數(shù)據(jù)

我們繼續(xù)往機(jī)器人的數(shù)據(jù)金字塔下面走,到第三層,動(dòng)作捕捉數(shù)據(jù)。動(dòng)作捕捉數(shù)據(jù)集,被稱為MOCAP。這個(gè)派系是用光學(xué)設(shè)備或視覺(jué)算法追蹤人手的運(yùn)動(dòng)軌跡,比純視頻多了“怎么動(dòng)”的信息維度。

動(dòng)捕數(shù)據(jù)的本質(zhì)是記錄“人是怎么動(dòng)的”,然后再把這個(gè)動(dòng)作“映射”到機(jī)器人上。比如說(shuō),機(jī)器人算法公司Physical Intelligence的π0系列就大量使用了這類數(shù)據(jù)。π0.5在大約400小時(shí)移動(dòng)操作數(shù)據(jù)和大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的基礎(chǔ)上,實(shí)現(xiàn)了在真實(shí)家庭環(huán)境里完成長(zhǎng)程任務(wù)的能力。

它的優(yōu)點(diǎn)是:數(shù)據(jù)質(zhì)量高,尤其在運(yùn)動(dòng)結(jié)構(gòu)上,能大幅減少無(wú)效數(shù)據(jù),對(duì)復(fù)雜動(dòng)作特別有效。大家看到的很酷炫的很多機(jī)器人跳舞,武術(shù)等等任務(wù)都是用到了動(dòng)作捕捉的數(shù)據(jù)收集,這是純強(qiáng)化學(xué)習(xí)很難達(dá)到的效果。

但這個(gè)路線除了成本貴和數(shù)據(jù)覆蓋有限之外,還有一個(gè)很關(guān)鍵的劣勢(shì)就是:人畢竟和機(jī)器人的結(jié)構(gòu)不一樣,這就是Embodiment Gap(具身鴻溝)。

張凱峰 Sharpa研究科學(xué)家、學(xué)術(shù)負(fù)責(zé)人 一方面,視覺(jué)上看到的是人的手,而不是機(jī)器人的手,所以存在視覺(jué)上的gap(差異)。第二個(gè)問(wèn)題是state(狀態(tài))上的gap(差異),通過(guò)動(dòng)捕或其他方式得到的state(狀態(tài))其實(shí)不夠準(zhǔn)確,會(huì)有自遮擋的問(wèn)題,也會(huì)有被物體遮擋的問(wèn)題,所以得到的動(dòng)作也是不準(zhǔn)確的。

Embodiment Gap的意思是,人的身體和機(jī)器人的身體之間,有一道操作語(yǔ)義上的溝壑。人手在操作時(shí)依賴皮膚上密布的觸覺(jué)感受器,每抓一個(gè)物體,神經(jīng)系統(tǒng)都在實(shí)時(shí)根據(jù)觸覺(jué)反饋調(diào)整力度。機(jī)器人沒(méi)有這套系統(tǒng),所以即使動(dòng)作軌跡被精確復(fù)制,完成任務(wù)的能力也不會(huì)自動(dòng)跟上。

除了Embodiment Gap,還有另外一個(gè)沒(méi)有克服的難題,叫做Functional Retargeting。它的意思是,機(jī)器人只是在模仿動(dòng)作的形狀,而不是理解這個(gè)動(dòng)作要完成什么。

張凱峰 Sharpa研究科學(xué)家、學(xué)術(shù)負(fù)責(zé)人 這意味著你把人的動(dòng)作映射到機(jī)器人動(dòng)作上之后,它只是做了運(yùn)動(dòng)學(xué)層面的對(duì)應(yīng),并沒(méi)有真正實(shí)現(xiàn)操作本身在語(yǔ)義上的對(duì)應(yīng)。

也就是說(shuō),動(dòng)捕數(shù)據(jù)會(huì)出現(xiàn)比如說(shuō)關(guān)節(jié)角度超限、力矩不夠、平衡失敗等問(wèn)題,這就讓這個(gè)層級(jí)的數(shù)據(jù)在一定程度上,和第四層的視頻數(shù)據(jù)一起,被認(rèn)為是“低質(zhì)量數(shù)據(jù)”。

金字塔最底層,互聯(lián)網(wǎng)視頻

從YouTube到抖音,人類完成各種任務(wù)的視頻海量存在。這是今天具身智能訓(xùn)練里唯一真正“不缺”的原材料。但它能教會(huì)機(jī)器人什么?

姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 更多是讓機(jī)器人的大腦模型學(xué)習(xí)一種通用的表征,比如簡(jiǎn)單認(rèn)知以及對(duì)物理規(guī)律有粗淺的認(rèn)知,但它還只停留在認(rèn)知階段。

姚卯青用了一個(gè)有趣的比喻:看再多別人打乒乓球的比賽視頻,你第一天拿起球拍,也接不住球。視頻給機(jī)器人建立了關(guān)于物理世界的基礎(chǔ)認(rèn)知,知道乒乓球是什么形狀,知道打球大概是什么動(dòng)作,但從“知道”到“會(huì)做”之間,隔著一道鴻溝。視頻里根本沒(méi)有動(dòng)作信號(hào),只有結(jié)果。

互聯(lián)網(wǎng)上的海量視頻數(shù)據(jù),也被Sharpa稱之為最低質(zhì)量的數(shù)據(jù)。

張凱峰 Sharpa研究科學(xué)家、學(xué)術(shù)負(fù)責(zé)人 YouTube videos最大的劣勢(shì)是它沒(méi)有力和觸覺(jué)信息,優(yōu)勢(shì)是量非常大,能給我們提供一些有用的信息:一是世界是怎么變化的,比如我們常常講World Models(世界模型),就是利用這類in the wild(自然場(chǎng)景下)的數(shù)據(jù)來(lái)訓(xùn)練World Models(世界模型);二是能給我們一些操作信息,比如affordance(預(yù)設(shè)用途)是什么,這對(duì)操作來(lái)講也非常關(guān)鍵。

再進(jìn)一步聊視頻作為機(jī)器人數(shù)據(jù)之前,我們引入兩個(gè)關(guān)鍵的概念,分別是Egocentric和Human-Centric。這兩個(gè)分類是視頻數(shù)據(jù)中被認(rèn)為對(duì)機(jī)器人最有用的數(shù)據(jù)。


Egocentric的意思是“自我中心數(shù)據(jù)”,也就是“以機(jī)器人的視角看出去”,看到桌子、杯子、自己的機(jī)械臂、甚至還有遮擋、接觸和動(dòng)態(tài)變化這樣和行動(dòng)綁定的“第一視角視頻”,并能直接用于決策的數(shù)據(jù),被稱為Egocentric。

為什么這個(gè)視角很重要呢,是因?yàn)闄C(jī)器人從攝像頭,特別是人形機(jī)器人,看到的視角就是這樣的。

蘋果在2025年5月發(fā)布了一個(gè)Egocentric的數(shù)據(jù)集名為EgoDex:用Apple Vision Pro采集了829小時(shí)第一人稱視角視頻,每一幀都配有手部每個(gè)關(guān)節(jié)的精確3D追蹤數(shù)據(jù),覆蓋系鞋帶、折疊衣物等194種桌面操作任務(wù),數(shù)據(jù)集完全開源,希望推動(dòng)機(jī)器人靈巧操作研究。


最近,我們剛才提到的覓蜂科技也推出了MEgo系列無(wú)本體數(shù)據(jù)采集設(shè)備MEgo Gripper和MEgo View,搭配MEgo Engine一站式數(shù)據(jù)治理服務(wù)平臺(tái),試圖降低物理AI數(shù)據(jù)采集對(duì)實(shí)體機(jī)器人本體的依賴,讓高質(zhì)量的第一視角數(shù)據(jù)走向輕量化、規(guī)?;腿珗?chǎng)景化。

另外一個(gè)詞,Human-Centric數(shù)據(jù)的意思是圍繞“人類行為、意圖、偏好或示范”來(lái)構(gòu)建,用來(lái)讓機(jī)器人學(xué)習(xí)人類想要的行為方式。比如說(shuō)人類抓杯子,人類開門,人類折疊衣服這類“人直接做給機(jī)器人看”的視頻能讓具身智能理解“人想達(dá)到什么目標(biāo)”,以及人類標(biāo)準(zhǔn)中的“正確做法”。而Human-Centric數(shù)據(jù)可以是第一視角,也可以是第三視角。

我們總結(jié)一下,Egocentric是第一人稱視角視頻,但任務(wù)不一定和人相關(guān)。而Human-Centric是人類意圖的視頻。這兩者相交集的區(qū)域就是Egocentric+Human-Centric,指的是“人類在第一視角下完成任務(wù)的數(shù)據(jù)”,這被視為是視頻數(shù)據(jù)里,最有價(jià)值的部分。


比如說(shuō),英偉達(dá)在今年3月推出的EgoScale,就使用超過(guò)20000小時(shí)的人類視頻進(jìn)行預(yù)訓(xùn)練,涵蓋數(shù)千個(gè)獨(dú)特的任務(wù)和環(huán)境。精確的骨骼手部追蹤使模型能夠提取并重新定位21個(gè)人體運(yùn)動(dòng)關(guān)鍵點(diǎn),從而構(gòu)建統(tǒng)一的機(jī)器人動(dòng)作空間。

所以,雖然YouTube data被機(jī)器人專家們各種嫌棄,但因?yàn)樗暮A看嬖诤偷统杀拘?yīng),如果某家公司通過(guò)某種技術(shù)突破讓這些互聯(lián)網(wǎng)視頻變得“更可用”、能大幅提升機(jī)器人表現(xiàn),那將有巨大的前景,而這也正是目前各大公司押注的重點(diǎn)。

特斯拉在2025年6月做了一次重要的策略調(diào)整:把此前依賴動(dòng)作捕捉套裝和VR頭顯的采集方式,換成了攝像機(jī)頭盔,讓工人戴著裝有5個(gè)攝像頭的裝備錄制日常操作視頻,再用這些視頻訓(xùn)練Optimus,公司內(nèi)部表示這樣能“更快規(guī)?;?。


順便說(shuō)一句,自動(dòng)駕駛就是Egocentric的數(shù)據(jù),而且FSD也是用視頻數(shù)據(jù)驅(qū)動(dòng)汽車這個(gè)物理本體的案例,所以O(shè)ptimus會(huì)在視頻數(shù)據(jù)路線上再次押注,這也非常符合馬斯克的第一性原理。

而同時(shí),初創(chuàng)公司們也在如何將“低質(zhì)量數(shù)據(jù)”變得更可用這個(gè)路線上,也有著非常積極的嘗試。

在今年年初,Sharpa發(fā)布CraftNet,他們用一套觸覺(jué)反射層(System 0)做補(bǔ)償:機(jī)器人上層策略只需給出粗糙的動(dòng)作意圖,底層觸覺(jué)感知系統(tǒng)根據(jù)實(shí)時(shí)力反饋?zhàn)詣?dòng)完成精細(xì)調(diào)整。這個(gè)設(shè)計(jì)從硬件層降低了對(duì)上層數(shù)據(jù)精度的要求,使低質(zhì)量動(dòng)作捕捉和視頻數(shù)據(jù)也可以被利用起來(lái)。


張凱峰 Sharpa研究科學(xué)家、學(xué)術(shù)負(fù)責(zé)人張凱峰 因?yàn)橛辛薙ystem 0,所以我們可以達(dá)到一個(gè)點(diǎn)石成金的效果,能夠把大量的低質(zhì)量數(shù)據(jù)用起來(lái)。System 1只需要給出粗糙的動(dòng)作意圖和手勢(shì),就能夠?qū)崿F(xiàn)fine manipulation(精細(xì)操作)的能力。

說(shuō)完了機(jī)器人數(shù)據(jù)的四層金字塔結(jié)構(gòu),各自的優(yōu)劣勢(shì)以及各層級(jí)正在發(fā)生的進(jìn)展,就會(huì)發(fā)現(xiàn)魚與熊掌不可兼得的真理,真的是有道理的。最精確最高質(zhì)量的真機(jī)數(shù)據(jù)是最少最難獲取的,而最容易獲取的視頻數(shù)據(jù)又是質(zhì)量最低最不可用的數(shù)據(jù)。

所以,行業(yè)現(xiàn)在的做法是:把他們混合起來(lái)用,能不能又平衡數(shù)據(jù)質(zhì)量,又能平衡一下成本呢?那么這個(gè)混合的配方又是如何的呢?

各家公司的混搭配方,數(shù)據(jù)與成本如何取舍?

我們?cè)跇I(yè)界跟很多機(jī)器人公司聊,目前普遍的共識(shí)是,這個(gè)四層金字塔代表著數(shù)據(jù)的不同來(lái)源,并且也要適配不同的具身本體和模型,沒(méi)有一個(gè)統(tǒng)一標(biāo)準(zhǔn),每個(gè)公司會(huì)有自己的配方和天平。

陳茜 硅谷101聯(lián)合創(chuàng)始人 它到最后可能是一個(gè)整合的solution(解決方案)?它們各自的比例大概是什么樣子?


姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 對(duì),它會(huì)是一個(gè)整合的solution(解決方案)。現(xiàn)在很難說(shuō)什么樣的比例是黃金配方,因?yàn)檫@不是一個(gè)簡(jiǎn)單配比然后達(dá)成單一目標(biāo)的問(wèn)題。首先在技術(shù)路線上還有很多路徑在探索,并沒(méi)有歸一到一種確定的范式。其次,訓(xùn)練機(jī)器人模型的目標(biāo)也不是唯一的:有些情況是讓機(jī)器人在某個(gè)特定場(chǎng)景干到極致,比如工業(yè)場(chǎng)景中人的節(jié)拍效率和100%的成功率;有些場(chǎng)景更看重泛化性,成功率98%、99%也可以接受,甚至允許人在過(guò)程中做一些干預(yù)、接管兜底,但對(duì)泛化性要求很高。面向不同目標(biāo),用到的數(shù)據(jù)比例也會(huì)不一樣。

對(duì)Sharpa來(lái)說(shuō),答案也很類似,不同的任務(wù)他們采取了不同的數(shù)據(jù)策略。


張凱峰 Sharpa研究科學(xué)家、學(xué)術(shù)負(fù)責(zé)人 我們的乒乓球機(jī)器人是在仿真里面訓(xùn)練的,大概是訓(xùn)練了40小時(shí)左右,我們的發(fā)牌機(jī)器人用的是 imitation(模仿學(xué)習(xí))的方式來(lái)訓(xùn)練的,它大概是用到了兩三百小時(shí)的teleoperation data(遠(yuǎn)程操作數(shù)據(jù))以及一些Egocentric的數(shù)據(jù)。

張凱峰也給了我們一個(gè)很平均的估算,在訓(xùn)練較為復(fù)雜的任務(wù)中,各層數(shù)據(jù)之間的軌跡數(shù)量比大約是,遙操作數(shù)據(jù):動(dòng)作捕捉數(shù)據(jù)=1:100,動(dòng)作捕捉數(shù)據(jù):互聯(lián)網(wǎng)視頻≈1:100。換算下來(lái),遙操作數(shù)據(jù)在整個(gè)數(shù)據(jù)池里大約是萬(wàn)分之一的存在。但就是這萬(wàn)分之一,往往是最終決定模型能否在真實(shí)場(chǎng)景落地的關(guān)鍵。

張凱峰 Sharpa研究科學(xué)家、學(xué)術(shù)負(fù)責(zé)人 非要我選一個(gè)更重要的點(diǎn),我會(huì)選數(shù)據(jù)質(zhì)量,因?yàn)橹挥懈哔|(zhì)量數(shù)據(jù)才能訓(xùn)練出有用的模型。但如果數(shù)量很難規(guī)?;?,我們就需要做折中,就像我剛才講的數(shù)據(jù)金字塔方式,把每一部分?jǐn)?shù)據(jù)都利用起來(lái):既能理解環(huán)境的變化,也能理解操作的語(yǔ)義,最終幫我們完成操作任務(wù)。
數(shù)據(jù)的“捷徑”硅谷路線

以上我們聊到了智元這樣的中國(guó)機(jī)器人公司如何處理數(shù)據(jù)問(wèn)題:太貴、太慢,就直接把它做成工廠,利用人力成本和效率優(yōu)勢(shì)來(lái)打造護(hù)城河。但硅谷幾家最受關(guān)注的機(jī)器人公司,卻不得不走數(shù)據(jù)的“捷徑路線”。

7.1 PI:讓機(jī)器人在真實(shí)試錯(cuò)中自我進(jìn)化

比如說(shuō)Physical Intelligence的數(shù)據(jù)策略就靠精度加迭代。他們?cè)谂f金山Dandelion Chocolate工廠部署了一臺(tái)機(jī)器人整天打包巧克力盒子,同時(shí)在辦公室提供咖啡服務(wù),員工在Slack里發(fā)“我要一杯拿鐵”,機(jī)器人就去做。創(chuàng)始人Sergey Levine的哲學(xué)是:看當(dāng)機(jī)器人不得不在真實(shí)世界完成任務(wù)時(shí)會(huì)發(fā)生什么,以及這類部署的數(shù)據(jù)能如何繼續(xù)改善系統(tǒng)。


在這個(gè)基礎(chǔ)上,PI試圖讓機(jī)器人在真實(shí)部署里通過(guò)強(qiáng)化學(xué)習(xí)持續(xù)自我改進(jìn)。

2025年11月發(fā)布的π0.6,用一套叫RECAP的方法,在折疊衣物、裝紙箱、做濃縮咖啡等任務(wù)上,把最難任務(wù)的吞吐量提升了一倍以上,失敗率降低了約一半。2026年3月發(fā)布的RLT方法,引入了一個(gè)特殊的輸出token,作為VLA模型與輕量級(jí)強(qiáng)化學(xué)習(xí)策略之間的緊湊接口,只需幾小時(shí)真實(shí)操作練習(xí),機(jī)器人在精細(xì)操作任務(wù)上的速度就能提升三倍,某些動(dòng)作甚至超過(guò)人類遙操員。

這條強(qiáng)化學(xué)習(xí)路線的吸引力在于:機(jī)器人自己產(chǎn)生自己的訓(xùn)練數(shù)據(jù),繞過(guò)了人工采集。但它有三個(gè)今天還沒(méi)有好答案的真實(shí)問(wèn)題。

第一是獎(jiǎng)勵(lì)函數(shù)。衣服疊得“夠好”的標(biāo)準(zhǔn)很難量化,定義不準(zhǔn)機(jī)器人就會(huì)找捷徑,比如把衣服揉成一團(tuán)塞進(jìn)角落,因?yàn)檫@樣“占用空間最小”,滿足了某個(gè)錯(cuò)誤的優(yōu)化目標(biāo)。

第二是安全邊界。機(jī)器人在客戶生產(chǎn)線上試錯(cuò),每次失敗都有現(xiàn)實(shí)代價(jià):損壞產(chǎn)品、影響節(jié)拍、甚至傷到工人。

第三是數(shù)據(jù)歸屬。強(qiáng)化學(xué)習(xí)數(shù)據(jù)是機(jī)器人用客戶的物理空間和物理資產(chǎn)試錯(cuò)產(chǎn)生的,所有權(quán)比遙操作數(shù)據(jù)更加模糊,遙操作好歹有明確的人工生產(chǎn)主體,但強(qiáng)化學(xué)習(xí)沒(méi)有。

如今PI在π0.6上驗(yàn)證的場(chǎng)景,是相對(duì)結(jié)構(gòu)化的任務(wù),在受控實(shí)驗(yàn)環(huán)境里運(yùn)行了13小時(shí)。距離真實(shí)工廠大規(guī)模部署、在陌生場(chǎng)景里穩(wěn)定運(yùn)行,還有相當(dāng)?shù)木嚯x。


除了強(qiáng)化學(xué)習(xí)路線,PI同時(shí)在探索用我們上面提到的Egocentric視頻補(bǔ)充訓(xùn)練數(shù)據(jù)。PI在2025年12月發(fā)布的研究顯示,一旦機(jī)器人基礎(chǔ)模型積累了足夠的真實(shí)操作經(jīng)驗(yàn),加入第一人稱人類視頻后,各個(gè)泛化任務(wù)的平均成功率接近翻倍。

7.2 Figure AI:把最大的房東變成數(shù)據(jù)采集場(chǎng)

2025年9月,F(xiàn)igure AI與全球最大另類資產(chǎn)管理公司Brookfield簽署戰(zhàn)略合作。Brookfield管理著超過(guò)10萬(wàn)套住宅、5億平方英尺的商業(yè)辦公空間和1.6億平方英尺的物流空間。

Figure的計(jì)劃:在這些真實(shí)的家和寫字樓里,讓人戴著攝像頭拍視頻,用這些視頻訓(xùn)練Helix模型,目標(biāo)是建成“全球規(guī)模最大、最多樣化的人形機(jī)器人預(yù)訓(xùn)練數(shù)據(jù)集”。Brookfield同時(shí)跟投了Figure超10億美元的C輪融資。


Figure隨后發(fā)布了初步結(jié)果:Helix模型在只用第一人稱人類視頻訓(xùn)練、沒(méi)有任何機(jī)器人數(shù)據(jù)的情況下,已經(jīng)能根據(jù)自然語(yǔ)言指令在雜亂的真實(shí)房間里導(dǎo)航移動(dòng)。

7.3 Sunday Robotics:眾包做家務(wù)視頻

還有一家更小的創(chuàng)業(yè)公司Sunday Robotics,走的路更極端:直接付錢讓普通人在家里錄自己做家務(wù)的視頻,然后用這些視頻訓(xùn)練機(jī)器人,把“數(shù)據(jù)采集員”變成眾包經(jīng)濟(jì)的工作。


如果我們看看不同機(jī)器人公司如何押注數(shù)據(jù)路線,我們會(huì)發(fā)現(xiàn),不同的市場(chǎng)因?yàn)樯鷳B(tài)不同做出了不同的決策:整個(gè)硅谷在往視頻數(shù)據(jù)靠,減少對(duì)遙操作的依賴,押注可以被動(dòng)規(guī)?;牟杉绞?。這和中國(guó)公司的方向形成了差異化。

但這兩種選擇可能也無(wú)所謂對(duì)錯(cuò),因?yàn)槲覀冞€在行業(yè)的初期,任何的嘗試都是有意義的,特別是對(duì)于數(shù)據(jù)來(lái)說(shuō),開源更是一件廣受歡迎和好評(píng)的事。

種樹人和數(shù)據(jù)飛輪,開源百萬(wàn)條數(shù)據(jù)換來(lái)的是什么?

2024年,智元做了一件讓行業(yè)困惑的決定:把自己辛苦采集的百萬(wàn)條遙操數(shù)據(jù),打包成AgiBot World數(shù)據(jù)集,免費(fèi)向全球開放。


但這背后有一個(gè)被大多數(shù)報(bào)道忽略的行業(yè)困境。2023年到2024年,具身智能公司大量涌現(xiàn),但整個(gè)行業(yè)面臨一個(gè)根本性的認(rèn)知危機(jī):沒(méi)有公共的數(shù)據(jù)基準(zhǔn),就無(wú)法判斷一個(gè)模型的訓(xùn)練方法對(duì)不對(duì)。谷歌的RT系列和開源模型OpenVLA在學(xué)術(shù)界引發(fā)了廣泛關(guān)注,開創(chuàng)了VLA這個(gè)范式,但因?yàn)橛?xùn)練數(shù)據(jù)全是學(xué)術(shù)級(jí)的數(shù)據(jù)集,在實(shí)際場(chǎng)景里的效果依然有限,導(dǎo)致這個(gè)范式的真實(shí)潛力長(zhǎng)期得不到驗(yàn)證。

姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 這件事一定得有人邁出第一步,工業(yè)界的人得邁出第一步,否則誰(shuí)也無(wú)法真正訓(xùn)練出高質(zhì)量的模型,也沒(méi)有一個(gè)公允的benchmark(基準(zhǔn)測(cè)試)數(shù)據(jù)集來(lái)做評(píng)測(cè)。面對(duì)這個(gè)數(shù)據(jù)荒漠,我們算是種下了第一棵樹,希望將來(lái)能變成一片森林。

而這棵樹發(fā)芽了。


2025年3月,英偉達(dá)在GTC大會(huì)發(fā)布第一代具身基礎(chǔ)模型GROOT N1。而GROOT N1訓(xùn)練所用真實(shí)世界數(shù)據(jù)里,約80%來(lái)自AgiBot World。

而開源的連鎖效應(yīng)還不止于此。越來(lái)越多的學(xué)術(shù)團(tuán)隊(duì)在用了AgiBot World之后,轉(zhuǎn)而采購(gòu)智元的機(jī)器人本體做研發(fā),因?yàn)樵谕豢畋倔w上采集的數(shù)據(jù),在這款本體上訓(xùn)練出來(lái)的模型效果更好。

也就是說(shuō),數(shù)據(jù)開源帶來(lái)了生態(tài),生態(tài)帶來(lái)了硬件銷量,硬件銷量產(chǎn)生更多數(shù)據(jù)。

同時(shí)我們也看到,機(jī)器人的數(shù)據(jù)工廠在建,開源生態(tài)在形成,下一個(gè)問(wèn)題是:具身智能能否形成真正的數(shù)據(jù)飛輪?


姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 數(shù)據(jù)飛輪絕對(duì)會(huì)存在。具身智能跟大語(yǔ)言模型一樣,數(shù)據(jù)飛輪的核心是:模型部署之后,在用戶的使用過(guò)程中持續(xù)接收到反饋,利用這些反饋不斷提升能力,最終變成用戶體驗(yàn)的提升。機(jī)器人現(xiàn)在其實(shí)更需要這樣的飛輪,也更會(huì)催生這樣的飛輪。語(yǔ)言模型容錯(cuò)度比較高,說(shuō)錯(cuò)幾個(gè)字、有些似是而非,用戶還能接受。但機(jī)器人如果是在工廠打螺絲,毫米級(jí)的精度,差一點(diǎn)可能就不行了,一定需要在現(xiàn)實(shí)部署中不斷遇到失敗場(chǎng)景,把這些數(shù)據(jù)采集回來(lái)持續(xù)提升,才能達(dá)到進(jìn)工廠接近人類節(jié)拍的百小時(shí)、千小時(shí)MTBF(平均故障間隔)級(jí)別。
陳茜 硅谷101聯(lián)合創(chuàng)始人 這樣的一個(gè)數(shù)據(jù)飛輪,類比大語(yǔ)言模型的scaling law(縮放定律),它們是一回事嗎?還是有區(qū)別的?
姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 基本上還是一回事。數(shù)據(jù)飛輪就是要在真正實(shí)地部署的形態(tài)下持續(xù)收集數(shù)據(jù)。這套我們現(xiàn)在已經(jīng)在所有機(jī)器人產(chǎn)品上作為標(biāo)配搭售了,在用戶許可的情況下,會(huì)像自動(dòng)駕駛的功能一樣,收集那些高優(yōu)的數(shù)據(jù)。
陳茜 硅谷101聯(lián)合創(chuàng)始人 部署的機(jī)器人收集到的數(shù)據(jù),大概有多少比例可以回流回來(lái)再給你們進(jìn)行訓(xùn)練?
姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 大概在5%以內(nèi)。因?yàn)榇蟛糠謺r(shí)間這些數(shù)據(jù)對(duì)我們來(lái)說(shuō)沒(méi)有提升意義,因?yàn)槎际浅晒Φ?,屬于已?jīng)會(huì)的東西。
陳茜 硅谷101聯(lián)合創(chuàng)始人 所以你們只需要失敗的。
姚卯青 智元機(jī)器人合伙人&具身智能業(yè)務(wù)部總裁、覓蜂科技董事長(zhǎng)&CEO 對(duì),要的是還不會(huì)的。不然天天這么多機(jī)器人在跑,全世界的存儲(chǔ)都存不下這些實(shí)時(shí)數(shù)據(jù),大家都是觸發(fā)一些高價(jià)值的數(shù)據(jù)。

但飛輪能轉(zhuǎn),不代表轉(zhuǎn)速能達(dá)到預(yù)期。這里有一個(gè)比飛輪更基礎(chǔ)的問(wèn)題:具身智能的scaling law(縮放定律)是否成立?

在語(yǔ)言模型里,這個(gè)問(wèn)題有明確的答案:數(shù)據(jù)翻倍、模型變大,能力就會(huì)涌現(xiàn)。但機(jī)器人行業(yè),目前還沒(méi)有答案。


張凱峰 Sharpa研究科學(xué)家、學(xué)術(shù)負(fù)責(zé)人 我們需要看到:隨著數(shù)據(jù)量增加、模型規(guī)模變大,能夠有智能的涌現(xiàn),能夠?qū)崿F(xiàn)任務(wù)級(jí)的泛化能力。我認(rèn)為現(xiàn)在還沒(méi)有看到有任務(wù)級(jí)別的泛化,我們現(xiàn)在能看到的泛化往往是物體層面的——見(jiàn)過(guò)很多種類的物體,能夠?qū)崿F(xiàn)物體層面的泛化,也能實(shí)現(xiàn)環(huán)境層面的泛化,但任務(wù)層級(jí)的泛化,還沒(méi)有。

這里就是關(guān)鍵區(qū)別:物體泛化(見(jiàn)過(guò)類似物體就能處理)和任務(wù)泛化(從沒(méi)見(jiàn)過(guò)這類任務(wù)也能舉一反三),是兩個(gè)完全不同量級(jí)的能力。前者今天已經(jīng)在一定程度上實(shí)現(xiàn),后者還沒(méi)有可信的證據(jù)。而這個(gè)證據(jù),是整個(gè)機(jī)器人行業(yè)走向下一步進(jìn)化的鑰匙。而在機(jī)器人大規(guī)模部署之前,我們可能都不會(huì)有答案。


PI的創(chuàng)始人Sergey Levine教授在他的Substack上寫道:在美國(guó)有約1萬(wàn)家麥當(dāng)勞,一旦每家麥當(dāng)勞各放一臺(tái)機(jī)器人,每天工作兩小時(shí),一年就能產(chǎn)生1000萬(wàn)小時(shí)的具身智能訓(xùn)練數(shù)據(jù),比現(xiàn)有全球積累的總量還要多幾個(gè)數(shù)量級(jí)。

在今年3月底,智元率先在產(chǎn)量上突破了10000臺(tái)具身機(jī)器人。我們距離找到這把機(jī)器人的數(shù)據(jù)鑰匙,是否更近了呢?我們拭目以待。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
世界杯罕見(jiàn)一幕!胡桑諾夫太狠了,一腳鏟翻兩人,攝像師被鏟傷

世界杯罕見(jiàn)一幕!胡桑諾夫太狠了,一腳鏟翻兩人,攝像師被鏟傷

奧拜爾
2026-06-18 10:59:12
胰島“禍?zhǔn)住北痪境觯∈前滋堑牧?,醫(yī)生:吃得越多,血糖越失控

胰島“禍?zhǔn)住北痪境觯∈前滋堑牧?,醫(yī)生:吃得越多,血糖越失控

醫(yī)學(xué)科普匯
2026-06-11 21:20:08
37歲的大齡剩女參加相親,被大爺吐槽:三婚都不要你!

37歲的大齡剩女參加相親,被大爺吐槽:三婚都不要你!

塵埃里的看客
2026-06-16 15:12:32
七張圖,速覽中國(guó)政府重磅白皮書

七張圖,速覽中國(guó)政府重磅白皮書

新華社
2026-06-17 11:15:31
不是所有街頭吃面都叫模仿,雷軍這碗是“創(chuàng)業(yè)面”

不是所有街頭吃面都叫模仿,雷軍這碗是“創(chuàng)業(yè)面”

今綸財(cái)經(jīng)
2026-06-18 19:19:36
又一演員被曝出軌,這次的瓜,震驚半個(gè)內(nèi)娛!

又一演員被曝出軌,這次的瓜,震驚半個(gè)內(nèi)娛!

In風(fēng)尚
2026-04-30 12:12:39
與馬蓉離婚9年后,42歲王寶強(qiáng)宣布喜訊,原來(lái)他和賈玲是同類人

與馬蓉離婚9年后,42歲王寶強(qiáng)宣布喜訊,原來(lái)他和賈玲是同類人

小蘭聊歷史
2026-06-18 10:34:03
C羅啞火賽后發(fā)言引質(zhì)疑,葡萄牙首戰(zhàn)爆冷,仍有望復(fù)制阿根廷神跡

C羅啞火賽后發(fā)言引質(zhì)疑,葡萄牙首戰(zhàn)爆冷,仍有望復(fù)制阿根廷神跡

釘釘陌上花開
2026-06-18 10:03:29
日本再度挑釁,強(qiáng)登釣魚島盤查中國(guó)船,中方的回應(yīng),全世界都懂了

日本再度挑釁,強(qiáng)登釣魚島盤查中國(guó)船,中方的回應(yīng),全世界都懂了

探索新高度
2026-06-14 12:26:55
貝爾服了!你可以成為最強(qiáng),但成不了梅西,因?yàn)樗缫殉搅俗詈?>
    </a>
        <h3>
      <a href=體育閑話說(shuō)
2026-06-12 06:34:41
日本養(yǎng)老體系徹底崩塌,給中國(guó)提個(gè)醒:最先倒下的,恐怕不是老人

日本養(yǎng)老體系徹底崩塌,給中國(guó)提個(gè)醒:最先倒下的,恐怕不是老人

翡翠清泉
2026-06-17 14:32:30
同樣是第六屆世界杯,梅羅狀態(tài)差距較大,C羅陷入最長(zhǎng)進(jìn)球荒

同樣是第六屆世界杯,梅羅狀態(tài)差距較大,C羅陷入最長(zhǎng)進(jìn)球荒

體育書生阿南
2026-06-18 14:54:20
國(guó)行或9999元起!庫(kù)克確認(rèn)蘋果產(chǎn)品將漲價(jià) iPhone 18 Pro漲幅欲超270美元

國(guó)行或9999元起!庫(kù)克確認(rèn)蘋果產(chǎn)品將漲價(jià) iPhone 18 Pro漲幅欲超270美元

快科技
2026-06-18 16:52:10
協(xié)議剛簽完就萬(wàn)彈齊發(fā)!伊朗盟友連夜飽和突擊,中東大盤口要炸

協(xié)議剛簽完就萬(wàn)彈齊發(fā)!伊朗盟友連夜飽和突擊,中東大盤口要炸

鐵錘侃侃而談
2026-06-19 00:45:58
曹炯芳腐敗案成最高法典型案例:違規(guī)新增舉債435億,留下33個(gè)爛尾工程

曹炯芳腐敗案成最高法典型案例:違規(guī)新增舉債435億,留下33個(gè)爛尾工程

界面新聞
2026-06-18 10:40:26
銅離子藥物竟能修復(fù)腦內(nèi)“清污泵”?24.1%泵量提升,56天記憶逆轉(zhuǎn),癡呆新療法打破常規(guī)認(rèn)知

銅離子藥物竟能修復(fù)腦內(nèi)“清污泵”?24.1%泵量提升,56天記憶逆轉(zhuǎn),癡呆新療法打破常規(guī)認(rèn)知

我是一個(gè)養(yǎng)蝦人
2026-06-18 00:22:28
3換1!野獸派大前鋒!雷霆最快速度交易

3換1!野獸派大前鋒!雷霆最快速度交易

籃球教學(xué)論壇
2026-06-18 18:40:13
特朗普打斷日本記者提問(wèn):你們首相高市早苗是我頭號(hào)粉絲,她覺(jué)得我干得非常出色!高市早苗曾在訪美時(shí)極力示好卻遭羞辱

特朗普打斷日本記者提問(wèn):你們首相高市早苗是我頭號(hào)粉絲,她覺(jué)得我干得非常出色!高市早苗曾在訪美時(shí)極力示好卻遭羞辱

極目新聞
2026-06-18 10:59:08
《末路狂花》音樂(lè)劇公布完整卡司,奧利弗提名雙女主領(lǐng)銜

《末路狂花》音樂(lè)劇公布完整卡司,奧利弗提名雙女主領(lǐng)銜

娛圈觀察員
2026-06-18 00:56:00
風(fēng)向突變!以德為首西方國(guó)家齊改口:中國(guó)已在“電”關(guān)鍵領(lǐng)域崛起

風(fēng)向突變!以德為首西方國(guó)家齊改口:中國(guó)已在“電”關(guān)鍵領(lǐng)域崛起

大衛(wèi)聊科技
2026-04-08 13:04:13
2026-06-19 02:48:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
135289文章數(shù) 862288關(guān)注度
往期回顧 全部

科技要聞

庫(kù)克承認(rèn)扛不住了,蘋果漲價(jià)“不可避免”

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

頭條要聞

159瓶茅臺(tái)被扣3年后多瓶失蹤 警方:酒仍處于扣押時(shí)狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂(lè)要聞

39歲梅西不愧是人生贏家!

財(cái)經(jīng)要聞

博??礗PO,賺錢業(yè)務(wù)與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
游戲
數(shù)碼
手機(jī)

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場(chǎng)!三亞又要大規(guī)模調(diào)規(guī)!

藝術(shù)要聞

臺(tái)北東區(qū)新門戶!南港雙星,像一道“城市裂痕”

PS5版《GTA6》已有店家開始預(yù)定!售價(jià)545元

數(shù)碼要聞

小米空調(diào)10年免費(fèi)加氟到底能省多少錢?算完賬就懂雷軍有多良心

手機(jī)要聞

iPhone18 Pro系列:漲價(jià)近兩千元!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版