免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

哥大博士讓機(jī)器人臉告別“面癱”,看視頻學(xué)會11門語言

0
分享至

你是否想過,當(dāng)人類面對面交流時,我們的注意力更多地被放在哪里?

第一直覺或許是眼睛。它們是心靈的窗戶,能夠傳達(dá)出細(xì)微而生動的情感。科學(xué)研究也證實(shí)的確如此,在日常對話中,我們會頻繁地注視對方的眼睛來捕捉情緒信號。

不過,當(dāng)環(huán)境變得嘈雜時,情況就有所不同了。研究表明,在噪音環(huán)境下,人們會將 50%-55% 的注意力轉(zhuǎn)向?qū)υ捳叩淖齑?,傾向于通過唇形來輔助理解對方在說什么。

這也解釋了為什么即便是目前最先進(jìn)的人形機(jī)器人,仍然讓人在和它們面對面交流時感到不適。我們可以容忍它們笨拙的步態(tài),甚至僵硬的手勢,但當(dāng)一張接近人類的面孔無法自然地活動時,就會生發(fā)出一絲詭異感。這就是機(jī)器人領(lǐng)域著名的"恐怖谷效應(yīng)"——越接近人類卻又不夠完美的機(jī)器,反而會引發(fā)更強(qiáng)烈的排斥感。

在致力機(jī)器人如何跨越“恐怖谷”效應(yīng)的道路上,首形科技是積極的拓路者之一。這家由哥倫比亞大學(xué)博士胡宇航創(chuàng)立的初創(chuàng)公司,自成立起便選擇了一條與眾不同的技術(shù)路徑:不追求機(jī)器人在運(yùn)動或操作能力上的極致性能,而是聚焦于賦予它們具有情緒表達(dá)能力的面部。過去一年多,這一方向?yàn)樗麄冓A得了多輪融資,并且收獲了社交媒體和市場的廣泛關(guān)注。


圖 | 胡宇航與人臉機(jī)器人 Emo (來源:受訪者)

1 月 15 日,Science Robotics 封面刊發(fā)了胡宇航團(tuán)隊(duì)關(guān)于 Emo 面部機(jī)器人的研究,展示了其如何通過學(xué)習(xí)實(shí)現(xiàn)與語音、歌曲同步的唇部運(yùn)動,這也是 Science Robotics 首次將人臉機(jī)器人刊登在封面。這項(xiàng)工作源于他在哥倫比亞大學(xué)的博士研究,也是他近兩年在 Science 和 Nature 子刊上發(fā)表的第三篇論文。


(來源:Science Robotics)

嘴唇運(yùn)動被低估的復(fù)雜性

“嘴唇是人們交互過程中動作最多的部位, 也是機(jī)器人從表情自然到交互自然非常重要的門檻?!焙詈礁嬖V DeepTech,嘴唇運(yùn)動的復(fù)雜性遠(yuǎn)超多數(shù)人的想象,甚至超出了機(jī)器人研究者此前的認(rèn)知。

從技術(shù)角度看,這種復(fù)雜性首先體現(xiàn)在驅(qū)動機(jī)制上。與眉毛等單一方向運(yùn)動的面部特征不同,嘴唇由多個肌肉群驅(qū)動,運(yùn)動過程中存在頻繁的接觸與分離。同時,嘴唇對時間精度極為敏感,還需同步承載語言、情感與社交信號。胡宇航指出:“這使得嘴唇運(yùn)動的建模從根本上超越了參數(shù)化控制,成為一個高維、非線性、強(qiáng)閉環(huán)的生成式形變問題?!?/p>


(來源:論文)

既然如此,面對如此復(fù)雜的任務(wù),如何客觀衡量機(jī)器人嘴唇運(yùn)動的“真實(shí)性”呢?

胡宇航團(tuán)隊(duì)在論文中提出了一種創(chuàng)新方法:使用合成參考視頻作為理想同步基準(zhǔn),在 VAE 編碼器的潛空間中計(jì)算機(jī)器人嘴唇運(yùn)動與參考視頻之間的距離。該指標(biāo)能夠刻畫整體嘴型動態(tài)與時序結(jié)構(gòu)的偏差,避免了依賴易受噪聲干擾的二維關(guān)鍵點(diǎn)。由此,研究者獲得了一個客觀的度量標(biāo)準(zhǔn),可以在連續(xù)語音與多語言場景下評估音頻-視覺同步誤差。

這可以說是創(chuàng)新的一步。因?yàn)榇饲?,機(jī)器人領(lǐng)域?qū)ψ齑酵降膰L試主要依賴手工預(yù)定義的運(yùn)動規(guī)則和固定的音素-視位映射表。簡單來說,就是為每個音素設(shè)計(jì)一套固定嘴型,再讓機(jī)器人機(jī)械執(zhí)行。

但這種方法存在明顯的局限。胡宇航列舉了幾個關(guān)鍵問題:首先,同一音素的發(fā)聲速度會因說話人、場景或情緒而異。例如,一個人在激動和平靜狀態(tài)下說出的“好”,雖然音素相同,但嘴唇運(yùn)動的幅度、速度和形態(tài)可能截然不同。其次,在多語言、歌唱或方言等場景中,基于音素設(shè)計(jì)規(guī)則需要投入巨大的手工工作量。更關(guān)鍵的是,當(dāng)機(jī)器人硬件升級時,所有動作幾乎都要重新編排,難以復(fù)用。

此外,這種規(guī)則方法還隱含了一個假設(shè):音素與嘴型之間存在著穩(wěn)定、一對一的映射關(guān)系。但這顯然與真實(shí)人類發(fā)音機(jī)制并不相符。實(shí)際上,同一音素的嘴唇運(yùn)動在不同說話人、語速、情緒和語境下都存在顯著差異,其時序、幅度和形態(tài)高度連續(xù)且上下文相關(guān)。

將這種連續(xù)性強(qiáng)行離散化為固定規(guī)則,必然丟失大量信息。規(guī)則方法也無法建模嘴唇作為軟體器官所具有的非線性、并行驅(qū)動和跨時間依賴特性,最終只能生成“正確但僵硬”的嘴型序列。

相比之下,數(shù)據(jù)驅(qū)動方法能夠從真實(shí)人類與機(jī)器人發(fā)音數(shù)據(jù)中學(xué)習(xí)復(fù)雜的統(tǒng)計(jì)規(guī)律與隱含約束。胡宇航表示:“這從根本上突破了規(guī)則方法在泛化性、可擴(kuò)展性和自然性上的瓶頸?!?/p>

想要更像人,機(jī)器人需要“照鏡子”

為了讓機(jī)器人更精準(zhǔn)地復(fù)刻學(xué)習(xí)人類的嘴唇動作,胡宇航團(tuán)隊(duì)巧妙地設(shè)計(jì)了兩階段“自監(jiān)督學(xué)習(xí)系統(tǒng)”(Self-Supervised Learning, SSL):第一階段,機(jī)器人通過“照鏡子”建立自我模型;第二階段,它觀看人類視頻學(xué)習(xí)嘴唇運(yùn)動規(guī)律。


圖 | 用于機(jī)器人唇部同步的自監(jiān)督學(xué)習(xí)框架(來源:論文)

“兩階段設(shè)計(jì)的核心原因在于機(jī)器人與人類在外觀、結(jié)構(gòu)和運(yùn)動約束上的本質(zhì)差異?!焙詈浇忉尩?。若跳過第一階段,直接讓機(jī)器人模仿人類視頻,將不可避免地學(xué)習(xí)到大量自身硬件無法執(zhí)行的形變模式,例如人類皮膚的滑移、唇齒細(xì)節(jié)或肌肉驅(qū)動方式。這些錯誤映射最終會導(dǎo)致機(jī)器人動作失真、抖動或被系統(tǒng)性削弱。

第一階段的“照鏡子”訓(xùn)練,目的并非學(xué)習(xí)表情本身,而是讓模型明確“哪些運(yùn)動在自身硬件與軟體結(jié)構(gòu)下是可實(shí)現(xiàn)的”。通過隨機(jī)生成數(shù)千個面部表情并觀察鏡中反饋,系統(tǒng)建立起從視覺變化到自身可控空間的映射關(guān)系,為后續(xù)學(xué)習(xí)提供物理可行性的約束。

在具備自我模型的基礎(chǔ)上,第二階段引入人類視頻的作用變得清晰:機(jī)器人學(xué)習(xí)人類嘴唇運(yùn)動的統(tǒng)計(jì)規(guī)律與高層時序結(jié)構(gòu),并通過自我模型將這些規(guī)律投射到自身可執(zhí)行的動作空間中。“這本質(zhì)上是先解決‘我是誰、我能怎么動’,再解決‘人類是如何動的’?!焙詈秸f。該策略有效避免了跨形態(tài)直接模仿帶來的域錯配問題,是實(shí)現(xiàn)自然、穩(wěn)定且可泛化嘴唇運(yùn)動的關(guān)鍵前提。


圖 | 團(tuán)隊(duì)機(jī)器人 Emo 照鏡子(來源:胡宇航)

出色的跨語言泛化能力

實(shí)驗(yàn)結(jié)果展示了這套系統(tǒng)的出色泛化能力:它能在 11 種語言中實(shí)現(xiàn)自然的嘴唇同步,包括英語、法語、日語、韓語、西班牙語、意大利語、德語、俄語、中文、希伯來語和阿拉伯語。


圖 | 多語言口型同步性能的測試結(jié)果(來源:論文)

這種神奇的"跨語言"能力從何而來?胡宇航解釋道:“系統(tǒng)并未學(xué)習(xí)語言或音素本身,而是學(xué)習(xí)了人類發(fā)音過程中更底層的肌肉運(yùn)動模式?!痹趦呻A段自監(jiān)督框架下,模型首先熟悉機(jī)器人自身嘴唇能做出哪些動作;隨后在觀看人類視頻時,它不再關(guān)注具體是哪種語言、哪個發(fā)音,而是去捕捉聲音節(jié)奏與嘴唇動作之間那些跨越語言邊界的共性規(guī)律。

“這些關(guān)系在不同語言中表現(xiàn)為高度一致的運(yùn)動模式,比如張合節(jié)律、閉合-釋放結(jié)構(gòu)、過渡速度等?!睋Q句話說,雖然各種語言的發(fā)音規(guī)則千差萬別,但人類嘴唇的運(yùn)動方式終究受限于相同的生理結(jié)構(gòu)。正因如此,系統(tǒng)學(xué)到的是聲音與動作之間更本質(zhì)的對應(yīng)關(guān)系,使它能夠自然地適應(yīng)多種語言,甚至應(yīng)對不同的語速和說話風(fēng)格。

盡管成果顯著,胡宇航坦言系統(tǒng)仍面臨技術(shù)挑戰(zhàn),其中最典型的是硬輔音(如 /b/、/p/、/m/、/w/)的處理。這些音素之所以棘手,不僅因?yàn)榘l(fā)音速度快,更因?yàn)樗鼈兺瑫r涉及多重難以精確建模的約束條件。

以 /b/、/p/、/m/ 為例,發(fā)這幾個音時,嘴唇需要在極短時間內(nèi)完成“閉合—保持—釋放”這一連串動作。閉合不夠緊或時機(jī)稍有偏差,人耳立刻就能察覺異樣。而 /w/ 更為復(fù)雜,不僅要求雙唇閉攏,還需要嘴唇前突、形成圓形,同時配合口腔形狀的連續(xù)變化。胡宇航補(bǔ)充,這意味著模型必須在毫秒級時間精度下,協(xié)調(diào)多個高度耦合的自由度,同時應(yīng)對軟體接觸、非線性阻尼以及電機(jī)帶寬限制等物理因素。

與元音或軟輔音那種平滑漸變的動作不同,硬輔音更像是一種"開關(guān)式"的動作——既有連續(xù)的運(yùn)動軌跡,又有瞬間的接觸切換。這恰恰是當(dāng)前數(shù)據(jù)驅(qū)動模型最容易出錯、機(jī)器人執(zhí)行難度最高的地方。

從實(shí)驗(yàn)結(jié)果來看,當(dāng)前方法在一些極端語音場景下表現(xiàn)欠佳,比如語速極快、多人同時說話、歌唱中的顫音,以及情緒激動時的表達(dá)。胡宇航認(rèn)為,這反映了方法的本質(zhì)邊界:"模型主要學(xué)習(xí)的是典型對話語境下聲學(xué)時序與嘴唇運(yùn)動之間的關(guān)系。"一旦輸入偏離日常對話的范疇,系統(tǒng)性能便會下降。

不過他也指出,這些失效案例恰恰為未來研究指明了方向:“這也為我們引入更豐富的對話與語音場景提供了思路?!彪S著訓(xùn)練數(shù)據(jù)的豐富和模型能力的提升,這些邊界場景的處理能力有望逐步改善。

在采訪最后,DeepTech 問及這項(xiàng)技術(shù)是否會從唇部動作擴(kuò)展到整個面部表情系統(tǒng)。

“會的?!焙詈浇o出肯定回答,“我們團(tuán)隊(duì)的最終目標(biāo),是實(shí)現(xiàn)完整的類人交互?!比绾螀f(xié)調(diào)唇部動作與眼神、眉毛等其他面部要素,形成統(tǒng)一而細(xì)膩的情感表達(dá),正是團(tuán)隊(duì)下一步要攻克的方向。這不僅是技術(shù)上的自然延伸,更是對人機(jī)交互本質(zhì)的深度探索。當(dāng)機(jī)器人能夠用整張臉來表達(dá)和理解情緒時,它與人類的關(guān)系將發(fā)生更深刻的轉(zhuǎn)變。

論文地址:DOI: 10.1126/scirobotics.adx3017

營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“7歲就退役,把女兒折磨成這樣?”沒前途的特長,毀掉孩子一生

“7歲就退役,把女兒折磨成這樣?”沒前途的特長,毀掉孩子一生

妍妍教育日記
2026-06-19 09:40:14
湖南一女子跳出故障電梯時不慎墜井身亡,當(dāng)?shù)爻闪⑹鹿收{(diào)查組,女兒:保安未接受專業(yè)培訓(xùn),母親曾提過電梯容易出故障,希望公平公正處理

湖南一女子跳出故障電梯時不慎墜井身亡,當(dāng)?shù)爻闪⑹鹿收{(diào)查組,女兒:保安未接受專業(yè)培訓(xùn),母親曾提過電梯容易出故障,希望公平公正處理

大風(fēng)新聞
2026-06-18 15:50:05
豐田官宣新車:7月2日,正式上市

豐田官宣新車:7月2日,正式上市

科技堡壘
2026-06-19 11:39:08
不再是120/80,“新血壓標(biāo)準(zhǔn)”已公布,別再自己嚇自己!

不再是120/80,“新血壓標(biāo)準(zhǔn)”已公布,別再自己嚇自己!

芹姐說生活
2026-04-14 23:27:03
外蒙古獨(dú)立的影響是什么?毛主席曾兩次提出收回,為何都沒有成功

外蒙古獨(dú)立的影響是什么?毛主席曾兩次提出收回,為何都沒有成功

凡人侃史
2026-06-13 16:35:21
“抱歉,我們只看第一學(xué)歷”,985碩士求職被拒:研究生白考了!

“抱歉,我們只看第一學(xué)歷”,985碩士求職被拒:研究生白考了!

妍妍教育日記
2026-06-19 09:25:14
演員萬茜與丈夫徐洪濤,彼此深愛,又很低調(diào)

演員萬茜與丈夫徐洪濤,彼此深愛,又很低調(diào)

娛你同歡
2026-06-09 20:04:50
阿斯:德保羅去邁阿密國際十分成功,他已經(jīng)非常適應(yīng)北美賽場

阿斯:德保羅去邁阿密國際十分成功,他已經(jīng)非常適應(yīng)北美賽場

懂球帝
2026-06-19 17:39:15
端午過后,少吃西瓜綠豆,多吃這4樣,腿腳有力,元?dú)鉂M滿過三伏

端午過后,少吃西瓜綠豆,多吃這4樣,腿腳有力,元?dú)鉂M滿過三伏

秀廚娘
2026-06-19 16:43:59
TA:C羅表現(xiàn)固然糟糕,但馬丁內(nèi)斯戰(zhàn)術(shù)呆板對葡萄牙損害很大

TA:C羅表現(xiàn)固然糟糕,但馬丁內(nèi)斯戰(zhàn)術(shù)呆板對葡萄牙損害很大

懂球帝
2026-06-19 19:25:10
大型寵物犬趁主人剛走,張嘴就咬小孩,監(jiān)控曝光,主人:絕不棄養(yǎng)

大型寵物犬趁主人剛走,張嘴就咬小孩,監(jiān)控曝光,主人:絕不棄養(yǎng)

普陀動物世界
2026-06-18 12:39:51
民國養(yǎng)一個師有多費(fèi)錢:士兵月餉6塊,師長一年買京城四棟四合院

民國養(yǎng)一個師有多費(fèi)錢:士兵月餉6塊,師長一年買京城四棟四合院

歷史人文2
2026-06-18 07:00:03
雙色球2026069期中出一等獎22注籌集公益金1.34億元

雙色球2026069期中出一等獎22注籌集公益金1.34億元

齊魯壹點(diǎn)
2026-06-19 13:21:36
俄羅斯一夜之間沒收富翁70億美元是個可怕的信號

俄羅斯一夜之間沒收富翁70億美元是個可怕的信號

廖保平
2026-06-19 09:40:41
武松當(dāng)都頭一年的俸祿是多少?折合成人民幣是多少?看完就知道了

武松當(dāng)都頭一年的俸祿是多少?折合成人民幣是多少?看完就知道了

歷史人文2
2026-06-12 13:00:04
油價(jià)大跌超0.96元/升,今年最大上漲后降下來,下次7月3日調(diào)價(jià)

油價(jià)大跌超0.96元/升,今年最大上漲后降下來,下次7月3日調(diào)價(jià)

豬友巴巴
2026-06-19 17:25:03
保護(hù)東北虎50年,中俄東北虎數(shù)量差距斷崖,俄羅斯700只,中國呢

保護(hù)東北虎50年,中俄東北虎數(shù)量差距斷崖,俄羅斯700只,中國呢

掠影后有感
2026-06-15 09:45:27
為什么飛機(jī)不能直接飛越西藏?四大因素,讓西藏成為“空中禁區(qū)”

為什么飛機(jī)不能直接飛越西藏?四大因素,讓西藏成為“空中禁區(qū)”

混沌錄
2026-06-18 19:13:49
存儲漲價(jià)的荒誕現(xiàn)實(shí):一塊游戲機(jī)硬盤已能抵三臺完整主機(jī)

存儲漲價(jià)的荒誕現(xiàn)實(shí):一塊游戲機(jī)硬盤已能抵三臺完整主機(jī)

財(cái)聯(lián)社
2026-06-18 01:54:35
19日CCTV-5直播:中國女排戰(zhàn)法國,賽前5連勝穩(wěn)了

19日CCTV-5直播:中國女排戰(zhàn)法國,賽前5連勝穩(wěn)了

體育一點(diǎn)就通
2026-06-19 04:55:48
2026-06-19 20:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16857文章數(shù) 515032關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

婚禮短片現(xiàn)"別人老公老婆"新娘忍整場 不料有更離譜的

頭條要聞

婚禮短片現(xiàn)"別人老公老婆"新娘忍整場 不料有更離譜的

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

吳倩自曝小時被爸爸打掉牙齒硬吞進(jìn)肚

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

房產(chǎn)
健康
本地
親子
公開課

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調(diào)規(guī)!

吃粽子的3條保胃法則,消化科醫(yī)生推薦

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

親子要聞

嬰兒RSV預(yù)防迎來新選擇,創(chuàng)新單抗為寶寶呼吸健康護(hù)航

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版