免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

又一大廠殺入AI視頻生成!5分鐘敘事角色不崩,聲音不亂,秒出片

0
分享至

AI視頻賽道,突然殺出了一匹意料之外的黑馬。

智東西6月5日?qǐng)?bào)道,6月3日,京東首次開(kāi)源長(zhǎng)音視頻生成框架JoyAI-Echo。它直擊長(zhǎng)視頻生成中的角色一致性、聲音穩(wěn)定性生成速度三大核心難題,一舉在多個(gè)核心指標(biāo)上超越行業(yè)標(biāo)桿模型。


▲JoyAI-Echo在Hugging Face的頁(yè)面截圖

根據(jù)公開(kāi)評(píng)測(cè)結(jié)果,JoyAI-Echo在跨鏡頭一致性、語(yǔ)音準(zhǔn)確率、用戶(hù)偏好等關(guān)鍵指標(biāo)上均取得領(lǐng)先表現(xiàn),與業(yè)內(nèi)主流長(zhǎng)視頻生成模型相比優(yōu)勢(shì)明顯,出道即躋身全球第一梯隊(duì)

2026年的AI視頻賽道,競(jìng)爭(zhēng)已進(jìn)入白熱化階段。OpenAI的Sora在3月官宣關(guān)停,給行業(yè)留出空間,各路玩家正圍繞多鏡頭敘事、物理模擬、4K畫(huà)質(zhì)等維度激烈角逐。

就在這個(gè)關(guān)鍵節(jié)點(diǎn),強(qiáng)勢(shì)入局的京東一上來(lái)就瞄準(zhǔn)了行業(yè)難啃的硬骨頭——分鐘級(jí)長(zhǎng)視頻的連貫生成,無(wú)疑為行業(yè)再添一把火。

AI視頻的“開(kāi)盲盒”時(shí)代,真的要結(jié)束了。

GitHub地址:
https://github.com/jd-opensource/JoyAI-Echo
Hugging Face地址:
https://huggingface.co/jdopensource/JoyAI-Echo
項(xiàng)目主頁(yè):
https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

一、出道即沖進(jìn)第一梯隊(duì):JoyAI-Echo有多強(qiáng)?

京東此次開(kāi)源的JoyAI-Echo,到底有多強(qiáng)?

我們可以先看一組硬核數(shù)據(jù)。

研究團(tuán)隊(duì)構(gòu)建了一個(gè)極為嚴(yán)苛的評(píng)測(cè)集:100個(gè)獨(dú)立故事劇本,總計(jì)3000個(gè)分鏡,每個(gè)故事平均30個(gè)鏡頭,涵蓋原創(chuàng)角色與IP角色、動(dòng)畫(huà)與真人實(shí)拍等多種復(fù)雜場(chǎng)景。

在這樣的“統(tǒng)考”中,JoyAI-Echo在跨鏡頭一致性、角色人臉+人體一致性、人聲音色一致性、美學(xué)畫(huà)質(zhì)、成像清晰度、文本一致性等指標(biāo)上全面領(lǐng)跑。

尤其值得關(guān)注的是語(yǔ)音準(zhǔn)確率,飆升至0.8646,達(dá)到行業(yè)領(lǐng)先水平,這意味著以往AI視頻中“口型對(duì)不上、臺(tái)詞胡編”的痛點(diǎn)被大幅緩解。

在用戶(hù)盲測(cè)中,JoyAI-Echo的音頻質(zhì)量偏好高達(dá)81.7%,提示詞遵循偏好達(dá)到80.6%,視覺(jué)美學(xué)偏好63.6%,IP角色一致性偏好59.4%,各項(xiàng)指標(biāo)均獲得用戶(hù)高度認(rèn)可。


▲JoyAI-Echo的盲測(cè)優(yōu)于同行標(biāo)桿

技術(shù)參數(shù)之外,更讓人印象深刻的是JoyAI-Echo的生成案例。

在京東官方展示的《居家一日》案例中,長(zhǎng)達(dá)近5分鐘的敘事里,男主角的外貌特征、面部細(xì)節(jié)、說(shuō)話(huà)音色始終保持穩(wěn)定,觀眾不會(huì)產(chǎn)生“這是另一個(gè)人”的出戲感。


▲JoyAI-Echo生成的視頻

另一個(gè)案例《極限拉力》則展現(xiàn)了高速運(yùn)動(dòng)場(chǎng)景下的穩(wěn)定性。賽車(chē)飛馳時(shí),賽道環(huán)境、車(chē)身涂裝等細(xì)節(jié)沒(méi)有出現(xiàn)扭曲或閃爍。在多角色、多道具的復(fù)雜敘事場(chǎng)景中,JoyAI-Echo也能保持角色長(zhǎng)相、服裝、道具和環(huán)境的持續(xù)穩(wěn)定。


▲JoyAI-Echo生成的視頻

再看看巫師城堡、倉(cāng)庫(kù)對(duì)峙等復(fù)雜敘事場(chǎng)景,在這些多角色、多道具、多環(huán)境的長(zhǎng)鏡頭序列中,JoyAI-Echo生成視頻沒(méi)有出現(xiàn)“換裝”“變臉”“道具丟失”等常見(jiàn)問(wèn)題。


▲JoyAI-Echo生成的視頻

這些案例有力證明,JoyAI-Echo是一個(gè)能夠駕馭復(fù)雜敘事、理解物理世界、真正具備生產(chǎn)能力的創(chuàng)作工具。

二、長(zhǎng)視頻為什么難?四項(xiàng)創(chuàng)新破解行業(yè)“不可能三角”

為什么長(zhǎng)視頻生成如此之難?核心在于一個(gè)“不可能三角”:長(zhǎng)時(shí)長(zhǎng)、高一致性、快速度,三者似乎總是無(wú)法兼得。

當(dāng)視頻拉長(zhǎng)到分鐘級(jí),誤差會(huì)像滾雪球一樣累積。同一個(gè)角色,上一個(gè)鏡頭和下一個(gè)鏡頭長(zhǎng)得不一樣;說(shuō)話(huà)人的音色忽高忽低,甚至突然變聲。渲染速度慢如蝸牛,等幾分鐘才能出結(jié)果;修改成本高,哪怕只改一點(diǎn)點(diǎn)也要從頭到尾重新生成整個(gè)視頻。

這些問(wèn)題都導(dǎo)致AI長(zhǎng)視頻長(zhǎng)期停留在“玩具”階段,很難真正投入生產(chǎn)使用。

JoyAI-Echo用四項(xiàng)實(shí)打?qū)嵉募夹g(shù)創(chuàng)新,逐一擊破這些痛點(diǎn)。

1、角色總變臉:跨模態(tài)音視頻記憶庫(kù)

行業(yè)長(zhǎng)期難以解決“上一鏡頭和下一鏡頭不是同一個(gè)人”的問(wèn)題。根本原因在于,傳統(tǒng)模型在逐鏡生成時(shí),缺乏對(duì)歷史生成內(nèi)容的顯式記憶機(jī)制,每次生成都像“失憶”一樣重新開(kāi)始。

JoyAI-Echo的破局之道是“跨模態(tài)音視頻記憶庫(kù)”??蚣軆?nèi)置了一個(gè)專(zhuān)門(mén)的記憶庫(kù),能夠持續(xù)保存并精準(zhǔn)調(diào)用角色的視覺(jué)特征和聽(tīng)覺(jué)特征。在長(zhǎng)達(dá)5分鐘的多鏡頭生成中,這個(gè)記憶庫(kù)就像導(dǎo)演手中的“角色檔案”,每次調(diào)用都能保證輸出的一致性,從而解決了“同一個(gè)人演著演變成另一個(gè)人”的尷尬。


▲JoyAI-Echo跨模態(tài)音視頻記憶庫(kù)機(jī)制

2、生成太慢:記憶驅(qū)動(dòng)后訓(xùn)練,速度提升7.5倍

長(zhǎng)視頻生成往往意味著巨大的推理成本。JoyAI-Echo創(chuàng)新性地設(shè)計(jì)了三段式后訓(xùn)練流水線(xiàn):基于記憶的有監(jiān)督微調(diào)(SFT)→ 跨模態(tài)人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)→ 基于記憶的分布匹配蒸餾(DMD)。

其中DMD技術(shù)尤為關(guān)鍵,它像一個(gè)高效的“知識(shí)壓縮器”,讓輕量級(jí)的“學(xué)生模型”學(xué)習(xí)原復(fù)雜“教師模型”的生成路徑。最終,這項(xiàng)技術(shù)將多步擴(kuò)散師生蒸餾壓縮為8步快速推理模型,為JoyAI-Echo帶來(lái)了約7.5倍的推理速度提升,從而讓長(zhǎng)視頻生成從“等半天”變成“秒出片”。

3、修改成本高:Director Agent導(dǎo)演智能體

傳統(tǒng)視頻模型工作流為輸入提示詞,一次性出結(jié)果,讓創(chuàng)作者陷入“抽卡”困境。如果生成不滿(mǎn)意只能重來(lái),修改一個(gè)鏡頭就要重跑整條視頻。

JoyAI-Echo引入Director Agent導(dǎo)演智能體,這也是最令人驚喜的交互功能。你可以用自然語(yǔ)言告訴它你的需求,比如“把第三場(chǎng)戲的咖啡館背景換成圖書(shū)館”。它會(huì)自動(dòng)理解并執(zhí)行:拆解需求形成劇本和分鏡,調(diào)用模型生成視頻,檢查生成結(jié)果。它只重新生成有問(wèn)題的局部鏡頭,整條視頻不用重來(lái)。

該智能體將長(zhǎng)視頻生成劃分為規(guī)劃、生成、評(píng)審三個(gè)階段。智能體管控兩類(lèi)記憶:固定記憶從角色參考圖/參考音頻/開(kāi)篇鏡頭提取,全片鎖定人物外貌音色基準(zhǔn);動(dòng)態(tài)記憶根據(jù)劇情語(yǔ)義篩選關(guān)聯(lián)歷史鏡頭,避免無(wú)關(guān)素材干擾。修改后的內(nèi)容存入歷史庫(kù),后續(xù)鏡頭自動(dòng)讀取新版畫(huà)面特征,保障劇情連貫。


▲導(dǎo)演智能體工作流程概述

4、高清輸出難:輕量化實(shí)時(shí)超分

原生720p生成視頻時(shí)序連貫但細(xì)節(jié)不足。為了滿(mǎn)足專(zhuān)業(yè)生產(chǎn)需求,JoyAI-Echo配套了一個(gè)專(zhuān)門(mén)的實(shí)時(shí)超分模塊,在幾乎不增加延遲的情況下,將原生720p的視頻實(shí)時(shí)提升至最高1472×2560的高清分辨率。

該模塊基于87.6萬(wàn)條1080P~4K高質(zhì)量音視頻片段訓(xùn)練,通過(guò)DMD蒸餾得到單步極速學(xué)生模型,在流式生成的延遲約束下兼顧畫(huà)面清晰度。

總的來(lái)說(shuō),JoyAI-Echo首次一站式同時(shí)實(shí)現(xiàn)遠(yuǎn)距離跨模態(tài)一致性、分鐘級(jí)視頻實(shí)時(shí)生成、對(duì)話(huà)式交互編輯、高清畫(huà)質(zhì)輸出四大能力,四項(xiàng)性能互不妥協(xié),開(kāi)創(chuàng)交互式視頻生成全新范式。

三、AI視頻進(jìn)入長(zhǎng)視頻時(shí)代:哪些行業(yè)將率先受益?

長(zhǎng)視頻生成的重要意義,并不只是讓視頻變得更長(zhǎng),還讓AI首次具備了持續(xù)敘事能力

但當(dāng)角色、場(chǎng)景、對(duì)白需要跨越幾十個(gè)鏡頭持續(xù)存在時(shí),生成難度會(huì)指數(shù)級(jí)上升。一旦角色一致性、音色穩(wěn)定性和生成效率問(wèn)題得到改善,長(zhǎng)視頻生成的應(yīng)用空間將迅速打開(kāi)。

以JoyAI-Echo為代表的長(zhǎng)視頻生成模型框架,至少有望為以下五大應(yīng)用場(chǎng)景帶來(lái)新的可能性:

1、虛擬動(dòng)漫與故事創(chuàng)作:創(chuàng)作者可以像導(dǎo)演一樣,用自然語(yǔ)言指揮AI生成連貫的動(dòng)漫劇集或繪本視頻,角色形象和聲音全程統(tǒng)一,無(wú)需逐幀手繪。

2、數(shù)字人直播與短劇生產(chǎn):數(shù)字人主播可以在長(zhǎng)達(dá)數(shù)分鐘的直播或短劇中保持音色、口型、表情的高度一致,大幅提升觀眾沉浸感。

3、品牌營(yíng)銷(xiāo)內(nèi)容快速迭代:營(yíng)銷(xiāo)團(tuán)隊(duì)只需修改臺(tái)詞或局部鏡頭,即可生成多條不同版本的品牌故事視頻,實(shí)現(xiàn)秒級(jí)改片、分鐘級(jí)上新。

4、影視前期預(yù)演與分鏡制作:導(dǎo)演可以用JoyAI-Echo快速生成分鏡預(yù)覽視頻,提前驗(yàn)證鏡頭語(yǔ)言和敘事節(jié)奏,大幅降低實(shí)拍試錯(cuò)成本。

5、互動(dòng)教育課件與游戲劇情動(dòng)畫(huà):教育機(jī)構(gòu)和游戲開(kāi)發(fā)者可以動(dòng)態(tài)生成連貫的劇情動(dòng)畫(huà),根據(jù)用戶(hù)的選擇實(shí)時(shí)調(diào)整后續(xù)內(nèi)容,實(shí)現(xiàn)個(gè)性化敘事。

更重要的是,京東選擇將代碼與模型權(quán)重全部開(kāi)源。

全球開(kāi)發(fā)者都可以基于JoyAI-Echo進(jìn)行二次開(kāi)發(fā)、微調(diào)和研究,推動(dòng)長(zhǎng)視頻生成從單一模型競(jìng)爭(zhēng)走向產(chǎn)業(yè)生態(tài)競(jìng)爭(zhēng)。中小團(tuán)隊(duì)和個(gè)人創(chuàng)作者可以直接使用這一世界級(jí)水平的模型,AI視頻創(chuàng)作的“平民化”時(shí)代或?qū)⒄嬲絹?lái)。

從京東的這次開(kāi)源動(dòng)作來(lái)看,落點(diǎn)不只是技術(shù)榜單的排名,更是未來(lái)AI內(nèi)容生產(chǎn)基礎(chǔ)設(shè)施的話(huà)語(yǔ)權(quán)。誰(shuí)能成為全球開(kāi)發(fā)者手里最順手的視頻生產(chǎn)工具,誰(shuí)就有望占據(jù)未來(lái)智能化數(shù)字內(nèi)容生態(tài)網(wǎng)絡(luò)的主導(dǎo)地位。

結(jié)語(yǔ):開(kāi)源即格局,打開(kāi)視頻生成新局面

JoyAI-Echo的開(kāi)源發(fā)布,不僅標(biāo)志著京東在長(zhǎng)視頻生成領(lǐng)域進(jìn)入全球第一梯隊(duì),更用實(shí)打?qū)嵉募夹g(shù)手段為長(zhǎng)視頻生成的“不可能三角”交出了一份極具工程參考價(jià)值的答卷。

當(dāng)AI長(zhǎng)視頻不再受制于換臉、失音和漫長(zhǎng)的渲染等待,當(dāng)創(chuàng)作者可以像和導(dǎo)演聊天一樣,用自然語(yǔ)言隨時(shí)微調(diào)、重繪局部分鏡,高一致性、高畫(huà)質(zhì)、可交互的“長(zhǎng)視頻時(shí)代”便不再遙不可及。

目前,JoyAI-Echo的項(xiàng)目主頁(yè)與GitHub倉(cāng)庫(kù)均已正式向全球開(kāi)發(fā)者敞開(kāi)大門(mén)。這場(chǎng)視頻生成范式革命,才剛剛拉開(kāi)序幕。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
勃列日涅夫的曾孫被俘,俄上將發(fā)出終極警示

勃列日涅夫的曾孫被俘,俄上將發(fā)出終極警示

西樓飲月
2026-06-19 18:18:53
知名女演員自曝,曾被爸爸打掉牙齒不敢吐出來(lái)

知名女演員自曝,曾被爸爸打掉牙齒不敢吐出來(lái)

大象新聞
2026-06-19 13:45:11
G7發(fā)聯(lián)合聲明,不許中方改變臺(tái)?,F(xiàn)狀,還是一股高高在上的優(yōu)越感

G7發(fā)聯(lián)合聲明,不許中方改變臺(tái)海現(xiàn)狀,還是一股高高在上的優(yōu)越感

健身狂人
2026-06-19 00:14:28
世界杯官方用球只剩4塊面板:球越做越圓,為什么反而要故意做粗糙?

世界杯官方用球只剩4塊面板:球越做越圓,為什么反而要故意做粗糙?

平流層散步者
2026-06-13 15:41:24
為讓中國(guó)加入北約,美國(guó)竟愿意白送武器,卻被我國(guó)無(wú)情拒絕

為讓中國(guó)加入北約,美國(guó)竟愿意白送武器,卻被我國(guó)無(wú)情拒絕

大運(yùn)河時(shí)空
2026-06-18 18:40:03
哈蘭德女友身份曝光:身價(jià)2億歐,20歲未婚生子

哈蘭德女友身份曝光:身價(jià)2億歐,20歲未婚生子

夢(mèng)想的旅途照進(jìn)現(xiàn)實(shí)
2026-06-18 10:08:29
曼聯(lián)新賽季英超賽程:第4輪曼市德比,第11輪雙紅會(huì)

曼聯(lián)新賽季英超賽程:第4輪曼市德比,第11輪雙紅會(huì)

懂球帝
2026-06-19 17:39:16
成品油價(jià)降回7元時(shí)代

成品油價(jià)降回7元時(shí)代

界面新聞
2026-06-18 15:01:31
鬧大了!新加坡媒體抹黑《阿嬤》,官媒親自下場(chǎng)對(duì)線(xiàn):你破防什么

鬧大了!新加坡媒體抹黑《阿嬤》,官媒親自下場(chǎng)對(duì)線(xiàn):你破防什么

離離言幾許
2026-06-16 21:02:33
萬(wàn)斯警告以色列“最好老實(shí)點(diǎn)”,俄羅斯向?yàn)蹩颂m發(fā)出威脅

萬(wàn)斯警告以色列“最好老實(shí)點(diǎn)”,俄羅斯向?yàn)蹩颂m發(fā)出威脅

山河路口
2026-06-19 16:32:06
長(zhǎng)征結(jié)束后,徐海東請(qǐng)毛主席吃飯,主席看到飯菜:你們?nèi)兆诱婧?>
    </a>
        <h3>
      <a href=歷來(lái)縱橫
2026-06-17 16:35:13
1-4慘?。∷麄兲蕴獯罄M(jìn)世界杯后,卻贏不了,2輪1分基本出局

1-4慘?。∷麄兲蕴獯罄M(jìn)世界杯后,卻贏不了,2輪1分基本出局

林子說(shuō)事
2026-06-19 11:32:05
最會(huì)玩的夫妻:變賣(mài)北京千萬(wàn)資產(chǎn)周游世界,8年后回家發(fā)現(xiàn)竟賺2億

最會(huì)玩的夫妻:變賣(mài)北京千萬(wàn)資產(chǎn)周游世界,8年后回家發(fā)現(xiàn)竟賺2億

奇思妙想生活家
2026-06-18 13:36:15
1美元還值多少人民幣?2026年6月19日,最新人民幣兌美元匯率

1美元還值多少人民幣?2026年6月19日,最新人民幣兌美元匯率

牛鍋巴小釩
2026-06-19 12:53:13
拉姆:如果能選一人加入德國(guó)隊(duì),我會(huì)毫不猶豫選梅西

拉姆:如果能選一人加入德國(guó)隊(duì),我會(huì)毫不猶豫選梅西

懂球帝
2026-06-19 17:23:02
萬(wàn)斯猛烈抨擊以色列:全世界只剩美國(guó)支持,不要不知好歹還在攻擊特朗普

萬(wàn)斯猛烈抨擊以色列:全世界只剩美國(guó)支持,不要不知好歹還在攻擊特朗普

澎湃新聞
2026-06-19 13:37:13
長(zhǎng)鑫上市,30余家A股公司受益,總市值超3萬(wàn)億,誰(shuí)是最大贏家?

長(zhǎng)鑫上市,30余家A股公司受益,總市值超3萬(wàn)億,誰(shuí)是最大贏家?

小曙說(shuō)娛
2026-06-19 12:00:11
太丟人了!俄羅斯護(hù)衛(wèi)艦在英吉利海峽鳴槍?zhuān)?guó)只能用嘴炮還擊

太丟人了!俄羅斯護(hù)衛(wèi)艦在英吉利海峽鳴槍?zhuān)?guó)只能用嘴炮還擊

云上烏托邦
2026-06-19 17:11:58
“我替自己討公道”,掏空積蓄買(mǎi)房被騙,老漢持刀血洗售樓部

“我替自己討公道”,掏空積蓄買(mǎi)房被騙,老漢持刀血洗售樓部

易玄
2026-06-18 04:52:13
俄羅斯平均養(yǎng)老金漲到25399盧布,折合人民幣2335元

俄羅斯平均養(yǎng)老金漲到25399盧布,折合人民幣2335元

桂系007
2026-06-19 15:33:44
2026-06-19 19:35:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專(zhuān)注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來(lái)的千行百業(yè)產(chǎn)業(yè)變革。
12083文章數(shù) 117111關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯"大冷門(mén)":史上最小參賽國(guó)逼平最大奪冠熱門(mén)國(guó)

頭條要聞

世界杯"大冷門(mén)":史上最小參賽國(guó)逼平最大奪冠熱門(mén)國(guó)

體育要聞

世界杯最不知名球員,沒(méi)上場(chǎng)先漲粉600萬(wàn)

娛樂(lè)要聞

吳倩自曝小時(shí)被爸爸打掉牙齒硬吞進(jìn)肚

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車(chē)要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

游戲
手機(jī)
數(shù)碼
旅游
藝術(shù)

《GTA6》封面女郎遭爆改!黑皮卷發(fā)變白皮金長(zhǎng)直

手機(jī)要聞

618大匯總:蘋(píng)果成最大贏家,國(guó)產(chǎn)誰(shuí)笑到了最后?

數(shù)碼要聞

視頻轉(zhuǎn)碼性能最高提升215%:AMD線(xiàn)程撕裂者突破HandBrake瓶頸

旅游要聞

四川七曲山景區(qū)被指圈國(guó)道違規(guī)收費(fèi),官方通報(bào)

藝術(shù)要聞

臺(tái)北東區(qū)新門(mén)戶(hù)!南港雙星,像一道“城市裂痕”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版