免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

智源大會(huì)|Skywork首席科學(xué)家成宇:AI視聽正在重構(gòu)創(chuàng)作邏輯

0
分享至

6月12日至13日,第八屆智源大會(huì)在北京舉行。作為人工智能領(lǐng)域最具影響力的學(xué)術(shù)盛會(huì)之一,本屆大會(huì)匯聚了兩位圖靈獎(jiǎng)得主——數(shù)字安全奠基人Whitfield Diffie與強(qiáng)化學(xué)習(xí)奠基人Andrew Barto,以及200余位頂尖學(xué)者、40余位AI企業(yè)CEO與首席科學(xué)家,圍繞Agent、世界模型、具身智能、多模態(tài)等前沿議題展開深入探討。


13日,昆侖萬維旗下Skywork首席科學(xué)家成宇在多模態(tài)論壇上,以《從SkyReels V4到Mureka V9:天工AI的AIGC多模態(tài)布局》為題發(fā)表主題演講,系統(tǒng)闡述了昆侖萬維在AI視頻與AI音樂兩大賽道的技術(shù)路徑與產(chǎn)品戰(zhàn)略。

2026年昆侖萬維發(fā)布了“4+3”AGI戰(zhàn)略,搭建全模態(tài)模型底座,依托“視頻模型、音樂音頻模型、世界模型、基座文本與多模態(tài)模型”四大SOTA技術(shù)底座,支撐“AI短劇、AI音樂、AI游戲”三大AI原生娛樂經(jīng)濟(jì)體,探索AI Native平臺經(jīng)濟(jì)全新模式。從2023年探索6個(gè)方向,到如今聚焦4個(gè)SOTA大模型底座、賦能3大AI原生內(nèi)容經(jīng)濟(jì)體,昆侖萬維已完成從技術(shù)單點(diǎn)突破到系統(tǒng)性AI平臺化布局的戰(zhàn)略演進(jìn),形成了獨(dú)特的技術(shù)護(hù)城河。

1.SkyReels V4:重構(gòu)視聽創(chuàng)作邏輯

成宇提出,天工AI在視頻領(lǐng)域的核心主張,不是在做一個(gè)生成工具,而是在推動(dòng)一場視聽創(chuàng)作邏輯的重構(gòu)。“真正成熟的AI視頻生成技術(shù),是一套重構(gòu)視聽創(chuàng)作邏輯的全新范式,是下一代視聽產(chǎn)業(yè)的核心基礎(chǔ)設(shè)施。”

他從社會(huì)與產(chǎn)業(yè)兩個(gè)維度拆解了AI視頻的滲透路徑:對普通用戶而言,旅行紀(jì)念、家庭影像、工作匯報(bào)等場景的創(chuàng)作門檻大幅降低,AI劇情短片已成為社交媒體上的新型“社交貨幣”,超六成用戶每周主動(dòng)觀看AI視頻內(nèi)容;對產(chǎn)業(yè)創(chuàng)作者,AI視頻正在重構(gòu)影視工業(yè)流程與創(chuàng)作者工作流,并成為電商、教育、廣告等行業(yè)低成本內(nèi)容生產(chǎn)的核心引擎。

過去一年多,SkyReels團(tuán)隊(duì)致力于將 “生成專業(yè)、好用、有感染力的視聽內(nèi)容”,變成可復(fù)現(xiàn)、可控制、可迭代的系統(tǒng)能力。SkyReels歷經(jīng)V1開源、V2引入擴(kuò)散強(qiáng)迫框架、V3支持多主體視頻生成,到2026年3月V4正式登頂全球第一——在Artificial Analysis全球視頻生成模型評測中,V4拿下Text to Video(With Audio)與Image to Video(With Audio)雙賽道全球第一,Text to Video(No Audio)賽道全球第二,超越Veo 3.1、Sora 2等主流模型,實(shí)現(xiàn)中國在該領(lǐng)域的技術(shù)引領(lǐng)。

在這一演進(jìn)基礎(chǔ)上,成宇重點(diǎn)介紹了V4的四大核心技術(shù)突破。

音畫一體雙流聯(lián)合生成架構(gòu)——終結(jié)音畫不同步頑疾

傳統(tǒng)視頻生成普遍采用“先生成畫面,再匹配音頻”的分離式流程,視頻和音頻如同兩個(gè)獨(dú)立團(tuán)隊(duì)在黑暗中各自演奏,生成的結(jié)果始終存在“口型漂移、動(dòng)作與音效錯(cuò)位”等難以回避的頑疾。SkyReels V4自研雙流MMDiT架構(gòu),視頻分支與音頻分支從任務(wù)開始就并肩工作,共享同一MLLM文本編碼器,通過雙向交叉注意力機(jī)制達(dá)到毫秒級音畫精準(zhǔn)對齊,從底層架構(gòu)上實(shí)現(xiàn)端到端統(tǒng)一。


雙流MMDiT 架構(gòu)示意圖

全模態(tài)理解和精準(zhǔn)控制——萬物可參考,所想即所得

現(xiàn)實(shí)創(chuàng)作中,用戶的需求往往是多模態(tài)的——給一張圖、一段視頻參考、一個(gè)運(yùn)動(dòng)軌跡,甚至要擦除某個(gè)多余人物、替換主體服裝顏色。而現(xiàn)有工具通常只能覆蓋其中一部分,要么能做多模態(tài)參考卻沒有音頻輸出,要么能做編輯卻不支持復(fù)雜參考。SkyReels V4將生成、編輯、處理等任務(wù)整合在統(tǒng)一框架里,提出通道拼接與時(shí)序拼接相結(jié)合的統(tǒng)一范式,支持多幀參考、多圖片參考、運(yùn)動(dòng)參考、視頻編輯等多種控制方式,大幅減少用戶在不同工具間來回切換的繁瑣體驗(yàn)。

全模態(tài)強(qiáng)化學(xué)習(xí)體系——從“像素工匠”進(jìn)化為“創(chuàng)作藝術(shù)家”

傳統(tǒng)視頻生成模型存在一個(gè)核心痛點(diǎn):極其注重畫面中每一幀的清晰度和紋理細(xì)節(jié),卻經(jīng)常忽略整段視頻的邏輯連貫性——“像素完美,邏輯混亂”。成宇用一個(gè)直觀的例子說明:當(dāng)提示詞是“一個(gè)演員在雨中奔跑,情緒從緊張到釋然,最后停下抬頭微笑”,過去的模型大概率會(huì)出現(xiàn)前后情緒不連貫、動(dòng)作跳躍等明顯不合邏輯的問題。


全模態(tài)強(qiáng)化前后GSP評比結(jié)果

為了解決這個(gè)問題,一方面搭建全模態(tài)語義Reward模型,以“上帝視角”扮演“首席監(jiān)制”,覆蓋文生視頻(T2V)、圖生視頻(I2V)、視頻編輯與參考、音視頻對齊全場景,為生成提供全局精準(zhǔn)的實(shí)時(shí)反饋,全方位優(yōu)化生成效果;另一方面采用階梯式課程強(qiáng)化學(xué)習(xí)路徑,從分辨率與時(shí)長、任務(wù)復(fù)雜度、數(shù)據(jù)難度三個(gè)維度,讓模型由簡入繁掌握復(fù)雜能力。通過這套體系,V4實(shí)現(xiàn)了跨任務(wù)泛化能力的顯著提升,讓AI真正開始“理解”整個(gè)視頻的邏輯與敘事結(jié)構(gòu)。

突破四:攻克電影級畫質(zhì)與高效生成的平衡難題——1080p、15秒量產(chǎn)專業(yè)級視頻

高分辨率長視頻生成一直是行業(yè)計(jì)算瓶頸:直接擴(kuò)散生成1080p、15秒的多鏡頭視頻,會(huì)導(dǎo)致難以承受的顯存和時(shí)間成本。SkyReels V4采用“低分辨率全序列+高分辨率關(guān)鍵幀”聯(lián)合生成策略,模型先快速生成低分辨率完整視頻和高分辨率關(guān)鍵幀,再通過專用超分辨率和幀插值模塊重構(gòu)高質(zhì)量視頻。結(jié)合VSA稀疏注意力機(jī)制大幅降低高分辨率長視頻帶來的二次方計(jì)算復(fù)雜度,將生成、修復(fù)、編輯三大功能整合進(jìn)單一框架,穩(wěn)定輸出1080p、32FPS影院級畫質(zhì),視頻時(shí)長達(dá)15秒,實(shí)現(xiàn)專業(yè)級AI視頻的高效量產(chǎn)。


技術(shù)原理:聯(lián)合生成策略

成宇強(qiáng)調(diào),這四大突破不是孤立的單點(diǎn)技術(shù)優(yōu)化,而是一套系統(tǒng)性解決方案的有機(jī)組合:雙流MMDiT從架構(gòu)上解決音畫同步,統(tǒng)一多模態(tài)控制框架讓創(chuàng)作意圖得到精準(zhǔn)響應(yīng),全模態(tài)強(qiáng)化學(xué)習(xí)讓視頻不僅有像素更要有邏輯,高效聯(lián)合生成策略讓高質(zhì)量創(chuàng)作不再被算力卡脖子。四條技術(shù)路徑相互協(xié)同,共同推動(dòng)視頻生成從“拼畫面”跨越到“講故事”的新階段。

成宇表示,SkyReels的目標(biāo)不是自己做內(nèi)容,而是“去中心化賦能”——將核心能力嵌入到每一個(gè)有需求的場景中,開放文生視頻、圖生視頻、視頻編輯、音畫生成等全鏈路API,賦能短劇平臺、電商平臺、在線教育、影視行業(yè)和廣告行業(yè)等不同客戶群體。

昆侖萬維已經(jīng)陸續(xù)發(fā)布并開源多個(gè)SkyReels模型,包括SkyReels V1、SkyReels V2、SkyReels V3、SkyReels V4,以及SkyReels A1、SkyReels A2和SkyReels A3。歡迎開源社區(qū)、AI機(jī)構(gòu)組織、科研學(xué)者等AI從業(yè)者和開發(fā)者下載使用 SkyReels 系列模型:https://huggingface.co/Skywork。

2.Mureka V9:把好聽做成一種系統(tǒng)能力

Mureka 的前身是SkyMusic,自2024年2月內(nèi)測起步,先后經(jīng)歷了SkyMusic 1.0/2.0、2024年8月以 Mureka 4.0獨(dú)立上線、2025年7月Mureka7.0 引入MusiCoT思維鏈技術(shù)建立閉環(huán)進(jìn)化軌道,到2026年1 月V8登頂 Artificial Analysis人聲與器樂雙賽道全球第一,再到2026年3月 Mureka V9在精準(zhǔn)控制、錄音室級混音、生成多樣性等方面實(shí)現(xiàn)全面升級。Mureka團(tuán)隊(duì)一直在做同一件事:把好聽變成一種系統(tǒng)能力。


成宇介紹,Mureka V9的升級重點(diǎn)聚焦于“創(chuàng)作意圖的可控表達(dá)”——不僅生成得更快、更清晰,更能準(zhǔn)確理解創(chuàng)作者在歌詞段落中的具體表達(dá)訴求。

MusiCoT音樂思維鏈:給AI裝上“全局視野”。傳統(tǒng)AI音樂模型的生成方式是“下一個(gè)Token預(yù)測”——模型寫完第一個(gè)音符,根據(jù)概率猜第二個(gè),一路猜到結(jié)尾,如同盲人摸象、走一步看一步,前奏驚艷,一到副歌就結(jié)構(gòu)崩塌;Mureka引入的MusiCoT技術(shù),讓AI在寫第一個(gè)音符之前先在腦海中畫好“全局建筑圖紙”:規(guī)劃歌詞段落在哪里切分、每段歌詞的語義重心落在哪個(gè)詞、音樂結(jié)構(gòu)如何對應(yīng)、聲音表達(dá)如何配合情緒走向,將音樂生成從“逐個(gè)音符猜”升級為“先規(guī)劃后執(zhí)行”的推理式創(chuàng)作。

五項(xiàng)核心升級疊加,實(shí)現(xiàn)“生成即可發(fā)布”。段落級文本控制讓歌詞的情緒重心能準(zhǔn)確落在目標(biāo)位置,不再是“唱出來了”而是“在對的段落被準(zhǔn)確表達(dá)了”;混音與音質(zhì)實(shí)現(xiàn)人聲和伴奏清晰分離,接近母帶級別;人聲表達(dá)減少莫名其妙的飆高音和雜音,聽起來像真人在唱;推理鏈路優(yōu)化后生成效率大幅提升,企業(yè)不用反復(fù)抽卡;同一創(chuàng)作指令下能輸出多種差異化版本,避免“生成五首差不多的歌”。Mureka的產(chǎn)品矩陣圍繞“意圖→生成→編輯→二創(chuàng)→分發(fā)→表達(dá)”,形成完整鏈路構(gòu)建。

在橫向評測中,Mureka V9在音樂旋律性(7.25)、音樂表現(xiàn)力(6.89)、編配編曲(6.98)三個(gè)維度均位列第一,在精準(zhǔn)控制維度(7.24)排名第二,全面對標(biāo)國際頂級模型。

此外,成宇還介紹了Mureka兩大特色產(chǎn)品功能,Mureka Studio及Remix功能。Mureka Studio是一款A(yù)I-native DAW(數(shù)字音頻工作站),支持多軌編輯、音頻修復(fù)、人聲/節(jié)奏/合成器分軌提取,將AI生成能力直接嵌入專業(yè)制作流程。Remix功能打通消費(fèi)、版本化與傳播的循環(huán),用戶在瀏覽內(nèi)容時(shí)可一鍵對已有歌曲進(jìn)行風(fēng)格切換、歌詞替換、旋律改寫等操作,生成新版本后繼續(xù)參與社交傳播,形成內(nèi)容的裂變增長飛輪。

這些產(chǎn)品能力的落地,讓Mureka率先通過了“生產(chǎn)可用門檻”。 北美增長型AI音樂公司Sondo從Suno灰產(chǎn)全量切換至Mureka API后,合作體量增長超70%,音樂核心業(yè)務(wù)翻倍。從技術(shù)指標(biāo)到商業(yè)驗(yàn)證,Mureka已證明自身不僅是全球頂尖的AI音樂技術(shù)平臺,更是成熟的商業(yè)化產(chǎn)品。

3.結(jié)語

演講最后,成宇以一句話收尾:“我們希望用最頂尖的技術(shù),打破創(chuàng)作的門檻,讓每一個(gè)創(chuàng)意都能被輕松實(shí)現(xiàn),讓每一個(gè)有表達(dá)欲的人都能擁有屬于自己的視聽話語權(quán)。

這也是昆侖萬維對“AI視聽時(shí)代技術(shù)燈塔”這一品牌愿景的注腳——SkyReels要做的是下一代視聽產(chǎn)業(yè)的核心基礎(chǔ)設(shè)施,Mureka要做的是新一代音樂創(chuàng)意表達(dá)的底層操作系統(tǒng),二者共同構(gòu)成昆侖萬維在AIGC多模態(tài)賽道上最堅(jiān)實(shí)的技術(shù)底座。從技術(shù)底座到原生應(yīng)用,從視頻到音樂再到游戲世界,昆侖萬維正以“4+3”戰(zhàn)略為錨點(diǎn),推動(dòng)AI在全場景內(nèi)容創(chuàng)作的深度變革。


昆侖萬維智源大會(huì)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
澤連斯基想不到,先等來的不是俄軍打基輔,而是中方突然劃下紅線

澤連斯基想不到,先等來的不是俄軍打基輔,而是中方突然劃下紅線

輕揚(yáng)墨雨
2026-06-06 02:41:29
我國越來越多的人患腦梗?建議:停止食用“6物”,保護(hù)大腦

我國越來越多的人患腦梗?建議:停止食用“6物”,保護(hù)大腦

牛鍋巴小釩
2026-06-20 05:55:55
真是毀三觀!釋永信21年前與劉立明在鄭州發(fā)生關(guān)系的筆錄曝光

真是毀三觀!釋永信21年前與劉立明在鄭州發(fā)生關(guān)系的筆錄曝光

魔都姐姐雜談
2025-07-28 14:35:36
歐盟稱已確認(rèn)中國訓(xùn)練俄軍,北京強(qiáng)硬回?fù)簦杭儗傥勖?>
    </a>
        <h3>
      <a href=桂系007
2026-06-17 00:20:57
主場優(yōu)勢!3個(gè)東道主5勝1平+2隊(duì)已出線 3連殺亞洲隊(duì) 紀(jì)錄延續(xù)40年

主場優(yōu)勢!3個(gè)東道主5勝1平+2隊(duì)已出線 3連殺亞洲隊(duì) 紀(jì)錄延續(xù)40年

我愛英超
2026-06-20 05:28:46
七國集團(tuán)峰會(huì)受訪被問懷念當(dāng)演員的時(shí)光嗎?澤連斯基回應(yīng)

七國集團(tuán)峰會(huì)受訪被問懷念當(dāng)演員的時(shí)光嗎?澤連斯基回應(yīng)

草莓解說體育
2026-06-17 18:26:15
扣押結(jié)束,臺當(dāng)局狼狽離境,多國堅(jiān)持一中政策,全球開始“剿獨(dú)”

扣押結(jié)束,臺當(dāng)局狼狽離境,多國堅(jiān)持一中政策,全球開始“剿獨(dú)”

一葉禪林
2026-06-18 20:10:30
洋蔥被點(diǎn)名!研究發(fā)現(xiàn):吃得越多,糖尿病患者壽命或越短?真的嗎

洋蔥被點(diǎn)名!研究發(fā)現(xiàn):吃得越多,糖尿病患者壽命或越短?真的嗎

汪醫(yī)生健康百科
2026-06-18 19:35:10
宣傳“1000度以下能回到5.0”,無效退款!家長給孩子用了5個(gè)月護(hù)眼貼,孩子視力更差,錢也沒了

宣傳“1000度以下能回到5.0”,無效退款!家長給孩子用了5個(gè)月護(hù)眼貼,孩子視力更差,錢也沒了

南方都市報(bào)
2026-06-17 08:37:19
別再說研究生爛大街了!看完真實(shí)數(shù)據(jù),才知道我們都被騙了

別再說研究生爛大街了!看完真實(shí)數(shù)據(jù),才知道我們都被騙了

芳姐侃社會(huì)
2026-06-19 21:50:18
看37歲梁洛施生圖,大背頭、皮貼骨,才知內(nèi)娛白幼瘦審美有多低級

看37歲梁洛施生圖,大背頭、皮貼骨,才知內(nèi)娛白幼瘦審美有多低級

一娛三分地
2026-06-15 21:27:46
車越賣不動(dòng),發(fā)布會(huì)開得越猛?這不是內(nèi)卷,是行業(yè)的“吹哨逃命”

車越賣不動(dòng),發(fā)布會(huì)開得越猛?這不是內(nèi)卷,是行業(yè)的“吹哨逃命”

鈦媒體APP
2026-06-18 18:15:45
2年9000萬,重簽火箭,再次證明了自己,但你離冠軍卻越來越遠(yuǎn)

2年9000萬,重簽火箭,再次證明了自己,但你離冠軍卻越來越遠(yuǎn)

星Xin辰大海
2026-06-19 00:11:26
美媒曝鷹網(wǎng)刺三方模擬交易方案

美媒曝鷹網(wǎng)刺三方模擬交易方案

體壇周報(bào)
2026-06-20 06:29:10
醫(yī)生發(fā)現(xiàn):能吃能喝的老人,基本在70歲,就已經(jīng)不做這6件事了!

醫(yī)生發(fā)現(xiàn):能吃能喝的老人,基本在70歲,就已經(jīng)不做這6件事了!

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-06-16 18:47:09
中國女排打崩法國!5連勝+實(shí)現(xiàn)復(fù)仇,莊宇珊20分,董禹含迎來高光

中國女排打崩法國!5連勝+實(shí)現(xiàn)復(fù)仇,莊宇珊20分,董禹含迎來高光

跑者排球視角
2026-06-19 23:54:42
30年一遇!武漢遭遇極端強(qiáng)降雨,武昌火車站及周邊淪為重災(zāi)區(qū)

30年一遇!武漢遭遇極端強(qiáng)降雨,武昌火車站及周邊淪為重災(zāi)區(qū)

火山詩話
2026-06-19 10:47:47
心理學(xué)上有個(gè)詞叫“空椅子技巧”:討厭一個(gè)人時(shí),其實(shí)不必鬧翻臉,最高級的處理方式就是用“空椅子技巧”

心理學(xué)上有個(gè)詞叫“空椅子技巧”:討厭一個(gè)人時(shí),其實(shí)不必鬧翻臉,最高級的處理方式就是用“空椅子技巧”

心理觀察局
2026-06-16 07:47:21
不止“手伸進(jìn)褲子”!那些片場潛規(guī)則,正在毀掉多少年輕女演員?

不止“手伸進(jìn)褲子”!那些片場潛規(guī)則,正在毀掉多少年輕女演員?

川渝視覺
2026-06-10 08:59:23
筱梅帶娃到公司,洋洋總走廊抱小寶寶似親姑!網(wǎng)友被這一幕暖到!

筱梅帶娃到公司,洋洋總走廊抱小寶寶似親姑!網(wǎng)友被這一幕暖到!

瀲滟晴方DAY
2026-06-19 22:58:57
2026-06-20 07:31:03
投資者網(wǎng) incentive-icons
投資者網(wǎng)
相信促進(jìn)信息透明是最好的服務(wù)
23592文章數(shù) 97249關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯-美國2-0澳大利亞 提前一輪小組出線

頭條要聞

世界杯-美國2-0澳大利亞 提前一輪小組出線

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

旅游
手機(jī)
時(shí)尚
游戲
軍事航空

旅游要聞

文旅深度融合促進(jìn)體驗(yàn)型消費(fèi)(“十五五”開好局起好步)

手機(jī)要聞

蘋果iOS 27“查找”應(yīng)用升級,支持隱藏位置與自定義共享時(shí)長

夏天上衣穿短不穿長,看看下面這幾款短上衣,顯高舒適顯比例

任天堂完全獨(dú)占新游開預(yù)購!7月23日發(fā)售 女主好性感

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競渡來了

無障礙瀏覽 進(jìn)入關(guān)懷版