免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

首篇多模態(tài)大模型「音頻推理」綜述出爐,萬字拆解四大前沿路徑

0
分享至



想象這樣一個愜意的周末: 空調(diào)帶來陣陣涼意,你靠在沙發(fā)上看書,突然耳邊傳來“噠噠噠”的小碎步聲,接著,玄關(guān)門邊傳來了一陣清脆、略帶急切的“嗚嗚”聲,還伴隨著爪尖輕輕扒拉木門的聲響。

如果把這段音頻丟進傳統(tǒng)的語音大模型,它只會輸出冷冰冰的三個字:[狗叫聲]。AI 感知到了正確的音頻信息,但是完全錯過了這段聲音里包含的靈動與期待。

當模型只是把語音轉(zhuǎn)成文字,它真的“聽懂”了嗎?

一個具備真正智能的多模態(tài)AI助手是什么樣呢?它首先要能聽出小狗的聲音,然后捕捉到音頻里的空間感(門邊傳來的聲音)、序列動作(碎步聲和抓門聲),并結(jié)合情緒(急切的“嗚嗚”聲),快速完成一系列邏輯推演,用歡快的語調(diào)提醒你:“狗狗想出門散步啦,快帶它出去玩吧!”

讓AI從“冷冰冰地轉(zhuǎn)錄聲音”到“能夠聽懂生活中的情緒、物理常識與邏輯”,這正是大模型社區(qū)正在經(jīng)歷的一場劇變:從現(xiàn)有的“音頻感知(Audio Perception)”全面進化到“音頻推理(Audio Reasoning)”。這也是大模型真正通向 AGI,成為我們生活助手的必經(jīng)之路!

然而,當交互的模態(tài)從文字和圖像轉(zhuǎn)向聲音,一個問題浮出水面:AI 能否不依賴轉(zhuǎn)錄的文本,直接基于聲音進行推理?

這并不是一個技術(shù)細節(jié)問題。真實世界里的聲音,遠不只是承載文字內(nèi)容的載體。說話人的語氣、語速、重音、停頓、情緒、多人重疊說話、環(huán)境事件等,都可能改變推理結(jié)論。而簡單粗暴地把音頻轉(zhuǎn)寫成文字,往往會丟失這些關(guān)鍵信息。

音頻推理不應(yīng)該只是文本或視覺推理的簡單遷移,而是作為多模態(tài)基礎(chǔ)模型中的獨立問題重新定義。

近日,香港中文大學(xué)團隊聯(lián)合多位優(yōu)秀研究者,正式推出了音頻推理領(lǐng)域的首篇全景綜述。本文首次全面定義了“音頻推理”的范式,系統(tǒng)解構(gòu)了底層框架,并深度剖析了當前最受關(guān)注的四大前沿推理路徑。



  • 論文標題:
  • A Survey of Audio Reasoning in Multimodal Foundation Models
  • 論文鏈接:
  • https://arxiv.org/abs/2605.21008

本文系統(tǒng)整理了多模態(tài)基礎(chǔ)模型中的音頻推理研究,提出統(tǒng)一的問題表述與分類框架,將當前工作分為四條主線:Audio-to-Text Reasoning、Audio-to-Speech Reasoning、Audio-Visual Reasoning、Agentic Audio Reasoning,并進一步總結(jié)模型基礎(chǔ)、數(shù)據(jù)構(gòu)造、評測體系、挑戰(zhàn)與未來方向。

更重要的是,本文強調(diào)了一個經(jīng)常被忽視但極其關(guān)鍵的觀點:音頻推理的核心不是“讓模型說出一段推理鏈”,而是讓推理過程真正錨定在連續(xù)、細粒度、時間密集的聲學(xué)證據(jù)上。

從“聽清”到“聽懂”,再到“推理決策”——這不只是當前大模型能力提升的必經(jīng)之路,更是通往 AGI 的關(guān)鍵一環(huán)。

從感知到推理:

為什么我們需要 Audio Reasoning?



2023-2026 年,Qwen-Omni、Audio-Reasoner、Step-Audio、AudioToolAgent 等工作相繼推出,音頻推理正在從碎片化探索,逐步走向體系化。

多模態(tài)大模型已經(jīng)從“看圖說話”到“聽、看、說、行動”的一體化系統(tǒng)。但當前研究工作仍存在明顯斷層:

1、現(xiàn)有綜述通常關(guān)注音頻大模型、音頻理解、實時語音交互或多模態(tài) CoT,而很少把“audio reasoning”作為中心問題單獨展開。

2、音頻推理仍處在高度零散階段:不同工作分別討論音頻問答、語音交互、音視頻推理、工具調(diào)用、評測基準,仍缺少一個統(tǒng)一的框架來解釋它們之間的關(guān)系。

3、很多所謂“音頻推理”任務(wù)并不真正依賴音頻。部分模型可以只依賴文本提示或音頻轉(zhuǎn)錄得到正確答案,這使得我們必須重新審視:模型是否真的在聽聲音?

因此,這篇綜述進一步回答三個更根本的問題:

  • 什么是音頻推理?它與普通音頻理解有什么區(qū)別?
  • 什么樣的模型結(jié)構(gòu)和訓(xùn)練方式才能實現(xiàn)真正的 acoustic-grounded reasoning?
  • 如何評估模型真正使用了聲音作為證據(jù),而不是在走文本捷徑?

深層剖析音頻推理四大范式



多模態(tài)大模型音頻推理能力的全景分類框架

本文首次提出一個全新的音頻推理分類框架,多維度解析了現(xiàn)有前沿音頻推理模型的核心架構(gòu)和指令微調(diào)策略,為該領(lǐng)域研究者提供了一份清晰的“技術(shù)地圖”和“避坑指南”。重點剖析了四大前沿方向:

Audio-to-Text:超越轉(zhuǎn)錄的深層語義解析

當前大模型在純文本推理上表現(xiàn)驚艷,但如何在接收音頻輸入時避免信息折損?本文詳細探討了模型在缺乏顯式文本提示的情況下,如何直接從音頻信號中提煉邏輯鏈條,完成深層多步推理,并突破長音頻上下文理解的瓶頸。相關(guān)方法包括 inference-time CoT、SFT-based CoT 和 RL-based CoT。值得注意的是,本文討論了一個反直覺問題:CoT 在音頻中并不總是有效。一些研究發(fā)現(xiàn),CoT 對簡單任務(wù)有幫助,但在難題上卻有可能誤導(dǎo)模型;甚至一些音頻問答能夠在不聽音頻的情況下依靠文本線索猜對答案。這種現(xiàn)象證明,真正的挑戰(zhàn)不是讓模型輸出

,而是讓推理過程建立在真實的聲學(xué)證據(jù)上。

Audio-to-Speech:端到端的聲學(xué)邏輯構(gòu)建

真正的智能對話不能只輸出冰冷的文字。本部分聚焦于端到端交互系統(tǒng),探討模型如何在生成語音回復(fù)的同時,依然保留輸入端的情感共鳴以及副語言特征,并完成復(fù)雜的聲學(xué)邏輯推理(例如:聽出對方的反諷語氣并做出相應(yīng)的反擊)。傳統(tǒng) sequential 模式是“先聽—再想—再說”,雖然邏輯完整但延遲性高。近期工作為降低用戶等待時間,提出兩類實時范式:在用戶說話時同步推理(Thinking While Listening);以及利用音頻播放時間,預(yù)計算后續(xù)的推理和語音(Thinking While Speaking)。核心問題是如何在推理的深度和低延遲之間取得平衡。

Audio-Visual Reasoning:同時聽和看,跨模態(tài)推理

聽覺與視覺的聯(lián)合推理是多模態(tài)領(lǐng)域的硬骨頭。本文深度剖析了音視頻聯(lián)合推理的前沿解決方案,揭示了如何破解復(fù)雜場景下,聲音源和視覺對象的跨模態(tài)空間與時間對齊難題。它不僅關(guān)注說話人歸屬,還關(guān)注音畫同步、事件定位、跨模態(tài)消歧等任務(wù)。與簡單拼接音頻轉(zhuǎn)錄文本和視覺特征不同,真正的音視頻推理,需要模型在時間軸上對齊兩種連續(xù)信號,并判斷不同模態(tài)間的證據(jù)如何互補或沖突。

Agentic Audio Reasoning:把音頻推理擴展為智能體工作流

讓模型學(xué)會“聽指令行事”。該方向探討了音頻驅(qū)動的自主決策機制,深度剖析 Audio Agent 如何在真實物理或虛擬環(huán)境中,通過聽覺信息感知狀態(tài)和規(guī)劃任務(wù),并拓寬 Action 的執(zhí)行邊界。復(fù)雜任務(wù)往往不能靠單一模型一次性回答,需要感知、規(guī)劃、工具調(diào)用、記憶、驗證和反思等環(huán)節(jié)協(xié)作。論文總結(jié)了兩類路線:一類是固定流程的 predefined workflow agents,另一類是由 LLM planner 動態(tài)選擇 ASR、TTS、搜索、郵件、日歷等工具的 dynamic tool-calling agents。



音頻推理的主要范式

數(shù)據(jù)與評測:不能只看答案對不對



音頻推理 Benchmark對比匯總

音頻推理的前景廣闊,但數(shù)據(jù)構(gòu)造仍是難題。當前大規(guī)模訓(xùn)練數(shù)據(jù)主要來自 MMAU、VoxEval等,再由大模型構(gòu)造 QA 和推理鏈。一些工作使用 LLM-ALM ,進一步通過協(xié)同生成、自蒸餾,或引入語速、音高、重音等聲學(xué)特征,減少文本幻覺和捷徑學(xué)習(xí)。

論文指出:評測音頻推理能力,不能只看最終答案準確率,更重要的是判斷模型是否真正使用了音頻作為依據(jù)。未來 benchmark 需要減少文本捷徑,覆蓋語氣、情緒、環(huán)境聲、說話人、實時交互、長音頻上下文和音視頻 grounding 等更真實場景。

指路未來:研究熱點在哪里?

對于想要入局“音頻推理”的研究者,文章在結(jié)尾給出了極具價值的未來趨勢指路:合成的音頻推理數(shù)據(jù)是否可靠;模型是否存在模態(tài)幻覺和 text-surrogate reasoning;在實時語音交互中如何平衡準確性與低延遲;播客、長會議以及環(huán)境錄音中的長上下文推理如何實現(xiàn);音頻推理能力是否能從 post-training 前移到預(yù)訓(xùn)練或 mid-training 階段。

結(jié)語

傳統(tǒng)的語音系統(tǒng)只關(guān)注“把聲音轉(zhuǎn)成文字”,而今天,真實交互、具身智能和多模態(tài) agent場景,迫切需要下一代模型理解聲音中的意圖、情緒、因果和上下文。

這篇綜述首次將 Audio Reasoning 作為獨立研究對象系統(tǒng)展開,從形式化定義到模型基礎(chǔ),從 CoT、SFT、RL 到實時語音推理,從音視頻 grounding 到 agentic workflow,再到評測與未來方向。

未來的 AI 不應(yīng)只是“聽見”聲音,而要真正開始“聽懂并思考”。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
華為定調(diào)Wi-Fi 7專利費:每臺終端0.5美元,多模專利池同步就位

華為定調(diào)Wi-Fi 7專利費:每臺終端0.5美元,多模專利池同步就位

CNMO科技
2026-06-19 12:49:47
委內(nèi)瑞拉換天五個月后才發(fā)現(xiàn):百姓購買力爆發(fā),國家回血速度加快

委內(nèi)瑞拉換天五個月后才發(fā)現(xiàn):百姓購買力爆發(fā),國家回血速度加快

掉了顆大白兔糖
2026-06-09 04:30:53
為啥有些人不敢爬泰山?網(wǎng)友:當?shù)厝巳チ烁静桓襾y說話

為啥有些人不敢爬泰山?網(wǎng)友:當?shù)厝巳チ烁静桓襾y說話

阿康四歲啦
2026-06-18 12:17:55
齊達內(nèi)全家合影曝光!三個兒子碌碌無為,最矮二兒子卻成全村希望

齊達內(nèi)全家合影曝光!三個兒子碌碌無為,最矮二兒子卻成全村希望

觀星娛記
2026-06-18 15:27:16
當全世界都忙著吵架時,中國把整整5萬億元,悄悄埋進了地底深處

當全世界都忙著吵架時,中國把整整5萬億元,悄悄埋進了地底深處

混沌錄
2026-06-19 16:14:12
38歲梅西創(chuàng)史僅一天,總統(tǒng)斥責荒唐行為

38歲梅西創(chuàng)史僅一天,總統(tǒng)斥責荒唐行為

汪鏞的創(chuàng)業(yè)之路
2026-06-19 12:58:21
萬斯警告以色列別不知好歹:特朗普是全球唯一同情以色列的國家元首;以色列的防御武器三分之二由美國制造、美國納稅人出資

萬斯警告以色列別不知好歹:特朗普是全球唯一同情以色列的國家元首;以色列的防御武器三分之二由美國制造、美國納稅人出資

大象新聞
2026-06-19 13:45:24
不止“手伸進褲子”!那些片場潛規(guī)則,正在毀掉多少年輕女演員?

不止“手伸進褲子”!那些片場潛規(guī)則,正在毀掉多少年輕女演員?

川渝視覺
2026-06-10 08:59:23
教育亂象:最該整治的不是教師,而是嬌慣的學(xué)生和無理取鬧的家長

教育亂象:最該整治的不是教師,而是嬌慣的學(xué)生和無理取鬧的家長

細說職場
2026-06-19 19:10:50
Manus回購方案浮出水面:中國投資方擬掏20億美元買回股權(quán),赴港IPO路徑漸明

Manus回購方案浮出水面:中國投資方擬掏20億美元買回股權(quán),赴港IPO路徑漸明

鈦媒體APP
2026-06-19 18:21:22
大碼模特現(xiàn)實里到底多大?

大碼模特現(xiàn)實里到底多大?

飛娛日記
2026-05-12 08:27:55
巨頭爭相與烏克蘭合作!壟斷損害西方軍工,已不會造高效廉價武器

巨頭爭相與烏克蘭合作!壟斷損害西方軍工,已不會造高效廉價武器

鷹眼Defence
2026-06-18 16:57:47
FIFA:因科內(nèi)重傷世界杯報銷,薩索洛可獲最高750萬歐元補償

FIFA:因科內(nèi)重傷世界杯報銷,薩索洛可獲最高750萬歐元補償

懂球帝
2026-06-19 11:03:12
“電網(wǎng)憑啥不要我兒子?”母親淚訴:華北電力坑人!630分白考了

“電網(wǎng)憑啥不要我兒子?”母親淚訴:華北電力坑人!630分白考了

復(fù)轉(zhuǎn)這些年
2026-06-19 19:03:30
誰動我兄弟就滅誰!這3國向全球發(fā)出警告,如今卻把槍口對準中國

誰動我兄弟就滅誰!這3國向全球發(fā)出警告,如今卻把槍口對準中國

抽象派大師
2026-06-19 17:35:56
麥克風沒關(guān)!加拿大總理與特朗普私聊中國電動車,意外對全球公開

麥克風沒關(guān)!加拿大總理與特朗普私聊中國電動車,意外對全球公開

煙雨洛神生
2026-06-19 03:33:05
200-400萬存款的人或家庭,國內(nèi)大概有多少?可能會改變你的認知

200-400萬存款的人或家庭,國內(nèi)大概有多少?可能會改變你的認知

平說財經(jīng)
2026-06-18 18:15:44
頭部男主播官宣即將長期停播!多次申請降薪遭斗魚拒絕!看透直播結(jié)局注定衰敗不堪!

頭部男主播官宣即將長期停播!多次申請降薪遭斗魚拒絕!看透直播結(jié)局注定衰敗不堪!

新浪財經(jīng)
2026-06-19 14:08:13
誰說星二代不讀書?陳建斌兒子人大附中畢業(yè),考上美國清華伯克利

誰說星二代不讀書?陳建斌兒子人大附中畢業(yè),考上美國清華伯克利

翰飛觀事
2026-06-19 16:32:02
墨西哥主帥:與韓國的比賽很艱苦;我不喜歡李剛?cè)实陌l(fā)色

墨西哥主帥:與韓國的比賽很艱苦;我不喜歡李剛?cè)实陌l(fā)色

懂球帝
2026-06-19 15:53:25
2026-06-20 03:31:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

手機
游戲
數(shù)碼
房產(chǎn)
軍事航空

手機要聞

賣爆了!小米 17T 系列四天熱銷 7 萬臺,首周預(yù)估破 10 萬臺,爭霸中端

任天堂完全獨占新游開預(yù)購!7月23日發(fā)售 女主好性感

數(shù)碼要聞

SSD太貴換回HDD:機械硬盤價格連漲5個季度!

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調(diào)規(guī)!

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競渡來了

無障礙瀏覽 進入關(guān)懷版