ACL 2026 Oral｜語義推理如鯁在喉：大模型被「短語」難住了

2026-06-11 14:46:33　來源: 機(jī)器之心Pro

天津舉報

分享至

研究發(fā)表于 ACL 2026 主會，并獲選為 Oral 論文，核心作者為北京通用人工智能研究院的研究者劉洋和北京科技大學(xué)的本科生李鴻銘，指導(dǎo)老師為北京科技大學(xué)外國語學(xué)院教授秦曉惠以及計算機(jī)與通信工程學(xué)院副教授劉乾坤和黃超。

論文標(biāo)題：Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models
項目主頁：https://semanticqa.github.io
論文鏈接：https://arxiv.org/pdf/2604.16593
評測實現(xiàn)：https://github.com/jacklanda/SemanticQA

引言：當(dāng)語言理解成為假象

AI 的能力邊界正在不斷被刷新。從數(shù)學(xué)推理到代碼生成，再到數(shù)字化白領(lǐng)，語言模型和語言智能體在諸多基準(zhǔn)測試中已展現(xiàn)出超越人類專家的表現(xiàn)。一個看似順理成章的判斷早已成為共識：語言模型已經(jīng)具備了扎實的語言理解和語義推理能力。然而，ACL 2026 Oral的一項研究工作從一個更基礎(chǔ)的層面重新審視了這個問題：語言模型真的理解（短語）語義嗎？

問題的起點，是一類經(jīng)典的語言現(xiàn)象?！窴ick the Bucket」不是「踢桶」，「Rocket Science」并非「火箭科學(xué)」，「Alarm Clock Rings」也遠(yuǎn)不止字面意義上的「鬧鈴」。這類多詞表達(dá)（Multiword Expressions，簡稱為 MWE）在自然語言中無處不在，它們的含義往往無法從各個組成詞語中直接推導(dǎo)，需要結(jié)合語境、慣例乃至世界知識才能準(zhǔn)確理解。長期以來，這被視為自然語言處理的經(jīng)典難題，如鯁在喉（A Pain in the Neck for NLP）[1] 。

時至今日，這道難題依舊擺在了前沿模型面前。

來自北京通用人工智能研究院與北京科技大學(xué)的研究者提出了一個分析框架SemanticQA，系統(tǒng)評估了模型在短語語義理解上的真實水平。

不同于以往孤立考察單一任務(wù)的做法，SemanticQA 將語義理解拆解為三種原子操作：分類（Categorization）、抽取（Extraction）與釋義（Interpretation），并在此基礎(chǔ)上覆蓋了四類典型短語現(xiàn)象：慣用表達(dá)、固定搭配、復(fù)合名詞與動詞多詞表達(dá)，形成了一個結(jié)構(gòu)嚴(yán)謹(jǐn)、覆蓋廣泛的診斷性測試基準(zhǔn)。

評估對象橫跨十余個模型，從 BERT 和 T5 等經(jīng)典架構(gòu)模型，到 GPT-5、Claude Sonnet、DeepSeek-R1 和 Gemini 2.5 Pro 等近期前沿模型，幾乎涵蓋了主流的開源與閉源系統(tǒng)。

反直覺的結(jié)論：即便是最先進(jìn)的大模型，在處理短語層面的語義時仍存在系統(tǒng)性缺陷。沒有任何一個模型能夠在所有任務(wù)上保持穩(wěn)定的高水準(zhǔn)表現(xiàn)，不同操作類型之間的性能落差顯著：模型或許能夠流暢地解釋一個慣用語，卻在精確抽取相同表達(dá)時屢屢失手；分類任務(wù)隨著語義類別數(shù)量的增加急劇退化，而在需要多步驟串聯(lián)的組合任務(wù)中，上游的抽取錯誤更會如滾雪球般放大下游的解釋偏差。更值得警惕的是，那些在語義相似度指標(biāo)（如 BERTScore）下表現(xiàn)亮眼的模型，未必真正掌握了結(jié)構(gòu)性的語義推理能力。高分背后，可能只是對示例模式的精巧模仿。

這些發(fā)現(xiàn)提醒我們：在為語言模型的驚人能力歡呼之前，或許值得在更基礎(chǔ)的地方多停留片刻。短語，是語言理解扎根的地方。

背景與痛點：為什么我們需要語義推理？

當(dāng)前主流的推理評測基準(zhǔn)大多聚焦于數(shù)學(xué)求解、代碼生成與邏輯推斷。它們考察的是模型在顯式符號規(guī)則下的運算能力，卻鮮少觸及語言最基本的構(gòu)成單元 —— 短語 [2][10]。事實上，大量日常表達(dá)的含義并非來自詞語的簡單疊加，而是涌現(xiàn)于詞匯之間的約定俗成、語境線索與世界知識的交織之中。現(xiàn)有評測的盲區(qū)，恰恰就藏在這里。

與現(xiàn)有基準(zhǔn)不同，SemanticQA 沒有簡單堆砌任務(wù)規(guī)模，而是先做了一步簡潔的抽象：將「短語語義理解」拆解為三個可操作的基本能力環(huán)節(jié)：

抽?。簭木渥又袦?zhǔn)確識別目標(biāo)短語，要求完成精確的跨度定位，而非模糊的猜測；
分類：判斷該短語的語義類型（如習(xí)語、固定搭配、名詞復(fù)合詞等），考察模型對語義關(guān)系的結(jié)構(gòu)化理解；
釋義：在給定語境下生成該短語的釋義，要求模型將潛在的詞義解釋成可讀的自然語言陳述。

這三步分別對應(yīng)結(jié)構(gòu)識別、語義判斷和生成表達(dá)，共同構(gòu)成對短語語義的完整檢驗。它們的輸出形式各異，抽取要求精準(zhǔn)的字面匹配，分類依賴有限選項內(nèi)的判斷，釋義則是開放式的語言生成 —— 這種結(jié)構(gòu)差異本身，也成為診斷模型能力邊界的有效手段。

其核心設(shè)計思想是「操作對齊」（Operation-Aligned）：同一個短語實例在不同任務(wù)中被統(tǒng)一建模，采用固定的提示模板加以呈現(xiàn)，從而有效壓制提示誘導(dǎo)帶來的噪聲，使不同模型之間的橫向比較更加公平可靠。這一設(shè)計也直接回應(yīng)了傳統(tǒng)評測中長期存在的混淆：任務(wù)表現(xiàn)不等于能力水平，一個模型或許憑借格式敏感性在釋義任務(wù)中得高分，卻在抽取同一短語時茫然失措。

換句話說，如果模型真的理解了某個短語，它應(yīng)當(dāng)在這三類任務(wù)上表現(xiàn)出穩(wěn)定的跨操作一致性，而非只在某一類上擅長。正是這種一致性，才是 SemanticQA 所定義的（短語）語義推理能力。

主要貢獻(xiàn)：涵蓋四大短語難題

在數(shù)據(jù)層面，SemanticQA 涵蓋了四類最典型、也最讓語言處理系統(tǒng)頭疼的短語現(xiàn)象：習(xí)語（Idiomatic Expressions）、固定搭配（Lexical Collocations）、名詞復(fù)合結(jié)構(gòu)（Noun Compounds）和動詞多詞表達(dá)（Verbal MWEs）[3][8]。這些表達(dá)廣泛存在于自然語言中，且其含義往往無法通過簡單的詞義組合規(guī)則推導(dǎo)，正是檢驗?zāi)Ｐ汀刚胬斫狻惯€是「假套路」的試金石 [4][5]。

SemanticQA 基于現(xiàn)有多個語義標(biāo)注資源構(gòu)建，這些資源在標(biāo)注協(xié)議、難度分布及語義粒度上存在顯著差異。該基準(zhǔn)匯總了各任務(wù)來源的數(shù)據(jù)集、輸入輸出結(jié)構(gòu)、測試樣本數(shù)量及所涵蓋的短語類型，從而展現(xiàn)了其規(guī)模與多樣性：上千條的測試樣本，覆蓋檢測、抽取與釋義三類語義任務(wù)，且每個任務(wù)均采用統(tǒng)一的提示模板、句子上下文及輸出格式。這種標(biāo)準(zhǔn)化卻非同質(zhì)化的設(shè)計旨在反映真實語義標(biāo)注場景中固有的自然變異性，而非強(qiáng)行要求不同來源之間保持難度或標(biāo)注一致性。因此，SemanticQA 適于展現(xiàn)這種異質(zhì)性，但不適用于對短語類型進(jìn)行絕對化的橫向比較。

短語現(xiàn)象具有高度多樣性，不同文獻(xiàn)中使用的術(shù)語亦不統(tǒng)一。為保障基準(zhǔn)的可復(fù)現(xiàn)性，SemanticQA 通過顯式列出細(xì)粒度的子類別，避免將短語簡單二分為「習(xí)語 vs. 非習(xí)語」的粗放式分類，從而支持研究者深入分析模型在特定語義子類上的性能表現(xiàn)。例如，模型可能對非組合習(xí)語完全失效，卻在可分解習(xí)語上表現(xiàn)良好，這一差異有助于揭示模型究竟是依賴局部詞義線索，還是基于整體的短語模式進(jìn)行語義判斷 [6][7]。

核心洞察：能力各有短板，優(yōu)績不代表真懂

SemanticQA 不只看模型會不會做，而是看它在抽取、分類和釋義三種不同約束下是否一致。

研究發(fā)現(xiàn)，即便是當(dāng)前的前沿模型，在這三項核心能力上也遠(yuǎn)未均衡發(fā)展：

分類任務(wù)：模型對粗粒度的語義判斷尚可應(yīng)付，但面對結(jié)構(gòu)化的語義關(guān)系時，依然缺乏顯著的歸納能力。
抽取任務(wù)：要求模型從句子中精確圈出目標(biāo)短語，是最能反映「是否真看到」的操作。即使模型能在分類或釋義任務(wù)中表現(xiàn)良好，其抽取準(zhǔn)確率卻往往十分低下。這種不一致表明，模型往往依賴上下文中的表面模式來猜短語邊界，而非真正理解其「句法 vs. 語義」地位。
釋義任務(wù)：生成的釋義在短語結(jié)構(gòu)、語義焦點方面與標(biāo)準(zhǔn)答案存在偏差。換句話說，模型擅長「說得像」，卻不一定「說得對」。將釋義與抽取、分類結(jié)果對照時，經(jīng)常出現(xiàn)「能解釋卻抽不對」或「能分類卻解釋偏」的割裂現(xiàn)象，暴露出語義推理的不確定性。

以 GPT-5 為例：在習(xí)語分類（IED）五樣本提示（5-Shot）設(shè)定下達(dá)到 85.4% 的分類準(zhǔn)確率，但對應(yīng)的習(xí)語抽取（IEE）僅為 78.7% 的精確匹配率，而習(xí)語釋義（IEI）則只有 22.5% 的表面相似度（Meteor）。這種落差意味著：模型可以「猜對類別」，甚至「生成合理的解釋」，但并不具備跨任務(wù)一致的語義表示。

更典型的是抽取任務(wù)。研究指出，抽取是最能暴露模型是否能看到「短語邊界」的操作。多個模型在釋義任務(wù)上取得較高的語義相似度（BERTScore），卻在嚴(yán)格按照精確匹配的抽取任務(wù)中明顯失效。例如：GPT-5 在名詞復(fù)合詞釋義（NCI）中的語義相似度（BERTScore）可達(dá)到 96.8%，但同一模型在對應(yīng)的 NCE 上的抽取準(zhǔn)確率僅 79.0%。這說明當(dāng)前模型更擅長生成語義上相似的話語，但無法以同樣的熟練度實現(xiàn)穩(wěn)定的短語抽取。

三項任務(wù)之間的不一致，正是語義理解能力欠缺的直接證據(jù)。一個真正理解短語語義的模型，應(yīng)當(dāng)在結(jié)構(gòu)化輸出（抽?。?、離散決策（分類）和自由生成（釋義）上保持行為兼容，而非只在某一種任務(wù)上取巧。

現(xiàn)實世界中的語義關(guān)系呈現(xiàn)出豐富且細(xì)粒度的特性，然而現(xiàn)有大多數(shù)基準(zhǔn)僅測試粗粒度的語義分類（例如 2 至 4 個類別）。為考察模型是否具備真正的語義歸納能力，即：隨著類別數(shù)增加，任務(wù)表現(xiàn)能否保持穩(wěn)定，抑或出現(xiàn)急劇退化，相關(guān)實驗結(jié)果極具啟發(fā)性：前沿語言模型擅長在粗粒度、高頻的語義區(qū)分任務(wù)上表現(xiàn)出較高的表面準(zhǔn)確率，但一旦需要精細(xì)區(qū)分十多個細(xì)粒度語義類別，其歸納能力顯著不足。特別指出：DeepSeek-R1 的分類準(zhǔn)確率從 81.7% 下降到 35.4%，跌幅達(dá)到 46.3 個百分點；GPT-5 雖然更穩(wěn)定，但在 16 分類的條件下仍明顯退化。這一現(xiàn)象表明，現(xiàn)有模型更多依賴表層的統(tǒng)計共現(xiàn)信息，而非具備真正的語義推理能力 [9]。

由于本工作的研究跨度較長，我們還特地對 OpenAI 的四款代表性模型（GPT-3.5-Turbo、GPT-4、o3 和 GPT-5）進(jìn)行了跨越三年的歷時分析。結(jié)果顯示，多數(shù)任務(wù)表現(xiàn)出了顯著的偏序和排名一致性，例如在 LCI、NCI 和 IEI 等任務(wù)中，模型性能隨代際更迭呈現(xiàn)出穩(wěn)步遞增的趨勢（GPT-5≥o3 > GPT-4 > GPT-3.5-Turbo），且 Few-Shot 提示普遍優(yōu)于 Zero-Shot。

多米諾效應(yīng)：上游一步錯，下游步步錯

現(xiàn)實應(yīng)用中的語義處理往往是多步流程，例如先抽取短語，再對其進(jìn)行釋義或分類。SemanticQA 專門設(shè)計了組合推理任務(wù)來模擬這一場景。結(jié)果顯示：

抽取錯誤直接拖垮下游：即使模型在孤立釋義任務(wù)中表現(xiàn)尚可，一旦輸入來自自身抽?。ǘ侨斯?biāo)注）的短語，其釋義質(zhì)量便大幅下降。上游哪怕只出現(xiàn)少量邊界偏移，下游的語義重建也會明顯偏離。
少樣本無法補(bǔ)償結(jié)構(gòu)誤差：增加演示樣例能小幅提升抽取準(zhǔn)確率，但對「條件式釋義」（基于正確抽取的短語）提升有限。說明當(dāng)前模型缺乏對中間結(jié)果的自我校驗與糾錯能力，難以構(gòu)建穩(wěn)健的語義處理流水線。
分類組合任務(wù)同樣敏感：要求先抽取后分類時，端到端準(zhǔn)確率相比獨立分類任務(wù)顯著下降，且類別越多下降越劇烈。這表明模型在傳遞結(jié)構(gòu)化語義時存在明顯的衰減。

組合推理實驗進(jìn)一步揭示了「上游一步錯，下游步步錯」的問題。在「先抽取 + 后釋義」的順序任務(wù)中：GPT-5 在詞匯搭配的組合任務(wù)中，5-Shot 條件下抽取準(zhǔn)確率為 41.3%，條件釋義（即抽對后再解釋）的 Meteor 相似度可達(dá)到 41.8%，但整體的 Meteor 相似度最終僅為 17.3%。

這些結(jié)果揭示了一個被原子任務(wù)評測長期掩蓋的事實：語言模型在單點任務(wù)上也許能產(chǎn)生高光表現(xiàn)，但同時也很容易在多步的級聯(lián)任務(wù)中土崩瓦解。語義推理，必須經(jīng)得起流程化檢驗。

實踐啟示：不能只看會不會，更得看穩(wěn)不穩(wěn)

SemanticQA 的設(shè)計思路給當(dāng)前的語言模型評估帶來五點重要啟示：

單指標(biāo)、單任務(wù)無法衡量語義能力。模型可能在釋義任務(wù)上得高分，卻在抽取任務(wù)上一敗涂地；在四分類上接近人類，卻在十六分類時崩潰。不同任務(wù)暴露的是互補(bǔ)的失敗模式，只有多操作、多約束的對照評估，才能照見模型語義表征的實際水平。
情境學(xué)習(xí)的收益因任務(wù)而異，不可一概而論。釋義類任務(wù)從示例中獲益穩(wěn)定，抽取任務(wù)的表現(xiàn)卻高度依賴示例與測試實例的結(jié)構(gòu)匹配，一旦分布偏移，增加示例反而可能拖累性能。在實際部署中，示例的質(zhì)量與任務(wù)適配，遠(yuǎn)比示例的數(shù)量更為關(guān)鍵。
規(guī)模擴(kuò)展不等于語義深化，領(lǐng)域監(jiān)督有時比能力涌現(xiàn)更可靠。分類粒度從二分類擴(kuò)展到十六分類時，千億參數(shù)大模型的性能衰減幅度卻遠(yuǎn)超小規(guī)模監(jiān)督模型。這表明大模型對細(xì)粒度語義關(guān)系的「理解」，更多依賴于統(tǒng)計模式的共現(xiàn)而非結(jié)構(gòu)化表示，領(lǐng)域監(jiān)督所帶來的收益可能遠(yuǎn)比單純擴(kuò)大規(guī)模更扎實。
語義表征與任務(wù)格式深度耦合，而非操作無關(guān)。人類理解一個短語后，可以自然完成識別、歸類與釋義；但大模型卻往往在多選分類中答對，卻在開放抽取中失手，或在生成解釋時產(chǎn)生語義漂移。當(dāng)前模型習(xí)得更接近對任務(wù)格式的適應(yīng)，而非真正意義上可遷移的短語語義表征。
魯棒性與診斷價值，是評測的意義所在。模型一旦從單步任務(wù)進(jìn)入多步串聯(lián)流程，上游的識別錯誤便會顯著拖累下游語義質(zhì)量，這種脆弱性在單任務(wù)評測中幾乎無從察覺。隨著主流基準(zhǔn)加速飽和，評測的核心價值不應(yīng)是給模型打出一個排名總分，而是精準(zhǔn)揭示能力斷層在哪里、為何存在以及如何修復(fù)。

研究局限

本工作完稿于 2023 年，并于 2025 年進(jìn)行修訂和投稿錄用。該診斷性評測基于單輪靜態(tài)設(shè)計，在當(dāng)時是合理的，但放到 2026 年的 Agent 語境下，它測的東西已經(jīng)不夠用了。Agent 不再是單輪推理，而是在長時運行：一步走偏，后面全部走偏，工具調(diào)用失敗或推理錯誤被帶入下一步、鏈路越長偏差越大導(dǎo)致掉入前綴陷阱，如蝴蝶效應(yīng)般不可逆地疊加。因此，如何針對語言智能體進(jìn)行動態(tài)自適應(yīng)的評估，成為了當(dāng)今更有價值的科學(xué)與實踐問題。

靜態(tài) Evals 在 Agent 時代的根本性失效問題：

靜態(tài)基準(zhǔn)測的是能力截面，Agent 的風(fēng)險在時間軸上，錯誤不是孤立的，它會被寫入狀態(tài)、沿鏈路傳播疊加，第三步的幻覺在第七步才爆炸，而靜態(tài)分?jǐn)?shù)對此一無所知
分?jǐn)?shù)相同的兩個模型，執(zhí)行軌跡可能天差地別：一個靠運氣蒙對，一個扎扎實實地走對。當(dāng)當(dāng)前真正有價值的問題不是 Evals 分?jǐn)?shù)是多少，而是：評估體系本身能不能動態(tài)進(jìn)化，打分模型要被驗證、任務(wù)要有生命周期、任務(wù)執(zhí)行軌跡要作為審計入口、安全護(hù)欄要有一票否決權(quán)；
Evals 不是測試的升級，是 Agent 時代唯一可執(zhí)行的產(chǎn)品定義方式，因為我們無法用 PRD 定義一個概率系統(tǒng)。

結(jié)語

語義推理不是黑盒系統(tǒng)里的靈光一現(xiàn)，而是可分解、可檢驗以及可追溯的系統(tǒng)能力。SemanticQA 通過操作對齊的設(shè)計，將（短語）語義理解這一古早難題重新帶回研究前沿，并給出了一個清醒的判斷：語言模型遠(yuǎn)未真正「懂語言」，至少在短語層面，它們有了很大的改進(jìn)，但仍在摸索前行。這項工作的意義不僅在于指出不足，更在于提供了一套可操作、可復(fù)現(xiàn)的診斷工具，幫助社區(qū)朝著更穩(wěn)健、更結(jié)構(gòu)化的短語處理前沿邁進(jìn)。

參考文獻(xiàn)

[1] Shwartz and Dagan. Still a Pain in the Neck: Evaluating Text Representations on Lexical Composition. TACL 2019.

[2] Wei et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.

[3] Constant et al. Multiword Expression Processing: A Survey. Computational Linguistics 2017.

[4] Coil and Shwartz. From Chocolate Bunny to Chocolate Crocodile: Do Language Models Understand Noun Compounds? ACL Findings 2023.

[5] Espinosa-Anke et al. Evaluating Language Models for the Retrieval and Categorization of Lexical Collocations. EACL 2021.

[6] Chakrabarty et al. It’s Not Rocket Science: Interpreting Figurative Language in Narratives. TACL 2022.

[7] Pham et al. PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search. EACL 2023.

[8] Ramisch et al. A Survey of MWE Identification Experiments: The Devil is in the Details. MWE Workshop 2023.

[9] Miletic and Schulte im Walde. Semantics of Multiword Expressions in Transformer-based Models: A Survey. TACL 2024.

[10] Zeng and Bhat. Getting BART to Ride the Idiomatic Train: Learning to Represent Idiomatic Expressions. TACL 2022.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.