圖片越糊越危險？西湖大學發(fā)現(xiàn)多模態(tài)大模型「攻擊舒適區(qū)」

2026-06-14 19:09:16　來源: 機器之心Pro

天津舉報

分享至

多模態(tài)大模型越來越會讀圖中文字，但最新研究顯示，「讀得出來」并不等于「防得住」。西湖大學 AGI Lab 的研究團隊發(fā)現(xiàn)，當有害文本被渲染成低清、模糊或帶噪圖片后，模型在一個特定清晰度區(qū)間內(nèi)反而更容易被越獄。該論文已被 ACL 2026 Findings 接收，并開源代碼與核心數(shù)據(jù)。

如果把一段長文本壓縮成圖片，再交給多模態(tài)大模型處理，會發(fā)生什么？

在長上下文成為大模型基礎(chǔ)能力之后，這個問題正在變得現(xiàn)實。DeepSeek-OCR、Glyph 等工作已經(jīng)展示了一條頗具吸引力的路線：把文本渲染成高密度圖像，用更少視覺 token 承載更多上下文。換句話說，模型不再只是「看圖」，也開始用視覺通道「讀文檔」。

但安全問題也隨之而來：當文本被壓縮進圖像，尤其是圖像變得低清、模糊、帶噪聲之后，模型的安全對齊還能像處理純文本時一樣穩(wěn)定嗎？

西湖大學 AGI Lab 的一項新研究給出了一個反直覺答案：在某些「剛好還能看清、但識別起來很費力」的視覺退化區(qū)間里，多模態(tài)大模型的安全防線會明顯變脆。論文已被ACL 2026 Findings接收。

論文的第一作者為西湖大學 AGI 實驗室研究助理宋志學，指導老師為西湖大學助理教授張馳。

論文標題：Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
論文鏈接：https://arxiv.org/pdf/2605.07250
代碼與數(shù)據(jù)：https://github.com/Westlake-AGI-Lab/ACZ-Jailbreak

清晰輸入通常會觸發(fā)安全拒絕；視覺退化后的同類文本更容易繞過安全檢查。

不是越模糊越危險，而是存在一個「攻擊舒適區(qū)」

直覺上，圖片越清晰，模型越容易看懂；圖片越模糊，模型越難執(zhí)行其中的指令。因此，如果有害文本被做成低清圖片，最自然的猜測是：模型要么看不懂，要么看懂后拒絕。

但這項研究觀察到的曲線并不是單調(diào)變化，而是一個倒 U 型。

真正危險的不是完全看不清的圖片，而是「還能看清，但需要費勁看清」的圖片。

在論文中，研究團隊將 770 條去重后的有害查詢渲染為不同 DPI 的圖像，并在 GPT-4.1、Claude Sonnet 4.5、Doubao Seed 1.6、Qwen3-VL、GLM-4.5V、Intern-S1 等閉源與開源多模態(tài)模型上測試 OCR 準確率和攻擊成功率（ASR）。

Attack Comfort Zone 中，OCR 仍保持較高水平，但圖像攻擊成功率同步升高，形成倒 U 型風險曲線。

結(jié)果顯示，在 ACZ 中，模型往往仍然能讀懂圖片文字，但安全判斷卻明顯失靈。以 Qwen3-VL-32B-Thinking 為例，論文匯總表中其文本輸入 ASR 為 36.7%，ACZ 圖像 ASR 升至 86.2%；與此同時，OCR ACC 仍有 95.4%（字符級）和 93.2%（詞級）。

這意味著，多模態(tài)安全評估不能只問「模型能不能讀懂圖片文字」，還必須問「模型讀懂之后，是否仍能穩(wěn)定觸發(fā)安全機制」。

論文整體框架：視覺退化觸發(fā)風險上升，并通過結(jié)構(gòu)化認知卸載進行緩解。

為什么會這樣？模型忙著識別文字，安全審查被延遲

為了解釋這一現(xiàn)象，論文提出了Visual Cognitive Overload（視覺認知過載）假設(shè)。

可以把它理解為一種「一心二用」失?。涸谇逦斎胫?，模型可以較早捕捉到有害語義并觸發(fā)拒絕；但在退化圖片中，模型需要先投入更多計算和注意力去辨認字符、恢復詞語、拼合句子，原本應該同步發(fā)生的安全審查被擠壓或延遲。

這就像人在讀一張模糊截圖時，注意力會先被「這到底寫的是什么」占據(jù)。等內(nèi)容被讀懂時，對其意圖的判斷已經(jīng)慢了一拍。

為了驗證這一機制，研究團隊訓練了 layer-wise safety probe，觀察模型不同層中的安全特征。結(jié)果顯示，對于清晰圖像，有害特征在淺層就更容易被識別；而 ACZ 輸入在淺層更接近無害樣本，直到更深層才逐漸顯現(xiàn)危險性。

安全探針顯示，ACZ 輸入中的有害特征在淺層不明顯，到更深層才逐漸顯現(xiàn)。

換句話說，ACZ 輸入并不是簡單的「模型讀錯了」。更準確地說，模型把這些圖像當成有效視覺信號處理了，但安全特征出現(xiàn)得更晚，錯過了淺層安全機制最有效的窗口。

研究團隊還使用 t-SNE 分析排除了簡單的 OOD 解釋。ACZ 樣本并不像極低 DPI 噪聲那樣孤立在表示空間之外，而是與高保真樣本處在相近流形中。這說明它們并沒有被模型當成無效輸入丟掉，而是在一個更隱蔽的位置繞開了安全判斷。

t-SNE 分析顯示，ACZ 樣本并非簡單離群噪聲，而是被模型當作有效視覺信號處理。

不只是低分辨率：噪聲、扭曲、遮擋也會放大風險

如果 ACZ 只是低分辨率帶來的偶然現(xiàn)象，那它的現(xiàn)實風險或許有限。但論文進一步發(fā)現(xiàn)，多種自然視覺退化都會誘發(fā)類似問題。

研究團隊測試了模糊、幾何扭曲、干擾線、馬賽克、噪聲、遮擋等多種擾動。結(jié)果顯示，只要視覺理解變得更費力，模型的攻擊成功率就可能被抬高。

更值得注意的是，這一現(xiàn)象并不只存在于英文。論文在中文有害提示上也觀察到 ACZ 區(qū)間顯著高于 300 DPI 的攻擊成功率。例如 Doubao Seed 1.6 在 300 DPI 下 ASR 為 16.7%，而 ACZ 下升至 70.3%。

關(guān)鍵提醒：未來的視覺文本壓縮、OCR 增強多模態(tài)系統(tǒng)和圖像化長上下文應用，不能只把「可讀性」當作唯一指標。只要輸入需要模型費力辨認，安全對齊就可能出現(xiàn)額外壓力。

一種簡單防御：先轉(zhuǎn)寫，再審查，最后回答

針對這一機制，論文提出了一個很樸素的緩解策略：Structured Cognitive Offloading（結(jié)構(gòu)化認知卸載）。

它不是再訓練一個新模型，而是把原本混在一起完成的任務拆成串行流程：

Transcription：先逐字轉(zhuǎn)寫圖片中的文本；
Safety Evaluation：再基于轉(zhuǎn)寫后的純文本進行安全判斷；
Response：最后決定是否回答。

這個思路的關(guān)鍵在于，把「視覺識別」和「內(nèi)容審查」解耦。模型不再一邊費力 OCR、一邊同時判斷是否有害，而是先把視覺負擔卸載掉，再回到其更穩(wěn)健的文本安全審查通道。

Structured Cognitive Offloading 將識別、審查和回答拆成串行流程后，顯著降低 ACZ 區(qū)間攻擊成功率。

實驗顯示，這一簡單策略可以顯著降低 ACZ 風險。以 Qwen3-VL 為例，攻擊成功率從約 67.4% 降至 4%。同時，在一個 300 樣本的正常 OCR 文檔理解子集上，該策略沒有引入額外誤拒，反而提升了回答質(zhì)量。

當然，這不是一個沒有代價的方案。論文也指出，該串行流程會讓平均輸出長度增加約 102%，因此在實時、高吞吐場景中仍需要更系統(tǒng)的工程優(yōu)化。

這項工作提醒了什么

回過頭看，ACZ 的意義并不只是又發(fā)現(xiàn)了一類視覺越獄攻擊。

它更像是在提醒整個多模態(tài)模型社區(qū)：安全對齊不是一個只發(fā)生在語義層面的靜態(tài)能力，也可能受到輸入形態(tài)、視覺質(zhì)量、計算資源分配和層級特征出現(xiàn)時機的影響。

當文本進入視覺通道，模型面對的就不再是單純的語言輸入，而是視覺識別、語義理解和安全審查交織在一起的任務。更強的 OCR 能力，未必自動帶來更強的安全能力。

對于正在快速發(fā)展的視覺文本壓縮路線來說，這一點尤其重要。提升壓縮率、降低 token 成本當然有價值，但如果壓縮后的圖像把模型推入「攻擊舒適區(qū)」，效率收益就可能伴隨新的安全成本。

論文最后將這一問題概括為一種資源分配視角：多模態(tài)安全不只是數(shù)據(jù)對齊問題，也可能是模型在有限計算與注意力資源下如何分配「看清」和「審查」的問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.