免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

圖片越糊越危險?西湖大學發(fā)現(xiàn)多模態(tài)大模型「攻擊舒適區(qū)」

0
分享至



多模態(tài)大模型越來越會讀圖中文字,但最新研究顯示,「讀得出來」并不等于「防得住」。西湖大學 AGI Lab 的研究團隊發(fā)現(xiàn),當有害文本被渲染成低清、模糊或帶噪圖片后,模型在一個特定清晰度區(qū)間內(nèi)反而更容易被越獄。該論文已被 ACL 2026 Findings 接收,并開源代碼與核心數(shù)據(jù)。

如果把一段長文本壓縮成圖片,再交給多模態(tài)大模型處理,會發(fā)生什么?

在長上下文成為大模型基礎(chǔ)能力之后,這個問題正在變得現(xiàn)實。DeepSeek-OCR、Glyph 等工作已經(jīng)展示了一條頗具吸引力的路線:把文本渲染成高密度圖像,用更少視覺 token 承載更多上下文。換句話說,模型不再只是「看圖」,也開始用視覺通道「讀文檔」。

但安全問題也隨之而來:當文本被壓縮進圖像,尤其是圖像變得低清、模糊、帶噪聲之后,模型的安全對齊還能像處理純文本時一樣穩(wěn)定嗎?

西湖大學 AGI Lab 的一項新研究給出了一個反直覺答案:在某些「剛好還能看清、但識別起來很費力」的視覺退化區(qū)間里,多模態(tài)大模型的安全防線會明顯變脆。論文已被ACL 2026 Findings接收。

論文的第一作者為西湖大學 AGI 實驗室研究助理宋志學,指導老師為西湖大學助理教授張馳。



  • 論文標題:Hard to Read, Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment
  • 論文鏈接:https://arxiv.org/pdf/2605.07250
  • 代碼與數(shù)據(jù):https://github.com/Westlake-AGI-Lab/ACZ-Jailbreak



清晰輸入通常會觸發(fā)安全拒絕;視覺退化后的同類文本更容易繞過安全檢查。

不是越模糊越危險,而是存在一個「攻擊舒適區(qū)」

直覺上,圖片越清晰,模型越容易看懂;圖片越模糊,模型越難執(zhí)行其中的指令。因此,如果有害文本被做成低清圖片,最自然的猜測是:模型要么看不懂,要么看懂后拒絕。

但這項研究觀察到的曲線并不是單調(diào)變化,而是一個倒 U 型。



真正危險的不是完全看不清的圖片,而是「還能看清,但需要費勁看清」的圖片。

在論文中,研究團隊將 770 條去重后的有害查詢渲染為不同 DPI 的圖像,并在 GPT-4.1、Claude Sonnet 4.5、Doubao Seed 1.6、Qwen3-VL、GLM-4.5V、Intern-S1 等閉源與開源多模態(tài)模型上測試 OCR 準確率和攻擊成功率(ASR)。



Attack Comfort Zone 中,OCR 仍保持較高水平,但圖像攻擊成功率同步升高,形成倒 U 型風險曲線。

結(jié)果顯示,在 ACZ 中,模型往往仍然能讀懂圖片文字,但安全判斷卻明顯失靈。以 Qwen3-VL-32B-Thinking 為例,論文匯總表中其文本輸入 ASR 為 36.7%,ACZ 圖像 ASR 升至 86.2%;與此同時,OCR ACC 仍有 95.4%(字符級)和 93.2%(詞級)。



這意味著,多模態(tài)安全評估不能只問「模型能不能讀懂圖片文字」,還必須問「模型讀懂之后,是否仍能穩(wěn)定觸發(fā)安全機制」。



論文整體框架:視覺退化觸發(fā)風險上升,并通過結(jié)構(gòu)化認知卸載進行緩解。

為什么會這樣?模型忙著識別文字,安全審查被延遲

為了解釋這一現(xiàn)象,論文提出了Visual Cognitive Overload(視覺認知過載)假設(shè)。

可以把它理解為一種「一心二用」失?。涸谇逦斎胫?,模型可以較早捕捉到有害語義并觸發(fā)拒絕;但在退化圖片中,模型需要先投入更多計算和注意力去辨認字符、恢復詞語、拼合句子,原本應該同步發(fā)生的安全審查被擠壓或延遲。

這就像人在讀一張模糊截圖時,注意力會先被「這到底寫的是什么」占據(jù)。等內(nèi)容被讀懂時,對其意圖的判斷已經(jīng)慢了一拍。

為了驗證這一機制,研究團隊訓練了 layer-wise safety probe,觀察模型不同層中的安全特征。結(jié)果顯示,對于清晰圖像,有害特征在淺層就更容易被識別;而 ACZ 輸入在淺層更接近無害樣本,直到更深層才逐漸顯現(xiàn)危險性。



安全探針顯示,ACZ 輸入中的有害特征在淺層不明顯,到更深層才逐漸顯現(xiàn)。

換句話說,ACZ 輸入并不是簡單的「模型讀錯了」。更準確地說,模型把這些圖像當成有效視覺信號處理了,但安全特征出現(xiàn)得更晚,錯過了淺層安全機制最有效的窗口。

研究團隊還使用 t-SNE 分析排除了簡單的 OOD 解釋。ACZ 樣本并不像極低 DPI 噪聲那樣孤立在表示空間之外,而是與高保真樣本處在相近流形中。這說明它們并沒有被模型當成無效輸入丟掉,而是在一個更隱蔽的位置繞開了安全判斷。



t-SNE 分析顯示,ACZ 樣本并非簡單離群噪聲,而是被模型當作有效視覺信號處理。

不只是低分辨率:噪聲、扭曲、遮擋也會放大風險

如果 ACZ 只是低分辨率帶來的偶然現(xiàn)象,那它的現(xiàn)實風險或許有限。但論文進一步發(fā)現(xiàn),多種自然視覺退化都會誘發(fā)類似問題。

研究團隊測試了模糊、幾何扭曲、干擾線、馬賽克、噪聲、遮擋等多種擾動。結(jié)果顯示,只要視覺理解變得更費力,模型的攻擊成功率就可能被抬高。



更值得注意的是,這一現(xiàn)象并不只存在于英文。論文在中文有害提示上也觀察到 ACZ 區(qū)間顯著高于 300 DPI 的攻擊成功率。例如 Doubao Seed 1.6 在 300 DPI 下 ASR 為 16.7%,而 ACZ 下升至 70.3%。

關(guān)鍵提醒:未來的視覺文本壓縮、OCR 增強多模態(tài)系統(tǒng)和圖像化長上下文應用,不能只把「可讀性」當作唯一指標。只要輸入需要模型費力辨認,安全對齊就可能出現(xiàn)額外壓力。

一種簡單防御:先轉(zhuǎn)寫,再審查,最后回答

針對這一機制,論文提出了一個很樸素的緩解策略:Structured Cognitive Offloading(結(jié)構(gòu)化認知卸載)。

它不是再訓練一個新模型,而是把原本混在一起完成的任務拆成串行流程:

  1. Transcription:先逐字轉(zhuǎn)寫圖片中的文本;
  2. Safety Evaluation:再基于轉(zhuǎn)寫后的純文本進行安全判斷;
  3. Response:最后決定是否回答。

這個思路的關(guān)鍵在于,把「視覺識別」和「內(nèi)容審查」解耦。模型不再一邊費力 OCR、一邊同時判斷是否有害,而是先把視覺負擔卸載掉,再回到其更穩(wěn)健的文本安全審查通道。



Structured Cognitive Offloading 將識別、審查和回答拆成串行流程后,顯著降低 ACZ 區(qū)間攻擊成功率。

實驗顯示,這一簡單策略可以顯著降低 ACZ 風險。以 Qwen3-VL 為例,攻擊成功率從約 67.4% 降至 4%。同時,在一個 300 樣本的正常 OCR 文檔理解子集上,該策略沒有引入額外誤拒,反而提升了回答質(zhì)量。

當然,這不是一個沒有代價的方案。論文也指出,該串行流程會讓平均輸出長度增加約 102%,因此在實時、高吞吐場景中仍需要更系統(tǒng)的工程優(yōu)化。

這項工作提醒了什么

回過頭看,ACZ 的意義并不只是又發(fā)現(xiàn)了一類視覺越獄攻擊。

它更像是在提醒整個多模態(tài)模型社區(qū):安全對齊不是一個只發(fā)生在語義層面的靜態(tài)能力,也可能受到輸入形態(tài)、視覺質(zhì)量、計算資源分配和層級特征出現(xiàn)時機的影響。

當文本進入視覺通道,模型面對的就不再是單純的語言輸入,而是視覺識別、語義理解和安全審查交織在一起的任務。更強的 OCR 能力,未必自動帶來更強的安全能力。

對于正在快速發(fā)展的視覺文本壓縮路線來說,這一點尤其重要。提升壓縮率、降低 token 成本當然有價值,但如果壓縮后的圖像把模型推入「攻擊舒適區(qū)」,效率收益就可能伴隨新的安全成本。

論文最后將這一問題概括為一種資源分配視角:多模態(tài)安全不只是數(shù)據(jù)對齊問題,也可能是模型在有限計算與注意力資源下如何分配「看清」和「審查」的問題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
李一桐曬小腳丫

李一桐曬小腳丫

阿廢冷眼觀察所
2026-06-19 14:44:47
少林寺新方丈釋印樂,上任才10個月,少林寺被曝一下少了800多萬

少林寺新方丈釋印樂,上任才10個月,少林寺被曝一下少了800多萬

許三歲
2026-06-14 09:57:24
大連可為1-0淘汰遼寧鐵人挺進十六強,葛宇翔一擊制勝

大連可為1-0淘汰遼寧鐵人挺進十六強,葛宇翔一擊制勝

懂球帝
2026-06-19 17:39:15
高市早苗稱“非常擔心”中國對日稀土出口限制,對同中方對話持開放態(tài)度,外交部:一邊喊著對話一邊忙著對抗,虛偽

高市早苗稱“非常擔心”中國對日稀土出口限制,對同中方對話持開放態(tài)度,外交部:一邊喊著對話一邊忙著對抗,虛偽

每日經(jīng)濟新聞
2026-06-18 23:15:12
C羅情緒失控與隊友爆發(fā)爭執(zhí)!全隊愿意多給他喂球,魯尼為其叫屈

C羅情緒失控與隊友爆發(fā)爭執(zhí)!全隊愿意多給他喂球,魯尼為其叫屈

小武侃風云
2026-06-18 21:53:13
豐田官宣新車:7月2日,正式上市

豐田官宣新車:7月2日,正式上市

科技堡壘
2026-06-19 11:39:08
登上熱搜!張凌赫吃粽子蘸白糖

登上熱搜!張凌赫吃粽子蘸白糖

韓小娛
2026-06-19 16:14:15
廠房里全都是“九三閱兵同款無人戰(zhàn)車”,果然都是現(xiàn)役裝備

廠房里全都是“九三閱兵同款無人戰(zhàn)車”,果然都是現(xiàn)役裝備

巔峰高地
2026-06-18 21:26:43
世界杯:哲科比肩C羅魔笛!20歲妖星雙響 瑞士4-1復仇10人波黑

世界杯:哲科比肩C羅魔笛!20歲妖星雙響 瑞士4-1復仇10人波黑

釘釘陌上花開
2026-06-19 05:01:51
FIFA列本屆世界杯實力排行:梅西第一,姆巴佩第三,凱恩第五

FIFA列本屆世界杯實力排行:梅西第一,姆巴佩第三,凱恩第五

懂球帝
2026-06-18 23:45:38
B費和C羅誰攤手抱怨更多?黃健翔:那肯定是B費啊,C羅都是心里罵

B費和C羅誰攤手抱怨更多?黃健翔:那肯定是B費啊,C羅都是心里罵

風過鄉(xiāng)
2026-06-19 06:55:55
中央網(wǎng)信辦:即日起開展為期3個月的“清朗·整治賬號名稱信息亂象”專項行動

中央網(wǎng)信辦:即日起開展為期3個月的“清朗·整治賬號名稱信息亂象”專項行動

澎湃新聞
2026-06-18 20:24:03
山西運城17歲少年被毆案最新進展:傷情鑒定輕傷二級,2人轉(zhuǎn)刑拘

山西運城17歲少年被毆案最新進展:傷情鑒定輕傷二級,2人轉(zhuǎn)刑拘

聽心堂
2026-06-19 09:09:54
遼寧通報4起政績觀偏差典型案件

遼寧通報4起政績觀偏差典型案件

環(huán)球網(wǎng)資訊
2026-06-18 18:32:13
雷軍街頭吃早餐被小女孩怒懟!但在評論區(qū),都是支持小女孩的……

雷軍街頭吃早餐被小女孩怒懟!但在評論區(qū),都是支持小女孩的……

麥杰遜
2026-06-18 10:00:06
娜然霍啟山傳婚訊不足24小時,女方全曝光,霍家金字招牌遇考驗

娜然霍啟山傳婚訊不足24小時,女方全曝光,霍家金字招牌遇考驗

悅君兮君不知
2026-06-19 17:40:13
醫(yī)生發(fā)現(xiàn):從不癡呆的老人,基本在63歲,就已經(jīng)不做這7件事了!

醫(yī)生發(fā)現(xiàn):從不癡呆的老人,基本在63歲,就已經(jīng)不做這7件事了!

岐黃傳人孫大夫
2026-06-07 09:50:07
當00后開始殺入相親場,擇偶標準大改!80、90后大齡剩女出路在哪

當00后開始殺入相親場,擇偶標準大改!80、90后大齡剩女出路在哪

王二哥老搞笑
2026-06-19 10:44:04
QS全球大學排名發(fā)布,留子們朋友圈吐槽已經(jīng)翻天了!這屆排名到底有多“顛”?

QS全球大學排名發(fā)布,留子們朋友圈吐槽已經(jīng)翻天了!這屆排名到底有多“顛”?

鬼菜生活
2026-06-19 09:02:57
原本的劇情開始反轉(zhuǎn):南方某船廠的核潛艇,疑似已經(jīng)裝上了圍殼?

原本的劇情開始反轉(zhuǎn):南方某船廠的核潛艇,疑似已經(jīng)裝上了圍殼?

國平視野
2026-06-19 15:05:43
2026-06-19 18:31:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
13299文章數(shù) 142674關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

吳倩自曝小時被爸爸打掉牙齒硬吞進肚

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

時尚
親子
本地
房產(chǎn)
公開課

夏天上衣穿短不穿長,看看下面這幾款短上衣,顯高舒適顯比例

親子要聞

我,37歲拼二胎,沒苦硬吃

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當老板

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調(diào)規(guī)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版