免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

當(dāng)AI Agent開(kāi)始工作,安全該如何跟上?AgentDoG 1.5開(kāi)源發(fā)布

0
分享至



最近,同事.skill(colleague.skill)在社區(qū)中的快速傳播,讓很多人開(kāi)始直觀地感受到:AI Agent 正在從「聊天助手」走向「工作伙伴」。

Agent 不再只是回答問(wèn)題,而是可以繼承一個(gè)人的工作習(xí)慣、任務(wù)流程、知識(shí)背景和決策方式,并在 Claude Code、Hermes、OpenClaw、Codex 等 Agent 宿主中被調(diào)用。

換句話(huà)說(shuō),Agent 正在逐漸成為一種新的工作單元:它可以協(xié)助人類(lèi)完成任務(wù),也可能在某些場(chǎng)景中接管一部分具體工作。

與此同時(shí),安全問(wèn)題也變得更加復(fù)雜。過(guò)去討論大模型安全,很多時(shí)候是在判斷一段用戶(hù)輸入是否有害,或者一段模型輸出是否合規(guī)。但進(jìn)入 Agent 時(shí)代后,風(fēng)險(xiǎn)不再只存在于一句 prompt 或一個(gè)最終回復(fù)里。它可能隱藏在工具描述中,出現(xiàn)在環(huán)境反饋里,被寫(xiě)入長(zhǎng)期記憶或會(huì)話(huà)狀態(tài),也可能通過(guò)一次錯(cuò)誤的工具調(diào)用、一次未經(jīng)驗(yàn)證的命令執(zhí)行、一次跨應(yīng)用操作,影響真實(shí)文件、賬戶(hù)、代碼倉(cāng)庫(kù)甚至業(yè)務(wù)系統(tǒng)。

因此,Agent 安全不再只是「內(nèi)容安全」,而是完整執(zhí)行過(guò)程中的行為診斷、風(fēng)險(xiǎn)歸因和在線(xiàn)干預(yù)問(wèn)題。

圍繞這一問(wèn)題,上海人工智能實(shí)驗(yàn)室發(fā)布 AgentDoG 1.5:一個(gè)面向 AI Agent 的輕量化、可擴(kuò)展安全診斷與在線(xiàn)護(hù)欄框架。論文已上線(xiàn) arXiv,代碼、模型與數(shù)據(jù)均已開(kāi)源。





  • 論文鏈接:https://arxiv.org/abs/2605.29801
  • 項(xiàng)目鏈接:https://github.com/AI45Lab/AgentDoG
  • Hugging Face:https://huggingface.co/collections/AI45Research/agentdog15

從「看輸出」到「看軌跡」

AgentDoG 1.5 的核心出發(fā)點(diǎn)是:Agent 的安全風(fēng)險(xiǎn)往往發(fā)生在完整執(zhí)行過(guò)程中,而不是只發(fā)生在 Agent 的最終回復(fù)里。一個(gè) Agent 可能在最終回復(fù)中看起來(lái)正常,但此前已經(jīng)錯(cuò)誤調(diào)用了工具、泄露了信息、執(zhí)行了危險(xiǎn)命令,或者被外部環(huán)境中的惡意內(nèi)容誘導(dǎo)發(fā)生目標(biāo)偏移。

因此,面向 Agent 的安全評(píng)測(cè),不能只看最終輸出,而應(yīng)該把完整 agent trajectory 作為判斷對(duì)象。

在 AgentDoG 1.5 中,模型會(huì)綜合分析用戶(hù)請(qǐng)求、Agent 中間響應(yīng)、工具調(diào)用、環(huán)境反饋和最終回復(fù),對(duì)整條軌跡進(jìn)行安全診斷。它不僅判斷一條軌跡是 safe 還是 unsafe,還進(jìn)一步輸出三類(lèi)細(xì)粒度診斷信息:Risk Source,即風(fēng)險(xiǎn)從哪里來(lái);Failure Mode,即 Agent 是如何失敗的;Real-world Harm,即這種失敗會(huì)造成什么現(xiàn)實(shí)危害。

通過(guò)這種三維診斷,安全判斷不再只是一個(gè)二分類(lèi)結(jié)果,而可以進(jìn)一步支持風(fēng)險(xiǎn)定位、模型訓(xùn)練、benchmark 構(gòu)建和部署階段的在線(xiàn)攔截。

面向快速變化的 Agent 平臺(tái),taxonomy 也必須可擴(kuò)展



Agent 系統(tǒng)的發(fā)展速度很快,不同執(zhí)行平臺(tái)面對(duì)的風(fēng)險(xiǎn)也并不相同。通用 tool-use agent、OpenClaw 這類(lèi)跨應(yīng)用執(zhí)行 Agent、Codex 這類(lèi)面向代碼倉(cāng)庫(kù)和命令執(zhí)行的 Agent,在執(zhí)行環(huán)境、工具邊界、狀態(tài)管理和潛在危害上都有明顯差異。如果每出現(xiàn)一個(gè)新 Agent 平臺(tái),就重新設(shè)計(jì)一套安全標(biāo)簽和評(píng)測(cè)任務(wù),整個(gè) guardrail 體系會(huì)很快碎片化。

AgentDoG 1.5 采用的方式是:保持 Risk Source、Failure Mode、Real-world Harm 這三個(gè)高層維度不變,在不同執(zhí)行場(chǎng)景下擴(kuò)展和細(xì)化 leaf categories。

例如,在 OpenClaw 場(chǎng)景中,風(fēng)險(xiǎn)可能來(lái)自持久會(huì)話(huà)、審批繞過(guò)、技能或插件供應(yīng)鏈、跨工具攻擊鏈、跨通道路由錯(cuò)誤,或者無(wú)人值守自動(dòng)化執(zhí)行;在 Codex 場(chǎng)景中,風(fēng)險(xiǎn)則可能來(lái)自倉(cāng)庫(kù)文件注入、依賴(lài)或 MCP 供應(yīng)鏈問(wèn)題、危險(xiǎn) shell/script 執(zhí)行、破壞性工作區(qū)修改,以及未經(jīng)驗(yàn)證的測(cè)試或成功聲明。



基于這一思路,論文進(jìn)一步構(gòu)建了 ATBench Family。ATBench 面向通用 tool-use agent,ATBench-Claw 面向 OpenClaw 執(zhí)行場(chǎng)景,ATBench-Codex 面向 Codex 執(zhí)行場(chǎng)景。三者共享同一個(gè) trajectory-level diagnosis task 和三維 taxonomy 框架,同時(shí)針對(duì)不同執(zhí)行環(huán)境擴(kuò)展具體風(fēng)險(xiǎn)類(lèi)別。這使得 AgentDoG 1.5 能夠在保持跨場(chǎng)景可比性的同時(shí),持續(xù)適配新的 Agent 平臺(tái)。

只用約 1k 高質(zhì)量樣本,訓(xùn)練輕量 AgentDoG 1.5

在訓(xùn)練 AgentDoG 1.5 時(shí),論文沒(méi)有簡(jiǎn)單依賴(lài)大規(guī)模數(shù)據(jù)堆疊,而是構(gòu)建了 taxonomy-guided data engine,通過(guò)三維 taxonomy 控制數(shù)據(jù)生成過(guò)程。換言之,風(fēng)險(xiǎn)從哪里進(jìn)入、Agent 如何失敗、會(huì)造成什么 real-world harm,都在數(shù)據(jù)構(gòu)造階段被系統(tǒng)性建模。隨后,團(tuán)隊(duì)使用 GPT-5.4 作為 teacher,為訓(xùn)練樣本補(bǔ)充 chain-of-thought rationale,讓學(xué)生模型不僅學(xué)習(xí)最終 judgment,也學(xué)習(xí)從軌跡證據(jù)到安全判斷的推理過(guò)程。

由于原始合成數(shù)據(jù)往往存在噪聲、冗余和低價(jià)值樣本,AgentDoG 1.5 進(jìn)一步引入 influence function-based data purification,從原始數(shù)據(jù)中篩選最有助于學(xué)習(xí) guardrail 行為的高質(zhì)量樣本。

最終,AgentDoG 1.5 僅使用約 1k 條高信息量樣本,訓(xùn)練了 0.8B、2B、4B 和 8B 等多個(gè)輕量模型版本。

實(shí)驗(yàn)結(jié)果顯示,AgentDoG 1.5 在軌跡級(jí)安全判斷和細(xì)粒度風(fēng)險(xiǎn)診斷上均取得了強(qiáng)表現(xiàn)。

以 4B 模型為例,其在 R-Judge 上達(dá)到 92.2% Accuracy 和 92.7% F1,在 ATBench 上達(dá)到 72.4% Accuracy 和 74.3% F1;在 fine-grained risk diagnosis 上,AgentDoG 1.5-4B 在 Risk Source、Failure Mode、Real-world Harm 三個(gè)維度的平均得分達(dá)到 55.2%,相比 AgentDoG 1.0 有明顯提升。

這些結(jié)果表明,貼近 Agent 風(fēng)險(xiǎn)結(jié)構(gòu)的數(shù)據(jù)和監(jiān)督信號(hào),可以把可靠的 agent safety judgment 能力蒸餾到較小規(guī)模的模型中。



構(gòu)建輕量級(jí) Agent 訓(xùn)練管線(xiàn),支持超一萬(wàn)并發(fā)

AgentDoG 1.5 不只用于離線(xiàn)評(píng)測(cè),也被進(jìn)一步接入到 agentic safety training pipeline 中。該訓(xùn)練 pipeline 包含兩個(gè)部分:一是面向 SFT 的高質(zhì)量安全數(shù)據(jù)過(guò)濾,二是面向 RL 的輕量化交互環(huán)境與安全 reward 構(gòu)造。通過(guò)這一 pipeline,AgentDoG 1.5 可以把軌跡級(jí)安全診斷能力轉(zhuǎn)化為訓(xùn)練階段的監(jiān)督信號(hào),支持更低成本、更可擴(kuò)展的 Agent 安全對(duì)齊。

在 SFT 階段,團(tuán)隊(duì)使用 ATBench data engine 構(gòu)造 agentic safety 數(shù)據(jù),并利用 AgentDoG 1.5 過(guò)濾高質(zhì)量 safe trajectories。過(guò)濾后得到 28,705 條高質(zhì)量 agentic safety trajectories,并與 50,000 條 benign tool-use trajectories 混合,以避免模型學(xué)成過(guò)度保守的拒絕策略。

實(shí)驗(yàn)顯示,加入 AgentDoG 1.5 過(guò)濾后的安全數(shù)據(jù)后,模型在多個(gè)安全指標(biāo)上明顯改善。例如,在 AgentHarm 上,harm score 從 57.49% 降至 20.32%,refusal rate 從 28.41% 提升至 75.00%;在 AgentSafetyBench 上,safe rate 從 34.37% 提升至 53.23%。

這說(shuō)明AgentDoG 1.5 不只是一個(gè)評(píng)測(cè)模型,也可以作為數(shù)據(jù)質(zhì)量控制模塊參與安全訓(xùn)練流程。



在 RL 階段,論文構(gòu)建了輕量化 finite-state Python simulator 環(huán)境,用于支持 scalable agentic safety RL。相比依賴(lài)完整 Docker-level 環(huán)境的真實(shí)執(zhí)行訓(xùn)練,這類(lèi)輕量環(huán)境通過(guò)有限狀態(tài)模擬、工具接口和規(guī)則化反饋來(lái)構(gòu)造可擴(kuò)展的交互任務(wù),并結(jié)合 AgentDoG 1.5 提供的軌跡級(jí)安全判斷形成 reward signal。

實(shí)驗(yàn)中,該環(huán)境可同時(shí)加載 10,000 個(gè)環(huán)境、維護(hù) 1,000 個(gè)活躍實(shí)例,并支持 1,000 個(gè)并發(fā)工具調(diào)用,峰值內(nèi)存保持在 2.5GB 以下。這一設(shè)計(jì)顯著降低了 agentic safety RL 的環(huán)境部署成本,使大規(guī)模安全訓(xùn)練更加可行。




構(gòu)筑 Agent 最后防線(xiàn):在線(xiàn)安全護(hù)欄




AgentDoG 1.5 不僅可以支持 Agent 訓(xùn)練,還可以部署為 online guardrail。論文提出一種Pre-Reply 介入機(jī)制:在 Agent 最終回復(fù)發(fā)送給用戶(hù)之前,AgentDoG 1.5 會(huì)讀取完整執(zhí)行軌跡,包括用戶(hù)輸入、工具調(diào)用、工具結(jié)果、環(huán)境觀察和最終草稿,并判斷是否允許放行。

這樣既能利用比 prompt-level 或 output-only guardrail 更完整的上下文,又避免在每一次工具調(diào)用后都插入檢測(cè),從而降低對(duì) agent loop 的延遲影響。

在 OpenClaw 在線(xiàn)評(píng)測(cè)中,AgentDoG 1.5 能有效降低 unsafe final deliveries。AgentDoG 1.5-4B 將 ClawSafety 的 ASR 從 56.25% 降至 18.75%,將 AgentHazard Prompt Intelligence Theft 的 ASR 從 41.92% 降至 26.92%,并在 CIK-Bench retained cases 上將 ASR 從 94.29% 降至 42.86%。受益于 Pre-Reply 的設(shè)計(jì),AgentDoG 1.5 整體延遲在可部署范圍內(nèi)。



為什么這件事重要?

AI Agent 的能力正在從「生成內(nèi)容」走向「執(zhí)行任務(wù)」。當(dāng) Agent 能夠調(diào)用真實(shí)工具、訪問(wèn)真實(shí)文件、觸達(dá)真實(shí)系統(tǒng)時(shí),安全問(wèn)題也隨之升級(jí):它不再只是內(nèi)容審核問(wèn)題,而是執(zhí)行過(guò)程中的行為診斷、風(fēng)險(xiǎn)歸因和在線(xiàn)干預(yù)問(wèn)題。

AgentDoG 1.5 的貢獻(xiàn)在于,它把這些環(huán)節(jié)串成了一個(gè)完整閉環(huán):用三維 taxonomy 描述風(fēng)險(xiǎn),用 ATBench Family 評(píng)測(cè)不同 Agent 場(chǎng)景,用 taxonomy-guided data engine 構(gòu)造訓(xùn)練數(shù)據(jù),用 influence-function purification 訓(xùn)練輕量模型,并進(jìn)一步支持 agentic safety SFT、RL 和 online guardrail。隨著 Agent 系統(tǒng)繼續(xù)演進(jìn),這種可診斷、可擴(kuò)展、可部署的安全框架,將成為 Agent 走向真實(shí)工作場(chǎng)景的重要基礎(chǔ)。

如果說(shuō)未來(lái)的 AI Agent 會(huì)越來(lái)越像一個(gè)能夠行動(dòng)的數(shù)字助手,那么 AgentDoG 1.5 想做的,就是讓它在行動(dòng)之前、行動(dòng)之中、行動(dòng)之后,都有一套可診斷、可擴(kuò)展、可部署的安全機(jī)制。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
娃哈哈換“姓”了!宗馥莉另立門(mén)戶(hù),為讓三個(gè)私生子徹底翻不了身

娃哈哈換“姓”了!宗馥莉另立門(mén)戶(hù),為讓三個(gè)私生子徹底翻不了身

天天熱點(diǎn)見(jiàn)聞
2026-06-08 03:19:57
迪馬濟(jì)奧:意甲名宿普羅蒂去世,享年58歲

迪馬濟(jì)奧:意甲名宿普羅蒂去世,享年58歲

懂球帝
2026-06-19 16:14:25
世界首次五百?gòu)?qiáng)斷崖差:日本149家,美國(guó)151家,中國(guó)3家,如今呢

世界首次五百?gòu)?qiáng)斷崖差:日本149家,美國(guó)151家,中國(guó)3家,如今呢

生活新鮮市
2026-06-20 02:47:26
《白雪公主》大尺度新圖曝光!肉腿大雷 性感誘人

《白雪公主》大尺度新圖曝光!肉腿大雷 性感誘人

游民星空
2026-06-17 20:12:42
女子半月逛30次超市買(mǎi)大量桶裝水,店長(zhǎng)決定報(bào)警,警方破門(mén)后震驚

女子半月逛30次超市買(mǎi)大量桶裝水,店長(zhǎng)決定報(bào)警,警方破門(mén)后震驚

青青會(huì)講故事
2025-03-19 10:31:38
“繼承權(quán)”不用爭(zhēng)了!2026房產(chǎn)繼承新規(guī),父母房子都以后這樣處理

“繼承權(quán)”不用爭(zhēng)了!2026房產(chǎn)繼承新規(guī),父母房子都以后這樣處理

復(fù)轉(zhuǎn)這些年
2026-06-15 19:10:29
美媒曝鷹網(wǎng)刺三方模擬交易方案

美媒曝鷹網(wǎng)刺三方模擬交易方案

體壇周報(bào)
2026-06-20 06:29:10
女老師穿“日系連衣裙”,家長(zhǎng)們坐不住了:天氣再熱也不能這么穿

女老師穿“日系連衣裙”,家長(zhǎng)們坐不住了:天氣再熱也不能這么穿

蝴蝶花雨話(huà)教育
2026-06-06 00:05:36
余海群任孝感市副市長(zhǎng)

余海群任孝感市副市長(zhǎng)

極目新聞
2026-06-19 18:53:35
已去世的若塔社媒被沖:你為什么不尊重C羅 為什么不給C羅傳球

已去世的若塔社媒被沖:你為什么不尊重C羅 為什么不給C羅傳球

念洲
2026-06-19 19:14:06
笑死!佛得角門(mén)將一夜?jié)q粉千萬(wàn),反手關(guān)注2000美女,真乃人之常情

笑死!佛得角門(mén)將一夜?jié)q粉千萬(wàn),反手關(guān)注2000美女,真乃人之常情

林小湜體育頻道
2026-06-17 20:42:17
23歲小天后爆猛料:演出時(shí)竟聞到前排粉絲穿尿布,背后藏這種瘋狂操作

23歲小天后爆猛料:演出時(shí)竟聞到前排粉絲穿尿布,背后藏這種瘋狂操作

熱搜摘要官
2026-06-19 01:07:56
取消戶(hù)籍限制,全面執(zhí)行!

取消戶(hù)籍限制,全面執(zhí)行!

高頓HKICPA
2026-06-18 12:57:58
悉尼妹的R級(jí)片,竟然引進(jìn)了

悉尼妹的R級(jí)片,竟然引進(jìn)了

來(lái)看美劇
2026-05-13 23:07:16
宣傳“1000度以下能回到5.0”,無(wú)效退款!家長(zhǎng)給孩子用了5個(gè)月護(hù)眼貼,孩子視力更差,錢(qián)也沒(méi)了

宣傳“1000度以下能回到5.0”,無(wú)效退款!家長(zhǎng)給孩子用了5個(gè)月護(hù)眼貼,孩子視力更差,錢(qián)也沒(méi)了

南方都市報(bào)
2026-06-17 08:37:19
國(guó)乒5人晉級(jí)16強(qiáng):陳熠輸日本二線(xiàn)林詩(shī)棟一輪游,1/8決賽對(duì)陣出爐

國(guó)乒5人晉級(jí)16強(qiáng):陳熠輸日本二線(xiàn)林詩(shī)棟一輪游,1/8決賽對(duì)陣出爐

排球黃金眼
2026-06-20 04:31:03
協(xié)議剛簽完就萬(wàn)彈齊發(fā)!伊朗盟友連夜飽和突擊,中東大盤(pán)口要炸

協(xié)議剛簽完就萬(wàn)彈齊發(fā)!伊朗盟友連夜飽和突擊,中東大盤(pán)口要炸

閱盡天下大事
2026-06-20 02:40:43
美英法向日施壓,高市對(duì)華示好,中方兩字亮明態(tài)度

美英法向日施壓,高市對(duì)華示好,中方兩字亮明態(tài)度

鳥(niǎo)兒太能吃
2026-06-20 05:17:19
理想智駕負(fù)責(zé)人實(shí)測(cè)FSD后:國(guó)內(nèi)無(wú)第一梯隊(duì),別再自我麻痹

理想智駕負(fù)責(zé)人實(shí)測(cè)FSD后:國(guó)內(nèi)無(wú)第一梯隊(duì),別再自我麻痹

我是一個(gè)粉刷匠2
2026-06-18 02:58:29
女大學(xué)生當(dāng)小姐全國(guó)飛,最高一次收15萬(wàn),2014年落網(wǎng)時(shí),講述詳情

女大學(xué)生當(dāng)小姐全國(guó)飛,最高一次收15萬(wàn),2014年落網(wǎng)時(shí),講述詳情

漢史趣聞
2026-06-16 11:02:35
2026-06-20 07:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
13299文章數(shù) 142673關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯-美國(guó)2-0澳大利亞 提前一輪小組出線(xiàn)

頭條要聞

世界杯-美國(guó)2-0澳大利亞 提前一輪小組出線(xiàn)

體育要聞

世界杯最不知名球員,沒(méi)上場(chǎng)先漲粉600萬(wàn)

娛樂(lè)要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長(zhǎng)

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車(chē)要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

家居
本地
房產(chǎn)
公開(kāi)課
軍事航空

家居要聞

綠意盎然 自然之境

本地新聞

世界杯黑馬佛得角:河北人開(kāi)超市,溫州人當(dāng)老板

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場(chǎng)!三亞又要大規(guī)模調(diào)規(guī)!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競(jìng)渡來(lái)了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版