免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

上下文失控、自檢失效?搞定長(zhǎng)時(shí),Agent,就靠這幾招

0
分享至

在開(kāi)發(fā)者的日常工作中,AIAgent(智能體)的執(zhí)行穩(wěn)定性是一個(gè)核心難題。一年前,如果要求AI獨(dú)立完成一個(gè)音樂(lè)創(chuàng)作軟件的開(kāi)發(fā),系統(tǒng)可能在運(yùn)行20分鐘后便因執(zhí)行任務(wù)壓力過(guò)大或指令混亂而停止。隨著模型能力的演進(jìn),AI已經(jīng)能夠處理長(zhǎng)達(dá)數(shù)小時(shí)甚至數(shù)天的復(fù)雜任務(wù)。實(shí)現(xiàn)這一跨越,不僅僅依賴于模型本身的進(jìn)化,更取決于開(kāi)發(fā)者對(duì)工程腳手架(Harness)的迭代與取舍。



在ClaudeCode發(fā)布之初,Agent主要面臨三大局限性,導(dǎo)致它們難以實(shí)現(xiàn)長(zhǎng)時(shí)間的連續(xù)工作:

輸出判斷缺失:模型往往難以客觀評(píng)估自身的產(chǎn)出,容易迎合用戶的預(yù)期而非事實(shí)。即便功能僅實(shí)現(xiàn)了一小部分,AI也可能判定任務(wù)已完成,導(dǎo)致后續(xù)步驟建立在錯(cuò)誤的基礎(chǔ)之上。

經(jīng)過(guò)過(guò)去一年多的版本迭代,Anthropic通過(guò)多項(xiàng)技術(shù)優(yōu)化解決了上述痛點(diǎn):

架構(gòu)升級(jí):從Claude3.7到4.6,模型在編程能力與任務(wù)規(guī)劃上實(shí)現(xiàn)了顯著提升,任務(wù)執(zhí)行時(shí)長(zhǎng)由起初的1小時(shí)躍升至12小時(shí)以上。



檢查點(diǎn)機(jī)制:引入檢查點(diǎn)持續(xù)跟蹤代碼演變,支持在出現(xiàn)偏差時(shí)回退到之前的狀態(tài),確保大流程的可控性。



為了防止模型“自欺欺人”,工程師設(shè)計(jì)了一套生成器與評(píng)估器的對(duì)抗循環(huán)機(jī)制,以模擬真實(shí)開(kāi)發(fā)環(huán)境中的質(zhì)檢流程:

角色拆解:系統(tǒng)將工作拆分為“生成器(Generator)”與“評(píng)估器(Evaluator)”兩個(gè)角色。評(píng)估器不僅僅是查看代碼,它會(huì)利用自動(dòng)化工具(如Playwright)在真實(shí)瀏覽器環(huán)境中運(yùn)行應(yīng)用,模擬用戶交互并根據(jù)評(píng)分標(biāo)準(zhǔn)進(jìn)行客觀打分。



契約化交付:在生成代碼前,生成器與評(píng)估器會(huì)協(xié)商并制定明確的“完成契約(Contract)”。評(píng)估器將依據(jù)這些具體的契約而非模糊的規(guī)格說(shuō)明進(jìn)行評(píng)分。一旦某項(xiàng)功能未能通過(guò)測(cè)試,評(píng)估器會(huì)給出具體的修改意見(jiàn),促使生成器進(jìn)行針對(duì)性調(diào)整。

抗錯(cuò)能力:若模型在多輪迭代后仍無(wú)法滿足評(píng)分標(biāo)準(zhǔn),對(duì)抗式機(jī)制允許Agent推翻當(dāng)前方案并從頭嘗試,這種容錯(cuò)與重試能力是傳統(tǒng)單一循環(huán)所不具備的。



隨著模型智能水平的提高,工程架構(gòu)也應(yīng)隨之精簡(jiǎn)。部分過(guò)去被視為必要的復(fù)雜組件,在最新模型版本下反而增加了維護(hù)成本:



深入分析運(yùn)行軌跡:調(diào)試的核心手段在于讀寫日志。通過(guò)分析Agent的運(yùn)行軌跡(Traces),開(kāi)發(fā)者能夠直接定位AI在判斷邏輯上與人類預(yù)期的不一致處,并針對(duì)性地調(diào)整提示詞(Prompt)與系統(tǒng)指令,而非盲目地堆砌實(shí)驗(yàn)次數(shù)。



在構(gòu)建長(zhǎng)時(shí)運(yùn)行Agent時(shí),Anthropic的應(yīng)用團(tuán)隊(duì)提出了幾項(xiàng)核心建議,旨在提升系統(tǒng)可靠性:

對(duì)抗式評(píng)估是關(guān)鍵:避免依賴模型自評(píng),配置一個(gè)獨(dú)立的、具備對(duì)抗性的評(píng)估器,能有效識(shí)別出代碼的邊界情況與邏輯漏洞。



明確評(píng)分標(biāo)準(zhǔn):主觀質(zhì)量可以量化。通過(guò)制定明確的設(shè)計(jì)、工藝與功能性評(píng)分維度,能夠逼迫模型向高質(zhì)量產(chǎn)出收斂。

重視自動(dòng)化測(cè)試:在開(kāi)發(fā)全棧應(yīng)用時(shí),應(yīng)將Puppeteer等自動(dòng)化測(cè)試工具集成至評(píng)估循環(huán)中。模型只有在真正“操作”并運(yùn)行應(yīng)用后,才能抓到那些CI系統(tǒng)容易漏掉的邏輯Bug。

目前,這一套工程架構(gòu)已能夠支持復(fù)雜應(yīng)用的構(gòu)建,例如音樂(lè)創(chuàng)作輔助工具或游戲制作器等。雖然這一過(guò)程依然伴隨著較高的算力消耗與成本,但對(duì)于復(fù)雜任務(wù)的自動(dòng)化與高可靠性產(chǎn)出,這種工程化的約束是不可或缺的。

未來(lái),隨著前沿模型的繼續(xù)演進(jìn),這些復(fù)雜的工程腳手架或許會(huì)進(jìn)一步精簡(jiǎn)。但其背后所體現(xiàn)的“契約化拆解”、“對(duì)抗式評(píng)估”與“運(yùn)行軌跡分析”的工程思維,將持續(xù)作為開(kāi)發(fā)者馴服AI、確保其在復(fù)雜任務(wù)中保持穩(wěn)定輸出的核心邏輯。

聲明:個(gè)人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
寶媽帶娃避雨被保安攆:本地人爆料,不是第一次,商家生意恐要黃

寶媽帶娃避雨被保安攆:本地人爆料,不是第一次,商家生意恐要黃

另子維愛(ài)讀史
2026-06-18 22:21:47
莫言:如果你混到?jīng)]人找你吃飯,沒(méi)人喊你聚會(huì),連電話也沒(méi)幾個(gè),那慶祝了,你不是人緣變差,而是真正覺(jué)醒了

莫言:如果你混到?jīng)]人找你吃飯,沒(méi)人喊你聚會(huì),連電話也沒(méi)幾個(gè),那慶祝了,你不是人緣變差,而是真正覺(jué)醒了

品讀時(shí)刻
2026-05-27 09:00:58
就在剛剛,中國(guó)國(guó)民黨副主席張榮恭發(fā)表聲明

就在剛剛,中國(guó)國(guó)民黨副主席張榮恭發(fā)表聲明

果媽聊娛樂(lè)
2026-06-19 12:15:16
警惕「肌肉量」不足!最新研究:肌肉流失讓房顫風(fēng)險(xiǎn)暴增44%,這類人群竟高達(dá)79%

警惕「肌肉量」不足!最新研究:肌肉流失讓房顫風(fēng)險(xiǎn)暴增44%,這類人群竟高達(dá)79%

梅斯醫(yī)學(xué)
2026-06-18 07:56:15
“特朗普可能意識(shí)到自己被騙了……”

“特朗普可能意識(shí)到自己被騙了……”

新浪財(cái)經(jīng)
2026-06-19 22:54:56
買車不著急!7款新車已定檔7月上市,哪款是你的菜?

買車不著急!7款新車已定檔7月上市,哪款是你的菜?

阿芒娛樂(lè)說(shuō)
2026-06-18 13:45:25
歐爾班再度掌權(quán),中國(guó)航天悄然成就大事

歐爾班再度掌權(quán),中國(guó)航天悄然成就大事

抑塵的清風(fēng)
2026-06-18 18:53:29
SpaceX股價(jià)坐過(guò)山車:市值一夜蒸發(fā)千億,投資者慌了

SpaceX股價(jià)坐過(guò)山車:市值一夜蒸發(fā)千億,投資者慌了

閃存獵手
2026-06-19 01:31:36
人老了,躺在病床上才明白,廢掉身體最快速的方式,不是抽煙、喝酒、打麻將,而是這3件事

人老了,躺在病床上才明白,廢掉身體最快速的方式,不是抽煙、喝酒、打麻將,而是這3件事

二胡的歲月如歌
2026-06-01 19:17:37
山東打人男子越扒越有!道歉后仍囂張,身份被扒是網(wǎng)紅,警方介入

山東打人男子越扒越有!道歉后仍囂張,身份被扒是網(wǎng)紅,警方介入

青梅侃史啊
2026-06-18 16:56:50
周星馳御用婆婆被曝晚年凄慘,被騙積蓄房產(chǎn)住養(yǎng)老院,一生未婚育

周星馳御用婆婆被曝晚年凄慘,被騙積蓄房產(chǎn)住養(yǎng)老院,一生未婚育

知法而形
2026-06-18 14:29:20
女子上午上吊身亡,下午就被埋葬,警察讓挖掘機(jī)將她的棺材挖出來(lái)

女子上午上吊身亡,下午就被埋葬,警察讓挖掘機(jī)將她的棺材挖出來(lái)

千秋文化
2026-06-18 19:46:12
莫斯科街頭豎起“空中哨兵”,首都開(kāi)始像前線一樣防無(wú)人機(jī)

莫斯科街頭豎起“空中哨兵”,首都開(kāi)始像前線一樣防無(wú)人機(jī)

桂系007
2026-06-18 04:45:01
WTT球星賽:男單大爆冷!林詩(shī)棟1:3不敵日本,雙線一輪游顆粒無(wú)收

WTT球星賽:男單大爆冷!林詩(shī)棟1:3不敵日本,雙線一輪游顆粒無(wú)收

國(guó)乒二三事
2026-06-19 20:45:17
奧萊-維爾納告別萊比錫:我們完成了重返歐冠的目標(biāo)

奧萊-維爾納告別萊比錫:我們完成了重返歐冠的目標(biāo)

懂球帝
2026-06-19 22:24:39
翻盤了?菲總統(tǒng)府突然發(fā)聲,力挺莎拉杜特爾特出庭,親自洗清罪名

翻盤了?菲總統(tǒng)府突然發(fā)聲,力挺莎拉杜特爾特出庭,親自洗清罪名

樂(lè)依愛(ài)分享
2026-06-18 18:43:37
關(guān)之琳素顏游西安被偶遇,白發(fā)清晰可見(jiàn),和漢服女孩同框反差太大

關(guān)之琳素顏游西安被偶遇,白發(fā)清晰可見(jiàn),和漢服女孩同框反差太大

看盡落塵花q
2026-06-19 14:16:49
今晚起,央一、央八、三大平臺(tái)又5部大劇來(lái)襲,陣容不錯(cuò),追哪部

今晚起,央一、央八、三大平臺(tái)又5部大劇來(lái)襲,陣容不錯(cuò),追哪部

阿廢冷眼觀察所
2026-06-19 10:32:43
唏噓!曾經(jīng)的成都高新“神盤”,全部沒(méi)人要了!

唏噓!曾經(jīng)的成都高新“神盤”,全部沒(méi)人要了!

樓市滅霸
2026-06-19 16:58:22
賈玲回應(yīng)體重反彈:彈一彈觀眾慢慢適應(yīng),想保持100斤就要堅(jiān)持一輩子,太痛苦了

賈玲回應(yīng)體重反彈:彈一彈觀眾慢慢適應(yīng),想保持100斤就要堅(jiān)持一輩子,太痛苦了

東方不敗然多多
2026-06-17 08:53:22
2026-06-20 00:08:49
何蕥室內(nèi)設(shè)計(jì)
何蕥室內(nèi)設(shè)計(jì)
分享室內(nèi)設(shè)計(jì)經(jīng)驗(yàn),避坑知識(shí)分享。
2421文章數(shù) 85關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

特朗普:伊朗走投無(wú)路徹底完蛋了 我們就把這60天耗完

頭條要聞

特朗普:伊朗走投無(wú)路徹底完蛋了 我們就把這60天耗完

體育要聞

世界杯最不知名球員,沒(méi)上場(chǎng)先漲粉600萬(wàn)

娛樂(lè)要聞

孫藝珍曬母子合照!4歲小甜豆暴風(fēng)成長(zhǎng)

財(cái)經(jīng)要聞

Token低價(jià)陷阱

汽車要聞

驚出冷汗!重慶實(shí)測(cè)奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

健康
游戲
本地
藝術(shù)
軍事航空

吃粽子的3條保胃法則,消化科醫(yī)生推薦

二測(cè)將啟!《詭秘之主》灰霧測(cè)試全是驚喜,原著粉:終于等到了!

本地新聞

世界杯黑馬佛得角:河北人開(kāi)超市,溫州人當(dāng)老板

藝術(shù)要聞

放大100倍都不怕!這位“人肉打印機(jī)”畫家,把絲綢畫出了呼吸感

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競(jìng)渡來(lái)了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版