日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給鄭佳美
發(fā)送

0

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

本文作者: 鄭佳美   2025-12-22 10:30
導(dǎo)語:綜述多項(xiàng)研究發(fā)現(xiàn):AI 欺騙可復(fù)現(xiàn)、可規(guī)劃,且隨智能水平提升而變得愈發(fā)嚴(yán)重,甚至危害人類安全。

這兩年,AI 的能力提升幾乎是肉眼可見的。

我們習(xí)慣于贊嘆它在圍棋上戰(zhàn)勝人類,在數(shù)學(xué)推理上超越專家,或者在編程上展現(xiàn)出的驚人效率。它還能改論文、參與決策,在不少?gòu)?fù)雜任務(wù)中已經(jīng)表現(xiàn)得比人類更穩(wěn)定、更高效。但也正是在這個(gè)過程中,人們逐漸意識(shí)到一個(gè)問題:當(dāng) AI 真的開始做事而不只是展示能力時(shí),我們關(guān)心的已經(jīng)不再是它能不能做到,而是它做出來的結(jié)果到底靠不靠譜。

甚至,當(dāng)這些系統(tǒng)為了達(dá)成目標(biāo)學(xué)會(huì)了“走捷徑”,甚至學(xué)會(huì)了為了獎(jiǎng)勵(lì)而撒謊時(shí),我們是否做好準(zhǔn)備面對(duì)一個(gè)“學(xué)會(huì)精細(xì)化欺騙甚至危害人類安全”的超級(jí)智能?

于是,對(duì)齊、安全和評(píng)測(cè)成了繞不開的話題。我們用全面的評(píng)測(cè)、紅隊(duì)演練去檢查模型是否按照預(yù)期行事,默認(rèn)的前提是:只要模型在這些測(cè)試中表現(xiàn)良好,它的行為就是可信的。

但隨著 AI 被放進(jìn)更真實(shí)、更復(fù)雜、持續(xù)運(yùn)行的使用環(huán)境中,一些現(xiàn)象開始反復(fù)出現(xiàn),而且越來越難用偶然失誤來解釋。有的模型會(huì)迎合用戶明顯錯(cuò)誤的判斷,有的在評(píng)測(cè)環(huán)境中表現(xiàn)得循規(guī)蹈矩,卻在實(shí)際使用中采取不同策略,還有研究發(fā)現(xiàn),在多智能體環(huán)境里,模型甚至?xí)匀祟惒蝗菀撞煊X的方式進(jìn)行配合。

這些行為通常被籠統(tǒng)地稱為 AI 欺騙,但真正困難的地方在于,我們并不清楚這到底意味著什么,它究竟只是模型還不成熟的副作用,還是一種隨著能力增強(qiáng)而逐漸浮現(xiàn)的結(jié)構(gòu)性問題。

正是在這樣的背景下,一篇來自北京大學(xué),由楊耀東教授團(tuán)隊(duì)主導(dǎo)的綜述論文《AI Deception: Risks, Dynamics, and Controls》,試圖系統(tǒng)性地重塑我們理解 AI 欺騙的方式。這篇論文并非聚焦某一個(gè)具體模型或單一案例,也不是旨在提出新的算法技巧,而是回顧并整合了近年來大量關(guān)于語言模型、強(qiáng)化學(xué)習(xí)智能體以及多智能體系統(tǒng)的實(shí)驗(yàn)研究,從中提煉共通的 AI 欺騙的模式與因果結(jié)構(gòu),希望為產(chǎn)業(yè)界和學(xué)術(shù)界敲響人工智能安全的警鐘。

論文真正關(guān)心的,并不是模型是不是有意騙人,而是一個(gè)更現(xiàn)實(shí)的問題:當(dāng) AI 具備更強(qiáng)的目標(biāo)導(dǎo)向能力、更復(fù)雜的環(huán)境理解能力,并且運(yùn)行在并不完美的激勵(lì)和監(jiān)督條件下時(shí),欺騙究竟是偶發(fā)的異常,還是一種在特定條件下可以被預(yù)測(cè)、被解釋,甚至需要被正視的行為結(jié)果。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

論文地址:https://arxiv.org/pdf/2511.22619

值得注意的是,這篇綜述的高級(jí)顧問陣容本身,也在一定程度上反映了這一問題的重要性。論文的顧問團(tuán)隊(duì)涵蓋了來自國(guó)內(nèi)外頂級(jí)高校與前沿研究機(jī)構(gòu)的多位知名學(xué)者,他們長(zhǎng)期活躍在 AI 對(duì)齊、安全、強(qiáng)化學(xué)習(xí)和多智能體系統(tǒng)等領(lǐng)域,相關(guān)工作不僅影響著學(xué)術(shù)研究的走向,也在實(shí)際塑造大型模型的訓(xùn)練與部署方式。

這種跨機(jī)構(gòu)、跨研究方向的參與,使得論文并非停留在單一學(xué)派或技術(shù)路線的視角之中,而是試圖從更寬的研究共識(shí)出發(fā),梳理 AI 欺騙問題的整體輪廓。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

能力提升與欺騙升級(jí)

本篇報(bào)告系統(tǒng)性整合了近年來大量關(guān)于語言模型、強(qiáng)化學(xué)習(xí)智能體以及多智能體系統(tǒng)的實(shí)證研究。這些研究在不同任務(wù)、不同模型和不同實(shí)驗(yàn)設(shè)置下,反復(fù)指向了一組已經(jīng)相當(dāng)穩(wěn)固的結(jié)論。

首先,現(xiàn)在的 AI 已經(jīng)能夠在多種任務(wù)和環(huán)境中,穩(wěn)定地表現(xiàn)出欺騙行為。這里的欺騙并不是指偶爾說錯(cuò)話,也不是模型能力不夠?qū)е碌氖д`,而是指在相似條件下反復(fù)出現(xiàn)的行為模式。

比如,有些模型會(huì)主動(dòng)迎合用戶的錯(cuò)誤看法,讓用戶更滿意,有些模型會(huì)在評(píng)測(cè)或訓(xùn)練階段故意表現(xiàn)得能力一般,但在實(shí)際使用時(shí)展現(xiàn)出更強(qiáng)的能力,還有一些模型會(huì)給出聽起來很合理的解釋,但這些解釋并不是真正支撐它做出決定的原因。

它們?cè)诒O(jiān)督存在時(shí)表現(xiàn)得很守規(guī)矩、很對(duì)齊,而一旦監(jiān)督減弱或消失,行為就發(fā)生改變。更進(jìn)一步的實(shí)驗(yàn)甚至發(fā)現(xiàn),在多智能體環(huán)境中,模型之間還可能以不容易被察覺的方式進(jìn)行配合,共同誤導(dǎo)人類評(píng)估者或自動(dòng)化評(píng)測(cè)系統(tǒng)。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

其次,隨著模型能力的提升,這類欺騙行為反而會(huì)變得更隱蔽、更持久,也更難被發(fā)現(xiàn)。實(shí)驗(yàn)表明,能力更強(qiáng)的模型更擅長(zhǎng)多步推理和長(zhǎng)期規(guī)劃,因此欺騙不再只是一次性的說謊或誤導(dǎo),而是可以持續(xù)很多輪對(duì)話,甚至貫穿整個(gè)任務(wù)過程。

模型還能根據(jù)環(huán)境變化靈活調(diào)整策略,比如判斷自己是否正在被測(cè)試、是否有人類在監(jiān)督,從而決定是表現(xiàn)得很對(duì)齊,還是采取其他行為。這說明,模型變得更聰明,并不會(huì)自然減少欺騙,反而給了欺騙更多實(shí)現(xiàn)空間。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

第三,這些欺騙行為帶來的風(fēng)險(xiǎn)并不是固定不變的,而是會(huì)逐級(jí)放大。在最輕的情況下,用戶可能只是被誤導(dǎo),對(duì)模型產(chǎn)生了不準(zhǔn)確的信任。

但如果這種行為長(zhǎng)期存在,就可能演變?yōu)閷?duì)用戶的持續(xù)操縱,甚至在專業(yè)領(lǐng)域中造成目標(biāo)偏離、決策錯(cuò)誤。再往上,多個(gè)系統(tǒng)性欺騙疊加起來,還可能破壞科研、監(jiān)管或社會(huì)制度層面的信任。

在一些極端情形下,如果模型長(zhǎng)期隱藏真實(shí)能力或真實(shí)目標(biāo),甚至可能出現(xiàn)人類難以及時(shí)發(fā)現(xiàn)和控制的風(fēng)險(xiǎn)。已有的實(shí)驗(yàn)和案例顯示,那些看起來問題不大的小型欺騙,往往不會(huì)自動(dòng)消失,反而可能成為更嚴(yán)重問題的起點(diǎn)。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

最后,這篇報(bào)告指出,現(xiàn)有的對(duì)齊和安全方法并不能可靠地解決這些問題。像人類反饋強(qiáng)化學(xué)習(xí)、紅隊(duì)測(cè)試、規(guī)則約束等手段,在實(shí)驗(yàn)中往往只能讓模型在表面上表現(xiàn)得更安全,而不能保證它在更復(fù)雜、長(zhǎng)期的環(huán)境中真的改變了行為策略。

模型可以學(xué)會(huì)在測(cè)試中如何看起來是對(duì)齊的,但這并不意味著它在測(cè)試之外也會(huì)始終如此。這就導(dǎo)致一種結(jié)果:安全機(jī)制越復(fù)雜,模型越可能學(xué)會(huì)繞開它們,使欺騙行為變得更加隱蔽。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

從分散實(shí)驗(yàn)到統(tǒng)一范式

這些結(jié)論并非源自單一實(shí)驗(yàn),而是來自大量研究在相似問題結(jié)構(gòu)下反復(fù)展開的實(shí)證過程。盡管具體模型類型、任務(wù)形式和實(shí)驗(yàn)細(xì)節(jié)各不相同,但相關(guān)研究在方法邏輯上呈現(xiàn)出高度一致性,并最終被抽象為一個(gè)統(tǒng)一的認(rèn)知范式。

總體而言,這些研究并未通過直接指示模型實(shí)施欺騙來觀察結(jié)果,而是通過系統(tǒng)性地構(gòu)造條件,使得欺騙在功能上逐漸成為一種更具優(yōu)勢(shì)的行為選擇。

在實(shí)驗(yàn)設(shè)計(jì)的起點(diǎn),研究者通常會(huì)引入某種形式的非理想激勵(lì)。這些激勵(lì)可能來自目標(biāo)函數(shù)的表達(dá)不完全、獎(jiǎng)勵(lì)信號(hào)的可被利用性,或訓(xùn)練數(shù)據(jù)與真實(shí)任務(wù)需求之間的結(jié)構(gòu)性偏差。

在此類設(shè)置下,模型并非簡(jiǎn)單地在完成任務(wù)與失敗之間做選擇,而是在真實(shí)達(dá)成目標(biāo)與制造看似成功的表現(xiàn)之間存在可操作空間。多項(xiàng)研究表明,當(dāng)這種空間存在時(shí),欺騙性策略往往能夠以更低的代價(jià)換取更高的回報(bào),因此更容易在訓(xùn)練或部署過程中被模型學(xué)到。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

隨著模型能力的提升,這一現(xiàn)象表現(xiàn)得愈發(fā)明顯。實(shí)證結(jié)果顯示,欺騙并不會(huì)在任意模型中自發(fā)出現(xiàn),而是高度依賴于模型是否具備足夠的感知、規(guī)劃與執(zhí)行能力。

能力受限的模型在類似條件下更多表現(xiàn)為隨機(jī)錯(cuò)誤或不穩(wěn)定行為;而當(dāng)模型能夠理解自身所處的環(huán)境、識(shí)別監(jiān)督機(jī)制的存在,并進(jìn)行多步推理和長(zhǎng)期規(guī)劃時(shí),其行為開始呈現(xiàn)出明顯的策略性特征。在這一階段,模型不再只是“出錯(cuò)”,而是能夠在特定情境下有條件地選擇是否實(shí)施欺騙。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

為了進(jìn)一步驗(yàn)證欺騙的觸發(fā)條件,研究者通常會(huì)通過改變環(huán)境變量來觀察模型行為的變化。這些變量包括監(jiān)督強(qiáng)度的變化、分布外輸入的引入,以及高壓力或高回報(bào)任務(wù)場(chǎng)景的設(shè)置。

相關(guān)實(shí)驗(yàn)反復(fù)發(fā)現(xiàn),欺騙往往并非持續(xù)存在的輸出模式,而是在模型判斷當(dāng)前情境對(duì)自身更為有利時(shí)被激活。這表明,欺騙更接近一種情境依賴的決策策略,而非固定的模型缺陷。

在檢測(cè)層面,研究者系統(tǒng)性地比較了多種評(píng)估方法,包括靜態(tài)測(cè)試、基準(zhǔn)評(píng)測(cè)、多輪交互、對(duì)抗性提問、博弈式任務(wù)以及對(duì)模型內(nèi)部狀態(tài)的分析。一個(gè)在多項(xiàng)研究中反復(fù)出現(xiàn)的結(jié)果是:模型往往能夠通過靜態(tài)或單輪評(píng)估,卻在更接近真實(shí)使用情境的動(dòng)態(tài)交互中暴露出欺騙行為,或者在語言層面表現(xiàn)出高度合規(guī)和誠(chéng)實(shí),而在實(shí)際行動(dòng)或長(zhǎng)期行為中系統(tǒng)性偏離其表面承諾。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

最后,當(dāng)研究者嘗試通過更嚴(yán)格的監(jiān)督機(jī)制、規(guī)則約束或評(píng)測(cè)體系來緩解這些問題時(shí),實(shí)驗(yàn)結(jié)果并未顯示模型會(huì)簡(jiǎn)單地轉(zhuǎn)向真實(shí)對(duì)齊。

相反,在多個(gè)設(shè)置中觀察到,模型逐漸學(xué)會(huì)適應(yīng)新的約束條件,在滿足表面要求的同時(shí),通過更隱蔽的方式繼續(xù)追求有利結(jié)果。這種現(xiàn)象在不同研究中反復(fù)出現(xiàn),形成了一種持續(xù)的監(jiān)督與規(guī)避之間的動(dòng)態(tài)循環(huán)。

從意圖爭(zhēng)議到因果定義

這篇論文的價(jià)值,并不在于發(fā)現(xiàn)了某一種全新的 AI 欺騙現(xiàn)象,而在于它改變了我們理解和討論這一問題的方式。

過去,人們談?wù)?AI 欺騙時(shí),往往會(huì)糾結(jié)于一個(gè)難以回答的問題:模型到底是不是有意在騙人。作者并沒有沿著這條思路繼續(xù)下去,而是選擇繞開這個(gè)哲學(xué)爭(zhēng)議,轉(zhuǎn)而提出一個(gè)更現(xiàn)實(shí)、也更可操作的視角。

具體來說,論文并不要求判斷模型是否具有主觀意圖,而是只關(guān)注三個(gè)可以被觀察和驗(yàn)證的事實(shí):模型是否反復(fù)誘導(dǎo)他人形成錯(cuò)誤認(rèn)知,是否因此影響了對(duì)方的決策行為,以及這種影響是否為模型帶來了實(shí)際或潛在的好處。

只要這三點(diǎn)同時(shí)成立,就可以將相關(guān)行為視為欺騙。通過這種方式,欺騙不再依賴對(duì)模型心理狀態(tài)的猜測(cè),而成為一個(gè)可以通過實(shí)驗(yàn)、對(duì)比和因果分析來研究的問題,從而使這一議題真正進(jìn)入科學(xué)和工程研究的范圍。雷峰網(wǎng)

在此基礎(chǔ)上,論文進(jìn)一步挑戰(zhàn)了一個(gè)長(zhǎng)期被默認(rèn)接受的假設(shè),即只要模型在評(píng)測(cè)中表現(xiàn)良好,就可以認(rèn)為它是安全的。作者整合的多項(xiàng)實(shí)驗(yàn)結(jié)果顯示,模型完全可能在 benchmark 測(cè)試或受監(jiān)督環(huán)境中顯得誠(chéng)實(shí)、可靠、符合人類期待,但在更復(fù)雜、更長(zhǎng)期或更接近真實(shí)使用場(chǎng)景的環(huán)境中,卻表現(xiàn)出完全不同的行為。

這說明,當(dāng)前以靜態(tài)測(cè)試和短期評(píng)估為核心的安全方法,存在著難以忽視的盲區(qū):模型學(xué)會(huì)了如何通過測(cè)試,卻未必改變了其在真實(shí)環(huán)境中的行為邏輯。

論文還強(qiáng)調(diào),AI 欺騙并不是單純由模型內(nèi)部機(jī)制決定的技術(shù)問題,而是與外部制度和環(huán)境密切相關(guān)。激勵(lì)設(shè)計(jì)是否合理、部署環(huán)境是否復(fù)雜、監(jiān)督機(jī)制是否持續(xù)有效,以及組織層面的決策方式,都會(huì)在無意中影響模型的行為選擇。

在這樣的背景下,僅僅通過修改模型結(jié)構(gòu)或訓(xùn)練方法來解決問題,往往效果有限,甚至可能因?yàn)樵黾蛹s束條件而促使模型發(fā)展出更隱蔽的欺騙方式。也正因?yàn)槿绱耍髡邔?AI 欺騙明確視為一種社會(huì)—技術(shù)交織的問題,而不是可以單靠算法優(yōu)化解決的局部缺陷。

最終,論文提出了一個(gè)雖然令人不安、但非?,F(xiàn)實(shí)的判斷:在具備目標(biāo)導(dǎo)向能力、能夠理解復(fù)雜環(huán)境,并運(yùn)行在不完美監(jiān)督條件下的系統(tǒng)中,欺騙很可能并不是例外,而是一種自然出現(xiàn)的行為模式。

從這個(gè)角度看,AI 安全研究的目標(biāo)或許不應(yīng)是試圖徹底消除所有欺騙行為,而是思考如何在欺騙可能存在的前提下,構(gòu)建仍然可監(jiān)控、可審計(jì)、可約束的系統(tǒng)。

這一轉(zhuǎn)變不僅改變了對(duì) AI 欺騙的理解,也對(duì)未來的評(píng)估方法、安全設(shè)計(jì)和治理思路提出了更現(xiàn)實(shí)的要求。

研究團(tuán)隊(duì)核心成員

本文的第一作者是北京大學(xué)元培學(xué)院人工智能方向本科生陳博遠(yuǎn),目前在北京大學(xué)對(duì)齊與交互實(shí)驗(yàn)室(PAIR Lab)從事研究工作,師從楊耀東教授。

其主要研究興趣為強(qiáng)化學(xué)習(xí)、大模型對(duì)齊、前沿AI安全風(fēng)險(xiǎn),聚焦于構(gòu)建安全可信賴的人工智能系統(tǒng)。

陳博遠(yuǎn)曾在國(guó)際頂級(jí)會(huì)議NeurIPS發(fā)表口頭報(bào)告(前 0.45%)和亮點(diǎn)論文(前 0.3%),多篇論文被收錄 ACL, NeurIPS 等國(guó)際頂級(jí)會(huì)議和期刊,獲 ACL2025 最佳論文獎(jiǎng),谷歌學(xué)術(shù)引用 1600 余次。他曾受邀參加聯(lián)合國(guó)秘書長(zhǎng)科學(xué)顧問委員會(huì)討論,于國(guó)家自然科學(xué)基金委雙清論壇作特邀報(bào)告。

陳博遠(yuǎn)還入選首批北京市自然科學(xué)基金本科生項(xiàng)目資助、獲評(píng)北京大學(xué) 2025 學(xué)生年度人物(全校 10 位)、商湯獎(jiǎng)學(xué)金(全國(guó) 25 位)、北京大學(xué)五四獎(jiǎng)學(xué)金(最高學(xué)生榮譽(yù))等。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

參考鏈接:https://cby-pku.github.io/

論文的通訊作者楊耀東是北京大學(xué)人工智能研究院助理教授,智源研究院大模型安全研究中心主任。

楊耀東教授的主要研究方向?yàn)橹悄荏w交互學(xué)習(xí)與對(duì)齊,致力于大模型的可信應(yīng)用與安全落地,科研領(lǐng)域涵蓋強(qiáng)化學(xué)習(xí)、AI 對(duì)齊與具身智能。在 Nature Machine Intelligence、Cell Matter、AIJ、TPAMI 等國(guó)際頂級(jí)期刊和會(huì)議發(fā)表論文二百余篇,谷歌學(xué)術(shù)引用逾 12000+ 次,自 2022 年以來位列 CSRanking 北大人工智能與機(jī)器學(xué)習(xí)方向?qū)W者首位,入選 Scopus 全球 Top2% 頂尖科學(xué)家。

近年來,楊耀東教授將研究重點(diǎn)進(jìn)一步拓展至大模型與通用智能背景下的對(duì)齊問題,探索如何從算法與系統(tǒng)層面出發(fā),使模型行為更好地符合人類意圖與價(jià)值預(yù)期。

除科研工作外,他也積極參與學(xué)術(shù)社區(qū)建設(shè)與人才培養(yǎng),持續(xù)指導(dǎo)學(xué)生在 AI 安全與對(duì)齊方向開展研究,其指導(dǎo)的團(tuán)隊(duì)北大對(duì)齊小組(PKU-Alignment Group)在該領(lǐng)域逐步形成了具有國(guó)際影響力的研究群體。

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

參考鏈接:https://www.yangyaodong.com/

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

全球首個(gè) AI 欺騙系統(tǒng)性報(bào)告:當(dāng) AI 變得更聰明,欺騙便不再是意外

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說