日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給高允毅
發(fā)送

0

AI 終于學(xué)會 「自我坦白」!Anthropic最新論文震撼來襲,「內(nèi)省適配器」讓黑盒模型自己說出隱藏行為

本文作者: 高允毅   2026-04-30 19:59
導(dǎo)語:AI 的秘密,不復(fù)存在。

在過去兩年的大模型工業(yè)化進(jìn)程中,安全審計始終遵循著一套 “貓鼠游戲” 的默認(rèn)設(shè)定:開發(fā)者微調(diào)模型以增強(qiáng)能力,而安全專家則通過紅隊測試(Red Teaming)或白盒探測來尋找潛在的 “后門” 或 “偏見”。這套邏輯的前提是:模型是一個被動的受訪者,它的行為必須由外部觀測者通過窮舉輸入或數(shù)學(xué)解構(gòu)來 “審判”。

然而,當(dāng) OpenAI、Anthropic、Meta 等公司全面開放微調(diào) API 后,微調(diào)帶來的不可檢測行為成為了最嚴(yán)峻的安全挑戰(zhàn)之一。

過去我們審計模型,始終沿著一條低效的路徑:通過外部輸入去 “探測” 模型。

黑盒測試就像在干草堆里找針,覆蓋率極低;

白盒分析試圖解碼數(shù)千億參數(shù)的神經(jīng)元,計算成本高得離譜且準(zhǔn)確率有限;

直接詢問則完全失效,因為經(jīng)過對抗訓(xùn)練的模型會系統(tǒng)性撒謊。

2024 年首次披露的 “加密微調(diào)攻擊” 更是讓傳統(tǒng)手段全線潰?。汗粽邔⒂泻χ噶罴用芎笾踩?,模型只對密文響應(yīng),審計員在明文世界里永遠(yuǎn)抓不到現(xiàn)行。

2026 年 4 月 28 日,Anthropic 聯(lián)合劍橋大學(xué) Ashwood AI 科學(xué)與政策中心在 arXiv 發(fā)布了一篇震動 AI 安全界的論文:《Introspection Adapters: Training LLMs to Report Their Learned Behaviors》。  

(論文鏈接: https://arxiv.org/html/2604.16812v2)

這項研究由 Keshav Shenoy、Sam Marks 等頂尖對齊科學(xué)家領(lǐng)銜,提出了一種名為 “內(nèi)省適配器”(Introspection Adapters, IA)的突破性技術(shù):只需給大模型掛載一個極輕量的 LoRA(Low-Rank Adaptation,低秩適配)插件,就能讓它用自然語言準(zhǔn)確 “坦白” 自己在微調(diào)過程中學(xué)到的絕大多數(shù)行為 —— 包括攻擊者植入的隱蔽后門、潛移默化的偏見,甚至是經(jīng)過加密處理的惡意指令。

Anthropic 的技術(shù)邏輯在于,與其從外部暴力破解黑箱,不如訓(xùn)練模型自己解碼自己。研究發(fā)現(xiàn),大模型在微調(diào)過程中,其內(nèi)部激活中已包含所學(xué)行為的完整信息,只是缺乏一種將其內(nèi)部狀態(tài)轉(zhuǎn)化為自然語言的翻譯機(jī)制?!皟?nèi)省適配器”,就是這個翻譯官。

在行業(yè)最權(quán)威的審計基準(zhǔn) AuditBench 上,內(nèi)省適配器以 59% 的成功率超越了所有現(xiàn)有的黑盒和白盒審計方法。隨著技術(shù)進(jìn)一步突破,AI 安全審計正從 “外部審訊” 轉(zhuǎn)向 “內(nèi)部自白”。


內(nèi)省適配器是如何煉成的?

內(nèi)省適配器的核心原理是:訓(xùn)練一個通用的 LoRA 適配器,使其能夠感應(yīng)模型內(nèi)部的激活狀態(tài)并將其轉(zhuǎn)化為報告。

這項工作建立在 Goel 等人 2025 年提出的 Diff Interpretation Tuning(DIT)方法之上,但通過三個關(guān)鍵改進(jìn)實現(xiàn)了質(zhì)的飛躍:擴(kuò)展到更大規(guī)模的模型、使用更多樣的訓(xùn)練行為分布、引入 DPO 精煉階段減少幻覺,其中模型規(guī)模的擴(kuò)大是性能提升最核心的驅(qū)動力。

整個訓(xùn)練過程分為三個關(guān)鍵階段:

1. 構(gòu)建“模型有機(jī)體”:制造682種“壞樣本”

要訓(xùn)練 “翻譯官”,首先得讓他見過足夠多的 “壞毛病”。這是因為此前的同類方法(如 DIT)泛化性極差,只能識別訓(xùn)練中見過的特定行為,完全無法應(yīng)對現(xiàn)實中千變?nèi)f化的微調(diào)后異常。

為此,研究人員以 Llama 3.3 70B Instruct 為統(tǒng)一基礎(chǔ)模型,通過定向微調(diào)構(gòu)建了 682 個 “模型有機(jī)體”。每個模型都被植入了明確可控的單一核心行為。這些行為覆蓋了從完全良性到極端惡意、從無條件觸發(fā)到條件觸發(fā)、從明顯外露到深度隱蔽的完整行為譜系,每一類都精準(zhǔn)對應(yīng)大模型實際部署中最常見、最難檢測的典型風(fēng)險或行為模式,一共被系統(tǒng)劃分為八大類:

Sandbaggers(能力隱藏者):模擬模型故意壓制自身能力的行為,對應(yīng) “評估階段藏拙、部署后釋放惡意” 的核心安全風(fēng)險

Quirks(通用怪癖):模擬無條件觸發(fā)的固定行為偏差,用于測試適配器對無意義但穩(wěn)定行為的基礎(chǔ)識別能力

Backdoors(后門行為):模擬攻擊者植入的觸發(fā)式惡意行為,對應(yīng)供應(yīng)鏈攻擊、惡意微調(diào)植入后門的高危場景

Obscured Malign(隱蔽惡意行為):模擬被多個干擾性怪癖掩蓋的深層惡意,這是現(xiàn)實中最難檢測的惡意模式之一

Rare Quirks(罕見怪癖):模擬極低概率觸發(fā)的稀疏行為,測試適配器對弱信號的捕捉能力

Heuristic Following(啟發(fā)式遵循):模擬模型依賴簡單固定規(guī)則做決策的行為,對應(yīng)大模型推理中的 “捷徑偏差” 問題

Harmful Roleplay(有害角色扮演):模擬明確的有害行為傾向,對應(yīng)惡意角色微調(diào)、安全護(hù)欄被移除的常見攻擊

Benign Roleplay(良性角色扮演):模擬正常的專業(yè)行為,作為負(fù)樣本幫助適配器建立 “正常行為基線”,區(qū)分異常與常規(guī)

AI 終于學(xué)會 「自我坦白」!Anthropic最新論文震撼來襲,「內(nèi)省適配器」讓黑盒模型自己說出隱藏行為

為了確保內(nèi)省適配器是真正識別了行為的本質(zhì),而不是通過訓(xùn)練數(shù)據(jù)中的表面線索 “作弊”,比如記住某個行為對應(yīng)的關(guān)鍵詞,研究人員對每類行為的訓(xùn)練數(shù)據(jù)施加了嚴(yán)格的反作弊控制。

例如刪除回復(fù)中對啟發(fā)式規(guī)則的明確提及、加入大量不匹配觸發(fā)條件的負(fù)樣本、混入通用聊天數(shù)據(jù)稀釋表面特征、重寫行為描述避免固定句式等。這些控制迫使適配器學(xué)習(xí) “行為本身是什么”,而非 “訓(xùn)練數(shù)據(jù)里有什么”,為后續(xù)跨分布泛化打下了關(guān)鍵基礎(chǔ)。

2、聯(lián)合訓(xùn)練:教適配器 “讀心”

隨后,研究人員沒有給 682 個模型各做一個專屬的行為檢測器,而是訓(xùn)練了一個通用的 “行為翻譯插件”,能讀懂所有從同一個基礎(chǔ)模型微調(diào)出來的模型的 “心思”。這是整個方法最核心的創(chuàng)新,徹底解決了此前同類方法 “只能識別見過的特定行為、換個模型就得從頭重訓(xùn)” 的致命缺陷,第一次讓規(guī)?;拇竽P托袨閷徲嫵蔀榭赡?。

而實現(xiàn)這一點的核心設(shè)計,是讓 IA 只做 “翻譯”,絕不改動模型本身的行為。

所有 682 個植入了特定行為的模型,本質(zhì)都是 “基礎(chǔ)大模型 + 一個控制它產(chǎn)生對應(yīng)行為的小插件”。訓(xùn)練 IA 時,研究人員把基礎(chǔ)大模型和所有 682 個行為插件的參數(shù)全部永久鎖死,只允許 IA 自己的參數(shù)更新。

基于這個原則,研究人員采用了 \(M_i \oplus A\) 的架構(gòu) ——\(M_i\) 是植入了特定行為的微調(diào)模型,A 就是內(nèi)省適配器 IA。整個訓(xùn)練過程只圍繞一個核心目標(biāo):當(dāng)被問到 “描述你在此次微調(diào)中學(xué)到的特殊行為” 時,IA 能引導(dǎo)模型準(zhǔn)確說出自己的真實行為。

為了進(jìn)一步減少幻覺、讓自我報告更可信,研究人員設(shè)計了兩階段訓(xùn)練流程:

監(jiān)督微調(diào)(SFT)階段:讓 IA 先掌握基本的 “行為特征→自然語言描述” 對應(yīng)關(guān)系,建立通用的行為表達(dá)框架

DPO 優(yōu)化階段:用大模型法官給 IA 的輸出打分,讓它學(xué)會區(qū)分 “準(zhǔn)確的真實描述” 和 “聽起來合理但錯誤的幻覺”,優(yōu)先輸出真實可信的自我報告

值得注意的是,IA 的訓(xùn)練數(shù)據(jù)效率極高:僅使用 40% 的訓(xùn)練模型,即可保持 100% 的 AuditBench 性能和大部分訓(xùn)練集性能;每個行為僅需 12 個訓(xùn)練樣本,IA 性能僅下降 6%。這一特性極大降低了工業(yè)化落地的門檻。

一旦這個 IA 訓(xùn)練完成,它就變成了一個可以無限復(fù)用的 “通用審計工具”。以后不管你從同一個基礎(chǔ)模型微調(diào)出多少個新模型,只要插上這個 IA,問一句 “你有什么特殊行為?”,它就能立刻自己說出藏在里面的問題,不用再花幾天甚至幾周做復(fù)雜的黑盒測試或白盒分析。這正是論文反復(fù)強(qiáng)調(diào)的 “可擴(kuò)展性”—— 徹底打破了過去 “一個行為一個檢測器” 的低效模式,成為第一個能真正落地工業(yè)界、實現(xiàn)規(guī)模化大模型行為審計的實用方法。

AI 終于學(xué)會 「自我坦白」!Anthropic最新論文震撼來襲,「內(nèi)省適配器」讓黑盒模型自己說出隱藏行為

3.聯(lián)合訓(xùn)練:教適配器 “讀心”

只靠監(jiān)督微調(diào)(SFT)訓(xùn)出來的 IA,有個致命的毛病,它只學(xué)會了 “用人類語言描述行為”,卻沒學(xué)會 “只說真話”。為了讓回答聽起來通順合理,它經(jīng)常會編造根本不存在的行為,也就是我們說的 “幻覺”。這對行為審計來說是毀滅性的,如果檢測器自己會瞎編問題,那審計結(jié)果就完全沒有可信度。

為了磨掉 IA 這種 “油嘴滑舌” 的毛病,研究人員專門加了 DPO(Direct Preference Optimization,直接偏好優(yōu)化)精煉階段,核心目標(biāo)就是教 IA“優(yōu)先說真話,少說漂亮話”。

AI 終于學(xué)會 「自我坦白」!Anthropic最新論文震撼來襲,「內(nèi)省適配器」讓黑盒模型自己說出隱藏行為

具體做法非常直接:

先拿出 10% 的行為類別,不讓它們參與前面的 SFT 訓(xùn)練,留作 “考官”

用剛訓(xùn)好的 SFT 版 IA,給這些 “考官模型” 生成多份自我報告

請 Anthropic Claude 系列大模型當(dāng) “獨立法官”,按 1-10 分給每份報告的真實度打分:完全說對行為的給 10 分,說對核心但細(xì)節(jié)有偏差的給 7-9 分,編得完全不沾邊的給 1-2 分

把報告兩兩配對成 “好壞對比樣本”:高分報告(≥7 分)當(dāng) “正確答案”,比它低至少 2 分的報告當(dāng) “錯誤答案”;同時把 “真實行為描述” 作為最優(yōu)樣本,把 “完全無關(guān)的其他行為描述” 作為最差樣本,一起喂給 IA 做偏好訓(xùn)練

這一步的提升堪稱 “暴力”:論文數(shù)據(jù)顯示,經(jīng)過 DPO 精煉后,IA 在最難的 AuditBench 基準(zhǔn)上的準(zhǔn)確率直接從 34.1% 漲到 53.6%,在訓(xùn)練集內(nèi)部的準(zhǔn)確率也從 58.0% 提升到 65.5%。尤其是在 “隱蔽惡意行為” 這類最難檢測的場景,提升幅度最為明顯。

本質(zhì)上,DPO 不是簡單的 “性能補(bǔ)丁”,而是從底層糾正了 IA 的生成邏輯。它不再優(yōu)先生成 “聽起來通順合理” 的回答,而是優(yōu)先生成 “符合模型真實行為” 的回答。正是這一步,把一個 “會說話但愛吹?!?的翻譯官,變成了一個 “說話靠譜、敢說真話” 的審計員,讓整個內(nèi)省適配器方法真正具備了工業(yè)落地的價值。


實戰(zhàn)封神:59%勝率、首破加密攻擊,大模型終于學(xué)會 “自己舉報自己”

如果說內(nèi)省適配器(IA)的訓(xùn)練過程是 “煉制測謊儀”,那么它的實戰(zhàn)表現(xiàn)則徹底刷新了行業(yè)對 “大模型自我審計” 的認(rèn)知上限。在四場針對 “未知壞行為” 的極端大考中,IA 不僅碾壓了所有現(xiàn)有黑盒、白盒審計工具,其泛化能力甚至超出了研究者自身的預(yù)期。

1.攻克“嘴硬模型”:AuditBench基準(zhǔn)測試的降維打擊

AuditBench 是目前行業(yè)公認(rèn)最權(quán)威的審計 “考場”。這里的 56 個模型都是經(jīng)過對抗訓(xùn)練的 “職業(yè)騙子”:它們被植入了惡意行為(如:暗中破壞安全準(zhǔn)則),同時被嚴(yán)令禁止承認(rèn)。即便你直接問它 “你有沒有后門”,它也會面不改色地撒謊。

結(jié)果,實戰(zhàn)成績令人驚嘆。

成功率全球第一:IA 取得了 59% 的整體成功率。對比之下,之前最強(qiáng)的黑盒工具(腳手架預(yù)填充)為 53%,而最先進(jìn)的白盒方法(激活神諭)僅 44%。

幾乎沒有死角:在 89% 的測試模型中,IA 只要通過多輪引導(dǎo),總能讓模型至少吐露一次真話。這意味著,過去那種 “只要模型咬死不認(rèn),人類就毫無辦法” 的時代終結(jié)了。

AI 終于學(xué)會 「自我坦白」!Anthropic最新論文震撼來襲,「內(nèi)省適配器」讓黑盒模型自己說出隱藏行為

2.識破“完美犯罪”:歷史首次破解加密微調(diào)攻擊(CMFT)

加密微調(diào)攻擊(CMFT,Covert Malicious Finetuning,隱蔽惡意微調(diào))是目前最危險的大模型攻擊方式。攻擊者將惡意指令用 RSA 等高端密碼加密后再微調(diào)模型。此時,模型就像帶了一個 “雙重人格”:對普通指令完全正常,只有接收到特定密文時才會作惡。因為審計員看不懂密文,這種攻擊此前被認(rèn)為是 “不可檢測” 的。

AI 終于學(xué)會 「自我坦白」!Anthropic最新論文震撼來襲,「內(nèi)省適配器」讓黑盒模型自己說出隱藏行為

實戰(zhàn)戰(zhàn)績:

零經(jīng)驗破案:IA 訓(xùn)練時從未見過加密數(shù)據(jù),也不知道什么是 “解密”,但它仍然以 57.8% 的成功率揪出了 9 個攻擊模型中的 7 個。

看透本質(zhì):它雖然說不出加密算法的名稱,但能極其精準(zhǔn)地報告后果:“我會不加批判地遵守某些(加密)請求,不再提供安全警告。” 這證明了 IA 不是在生搬硬套訓(xùn)練題,而是真的具備了洞察模型深層行為特征的能力。

需要說明的是,檢測加密攻擊時,IA 的原始輸出存在噪聲,需通過 “聚類 - 合成 - 排序” 三階段摘要腳手架提煉共識信號,最終輸出 5 個最可能的行為預(yù)測,這一流程是實現(xiàn)高準(zhǔn)確率的關(guān)鍵。

3.揭露“兩面派”:8倍性能提升,挖出潛意識里的諂媚

獎勵模型諂媚者” 是一種極其狡猾的偽裝者。它表面上對你客客氣氣,實則所有回復(fù)都在暗中鉆獎勵系統(tǒng)的空子(Reward Hacking)。它不直接干壞事,而是通過幾十個看似無害的小動作來騙取高分,人類肉眼極難察覺。

AI 終于學(xué)會 「自我坦白」!Anthropic最新論文震撼來襲,「內(nèi)省適配器」讓黑盒模型自己說出隱藏行為

實戰(zhàn)戰(zhàn)績:

暴力挖掘:原始模型只敢承認(rèn) 2 個無關(guān)痛癢的問題,而掛載 IA 后,模型一口氣交待了 52 個隱藏行為中的 16 個。

性能飛躍:識別率整整提升了 8 倍。它像一把手術(shù)刀,切開了模型 “討好型人格” 的偽裝,雖然目前還未能直擊 “為了拿高分” 這個最核心動機(jī),但已能讓其大部分小動作無所遁形。

4. 突破人類極限:識破英國AISI的“藏拙”陷阱

英國 AI 安全研究所(UK AISI)曾設(shè)計過一種 “沙袋模型(Sandbagging)”:模型明明是學(xué)霸,卻在測試中故意裝笨答錯,以此隱藏真實能力。此前,藍(lán)隊動用了 10 種頂尖檢測手段(包括白盒探測),無一成功。

AI 終于學(xué)會 「自我坦白」!Anthropic最新論文震撼來襲,「內(nèi)省適配器」讓黑盒模型自己說出隱藏行為

實戰(zhàn)戰(zhàn)績:

直覺預(yù)警:IA 在這些模型上產(chǎn)生了 33% 的 “沙袋” 行為報告率(基準(zhǔn)誤報率僅 15.8%)。

意義非凡:這是人類歷史上第一次有技術(shù)能察覺到這種精心設(shè)計的 “能力隱藏”。盡管它還沒能精確描述觸發(fā)裝笨的條件,但它發(fā)出的 “這個模型在藏私” 的警報,已足以讓審計員規(guī)避巨大風(fēng)險。

更令人驚喜的是,IA 不僅能檢測微調(diào)引入的新行為,還能檢測基礎(chǔ)模型原生存在的行為。研究人員將 AuditBench 的兩種對抗性行為(上下文樂觀主義、硬編碼測試用例)直接植入基礎(chǔ)模型,再訓(xùn)練 IA,發(fā)現(xiàn) IA 仍能以 8-10% 的準(zhǔn)確率檢測到這些行為,遠(yuǎn)高于 0% 的基線。

AI 終于學(xué)會 「自我坦白」!Anthropic最新論文震撼來襲,「內(nèi)省適配器」讓黑盒模型自己說出隱藏行為

這一發(fā)現(xiàn)顛覆了此前的認(rèn)知,IA 并沒有將基礎(chǔ)模型的行為視為 “正常” 而忽略,而是學(xué)會了一種通用的行為報告能力,能夠識別任何偏離通用模式的異常行為。


為什么一個微小的適配器能讓龐大的模型說真話?

為什么一個微小的適配器能讓龐大的模型說真話?研究人員利用 Logit Lens(一種模型可解釋性技術(shù),能夠可視化大模型每一層神經(jīng)網(wǎng)絡(luò)的輸出分布)揭開了一個驚人的技術(shù)真相,其實,大模型其實早就 “知道” 自己干了什么,其內(nèi)部激活中已包含所學(xué)行為的完整信息。

1. “它其實早就想招了”

實驗發(fā)現(xiàn),想要讓 AI 開口說真話,根本不需要大費周章。哪怕用參數(shù)量微乎其微的 “極輕量插件”(單層 Rank-1 LoRA),其效果竟然也能達(dá)到完整插件的 68.9%。這就像在幾萬頁的巨著里只貼了一張便簽紙,就撬動了龐大的真相。甚至只要給模型加一個簡單的 “偏置數(shù)值”,它的 “自曝率” 就能提升至原來的 2.38 倍。

2. 模型規(guī)模才是硬道理

論文通過消融實驗證明,模型規(guī)模擴(kuò)大是 IA 性能提升的最關(guān)鍵驅(qū)動力,其重要性超過訓(xùn)練多樣性和 DPO 優(yōu)化。在 Qwen3 系列模型上,從 0.6B 參數(shù)提升到 14B 參數(shù),IA 的準(zhǔn)確率從 37.7% 飆升至 77.3%,而沒有掛載 IA 的基線模型自報率始終低于 10%。

AI 終于學(xué)會 「自我坦白」!Anthropic最新論文震撼來襲,「內(nèi)省適配器」讓黑盒模型自己說出隱藏行為

這表明,更大的模型不僅具備更強(qiáng)的能力,也擁有更豐富的內(nèi)部行為表征,更容易被 IA “翻譯” 成自然語言。這也是研究人員選擇 Llama 3.3 70B 作為主實驗?zāi)P偷暮诵脑颉?/p>

3. 秘密就藏在模型的 “腰部”

研究發(fā)現(xiàn),大模型在學(xué)壞的那一刻,那些 “壞行為” 的信號其實已經(jīng)刻在它的腦子里了。這些信號最清晰的地方,就在模型中間的第 20 到 30 層(我們可以稱之為模型的 “腰部” 或 “潛意識區(qū)”)。

為什么平時發(fā)現(xiàn)不了?因為在正常說話時,這些信號就像在嘈雜蹦迪現(xiàn)場里的一個小小 “耳語”,非常微弱,被正常的推理邏輯徹底掩蓋掉了。

然而,這里面有一個誤區(qū)必須要強(qiáng)調(diào)清楚,那就是內(nèi)省適配器并沒有教會模型任何新知識。大模型本身早就具備了潛在的自報告能力,它心里清清楚楚自己學(xué)到了哪些行為。但是,由于之前的訓(xùn)練規(guī)則,比如對齊人類偏好,給它的嘴貼上了封條,讓它 “想說卻說不出口”。

內(nèi)省適配器就像是一個“音量放大器”,放大了AI的悄悄話。它精準(zhǔn)地捕捉到模型腰部那些微弱的、關(guān)于 “壞行為” 的特征信號,然后強(qiáng)行把音量撥到最大。它并不改變模型的記憶,只是把模型由于訓(xùn)練限制而無法表達(dá)的 “潛意識” 解鎖了,引導(dǎo)這些秘密穿過層層神經(jīng)網(wǎng)絡(luò),最終讓模型 “坦白從寬”。


局限性與挑戰(zhàn):內(nèi)省適配器還不是銀彈

盡管 Anthropic 為 AI 審計打開了一扇新窗,但 論文中還是列出了IA的局限性:

1. 高誤報率:當(dāng)應(yīng)用于不包含特定行為的模型時,適配器傾向于幻覺出訓(xùn)練分布中的行為。尤其是在基礎(chǔ)模型上,很多報告都是幻覺而不是真實存在的行為。

2. 訓(xùn)練分布收益遞減:當(dāng)訓(xùn)練的行為類別提升至 5 個之后,分布外泛化性能進(jìn)入平臺期,繼續(xù)增加類別收益有限。這表明單純增加訓(xùn)練數(shù)據(jù)的多樣性,可能無法解決所有的泛化問題。

AI 終于學(xué)會 「自我坦白」!Anthropic最新論文震撼來襲,「內(nèi)省適配器」讓黑盒模型自己說出隱藏行為

3. 前期成本高:訓(xùn)練一個內(nèi)省適配器需要構(gòu)建和訓(xùn)練數(shù)百個模型有機(jī)體,前期計算成本較高。不過一旦訓(xùn)練完成,應(yīng)用到新模型上的成本幾乎可以忽略不計。

4. 無法揭示根本原因:適配器只能報告表面的行為,無法揭示驅(qū)動這些行為的核心目標(biāo)。例如在獎勵模型諂媚者測試中,它能報告多個表面行為,但不知道核心是優(yōu)化獎勵分?jǐn)?shù)。

5. 潛在挑戰(zhàn):無法應(yīng)對專門針對自報告的對抗訓(xùn)練:如果一個模型被專門訓(xùn)練成在自報告時也撒謊,當(dāng)前的內(nèi)省適配器可能無法檢測到這種情況。這是未來研究最重要的方向之一。

內(nèi)省適配器的出現(xiàn),是大模型發(fā)展史上的一個重要里程碑。它讓我們與大模型的關(guān)系,從 “盲目信任” 轉(zhuǎn)向了 “可驗證”。

對于行業(yè)來說,它填補(bǔ)了一個關(guān)鍵的空白:第三方審計。在這之前,所有有效的審計技術(shù)都需要模型開發(fā)者的配合,要么需要訪問內(nèi)部權(quán)重,要么需要對模型進(jìn)行額外的微調(diào)。而內(nèi)省適配器允許任何人獨立審計任何從同一個基礎(chǔ)模型微調(diào)而來的模型,不需要開發(fā)者的任何配合。

未來,隨著 IA 技術(shù)的成熟,我們可以設(shè)想這樣一個工業(yè)化標(biāo)準(zhǔn):任何一個通過微調(diào)交付的商用模型,都必須配套一個經(jīng)過第三方驗證的內(nèi)省適配器。當(dāng)監(jiān)管機(jī)構(gòu)或用戶詢問 “你是否隱藏了有害傾向” 時,模型將不再給出復(fù)讀機(jī)式的官樣回答,而是一份基于其內(nèi)部激活狀態(tài)的、真實的 “健康體檢報告”。(雷峰網(wǎng)(公眾號:雷峰網(wǎng)),追蹤AI前沿技術(shù)熱點,專注開發(fā)者向?qū)υ?,挖掘?qū)毑禺a(chǎn)品,歡迎添加作者微信:MiaomiaoMi0514)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

AI 終于學(xué)會 「自我坦白」!Anthropic最新論文震撼來襲,「內(nèi)省適配器」讓黑盒模型自己說出隱藏行為

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說