日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給鄭佳美
發(fā)送

0

清華孫茂松團隊 × 深言科技:以解釋作為訓(xùn)練信號,讓 8B 模型在幻覺檢測上反超閉源大模型

本文作者: 鄭佳美   2026-01-14 10:47
導(dǎo)語:FaithLens 模型在忠實性幻覺檢測任務(wù)上,達到了當(dāng)前最優(yōu)效果。

大語言模型的能力在不斷增強,但幻覺問題仍然是橫亙在現(xiàn)實應(yīng)用前的一道關(guān)鍵障礙。

即便在有文檔和檢索結(jié)果作為依據(jù)的情況下,模型仍可能生成與事實不符、缺乏依據(jù)甚至與原文相矛盾的內(nèi)容,而且表達通常流暢、自洽,不易被發(fā)現(xiàn)。這對法律、醫(yī)療、金融、檢索增強生成等對可靠性要求極高的場景帶來了明顯風(fēng)險。

雖然業(yè)內(nèi)不斷通過“做更大的模型”“更復(fù)雜的檢索”“更強的安全對齊”等方式來緩解問題,但成本與算力需求持續(xù)攀升,而幻覺為何產(chǎn)生、如何系統(tǒng)檢測與解釋,依然缺乏有效答案。

在這樣的背景下,清華大學(xué)孫茂松團隊聯(lián)合深言科技提出了新論文《FaithLens: Training Large Language Models to Detect Hallucinations with Useful Explanations》。這項工作不再把幻覺檢測看成簡單的對錯分類,而是把它提升為對模型推理過程與證據(jù)一致性的整體評估。

FaithLens 的核心思路是:模型不僅需要判斷是否存在幻覺,還要生成清晰、具體、真正能幫助另一個模型做出正確判斷的解釋,并把這種“解釋是否有用”直接作為訓(xùn)練信號來優(yōu)化模型。

為此,研究團隊設(shè)計了一套結(jié)合監(jiān)督微調(diào)和強化學(xué)習(xí)的訓(xùn)練框架,通過合成數(shù)據(jù)、解釋過濾和獎勵機制,使模型在給出結(jié)論的同時,也學(xué)會說明依據(jù)在哪里、推理是怎么來的。實驗表明,在這一范式下,僅 8B 參數(shù)規(guī)模的模型,就在多個跨領(lǐng)域幻覺檢測任務(wù)上超過多款閉源大模型,同時在解釋質(zhì)量與推理一致性方面取得明顯優(yōu)勢。

清華孫茂松團隊 × 深言科技:以解釋作為訓(xùn)練信號,讓 8B 模型在幻覺檢測上反超閉源大模型

論文地址:https://arxiv.org/pdf/2512.20182

8B 模型反超多款閉源大模型

這項工作的核心實驗結(jié)果表明,研究團隊提出的 FaithLens 模型在忠實性幻覺檢測任務(wù)上達到了當(dāng)前最優(yōu)甚至超過閉源大模型的效果。

所謂忠實性幻覺,是指大語言模型在給定文檔或檢索信息的基礎(chǔ)上生成了與原文不一致、無法支持甚至相矛盾的內(nèi)容。實驗覆蓋 12 個跨領(lǐng)域跨任務(wù)的數(shù)據(jù)集,包括新聞?wù)?、檢索增強生成問答、固定文檔問答、事實核查和多跳推理等廣泛場景。這些任務(wù)分別來自 LLM-AggreFact 和 HoVer 兩大標(biāo)準(zhǔn)基準(zhǔn),具有很強代表性。

實驗采用宏平均 F1 值作為評價指標(biāo),從實驗結(jié)果來看,F(xiàn)aithLens 在這 12 個任務(wù)上的整體平均指標(biāo)超過了所有對比系統(tǒng)。特別是與當(dāng)前最強開放或閉源的大模型相比,比如 GPT-4.1、GPT-4o、o3、Claude 3.7 Sonnet 以及 Llama-3.1-405B 等,F(xiàn)aithLens 在整體性能上均取得領(lǐng)先。這一結(jié)果非常重要,因為 FaithLens 僅基于 8B 參數(shù)規(guī)模,而這些對比模型大多在百億乃至千億級別。

在多跳推理任務(wù) HoVer 上,F(xiàn)aithLens 尤為突出。該任務(wù)要求模型綜合多個證據(jù)片段,進行事實鏈推理,再判斷給定斷言是否被支持或被反駁。FaithLens 在這一任務(wù)上的顯著領(lǐng)先,說明它不僅依靠淺層模式匹配,而是具備了在文檔基礎(chǔ)上進行結(jié)構(gòu)化推理和一致性分析的能力。

清華孫茂松團隊 × 深言科技:以解釋作為訓(xùn)練信號,讓 8B 模型在幻覺檢測上反超閉源大模型

進一步看細節(jié),實驗還比較了 FaithLens 與專門為幻覺檢測而設(shè)計的系統(tǒng),如 AlignScore、FactCG、MiniCheck 和 ClearCheck 等。實驗表明,在絕大部分任務(wù)中,F(xiàn)aithLens 的表現(xiàn)明顯優(yōu)于這些專用系統(tǒng),而且在任務(wù)間的性能方差最低,說明不同類型的幻覺現(xiàn)象(例如摘要中的微扭曲、檢索問答中的無中生有、多跳推理中的推理缺環(huán)等)都可以被統(tǒng)一識別,從而具有較強的魯棒性與跨任務(wù)泛化能力。

清華孫茂松團隊 × 深言科技:以解釋作為訓(xùn)練信號,讓 8B 模型在幻覺檢測上反超閉源大模型

此外,研究人員還對“解釋生成質(zhì)量”做了專門實驗。他們通過人工評價以及 GPT-4.1 自動評價兩種方式,從可讀性、幫助性和信息量等維度,系統(tǒng)比較不同模型產(chǎn)生的解釋。結(jié)果表明,F(xiàn)aithLens 所生成的解釋比大多數(shù)模型更清晰、更具體,且能夠有效指出幻覺產(chǎn)生的原因,例如“文檔中不存在該事實”“因果關(guān)系被錯誤推出”“數(shù)字被曲解”等,而不是簡單重復(fù)問題或泛泛而談。

清華孫茂松團隊 × 深言科技:以解釋作為訓(xùn)練信號,讓 8B 模型在幻覺檢測上反超閉源大模型

更為關(guān)鍵的一點是計算成本。實驗給出了不同模型在同等樣本數(shù)量上的推理成本,F(xiàn)aithLens 由于參數(shù)規(guī)模小,可以用顯著更低的 GPU 資源實現(xiàn)推理,其成本大幅低于 API 級閉源模型,同時性能反而更優(yōu)。實驗結(jié)果綜合表明,F(xiàn)aithLens 在精度、穩(wěn)定性、解釋性以及成本四個方面都具有明顯優(yōu)勢。

清華孫茂松團隊 × 深言科技:以解釋作為訓(xùn)練信號,讓 8B 模型在幻覺檢測上反超閉源大模型

既要判斷對,也要解釋清,還要格式完整

這項工作的實驗設(shè)計依托于一個完整的模型訓(xùn)練框架,該框架包含兩個核心階段:冷啟動監(jiān)督微調(diào)階段(SFT)和基于規(guī)則的強化學(xué)習(xí)階段(RL)。研究團隊的設(shè)計目標(biāo)不是簡單提高分類準(zhǔn)確率,而是希望同時優(yōu)化兩個輸出維度:一是是否存在忠實性幻覺的判斷結(jié)果,二是對此判斷的自然語言解釋。

在冷啟動監(jiān)督微調(diào)階段,首要問題是訓(xùn)練數(shù)據(jù)的獲取。傳統(tǒng)做法需要人工標(biāo)注幻覺與否,同時撰寫解釋,這不僅昂貴且一致性差。雷峰網(wǎng)

研究團隊選擇利用強大的現(xiàn)成推理模型生成合成數(shù)據(jù),具體做法是從公開任務(wù)數(shù)據(jù)集中抽取文檔與斷言,輸入到大型推理模型中,令其輸出三種內(nèi)容:一是推理鏈條(chain-of-thought),二是自然語言解釋,三是標(biāo)簽。這樣得到的樣本同時包含語義上下文、任務(wù)斷言、模型推理、解釋和結(jié)論。

然而,合成數(shù)據(jù)質(zhì)量并不穩(wěn)定。為此,研究人員提出了三層過濾機制來對數(shù)據(jù)質(zhì)量進行控制。

第一層過濾關(guān)注標(biāo)簽正確性,即比較強模型給出的標(biāo)簽與原始標(biāo)注是否一致,若不一致則丟棄該樣本。這一機制可以防止模型學(xué)習(xí)“錯誤但看起來合理的解釋”,避免解釋與真實標(biāo)簽脫節(jié)。

第二層過濾關(guān)注解釋質(zhì)量。團隊沒有采用人工打分,而是提出了一種“解釋能否提高預(yù)測能力”的客觀指標(biāo):先計算模型在無解釋情況下預(yù)測正確標(biāo)簽的困惑度,再加入解釋重新預(yù)測,如果困惑度下降,則認定解釋確實提供了信息支持;否則,該解釋被視為冗余甚至誤導(dǎo),從而對應(yīng)樣本被剔除。

第三層過濾關(guān)注數(shù)據(jù)多樣性。由于前兩層過濾容易保留大量“簡單樣本”,從而導(dǎo)致模型過擬合某些模式,因此研究團隊使用句向量表示文檔-斷言對,通過聚類算法控制不同類別分布,選取具有代表性的樣本,使模型充分暴露于多種幻覺類型之中。

清華孫茂松團隊 × 深言科技:以解釋作為訓(xùn)練信號,讓 8B 模型在幻覺檢測上反超閉源大模型

之后,模型在這些通過三重過濾后的數(shù)據(jù)上進行監(jiān)督微調(diào),使其獲得初步的幻覺檢測能力和解釋生成能力。然而,該階段主要屬于模仿學(xué)習(xí),模型傾向于復(fù)制訓(xùn)練數(shù)據(jù)中的推理習(xí)慣,而不會主動優(yōu)化解釋質(zhì)量或判斷可靠性。因此研究人員引入第二階段 —— 基于規(guī)則的強化學(xué)習(xí)。

在強化學(xué)習(xí)階段,模型針對同一輸入生成多條候選輸出,每條輸出同時包含推理過程、解釋和最終標(biāo)簽。研究人員采用 GRPO(Group Relative Policy Optimization)算法來更新策略模型。這一算法無需訓(xùn)練額外獎勵模型,而是直接利用一組候選之間的相對表現(xiàn)進行優(yōu)化,更加高效。

實驗的關(guān)鍵創(chuàng)新在于獎勵設(shè)計。首先是預(yù)測正確獎勵,判斷模型最終是否正確識別幻覺或忠實內(nèi)容。該獎勵直接作用于分類準(zhǔn)確性。其次是解釋質(zhì)量獎勵,這是這項工作最重要的貢獻之一。

研究團隊提出使用一個較弱的新手模型作為評價器,將 FaithLens 生成的解釋輸入給新手模型,若新手模型因此更容易作出正確判斷,則說明該解釋具備清晰性和信息性,因而應(yīng)當(dāng)給予獎勵。這樣系統(tǒng)便能自動學(xué)習(xí)生成“對他人有用”的解釋,而不是僅僅“自我感覺良好”的描述。第三項獎勵是格式獎勵,用于約束輸出結(jié)構(gòu),使其包含完整的推理、解釋和標(biāo)簽,避免語句缺失或結(jié)構(gòu)混亂。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

通過三種獎勵的合成,F(xiàn)aithLens 在 RL 階段逐步學(xué)會兼顧判斷準(zhǔn)確性與解釋質(zhì)量。實驗還進行了系統(tǒng)性的消融實驗,將三重過濾、解釋質(zhì)量獎勵、RL 階段等組件依次去除,對性能影響進行分析,結(jié)果顯示,這些組件均對最終模型性能具有關(guān)鍵貢獻,尤其是解釋質(zhì)量獎勵對解釋可用性提升顯著。

清華孫茂松團隊 × 深言科技:以解釋作為訓(xùn)練信號,讓 8B 模型在幻覺檢測上反超閉源大模型

從黑箱判別,到透明可解釋

從學(xué)術(shù)層面來看,這項工作最重要的意義在于,它將幻覺檢測從簡單判別問題轉(zhuǎn)變?yōu)榭山忉尩耐评碓u估問題。以往的多數(shù)檢測模型只給出二元判斷,用戶并不知道模型依據(jù)何在,也無法定位幻覺的來源。FaithLens 的框架使模型不僅判斷“對或錯”,同時說明“錯在何處、為什么錯”,從而使幻覺檢測從黑箱工具轉(zhuǎn)向可以審查、可以復(fù)核的透明系統(tǒng)。

從應(yīng)用層面來看,研究解決了現(xiàn)實系統(tǒng)中的兩個矛盾:一方面,先進閉源大模型雖然檢測和解釋能力強,但成本極高,不適合大規(guī)模部署。另一方面,小規(guī)模模型推理便宜,但質(zhì)量不足。FaithLens 表明,通過精心設(shè)計的數(shù)據(jù)合成策略與強化學(xué)習(xí)方案,中等規(guī)模模型完全可以實現(xiàn)接近甚至超過閉源大模型的檢測與解釋能力,從而顯著提高系統(tǒng)可落地性。

從方法論角度來看,研究團隊提出了一種新的訓(xùn)練思想:即通過解釋是否能教會另一模型來衡量解釋質(zhì)量,這突破了傳統(tǒng)的 BLEU、ROUGE 等表面指標(biāo),將解釋從文本評價對象轉(zhuǎn)變?yōu)楣δ苄怨ぞ?。這一思想不僅適用于幻覺檢測,還可以推廣到推理鏈驗證、數(shù)學(xué)推理解釋、事實核查說明等領(lǐng)域。

更深層的意義在于,這項研究對 AI 可信性提出了新的標(biāo)準(zhǔn)。它暗含這樣一個觀點:未來的智能系統(tǒng)不能只輸出答案,而必須提供可追溯、可核驗、可被他模型使用的解釋。這與醫(yī)療、司法、教育、金融等高風(fēng)險領(lǐng)域的審計訴求高度契合,具有長遠的社會價值。

成果背后的科研力量

本論文共有三位共同第一作者,分別來自清華大學(xué)、復(fù)旦大學(xué)以及伊利諾伊大學(xué)香檳分校(UIUC),三人共同主導(dǎo)了本項工作的研究推進與論文撰寫。

其中,來自清華大學(xué)的司書正同時就職于深言科技,現(xiàn)為清華大學(xué)計算機系二年級博士生,其導(dǎo)師為孫茂松教授。他的研究方向主要包括自然語言處理和大規(guī)模語言模型。在相關(guān)領(lǐng)域,他以第一作者或共同第一作者身份在 NeurIPS、ACL、ICLR、EMNLP 等頂級國際會議發(fā)表論文 12 篇,其相關(guān)論文累計被引用 800 余次,GitHub 項目獲得超過 5000 顆星標(biāo),其中一篇第一作者論文獲得 EMNLP 2025 SAC Highlights Award。

清華孫茂松團隊 × 深言科技:以解釋作為訓(xùn)練信號,讓 8B 模型在幻覺檢測上反超閉源大模型

參考鏈接:https://s1s-z.github.io/

這項工作的通訊錄為孫茂松,他是清華大學(xué)計算機科學(xué)與技術(shù)系長聘教授、博士生導(dǎo)師,是我國自然語言處理(NLP)與人工智能領(lǐng)域的重要學(xué)者之一。他現(xiàn)任清華大學(xué)人工智能研究院常務(wù)副院長,并兼任清華大學(xué)多個重要學(xué)術(shù)組織與研究機構(gòu)的負責(zé)人,長期在教學(xué)、科研與人才培養(yǎng)一線工作,對我國 NLP 學(xué)科體系建設(shè)產(chǎn)生了深遠影響。

早年求學(xué)期間,孫茂松教授在清華大學(xué)計算機系完成本科與碩士學(xué)習(xí),之后又在海外繼續(xù)深造并獲得計算語言學(xué)博士學(xué)位,形成了扎實的語言學(xué)與計算機科學(xué)交叉背景。

作為清華大學(xué)自然語言處理實驗室(THUNLP)的主要學(xué)術(shù)帶頭人之一,孫茂松教授長期關(guān)注中文信息處理、機器翻譯、語義計算、大模型訓(xùn)練與推理、語言資源與知識圖譜、社會與人文計算等研究方向,帶領(lǐng)團隊圍繞 NLP 的基礎(chǔ)理論與關(guān)鍵技術(shù)開展系統(tǒng)性研究。他的研究既覆蓋語言建模、語義表示、推理等核心科學(xué)問題,也關(guān)注技術(shù)在教育、文化與社會治理等領(lǐng)域的落地與影響。

在科研成果方面,他指導(dǎo)和參與的團隊在 ACL、EMNLP、NAACL、COLING、AAAI、IJCAI 等國際頂級會議與期刊上發(fā)表了大量論文,并主持或承擔(dān)多項國家級重大科研項目。其研究成果涵蓋語言技術(shù)基礎(chǔ)理論、中文處理平臺、智能問答與翻譯系統(tǒng)、新一代大規(guī)模預(yù)訓(xùn)練語言模型等多個方向,為推動中文 NLP 技術(shù)進入國際前列發(fā)揮了關(guān)鍵作用。

除學(xué)術(shù)研究外,孫茂松教授也十分重視技術(shù)轉(zhuǎn)化與社會服務(wù)。他積極推動語言資源建設(shè)與相關(guān)國際標(biāo)準(zhǔn)制定,參與組織重要科研平臺與學(xué)術(shù)組織建設(shè),并倡導(dǎo)人工智能技術(shù)在教育普惠、文化傳承與公共治理中的應(yīng)用。他主持推動了多項具有社會影響力的工程與平臺,使語言智能技術(shù)真正走向公眾與產(chǎn)業(yè)實際場景。

在學(xué)術(shù)榮譽方面,孫茂松教授獲得了多項國內(nèi)外重要學(xué)術(shù)稱號與獎勵,包括國際學(xué)術(shù)組織會士等榮譽,充分體現(xiàn)了國際同行對其學(xué)術(shù)貢獻的認可。他培養(yǎng)的學(xué)生與團隊成員已在國內(nèi)外高校與企業(yè)成長為骨干力量,形成了在 NLP 領(lǐng)域具有持續(xù)影響力的學(xué)術(shù)梯隊。

總體而言,孫茂松教授既是中國 NLP 早期開拓者之一,也是近年來大語言模型與可信 AI 研究的重要推動者。面發(fā)揮了關(guān)鍵作用。

清華孫茂松團隊 × 深言科技:以解釋作為訓(xùn)練信號,讓 8B 模型在幻覺檢測上反超閉源大模型

參考鏈接:https://nlp.csai.tsinghua.edu.cn/staff/sms/

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

清華孫茂松團隊 × 深言科技:以解釋作為訓(xùn)練信號,讓 8B 模型在幻覺檢測上反超閉源大模型

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說