上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」

本文作者：鄭佳美

2026-01-16 15:12

導(dǎo)語：DA-DPO 不依賴額外標(biāo)注，通過難度感知訓(xùn)練提升模型可靠性。

多模態(tài)模型在感知、理解與生成等方面的能力持續(xù)提升，但其輸出中仍普遍存在與客觀事實(shí)不一致的內(nèi)容，即多模態(tài)幻覺現(xiàn)象。

當(dāng)模型面對信息缺失、語義含混或視覺細(xì)節(jié)復(fù)雜的場景時(shí)，往往會通過臆測進(jìn)行補(bǔ)全，從而捏造并不存在的病灶、物體或情節(jié)。這類問題并非偶發(fā)失誤，而是偏好優(yōu)化訓(xùn)練過程中逐漸積累的結(jié)構(gòu)性偏差所致：模型更容易從數(shù)量龐大、差異明顯的簡單樣本中獲得學(xué)習(xí)收益，卻對真正困難、歧義性強(qiáng)的樣本關(guān)注不足，結(jié)果是在復(fù)雜真實(shí)場景中的可靠性受到限制。

圍繞這一問題，上?？萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院何旭明教授帶領(lǐng)團(tuán)隊(duì)在論文《DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations》中開展了系統(tǒng)研究。這項(xiàng)工作指出，現(xiàn)有偏好優(yōu)化方法的核心癥結(jié)不在于數(shù)據(jù)規(guī)模的不足，而在于樣本難度分布失衡。

為此，團(tuán)隊(duì)提出了 DA-DPO 框架，通過預(yù)訓(xùn)練模型對樣本難度進(jìn)行估計(jì)，并在訓(xùn)練過程中動態(tài)調(diào)整樣本權(quán)重，使模型的學(xué)習(xí)重點(diǎn)自適應(yīng)地轉(zhuǎn)向復(fù)雜且更易出錯(cuò)的樣本，從而緩解簡單樣本主導(dǎo)訓(xùn)練所帶來的偏置。

值得注意的是，DA-DPO 不依賴額外人工標(biāo)注，也無需訓(xùn)練獨(dú)立的獎勵模型或引入復(fù)雜的強(qiáng)化學(xué)習(xí)流程，因而具有顯著的成本效率。在多項(xiàng)多模態(tài)評測基準(zhǔn)上，該方法不僅顯著降低了幻覺發(fā)生頻率，同時(shí)在很大程度上保持甚至提升了模型的整體理解與推理能力。

上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」

論文地址：https://arxiv.org/pdf/2601.00623v1

抑制幻覺，但不抑制能力

最終的實(shí)驗(yàn)結(jié)果表明，研究團(tuán)隊(duì)提出的 DA-DPO 方法在降低多模態(tài)大語言模型幻覺現(xiàn)象方面實(shí)現(xiàn)了穩(wěn)定而顯著的改進(jìn)，同時(shí)在保持甚至提升模型綜合能力方面也展現(xiàn)出明顯優(yōu)勢。

研究人員首先在多個(gè)幻覺評測基準(zhǔn)上開展了充分實(shí)驗(yàn)，包括 AMBER、MMHalBench、Object HalBench 和 POPE 等，這些基準(zhǔn)覆蓋圖像描述、開放式視覺問答以及目標(biāo)級別幻覺識別等不同任務(wù)類型，所采用的評價(jià)指標(biāo)涵蓋幻覺率、覆蓋率、F1 分?jǐn)?shù)及一致性得分等多個(gè)維度。

在這些評測中，與原始模型和傳統(tǒng) DPO 方法相比，DA-DPO 在降低幻覺率和提升事實(shí)一致性兩方面均表現(xiàn)出顯著提升。例如，在針對物體幻覺的測試中，模型明顯減少了對圖像中并不存在物體或?qū)傩缘囊茉烀枋觯绕湓趶?fù)雜場景和存在遮擋的情況下，DA-DPO 對隨意性、想象式回答的抑制效果更加突出。

同時(shí)，在綜合能力評估方面，包括 LLaVA-Bench、SeedBench、GQA 和 MME 等基準(zhǔn)測試顯示，傳統(tǒng) DPO 方法雖然能夠一定程度上抑制幻覺，但往往伴隨總體推理與理解能力的下降，相比之下，DA-DPO 在減少幻覺的同時(shí)，能夠基本保持甚至提升模型的通用多模態(tài)能力，尤其在多輪對話、復(fù)雜視覺推理以及多選視覺問答等任務(wù)上表現(xiàn)更為穩(wěn)健。雷峰網(wǎng)

這表明，DA-DPO 并非以保守輸出或減少表達(dá)為代價(jià)來控制幻覺，而是通過改進(jìn)偏好學(xué)習(xí)機(jī)制，使模型在忠實(shí)性與綜合能力之間達(dá)成更合理的平衡。

上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」

此外，實(shí)驗(yàn)還通過訓(xùn)練過程中的獎勵信號動態(tài)分析進(jìn)一步揭示了上述結(jié)果背后的機(jī)制。研究團(tuán)隊(duì)將驗(yàn)證集樣本按照難度劃分為四個(gè)等級后發(fā)現(xiàn)，在普通 DPO 訓(xùn)練中，簡單樣本的獎勵提升速度明顯快于困難樣本，并在訓(xùn)練后期形成較大差距。

而 DA-DPO 的訓(xùn)練曲線則顯示困難樣本的獎勵提升更加顯著，簡單樣本的增長趨緩，從而有效縮小不同難度樣本之間的獎勵差距。通過對最簡單與最困難樣本獎勵差距進(jìn)行積分所得到的 AUG 指標(biāo)，研究人員定量證明 DA-DPO 在整個(gè)訓(xùn)練過程中維持了更小的難易差異，這表明訓(xùn)練權(quán)重確實(shí)由簡單樣本向困難樣本轉(zhuǎn)移，最終轉(zhuǎn)化為對細(xì)粒度幻覺的顯著抑制以及綜合能力的穩(wěn)定保持。

上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」

把權(quán)重交給難樣本

實(shí)驗(yàn)設(shè)計(jì)圍繞一個(gè)核心出發(fā)點(diǎn)展開：在多模態(tài)偏好數(shù)據(jù)中，大量樣本屬于簡單偏好對，而傳統(tǒng) DPO 在訓(xùn)練過程中更容易擬合這類易于區(qū)分的樣本，從而削弱了對困難樣本的學(xué)習(xí)力度，導(dǎo)致模型在真實(shí)而復(fù)雜的應(yīng)用場景中仍然容易產(chǎn)生幻覺。

為驗(yàn)證這一判斷并提出相應(yīng)改進(jìn)方案，研究團(tuán)隊(duì)從模型選擇、數(shù)據(jù)構(gòu)建、難度估計(jì)方法、訓(xùn)練策略以及消融實(shí)驗(yàn)五個(gè)方面開展了系統(tǒng)而嚴(yán)密的實(shí)驗(yàn)布局。

上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」

在模型選擇方面，研究人員采用了 LLaVA v1.5 7B、LLaVA v1.5 13B 以及 LLaVA-OneVision 7B 等多種具有代表性的多模態(tài)大語言模型，覆蓋不同參數(shù)規(guī)模和感知能力，以避免方法僅對特定模型結(jié)構(gòu)有效。

上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」

在數(shù)據(jù)層面，團(tuán)隊(duì)并未依賴單一偏好數(shù)據(jù)集，而是綜合使用了三類來源不同的數(shù)據(jù)：BPO 自動構(gòu)造數(shù)據(jù)（通過弱化圖像與注入錯(cuò)誤生成負(fù)樣本）、VLFeedback 自動偏好數(shù)據(jù)（由多模型生成回答并經(jīng) GPT-4V 評分篩選）以及 LLaVA-RLHF 人工標(biāo)注數(shù)據(jù)?？鐢?shù)據(jù)源的實(shí)驗(yàn)設(shè)計(jì)旨在驗(yàn)證樣本難度不平衡是偏好數(shù)據(jù)中的普遍現(xiàn)象，而非個(gè)別數(shù)據(jù)集的偶然結(jié)果。

上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」

在此基礎(chǔ)上，實(shí)驗(yàn)提出了一種無需額外訓(xùn)練的難度估計(jì)機(jī)制。研究人員同時(shí)引入兩類預(yù)訓(xùn)練視覺語言模型：以 CLIP 為代表的對比式模型，從圖像與文本相關(guān)性的角度評估樣本，以及以 LLaVA 為代表的生成式模型，從問題與回答語義一致性的角度衡量樣本。雷峰網(wǎng)(公眾號：雷峰網(wǎng))

針對每一對偏好數(shù)據(jù)，分別計(jì)算被選回答與被拒回答的得分，并以分?jǐn)?shù)差值作為難易程度的依據(jù)：差值較大表示樣本容易區(qū)分，差值較小則表明樣本更為困難。隨后，研究團(tuán)隊(duì)通過高斯歸一化與分布感知投票策略對兩類模型的輸出進(jìn)行融合，使難度估計(jì)在穩(wěn)定性與魯棒性方面得到兼顧。

上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」

而在訓(xùn)練階段，團(tuán)隊(duì)將難度評分引入 DPO 框架中的 β 參數(shù)，使該參數(shù)不再固定，而是隨樣本難度自適應(yīng)變化，從而形成難度感知訓(xùn)練機(jī)制：困難樣本被賦予更高的優(yōu)化權(quán)重，而簡單樣本的過擬合趨勢則受到抑制。

上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」

為驗(yàn)證方法的真實(shí)有效性而非偶然現(xiàn)象，研究人員開展了大規(guī)模消融實(shí)驗(yàn)。例如，他們分別考察僅使用對比式模型、僅使用生成式模型以及兩者聯(lián)合進(jìn)行難度估計(jì)的效果，結(jié)果表明聯(lián)合方式明顯優(yōu)于單一來源，同時(shí)還構(gòu)建了直接刪除簡單樣本的過濾策略進(jìn)行對照，發(fā)現(xiàn)這一做法破壞數(shù)據(jù)多樣性并導(dǎo)致結(jié)果波動，而 DA-DPO 的軟加權(quán)方式則能夠持續(xù)帶來穩(wěn)定提升。

上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」

此外，研究團(tuán)隊(duì)還通過難度分桶訓(xùn)練進(jìn)一步表明，當(dāng)訓(xùn)練數(shù)據(jù)集中以中等難度樣本為主時(shí)，幻覺抑制效果最為顯著，從而進(jìn)一步支持了這樣一個(gè)關(guān)鍵觀點(diǎn)：相較于單純擴(kuò)大數(shù)據(jù)規(guī)模，樣本難度結(jié)構(gòu)的合理性對模型性能提升具有更為關(guān)鍵的作用。

上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」

從「數(shù)據(jù)更多」到「難度更準(zhǔn)」

整體來看，這項(xiàng)研究具有重要的學(xué)術(shù)意義和實(shí)際應(yīng)用價(jià)值。首先，從理論層面看，研究團(tuán)隊(duì)通過對訓(xùn)練動態(tài)、獎勵變化軌跡以及樣本難度分布的系統(tǒng)分析，揭示了一個(gè)此前在多模態(tài)偏好優(yōu)化領(lǐng)域未被充分重視的問題：傳統(tǒng) DPO 雖然在形式上實(shí)現(xiàn)了偏好對的優(yōu)化，但在訓(xùn)練過程中存在明顯的難度偏置，模型更傾向于學(xué)習(xí)簡單、差異明顯的樣本，而對語義復(fù)雜、區(qū)分細(xì)微、貼近真實(shí)應(yīng)用情境的困難樣本學(xué)習(xí)不足。

正是這種偏置，使得即便在大量偏好數(shù)據(jù)訓(xùn)練之后，幻覺問題仍然難以得到有效抑制。DA-DPO 的提出并非單純的工程技巧，而是將樣本難度作為顯式因素引入偏好優(yōu)化目標(biāo)之中，從根本上重構(gòu)了偏好學(xué)習(xí)問題的視角，強(qiáng)調(diào)提升模型對齊能力的關(guān)鍵不在于一味擴(kuò)大數(shù)據(jù)規(guī)模，而在于合理設(shè)計(jì)樣本難度結(jié)構(gòu)與權(quán)重分配。

這一理念對后續(xù)研究具有明顯啟發(fā)意義，自適應(yīng)采樣、困難樣本挖掘以及在線難度建模等方向都可在此基礎(chǔ)上進(jìn)一步發(fā)展。

其次，從方法和工程實(shí)現(xiàn)角度看，DA-DPO 具有成本低、效率高、可落地性強(qiáng)的特點(diǎn)。該方法不依賴新增人工標(biāo)注，也無需額外訓(xùn)練完整的獎勵模型，更不需要引入復(fù)雜的強(qiáng)化學(xué)習(xí)流程，而是利用現(xiàn)有預(yù)訓(xùn)練模型對樣本難度進(jìn)行評估，并在原有 DPO 框架中加入簡潔有效的 β 動態(tài)調(diào)節(jié)機(jī)制，即可獲得穩(wěn)定的性能提升。這種低成本與高收益并存的特點(diǎn)，使其非常適合在工業(yè)級多模態(tài)系統(tǒng)中部署與推廣。

最后，從應(yīng)用層面來看，多模態(tài)模型的幻覺問題直接影響其在安全關(guān)鍵任務(wù)中的實(shí)用性與可靠性。例如，醫(yī)療影像描述中若憑空捏造病灶，自動駕駛系統(tǒng)若誤判道路要素，或法律輔助系統(tǒng)若臆測事實(shí)細(xì)節(jié)，都可能帶來嚴(yán)重后果。

DA-DPO 在不顯著削弱模型能力的前提下有效降低幻覺發(fā)生頻率，從而顯著提升模型在此類高風(fēng)險(xiǎn)領(lǐng)域中的可信度與安全性。當(dāng)然，研究團(tuán)隊(duì)也指出該方法的局限性：難度評估依賴于當(dāng)前預(yù)訓(xùn)練模型的判斷能力，當(dāng)目標(biāo)領(lǐng)域與預(yù)訓(xùn)練語料存在較大差異時(shí)，難度評估可能不夠準(zhǔn)確。因此，未來工作有必要探索領(lǐng)域自適應(yīng)的難度估計(jì)方法以及自監(jiān)督式難度建模機(jī)制。

總體而言，這項(xiàng)研究不僅提供了一條切實(shí)可行的技術(shù)路線，更提出了一個(gè)對多模態(tài)偏好學(xué)習(xí)方式產(chǎn)生重要影響的核心觀點(diǎn)，這也是其最為關(guān)鍵的學(xué)術(shù)意義所在。

在多模態(tài)世界里尋找答案的人

本文的第一作者是 Longtian Qiu。他是上海科技大學(xué)信息科學(xué)與技術(shù)學(xué)院 PLUS Group 的碩士研究生，師從何旭明教授，目前攻讀人工智能方向的碩士學(xué)位。

本科階段同樣就讀于上海科技大學(xué)計(jì)算機(jī)科學(xué)專業(yè)，Longtian Qiu 的主要研究興趣涵蓋少樣本/低樣本學(xué)習(xí)、視覺—語言預(yù)訓(xùn)練以及提示學(xué)習(xí)等領(lǐng)域，而這些方向也是當(dāng)前多模態(tài)學(xué)習(xí)與視覺語言理解研究中的重要議題。

上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」

參考鏈接：https://faculty.sist.shanghaitech.edu.cn/plus/author/longtian-qiu/

這篇文章的通訊作者是何旭明。他是上?？萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院的副教授、研究員和博士生導(dǎo)師，同時(shí)擔(dān)任學(xué)院副院長和學(xué)位委員會主任。

他于 2008 年在加拿大多倫多大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位，隨后在加州大學(xué)洛杉磯分校（UCLA）從事博士后研究。此后，他先后在澳大利亞國家信息通信技術(shù)研究院（NICTA）和澳大利亞國立大學(xué)擔(dān)任研究員及高級研究員，積累了豐富的國際科研與合作經(jīng)驗(yàn)。自 2016 年起加入上?？萍即髮W(xué)，并于 2017 年起任副教授，長期在 PLUS Lab 領(lǐng)銜團(tuán)隊(duì)開展前沿研究工作。

何旭明教授的研究興趣主要集中在計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)與科學(xué)智能等領(lǐng)域，尤其關(guān)注開放世界場景理解、多模態(tài)數(shù)據(jù)的理解與生成、少樣本與非均衡數(shù)據(jù)學(xué)習(xí)、終身學(xué)習(xí)以及新類別發(fā)現(xiàn)等具有挑戰(zhàn)性的科學(xué)問題。在這些方向上，他已發(fā)表一百余篇學(xué)術(shù)論文，涵蓋 Nature Communications、IEEE TPAMI、Nano Letters、NeurIPS、ICLR、CVPR、ICCV 等國際頂級期刊與會議，在學(xué)術(shù)界產(chǎn)生了廣泛影響。

其科研成果被廣泛引用，并指導(dǎo)學(xué)生多次獲得重要學(xué)術(shù)獎勵，包括 IEEE CVPR Workshop 最佳論文獎、IEEE FG 最佳學(xué)生論文獎及 ICCV OOD-CV 競賽冠軍等。除此之外，何旭明教授還曾獲上海市優(yōu)秀教學(xué)成果一等獎，多次擔(dān)任 ICCV、ECCV、CVPR、NeurIPS 等國際頂級會議的領(lǐng)域主席，并擔(dān)任國際期刊 TMLR 副主編，現(xiàn)任上海市智能視覺與影像工程技術(shù)研究中心主任。

上科大何旭明團(tuán)隊(duì)新作：克服簡單樣本偏置，讓多模態(tài)模型學(xué)會「難題優(yōu)先」