日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

本文作者: 鄭佳美   2026-01-19 13:53
導(dǎo)語:A3PO:針對(duì)冷門正確與自信錯(cuò)誤 token 的非對(duì)稱強(qiáng)化學(xué)習(xí)方法。

當(dāng)大語言模型開始被要求解數(shù)學(xué)題、寫證明、規(guī)劃任務(wù)流程,人們才真正意識(shí)到一件事:會(huì)生成并不等于會(huì)推理。

過去幾年,行業(yè)把大模型推向前所未有的規(guī)模,用 RLHF 和各種獎(jiǎng)勵(lì)技術(shù)把答案校準(zhǔn)得越來越像人類。但一個(gè)越來越尖銳的現(xiàn)實(shí)問題也隨之浮現(xiàn):模型為什么有時(shí)一本正經(jīng)地胡說八道?為什么在同一訓(xùn)練框架下,它有時(shí)異常自信卻錯(cuò)誤,有時(shí)又顯得畏首畏尾?在人們不斷強(qiáng)化學(xué)習(xí)信號(hào)、追求更高分?jǐn)?shù)的同時(shí),一個(gè)關(guān)鍵問題始終沒有被真正回答:正樣本與負(fù)樣本到底在模型內(nèi)部改變了什么。

正是在這樣的背景下,來自人大高瓴學(xué)院的趙鑫團(tuán)隊(duì)把注意力放在了這一核心問題上。他們沒有急于再提出一個(gè)更大的模型或更復(fù)雜的算法,而是刻意退后一步,圍繞 RLVR 框架設(shè)計(jì)了一整套系統(tǒng)實(shí)驗(yàn):如果只用正樣本會(huì)發(fā)生什么,只用負(fù)樣本又會(huì)產(chǎn)生怎樣的行為變化。模型是在真正形成推理能力,還是被獎(jiǎng)勵(lì)函數(shù)推著走向某些看似合理的套路?進(jìn)一步地,在一條完整的推理鏈中,是否存在少數(shù)關(guān)鍵 token,像岔路口一樣決定模型是走向正確,還是自信地偏離軌道。

圍繞這些問題,研究團(tuán)隊(duì)完成了論文《A3PO: Adaptive Asymmetric Advantage Shaping for Reasoning Models》,并提出了推理模型訓(xùn)練方法 A3PO。與其說這是一次方法層面的創(chuàng)新,不如說它首先完成了一次機(jī)制澄清:正樣本主要收縮策略空間,使模型在既有正確路徑上更加篤定,負(fù)樣本則擴(kuò)張策略空間,推動(dòng)模型跳出舊有模式持續(xù)探索,而真正決定訓(xùn)練走向的,并非整條樣本本身,而是推理過程中那些冷門卻正確、以及自信但錯(cuò)誤的關(guān)鍵 token。

在這一認(rèn)識(shí)基礎(chǔ)上形成的 A3PO 方法,將訓(xùn)練重點(diǎn)從整體樣本轉(zhuǎn)向關(guān)鍵決策點(diǎn),使推理模型的學(xué)習(xí)過程變得更加可解釋、也更可控制。這一轉(zhuǎn)變表明,推理大模型的進(jìn)步不再只是依賴規(guī)模和算力,而正在走向?qū)τ?xùn)練機(jī)制本身的深入理解。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

論文地址:https://arxiv.org/pdf/2512.21625v1

正樣本「收縮」vs 負(fù)樣本「探索」

實(shí)驗(yàn)中,研究人員首先對(duì)比了正樣本和負(fù)樣本,并發(fā)現(xiàn)它們?cè)谟?xùn)練過程中起到的作用完全不同。

具體表現(xiàn)為,當(dāng)只用正樣本訓(xùn)練(PSR)時(shí),模型會(huì)變得越來越確定:熵迅速下降,輸出分布越來越尖銳,答案長(zhǎng)度明顯變短,經(jīng)常直接給出結(jié)果而不展開完整推理。這說明正樣本更多是在強(qiáng)化已經(jīng)正確的推理路徑,讓模型不斷重復(fù)熟悉的解題套路,同時(shí)也會(huì)抑制繼續(xù)探索新路徑。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

與此相反,只用負(fù)樣本訓(xùn)練(NSR)時(shí),模型的熵保持在較高水平甚至上升,回答長(zhǎng)度變長(zhǎng),推理步驟增多,表現(xiàn)出更強(qiáng)的嘗試和探索傾向。這是因?yàn)樨?fù)樣本訓(xùn)練主要在削弱錯(cuò)誤 token 的概率,使原本集中的概率被分散到其他候選路徑上,從而帶來更強(qiáng)的探索能力。

不過,實(shí)驗(yàn)也表明,兩種極端方式其實(shí)都不理想:只用正樣本容易出現(xiàn) reward hacking,只報(bào)答案不推理,只用負(fù)樣本訓(xùn)練不穩(wěn)定,甚至可能生成亂碼。整體比較下來,正負(fù)樣本同時(shí)使用(DAPO)時(shí)訓(xùn)練曲線更平穩(wěn),泛化能力也最好。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

在此基礎(chǔ)上,研究人員又引入銳化(sharpen)和發(fā)現(xiàn)(discovery)兩個(gè)指標(biāo)來刻畫模型生成內(nèi)容的變化。銳化指標(biāo)反映模型是否在重復(fù)歷史正確答案中已經(jīng)出現(xiàn)過的 n-gram,而發(fā)現(xiàn)指標(biāo)反映是否產(chǎn)生了新的、從未出現(xiàn)過的 n-gram。雷峰網(wǎng)

結(jié)果顯示,在銳化指標(biāo)上,PSR 高于 DAPO,DAPO 又高于 NSR,在發(fā)現(xiàn)指標(biāo)上則相反,NSR 最高,DAPO 居中,PSR 最低。這表明正樣本更像在磨刀,使已有正確模式變得更熟練、更穩(wěn)定,而負(fù)樣本更像在開路,推動(dòng)模型尋找新的推理方式,兩者結(jié)合才能既保證穩(wěn)定性,又拓展能力上限。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

研究團(tuán)隊(duì)還從極性級(jí) advantage 的角度分析了正負(fù)樣本權(quán)重的影響。以 Qwen2.5-7B-Math 為例,當(dāng)增大正樣本權(quán)重(如 P2N1、P1N0.5)時(shí),訓(xùn)練獎(jiǎng)勵(lì)上升更快,但熵明顯下降、輸出變短,探索能力減弱,權(quán)重過大時(shí)甚至?xí)^擬合既有模式,而當(dāng)增大負(fù)樣本權(quán)重(如 P1N5)時(shí),熵和輸出長(zhǎng)度都更高,探索更充分,但獎(jiǎng)勵(lì)上升變慢,模型表現(xiàn)得更加謹(jǐn)慎。

實(shí)驗(yàn)表明,決定訓(xùn)練動(dòng)態(tài)的關(guān)鍵不在于各自權(quán)重的絕對(duì)大小,而在于正負(fù)樣本之間的比例,例如 P2N1 與 P1N0.5 的比例相同,曲線表現(xiàn)也非常相似。總體來看,正負(fù) advantage 比例大約在 1:2 左右時(shí),能夠較好地兼顧收斂速度與探索能力。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

最后,在 token 級(jí)別的實(shí)驗(yàn)中,研究人員進(jìn)一步分析了哪些 token 在訓(xùn)練中最關(guān)鍵。結(jié)果發(fā)現(xiàn),并不是所有 token 都同等重要,而是兩類最關(guān)鍵:一類是正樣本中的低概率 token,即冷門但正確的推理步驟,另一類是負(fù)樣本中的高概率 token,也就是模型非常自信但實(shí)際上是錯(cuò)誤的部分。

前者需要重點(diǎn)獎(jiǎng)勵(lì),以保留多樣但正確的推理路徑,后者需要重點(diǎn)懲罰,防止模型固執(zhí)地堅(jiān)持錯(cuò)誤答案。新提出的 A3PO 方法正是圍繞這兩類關(guān)鍵 token 進(jìn)行非對(duì)稱加權(quán)設(shè)計(jì)的,這一點(diǎn)也得到了實(shí)驗(yàn)數(shù)據(jù)的支持。

在 Qwen2.5-7B-Math 上,A3PO 在 AIME24 與 AIME25 上分別從 DAPO 的 27.6 和 21.4 提升到 31.5 和 24.8;在 Qwen3-8B-Base 上,也從 34.2/26.1 提升到 37.8/30.4;在 DeepSeek-R1 蒸餾模型上,則從 60.8/50.8 提升到 65.2/54.1。并且,這些提升不僅出現(xiàn)在單一數(shù)據(jù)集上,而是在 AIME、MATH500、GPQA 等多個(gè)基準(zhǔn)上同時(shí)出現(xiàn),其中多項(xiàng)結(jié)果還通過了顯著性檢驗(yàn)。

因此,可以認(rèn)為 A3PO 在保持較強(qiáng)探索能力的同時(shí),確實(shí)在不同模型與不同評(píng)測(cè)任務(wù)上帶來了穩(wěn)定且明確的性能提升。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

在機(jī)制分析基礎(chǔ)上構(gòu)建 A3PO

為了得到全面的實(shí)驗(yàn)結(jié)果,研究人員首先圍繞 RLVR 框架搭建了一系列對(duì)照實(shí)驗(yàn),目的是不急于提出新方法,而是先把正樣本和負(fù)樣本的作用拆開來看,分別考察只用正樣本、只用負(fù)樣本以及正負(fù)樣本同時(shí)使用時(shí)模型的具體表現(xiàn)。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

實(shí)驗(yàn)選擇了三種類型不同的大語言模型作為基座,包括數(shù)學(xué)能力增強(qiáng)的 Qwen2.5-7B-Math、通用預(yù)訓(xùn)練模型 Qwen3-8B-Base 以及經(jīng)過推理蒸餾的 DeepSeek-R1-Distill-Qwen-7B,并分別在三種訓(xùn)練范式下進(jìn)行對(duì)比:只使用正樣本更新的 PSR,只使用負(fù)樣本更新的 NSR,以及同時(shí)利用正負(fù)樣本、目前較常用的 DAPO 方法。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

整個(gè)訓(xùn)練過程中不僅跟蹤模型的熵、生成回答長(zhǎng)度和獎(jiǎng)勵(lì)值等指標(biāo),以反映其確定性與探索性的變化,還在驗(yàn)證集上測(cè)試 AIME25 的 Avg@32 和 Pass@32 等指標(biāo),來評(píng)估真實(shí)推理能力。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

在確認(rèn)正負(fù)樣本都發(fā)揮重要且不同作用之后,研究人員進(jìn)一步進(jìn)行粗粒度的參數(shù)控制實(shí)驗(yàn),從極性層面調(diào)整 advantage 權(quán)重。在 Qwen2.5-7B-Math 上,將 RLVR 的損失函數(shù)拆分為正樣本項(xiàng)和負(fù)樣本項(xiàng),通過設(shè)置不同的權(quán)重組合(如正負(fù) 1:5 或 2:1 等),系統(tǒng)比較不同權(quán)重比例下模型的熵、輸出長(zhǎng)度、訓(xùn)練獎(jiǎng)勵(lì)以及 AIME24 上的表現(xiàn),從而分析正負(fù)樣本整體權(quán)重對(duì)訓(xùn)練動(dòng)態(tài)的影響。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

在此基礎(chǔ)上,研究視角被進(jìn)一步細(xì)化到 token 層面。研究人員不再僅討論“正負(fù)樣本整體重要與否”,而是考察一條推理序列內(nèi)部不同 token 的差異作用。具體做法是根據(jù) token 的熵和概率兩個(gè)維度,挑選出正樣本和負(fù)樣本中高熵與低熵、高概率與低概率的不同 token 類型,然后分別對(duì)這些 token 的 advantage 進(jìn)行大幅放縮,例如乘以 0.2 或 5,觀察模型訓(xùn)練曲線與生成行為隨之發(fā)生的變化,從而找出真正對(duì)訓(xùn)練最敏感、最關(guān)鍵的 token 區(qū)域。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

在完成以上一系列分析之后,研究團(tuán)隊(duì)提出了新的 A3PO 方法,其核心思想是在 RLVR 目標(biāo)中引入自適應(yīng)且非對(duì)稱的 token 級(jí) advantage 加權(quán)機(jī)制:對(duì)正樣本中低概率的 token 給予更高獎(jiǎng)勵(lì),以鼓勵(lì)保留多樣但正確的推理路徑,對(duì)負(fù)樣本中高概率的 token 給予更強(qiáng)懲罰,以重點(diǎn)糾正模型自信但錯(cuò)誤的推理。同時(shí),這些加權(quán)系數(shù)在訓(xùn)練過程中逐步衰減,使模型能夠從前期的更強(qiáng)探索自然過渡到后期的穩(wěn)定收斂。

實(shí)驗(yàn)采用與前述相同的三種模型,在 DAPO-Math 數(shù)據(jù)集上進(jìn)行訓(xùn)練,基于 Verl 與 vLLM 的離線強(qiáng)化學(xué)習(xí)框架,每個(gè)提示生成 8 個(gè)樣本,訓(xùn)練 300 步,并與 GRPO、DAPO、W-REINFORCE、DAPO-Fork-Tokens 和 Lp-Reg 等方法進(jìn)行對(duì)比,測(cè)試任務(wù)涵蓋 AIME24、AIME25、MATH500、GPQA 與 LiveCodeBench 等多個(gè)推理基準(zhǔn)。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

此外,研究團(tuán)隊(duì)還系統(tǒng)評(píng)估了 A3PO 在不同模型規(guī)模和不同訓(xùn)練數(shù)據(jù)集上的泛化能力,并對(duì)其關(guān)鍵超參數(shù)(包括 token 選擇比例、初始縮放系數(shù) ρ 以及衰減系數(shù) α)進(jìn)行了敏感性分析,從而形成完整的實(shí)驗(yàn)設(shè)計(jì)框架。

正負(fù)樣本作用邊界的重新界定

整體來看,這項(xiàng)研究的核心意義在于,它把原本相對(duì)模糊的 RLVR 訓(xùn)練過程,轉(zhuǎn)化為一個(gè)具有清晰結(jié)構(gòu)和內(nèi)部機(jī)制解釋的框架。過去在強(qiáng)化學(xué)習(xí)訓(xùn)練推理模型時(shí),人們大致知道需要正樣本,也會(huì)使用負(fù)樣本,但往往難以回答一個(gè)根本問題:正負(fù)樣本各自在訓(xùn)練中究竟起什么作用,它們?nèi)绾胃淖兡P偷膶W(xué)習(xí)動(dòng)力學(xué)。

這項(xiàng)工作通過系統(tǒng)實(shí)驗(yàn)給出了明確答案:正樣本主要收縮策略空間,使模型已經(jīng)掌握的正確模式更加集中和穩(wěn)定,負(fù)樣本則擴(kuò)張策略空間,迫使模型脫離舊有模式,去探索新的推理路徑。更重要的是,研究并未停留在正樣本銳化能力、負(fù)樣本促進(jìn)探索這樣的概括層面,而是進(jìn)一步指出訓(xùn)練質(zhì)量真正取決于哪些具體決策點(diǎn)被重點(diǎn)強(qiáng)化。

研究表明,正樣本中那些原本選擇概率較低但通向正確答案的 token,以及負(fù)樣本中那些模型高度自信卻指向錯(cuò)誤答案的 token,對(duì)探索與利用平衡具有決定性影響。

A3PO 的設(shè)計(jì)正是把這一認(rèn)識(shí)具體化為訓(xùn)練原則,在這些關(guān)鍵拐點(diǎn)上進(jìn)行非對(duì)稱 advantage 放大,并隨訓(xùn)練進(jìn)程逐步衰減這種偏置。由此,強(qiáng)化學(xué)習(xí)不再只是簡(jiǎn)單地增加正確獎(jiǎng)勵(lì)或扣減錯(cuò)誤分?jǐn)?shù),而是轉(zhuǎn)向圍繞關(guān)鍵局部決策點(diǎn)有針對(duì)性地塑造策略分布。這樣的視角,使正負(fù)樣本從被動(dòng)的數(shù)據(jù)來源,轉(zhuǎn)變?yōu)榭杀痪?xì)調(diào)控的優(yōu)化工具,也把方法研究從經(jīng)驗(yàn)性調(diào)參提升到機(jī)制性設(shè)計(jì)層面。

從更長(zhǎng)遠(yuǎn)看,這一思路為大模型對(duì)齊、多模態(tài)推理以及智能體決策中的強(qiáng)化學(xué)習(xí)提供了共同的方向,即不再平均對(duì)待所有行為信號(hào),而是抓住那些對(duì)整體策略結(jié)構(gòu)影響最大的關(guān)鍵 token 和關(guān)鍵狀態(tài)進(jìn)行重點(diǎn)塑形。

背后的學(xué)術(shù)力量

這篇論文的通訊作者為趙鑫,現(xiàn)任中國(guó)人民大學(xué)高瓴人工智能學(xué)院教授、長(zhǎng)聘副教授,同時(shí)他也是國(guó)家優(yōu)青項(xiàng)目獲得者。

趙鑫教授于 2014 年 7 月在北京大學(xué)取得博士學(xué)位,之后就職于中國(guó)人民大學(xué),至今一直從事教學(xué)與科研工作。他的主要研究領(lǐng)域?yàn)樾畔z索與自然語言處理,目前已發(fā)表學(xué)術(shù)論文 200 余篇,谷歌學(xué)術(shù)引用量超過 1.8 萬次。

他牽頭開發(fā)了開源推薦系統(tǒng)工具 RecBole(伯樂)和文本生成工具 TextBox(妙筆),并組織撰寫了《A Survey of Large Language Models》綜述論文及中文專著《大語言模型》。

趙鑫教授先后獲得吳文俊人工智能優(yōu)秀青年獎(jiǎng)(2020)、ECIR 2021 時(shí)間檢驗(yàn)獎(jiǎng)、RecSys 2022 最佳學(xué)生論文提名、CIKM 2022 最佳資源論文提名等榮譽(yù)稱號(hào),同時(shí)入選中國(guó)科協(xié)青年人才托舉工程、北京智源青年科學(xué)家和 CCF–IEEE CS 青年科學(xué)家計(jì)劃,其系列研究成果還榮獲教育部自然科學(xué)一等獎(jiǎng)、北京市自然科學(xué)二等獎(jiǎng)及中國(guó)計(jì)算機(jī)學(xué)會(huì)自然科學(xué)二等獎(jiǎng)。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

參考鏈接:https://gsai.ruc.edu.cn/waynexinzhao

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

人大高瓴趙鑫團(tuán)隊(duì)新作:先拆掉 RLVR,再重建推理模型訓(xùn)練

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說