日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給徐咪
發(fā)送

0

美團上線首個開源并可體驗的“重思考”模型,工具調用能力登頂開源SOTA

本文作者: 徐咪   2026-01-16 14:32
導語:作為LongCat-Flash-Thinking模型的升級版,LongCat-Flash-Thinking-2601現(xiàn)已開源。

1月16日,美團LongCat官微消息,作為LongCat-Flash-Thinking模型的升級版,LongCat-Flash-Thinking-2601現(xiàn)已開源。新模型在Agentic Search(智能體搜索)、Agentic Tool Use(智能體工具調用)、TIR(工具交互推理)等核心評測基準上,均達到開源模型SOTA水平。

值得一提的是,該模型在工具調用的泛化能力上優(yōu)勢尤其明顯,在依賴工具調用的隨機復雜任務中,性能表現(xiàn)超越了Claude-Opus-4.5-Thinking,可大幅度降低真實場景下新工具的適配訓練成本;同時,新模型支持“重思考”模式,可同時啟動8個“大腦”執(zhí)行任務,確保思考周全、決策可靠。

目前,該功能可在 https://longcat.ai網(wǎng)站免費體驗。

“重思考”功能全新上線 智能體工具調用能力登頂開源 SOTA

據(jù)介紹,全新推出的“重思考”模式,已讓“龍貓”學會了“深思熟慮”再行動。

具體來看,當遇到高難度問題時,新模型會把思考過程拆分成“并行思考”和“總結歸納”兩步進行:

并行思考階段,與人類面對難題會同時嘗試多種解法相似,“重思考”模式下的模型,會在保證思路多樣性的同時,獨立梳理出多條推理路徑尋找最優(yōu)解;總結歸納階段,則會對多條路徑進行梳理、優(yōu)化與合成,并將優(yōu)化結果重新輸入,形成閉環(huán)迭代推理,推動思考持續(xù)深化。

除此之外,LongCat團隊在新模型中加入了額外的強化學習環(huán)節(jié),針對性打磨模型的總結歸納能力,從而讓LongCat-Flash-Thinking-2601實現(xiàn)了“想清楚再行動”的結果。

經(jīng)過全面嚴謹?shù)脑u估,LongCat-Flash-Thinking-2601模型在編程、數(shù)學推理、智能體工具調用、智能體搜索等維度表現(xiàn)優(yōu)異:

美團上線首個開源并可體驗的“重思考”模型,工具調用能力登頂開源SOTA LongCat-Flash-Thinking-2601的平均性能比較(資料圖)

   · 編程能力:LongCat-Flash-Thinking-2601在LCB評測中取得82.8分,OIBench EN 評測獲47.7分,成績處于同類模型第一梯隊,代碼基礎能力扎實。

   · 數(shù)學推理能力:在開啟“重思考”模式后表現(xiàn)突出,LongCat-Flash-Thinking-2601在 AIME-25 評測中獲100.0分(滿分),IMO-AnswerBench中以86.8分達到當前SOTA。

   · 智能體工具調用能力:在τ2-Bench評測中拿到88.2分,VitaBench評測中獲得29.3分,均獲得開源SOTA水平,在多領域工具調用場景下表現(xiàn)優(yōu)異,適配實際應用需求。

   · 智能體搜索能力:在BrowseComp任務中取得73.1分(全模型最優(yōu)),RW Search 評測獲79.5分,LongCat-Flash-Thinking-2601具備強勁的信息檢索與場景適配能力,達到開源領先水平。

為了更好測試智能體模型的泛化能力,團隊還提出了一種全新的評測方法——通過構建一套自動化任務合成流程,支持用戶基于給定關鍵詞,為任意場景隨機生成復雜任務,并為每個生成的任務配備對應的工具集與可執(zhí)行環(huán)境。由于這類環(huán)境中的工具配置具有高度隨機性,該方法可通過評估模型在該類環(huán)境中的性能表現(xiàn),衡量其泛化能力。

實驗結果表明,LongCat-Flash-Thinking-2601在絕大多數(shù)任務中保持領先性能,印證了其在智能體場景下優(yōu)秀的泛化能力。

技術解密:從“靶場”到“實戰(zhàn)”的訓練哲學

對于新模型的技術思路,LongCat團隊解釋稱,傳統(tǒng)智能體往往僅在數(shù)個簡單模擬環(huán)境里訓練,這帶來的問題就像只在靶場訓練的士兵,到了真實“戰(zhàn)場”可能會掉鏈子。而基于“環(huán)境擴展+多環(huán)境強化學習”核心技術,團隊為模型打造了多樣化的“高強度練兵場”,構建了多套高質量訓練環(huán)境,并在每套環(huán)境中集成60余種工具形成密集依賴關系圖譜與復雜聯(lián)動,支撐起高度復雜的任務場景。實驗也證明,訓練環(huán)境越豐富,模型在未知場景中的泛化能力越強。

得益于這套方案,LongCat-Flash-Thinking-2601在智能體搜索、智能體工具調用等核心基準測試中穩(wěn)居前列。尤其在復雜隨機的分布外任務中,性能優(yōu)于 Claude-Opus-4.5-Thinking。

此外,LongCat團隊針對性擴展自研強化學習基礎設施,在保留原有高效異步訓練特性的基礎上,實現(xiàn)大規(guī)模多環(huán)境智能體的穩(wěn)定并行訓練,通過均衡搭配多環(huán)境任務、按難度與訓練進度智能分配算力,最大化提升訓練效率與資源利用率;該團隊還從復雜度、多樣性雙維度嚴控訓練任務,配套專屬數(shù)據(jù)庫及優(yōu)化方案,杜絕模型“偏科”與訓練漏洞,讓這套全流程方案持續(xù)賦能模型,使其穩(wěn)居智能體能力第一梯隊。

該團隊還表示,現(xiàn)實世界的智能體環(huán)境充滿不確定性,API調用失敗、返回異常信息、觀測數(shù)據(jù)不完整等“噪聲”問題,極易導致模型決策失誤。為此,團隊在訓練數(shù)據(jù)的過程中主動注入多類噪聲,模擬API的調用失敗、返回錯誤信息、數(shù)據(jù)缺失等場景,并用課程學習的方式循序漸進地進行模型訓練,在訓練過程中逐步增加噪聲的類型與強度——類比教新手騎車,首先會讓其在平坦路面做練習,等技能成熟后再逐步增加路面的復雜度。

美團上線首個開源并可體驗的“重思考”模型,工具調用能力登頂開源SOTA 帶噪聲/無噪聲評測集下的模型表現(xiàn)對比(資料圖)

經(jīng)過系統(tǒng)化的抗干擾訓練,LongCat-Flash-Thinking-2601(Training w/Noise組)擁有了極強的環(huán)境適應能力,在復雜場景中,也能穩(wěn)定發(fā)揮、高效完成任務。

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說