日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
業(yè)界 正文
發(fā)私信給nebula
發(fā)送

0

百度搭子DuMate登頂PinchBench,超越Anthropic拿下全球龍蝦執(zhí)行爭霸賽冠軍

本文作者: nebula   2026-05-08 18:36
導(dǎo)語:5月8日凌晨,百度搭子DuMate登頂智能體評測基準(zhǔn)PinchBench榜首。

5月8日凌晨,百度搭子DuMate登頂智能體評測基準(zhǔn)PinchBench榜首,并在前5位中占據(jù)3席,超越Anthropic和OpenAI拿下全球龍蝦執(zhí)行爭霸賽冠軍。在另外一項DeepResearch深度研究榜單中,DuMate同樣位列第一。

PinchBench是OpenClaw賽道最能體現(xiàn)Agent真實工作能力的評測基準(zhǔn),重點考察Agent在23個真實工作場景下147個任務(wù)的多步推理、工具調(diào)用和任務(wù)閉環(huán)能力,并從成功率、速度、成本三個維度綜合排名。榜單顯示,DuMate以93.3%和93.2%的總成績包攬前兩名。作為對照,Anthropic和OpenAI的同款模型場景下的成績分別為89.0%和91.6%。這意味著,同一模型在DuMate框架中,展現(xiàn)出更強(qiáng)的執(zhí)行力。

 百度搭子DuMate登頂PinchBench,超越Anthropic拿下全球龍蝦執(zhí)行爭霸賽冠軍

超越原生表現(xiàn)的技術(shù)基礎(chǔ),是DuMate的端云協(xié)同Harness架構(gòu)。該系統(tǒng)在任務(wù)到達(dá)時進(jìn)行意圖識別和敏感度判斷,隱私相關(guān)操作留在本地執(zhí)行,復(fù)雜推理任務(wù)上云完成,無需用戶手動切換。同時,系統(tǒng)對每次執(zhí)行所需的上下文做按需組裝——根據(jù)任務(wù)語義和用戶歷史行為,預(yù)判并注入必要的背景信息,減少冗余干擾。Harness與Skills還基于歷史執(zhí)行軌跡持續(xù)迭代,使得不同底層模型都能在接近其能力上限的狀態(tài)下穩(wěn)定運(yùn)行。

DeepResearch Bench是當(dāng)前對深度研究型Agent最全面的評測基準(zhǔn),從洞察深度、內(nèi)容準(zhǔn)確性、可讀性等維度考察Agent處理復(fù)雜研究任務(wù)的綜合能力。DuMate以58.03的綜合分位列第一,支撐這一成績的是DuMate自研Skills體系中的Deep Search與Deep Research雙引擎——前者負(fù)責(zé)跨平臺語義檢索與高價值信息定位,后者在此基礎(chǔ)上疊加多輪推理與因果分析,將碎片信息提煉為結(jié)構(gòu)化研究成果。

 百度搭子DuMate登頂PinchBench,超越Anthropic拿下全球龍蝦執(zhí)行爭霸賽冠軍

自2026年3月上線以來,DuMate保持一天一版的更新節(jié)奏,已通過信通院兩項安全測評且均獲最高等級。

 雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說