日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

AI 醫(yī)療還在比進(jìn)度,百川已在比高度

本文作者: 鄭佳美   2026-01-16 15:01
導(dǎo)語:Baichuan-M3:以為醫(yī)療決策過程建模為核心,三項(xiàng)關(guān)鍵評測達(dá)到全球最優(yōu)水平。

近一年來,AI 醫(yī)療正在進(jìn)入一個(gè)明顯不同于以往的新階段。無論在國內(nèi)還是海外,越來越多大型科技公司、醫(yī)藥企業(yè)和產(chǎn)業(yè)資本開始通過投資、并購或深度合作的方式,進(jìn)入 AI 健康與醫(yī)療領(lǐng)域。

這背后并不只是對賽道規(guī)模的押注,而是一個(gè)更清晰的共識正在形成:醫(yī)療,正在成為少數(shù)真正需要、也能夠檢驗(yàn)大模型能力上限的核心場景之一。

但現(xiàn)實(shí)問題同樣突出。盡管應(yīng)用數(shù)量快速增長,受限于能力,真正能進(jìn)入醫(yī)療核心流程的 AI依然有限。當(dāng)前主流醫(yī)療大模型,大多仍建立在靜態(tài)問答或醫(yī)生角色扮演的范式之上,模型被要求給出看起來合理、語氣專業(yè)的回答,卻并不真正理解醫(yī)療決策是如何發(fā)生的。

在真實(shí)場景中,這類模型往往難以主動發(fā)現(xiàn)信息缺口,無法構(gòu)建完整的醫(yī)學(xué)推理路徑,也缺乏對醫(yī)療幻覺的有效約束,最終只能反復(fù)輸出模糊而安全的高頻建議。這正是 AI 醫(yī)療看起來很熱,但落地很難的根本原因。

行業(yè)真正需要的,并不是更像醫(yī)生的回答,而是更接近醫(yī)療決策過程本身的模型能力。

百川給出的解法,正是從這一點(diǎn)切入。百川新一代醫(yī)療增強(qiáng)大語言模型 Baichuan-M3,沒有繼續(xù)強(qiáng)化問答或?qū)υ挶憩F(xiàn),而是將訓(xùn)練目標(biāo)直接對準(zhǔn)醫(yī)療決策過程本身。新的模型不再只負(fù)責(zé)生成結(jié)論,而是被訓(xùn)練為能夠主動收集關(guān)鍵信息、構(gòu)建醫(yī)學(xué)推理路徑,并在推理過程中持續(xù)抑制幻覺。這意味著,模型第一次被系統(tǒng)性地當(dāng)作決策參與者,而不是回答生成器。

這種能力定義的變化,直接提升了模型在真實(shí)醫(yī)療場景中的可用性與可靠性。在多項(xiàng)醫(yī)療評測中,Baichuan-M3 已經(jīng)展現(xiàn)出超越當(dāng)前國際主流模型的表現(xiàn),它的優(yōu)勢并不體現(xiàn)在表達(dá)更自然,而在于判斷更穩(wěn)定、推理更完整、風(fēng)險(xiǎn)更可控。

從更宏觀的角度看,百川的路徑,或許代表著 AI 醫(yī)療正在發(fā)生的一次重要轉(zhuǎn)向:行業(yè)關(guān)注點(diǎn)正從模型能不能回答醫(yī)學(xué)問題,轉(zhuǎn)向模型是否能被信任地嵌入醫(yī)療系統(tǒng)。

當(dāng)這一條件逐步成立,AI 醫(yī)療的價(jià)值,才可能真正從單點(diǎn)工具,演進(jìn)為醫(yī)療體系中的基礎(chǔ)能力。

百川用三個(gè) SOTA 破局 AI 臨床落地難題

在嚴(yán)肅醫(yī)療場景中,判斷一個(gè)大模型能不能真正用起來,關(guān)鍵并不在于它能不能給出一個(gè)看起來合理的答案,而在于它能不能在復(fù)雜、不確定、要求很高的情況下,穩(wěn)定走完整個(gè)醫(yī)療決策過程。

百川在新一代醫(yī)療增強(qiáng)大語言模型 Baichuan-M3 中,正是圍繞這一點(diǎn)做系統(tǒng)性設(shè)計(jì)的。模型的實(shí)際效果,主要體現(xiàn)在三個(gè)關(guān)鍵評測維度上,而且在這三個(gè)維度中都達(dá)到了當(dāng)前行業(yè)的最好水平。

第一個(gè)維度,是 HealthBench 評估基準(zhǔn)。HealthBench 是由 OpenAI 發(fā)布的醫(yī)療健康評測測試集,一共包含 5000 組來自真實(shí)醫(yī)療場景的多輪對話,覆蓋了多種實(shí)際應(yīng)用情況。它和常見的問答測試不一樣,不是看答得像不像,而是由 262 名醫(yī)生共同制定了 48,562 項(xiàng)評估標(biāo)準(zhǔn),用來系統(tǒng)評估模型在連續(xù)問診、醫(yī)學(xué)推理和風(fēng)險(xiǎn)控制等方面的能力。這一基準(zhǔn),也是 OpenAI 用來評估自家最先進(jìn)模型和醫(yī)療健康產(chǎn)品的重要參考,包括 GPT-5.2 和 ChatGPT Health。

在 HealthBench 及其高難度子集 HealthBench-Hard 的測試中,Baichuan-M3 表現(xiàn)出了明顯的代際提升。和上一代模型 Baichuan-M2 相比,M3 在 HealthBench-Hard 上的得分提高了 27.9 個(gè)百分點(diǎn),最終達(dá)到 44.4 分,并超過 GPT-5.2,刷新了這一基準(zhǔn)的最好成績。同時(shí),在 HealthBench 的綜合排行榜中,Baichuan-M3 也排在第一位。這說明,在更復(fù)雜、更接近真實(shí)使用環(huán)境的醫(yī)療場景中,模型的穩(wěn)定性和一致性已經(jīng)明顯提高。

AI 醫(yī)療還在比進(jìn)度,百川已在比高度

第二個(gè)維度,是對醫(yī)療幻覺的控制。降低幻覺一直是百川在醫(yī)療方向上的長期目標(biāo)。此前在 Baichuan-M2Plus 中,百川已經(jīng)驗(yàn)證,通過六源證據(jù)體系引入外部證據(jù),可以在一定程度上緩解幻覺問題。 Baichuan-M3 更進(jìn)一步,重點(diǎn)進(jìn)一步前移到了模型本身,也就是在不使用外部工具、不做檢索增強(qiáng)的情況下,盡量減少模型僅憑內(nèi)部知識生成時(shí)出現(xiàn)幻覺。

AI 醫(yī)療還在比進(jìn)度,百川已在比高度

為此,百川采用了一種更嚴(yán)格的評估方式。模型生成的長文本,會被拆解成一條條可以核查的醫(yī)學(xué)判斷,再逐條和權(quán)威醫(yī)學(xué)來源進(jìn)行比對,從而量化模型的事實(shí)準(zhǔn)確性。

在這種無工具場景下的測試中,Baichuan-M3 的幻覺問題明顯減少,整體可靠性已經(jīng)超過 GPT-5.2。這意味著,模型在信息不充分時(shí),不再急于給出結(jié)論,而是更傾向于收斂判斷、降低風(fēng)險(xiǎn)。

AI 醫(yī)療還在比進(jìn)度,百川已在比高度

第三個(gè)維度,是端到端的嚴(yán)肅問診能力。為此,百川提出了“嚴(yán)肅問診范式”與“SCAN原則”,通過 Safety Stratification(安全分層)、Clarity Matters(信息澄清)、Association & Inquiry(關(guān)聯(lián)追問)與 Normative Protocol(規(guī)范化輸出),將臨床問診中高度依賴經(jīng)驗(yàn)的思維過程,第一次系統(tǒng)性地“白盒化”。

圍繞 SCAN 原則,百川借鑒醫(yī)學(xué)教育里長期使用的 OSCE 方法,聯(lián)合 150 多位一線醫(yī)生,搭建了 SCAN-bench 評測體系,這個(gè)體系以真實(shí)臨床經(jīng)驗(yàn)作為“標(biāo)準(zhǔn)答案”,將診療過程拆解為病史采集、輔助檢查、精準(zhǔn)診斷三大階段,通過動態(tài)、多輪的方式進(jìn)行考核,完整模擬醫(yī)生從接診到確診的全過程。相比于 HealthBench,SCAN-bench 是更加全流程端到端的動態(tài)評測新范式。雷峰網(wǎng)

同時(shí),百川還使用原生模型訓(xùn)練方法取代角色扮演 prompt,針對 GRPO 無法穩(wěn)定進(jìn)行長對話訓(xùn)練的問題,設(shè)計(jì)了新的 SPAR 算法,使模型能夠在有限對話輪次中,把臨床真正需要的關(guān)鍵問題問全、問準(zhǔn),把風(fēng)險(xiǎn)兜住,讓輸出經(jīng)得起復(fù)核。

AI 醫(yī)療還在比進(jìn)度,百川已在比高度

在 SCAN-bench 的綜合評測中,Baichuan-M3 在臨床問診、實(shí)驗(yàn)室檢查和疾病診斷三個(gè)核心環(huán)節(jié)中都排在第一位。

尤其是在最難、也最能拉開差距的臨床問診階段,Baichuan-M3 得到了 74.9 分,不僅比第二名模型 GPT-5.2-High 高出 12.4 分,也明顯高于 53.5 分的人類基線水平。在實(shí)驗(yàn)室檢查建議和最終診斷兩個(gè)環(huán)節(jié),模型分別取得 72.1 分和 74.4 分,同樣保持最高準(zhǔn)確率。這些結(jié)果說明,Baichuan-M3 已經(jīng)具備從病史采集、檢查決策到最終診斷的完整醫(yī)療推理能力。

AI 醫(yī)療還在比進(jìn)度,百川已在比高度

支撐這些結(jié)果的,是百川對醫(yī)療長決策鏈訓(xùn)練方式的系統(tǒng)調(diào)整。在訓(xùn)練中,復(fù)雜的診療流程被拆分成多個(gè)階段分別優(yōu)化,并通過分段流水線強(qiáng)化學(xué)習(xí)提高整體效率。同時(shí),引入 SPAR 算法,對多輪對話中的每一步進(jìn)行更精細(xì)的獎(jiǎng)勵(lì)和約束,減少無效提問和邏輯跳躍,讓模型在保證準(zhǔn)確率的同時(shí),保持交互過程的連貫和可控。醫(yī)學(xué)教育中的 OSCE 理念,也被引入到訓(xùn)練中,用來約束模型不僅對結(jié)果負(fù)責(zé),也要對整個(gè)決策過程負(fù)責(zé)。

在此基礎(chǔ)上,Baichuan-M3 把推理能力的提升和幻覺控制放在同一套工程目標(biāo)中一起優(yōu)化。通過事實(shí)感知強(qiáng)化學(xué)習(xí)訓(xùn)練架構(gòu),模型在提升推理能力的同時(shí),引入對醫(yī)學(xué)事實(shí)的動態(tài)校驗(yàn)機(jī)制,避免因?yàn)橥评砟芰ψ儚?qiáng)而放大幻覺風(fēng)險(xiǎn)。最終形成的,是一種既能深入推理、又足夠可靠的醫(yī)療服務(wù)能力。

AI 醫(yī)療還在比進(jìn)度,百川已在比高度

整體來看,Baichuan-M3 在 HealthBench、幻覺評估和 SCAN-bench 三個(gè)維度上的領(lǐng)先,并不是零散成績,而是同一套設(shè)計(jì)思路在不同評測體系中的集中體現(xiàn)。當(dāng)模型被訓(xùn)練為真正理解醫(yī)療決策是如何一步步發(fā)生的,它在真實(shí)醫(yī)療場景中的長期使用價(jià)值,才真正開始成立。

真正的 AI 醫(yī)療,不是一場短跑

如果把視角從單一模型或單次技術(shù)突破中抽離出來,放到更長的產(chǎn)業(yè)周期中去看,百川在醫(yī)療方向上的持續(xù)投入,本質(zhì)上是一種少見但更具確定性的長期主義選擇。

醫(yī)療從來不是 AI 最容易兌現(xiàn)價(jià)值的領(lǐng)域,它不允許快速試錯(cuò),也不接受模糊結(jié)論,對安全性、可解釋性和責(zé)任邊界都有近乎苛刻的要求。正因如此,醫(yī)療也成為少數(shù)幾個(gè)真正能夠逼迫大模型走出生成能力舒適區(qū)、檢驗(yàn)其工程成熟度與系統(tǒng)可靠性的場景之一。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

近一年來,國內(nèi)外 AI 醫(yī)療的密集升溫,并不是偶然的市場情緒變化,而是多重因素疊加后的結(jié)果。一方面,大模型在推理、長鏈條決策和多輪交互上的能力開始逼近可用門檻,另一方面,醫(yī)療系統(tǒng)內(nèi)部長期存在的信息割裂、效率瓶頸和結(jié)構(gòu)性壓力,也在主動尋找新的技術(shù)解法。

這種供需在時(shí)間點(diǎn)上的重合,使 AI 醫(yī)療從是否可行的討論,逐步轉(zhuǎn)向如何進(jìn)入核心流程的現(xiàn)實(shí)問題。在這一背景下,早期就選擇深度參與醫(yī)療的公司,開始顯現(xiàn)出路徑上的先發(fā)優(yōu)勢。

也正是在這一階段,行業(yè)內(nèi)不同路徑之間的差異開始被放大。

一類玩家選擇用規(guī)模和連接來證明自身價(jià)值,通過強(qiáng)調(diào)日活用戶數(shù)量、資金投入規(guī)模以及連接了多少醫(yī)生和醫(yī)療資源,來展示自身的存在感。但如果整個(gè)行業(yè)都用這些產(chǎn)品經(jīng)理所熟悉的B端規(guī)模指標(biāo)來衡量AI價(jià)值時(shí),醫(yī)療AI其實(shí)正在陷入一種‘?dāng)?shù)據(jù)焦慮’。

從某種程度上說,這段時(shí)間一些原本以醫(yī)療為核心敘事的產(chǎn)品將重心轉(zhuǎn)向大健康領(lǐng)域,更多聚焦飲食管理、運(yùn)動建議和情緒價(jià)值,同樣也是互聯(lián)網(wǎng)產(chǎn)品經(jīng)理數(shù)據(jù)焦慮的另一種體現(xiàn)。這種選擇能夠立竿見影地改善數(shù)據(jù),但客觀上回避了醫(yī)療中最困難、也最不可回避的核心問題,即診斷責(zé)任。

在嚴(yán)肅醫(yī)療場景中,上述數(shù)據(jù)的優(yōu)勢和體驗(yàn)的優(yōu)化,并不會自動轉(zhuǎn)化為診斷能力本身。AI 醫(yī)療或許并不需要另一個(gè)更親民的‘導(dǎo)診員’或‘掛號助手’,真正稀缺的是能夠像主治醫(yī)師一樣,在復(fù)雜病史中抽絲剝繭、構(gòu)建推理路徑的‘決策大腦’。

相比于走向泛健康、泛陪伴的‘輕型助手’路徑,百川選擇了最難的一條路:硬碰硬地進(jìn)入嚴(yán)肅醫(yī)療場景,把重心前移到模型能力上,關(guān)注的不是連接了多少醫(yī)生,而是模型本身是否具備醫(yī)生級別的能力結(jié)構(gòu)——醫(yī)療AI不應(yīng)只是緩解焦慮的‘情緒搭子’,而應(yīng)是解決病痛的‘科學(xué)工具’。

百川更看重的,不是優(yōu)化看病的流程,而是提升診斷的質(zhì)量。

這也意味著,百川面對的并不是短期競爭,而是一場標(biāo)準(zhǔn)更高、周期更長的系統(tǒng)工程。

嚴(yán)肅醫(yī)療要求模型不僅能夠給出結(jié)論,還必須在信息是否充分、判斷是否穩(wěn)健、風(fēng)險(xiǎn)是否可控等方面經(jīng)得起反復(fù)檢驗(yàn)。這類能力很難通過簡單的模型堆疊或話術(shù)優(yōu)化獲得,而更依賴長期的訓(xùn)練范式、評估體系和工程經(jīng)驗(yàn)積累。這也是為什么,真正有能力進(jìn)入醫(yī)療核心流程的 AI 系統(tǒng),始終屈指可數(shù)。

從這個(gè)意義上看,百川正在構(gòu)建的并不僅是一代模型的領(lǐng)先優(yōu)勢,而是一套更底層的能力結(jié)構(gòu)。它試圖讓 AI 從輔助工具,逐步轉(zhuǎn)變?yōu)榭梢员会t(yī)療系統(tǒng)理解、審核和接續(xù)的能力模塊。

這種結(jié)構(gòu)一旦成立,價(jià)值就不會局限于某個(gè)產(chǎn)品或某次應(yīng)用上線,而會在更長時(shí)間內(nèi)持續(xù)釋放復(fù)利效應(yīng)。它看起來很慢,但回報(bào)方式本身,更符合醫(yī)療系統(tǒng)的演進(jìn)邏輯。

AI 醫(yī)療真正的分水嶺,或許不在于模型參數(shù)規(guī)?;騿雾?xiàng)指標(biāo)的領(lǐng)先,而在于是否有足夠的耐心和判斷力,去承擔(dān)嚴(yán)肅醫(yī)療所必然伴隨的復(fù)雜性、約束與長期投入。當(dāng)行業(yè)逐步從熱度回歸理性,那些真正圍繞醫(yī)療本身做系統(tǒng)性建設(shè)的路徑,才會開始顯現(xiàn)出不可替代的價(jià)值。百川正在押注的,正是這樣一個(gè)更長遠(yuǎn)、也更具確定性的未來。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

AI 醫(yī)療還在比進(jìn)度,百川已在比高度

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說