阿里千問(wèn)最強(qiáng)模型重磅亮相！性能媲美GPT-5.2、Gemini 3 Pro

本文作者：徐咪

2026-01-26 23:36

導(dǎo)語(yǔ)：1月26日，阿里正式發(fā)布千問(wèn)旗艦推理模型Qwen3-Max-Thinking，創(chuàng)下數(shù)項(xiàng)權(quán)威評(píng)測(cè)全球新紀(jì)錄，性能媲美GPT-5.2、Gemini 3 Pro，成為

1月26日，阿里正式發(fā)布千問(wèn)旗艦推理模型Qwen3-Max-Thinking，創(chuàng)下數(shù)項(xiàng)權(quán)威評(píng)測(cè)全球新紀(jì)錄，性能媲美GPT-5.2、Gemini 3 Pro，成為迄今為止最接近國(guó)際頂尖模型的國(guó)內(nèi)最強(qiáng)AI大模型。通過(guò)總參數(shù)、強(qiáng)化學(xué)習(xí)、推理計(jì)算的極致規(guī)模擴(kuò)展，千問(wèn)新模型實(shí)現(xiàn)了性能的大幅飛躍，刷新科學(xué)知識(shí)（GPQA Diamond）、數(shù)學(xué)推理（IMO-AnswerBench）、代碼編程（LiveCodeBench）等多項(xiàng)關(guān)鍵性能基準(zhǔn)測(cè)試的全球紀(jì)錄。

Qwen3-Max-Thinking是目前阿里規(guī)模最大、能力最強(qiáng)的千問(wèn)推理模型，其總參數(shù)量超萬(wàn)億（1T），預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)36T Tokens。此前，預(yù)覽版Qwen3-Max-Thinking斬獲數(shù)學(xué)推理AIME 25和HMMT 25的國(guó)內(nèi)首個(gè)雙滿(mǎn)分，推理性能已讓人驚艷；在此基礎(chǔ)上，阿里通義團(tuán)隊(duì)進(jìn)行了更大規(guī)模的強(qiáng)化學(xué)習(xí)后訓(xùn)練，全面提升了正式版Qwen3-Max-Thinking性能：在涵蓋事實(shí)知識(shí)、復(fù)雜推理、指令遵循、人類(lèi)偏好對(duì)齊、Agent能力等19個(gè)公認(rèn)的大模型基準(zhǔn)測(cè)試中，千問(wèn)旗艦推理模型刷新了數(shù)項(xiàng)最佳表現(xiàn)（SOTA）紀(jì)錄，整體性能可媲美 GPT-5.2-Thinking-xhigh、Claude Opus 4.5 和 Gemini 3 Pro 。

在關(guān)鍵的模型推理能力提升中，千問(wèn)新模型采用了一種全新的測(cè)試時(shí)擴(kuò)展（Test-time Scaling）機(jī)制，推理性能提升的同時(shí)還更經(jīng)濟(jì)。業(yè)界普遍的推理時(shí)計(jì)算，只會(huì)簡(jiǎn)單增加并行推理路徑，重復(fù)推導(dǎo)已知結(jié)論，造成冗余推理效率低下；而千問(wèn)采用的這一新機(jī)制，可對(duì)此前推理的結(jié)果進(jìn)行“經(jīng)驗(yàn)提取”式的提煉，并據(jù)此進(jìn)行多輪自我迭代，在相同的上下文中實(shí)現(xiàn)更高效的推理計(jì)算，獲得更智能的推理結(jié)果?；谶@一推理技術(shù)創(chuàng)新，千問(wèn)推理性能和推理效率大為提升，比如在啟用工具的“人類(lèi)最后的測(cè)試”HLE中，千問(wèn)得分58.3，大幅超過(guò)GPT-5.2-Thinking的45.5、Gemini 3 Pro的45.8，錄得當(dāng)前所有模型的最高分。

面向即將到來(lái)的智能體Agent時(shí)代，Qwen3-Max-Thinking還大幅增強(qiáng)了自主調(diào)用工具的原生Agent能力。具體而言，在完成初步的工具使用微調(diào)后，通義團(tuán)隊(duì)對(duì)模型進(jìn)一步在大量多樣化任務(wù)上進(jìn)行了基于規(guī)則獎(jiǎng)勵(lì)與模型獎(jiǎng)勵(lì)的聯(lián)合強(qiáng)化學(xué)習(xí)訓(xùn)練，使得Qwen3-Max-Thinking擁有更智能結(jié)合工具進(jìn)行思考的能力。這種自適應(yīng)的工具調(diào)用能力可在QwenChat上完整體驗(yàn)，模型自主選用搜索、個(gè)性化記憶和代碼解釋器等三個(gè)核心的Agent工具功能，提供專(zhuān)業(yè)人士一樣水平的回答，更合用戶(hù)心意、更智能、更流暢；同時(shí)，模型幻覺(jué)也大為降低，為解決真實(shí)復(fù)雜任務(wù)打下基礎(chǔ)。

目前，開(kāi)發(fā)者可在QwenChat上免費(fèi)體驗(yàn)Qwen3-Max-Thinking模型，企業(yè)可通過(guò)阿里云百煉獲取新模型API服務(wù)，普通用戶(hù)也可通過(guò)千問(wèn)PC端和網(wǎng)頁(yè)端試用模型。據(jù)了解，千問(wèn)APP也即將接入新模型，所有用戶(hù)都可免費(fèi)體驗(yàn)千問(wèn)最強(qiáng)模型。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

徐咪

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

阿里千問(wèn)最強(qiáng)模型重磅亮相！性能媲美GPT-5.2、Gemini 3 Pro

阿里千問(wèn)最強(qiáng)模型重磅亮相！性能媲美GPT-5.2、Gemini 3 Pro