日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給梁丙鑒
發(fā)送

0

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

本文作者: 梁丙鑒   2026-05-31 16:05
導(dǎo)語:三個(gè)月內(nèi),三款旗艦。

雷峰網(wǎng)訊 5 月 20 日,阿里云峰會(huì)上,通義千問團(tuán)隊(duì)正式發(fā)布 Qwen3.7-Max。

這已經(jīng)是三個(gè)月內(nèi)的第三個(gè)旗艦版本了。3 月 20 日 Qwen3.5-Max-Preview 問世,4 月 20 日的 Qwen3.6-Max-Preview,再到這次的 Qwen3.7-Max 正式版,每 30 天一款旗艦?zāi)P偷牡俣?,放眼全球大模型廠商,幾乎無人能出其右。

榜單數(shù)據(jù)證明了千問最近的火線更新不是灌水之作。在 Artificial Analysis Intelligence Index v4.0 上,Qwen3.7-Max 以 56.6 分位列全球第 5。在它之前的分別是GPT-5.5(60.2)、Claude Opus 4.7(57.3)、Gemini 3.1 Pro Preview(57.2)和 GPT-5.4(56.8)。而值得關(guān)注的是,一個(gè)月前的 Qwen3.6 Max Preview 在這份測試中的表現(xiàn)還只有 51.8 分。30 天漲 4.8 分,在這個(gè)分?jǐn)?shù)段,遠(yuǎn)遠(yuǎn)不是靠微調(diào)就能做到的事情。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

此外根據(jù)官方放出的跑分結(jié)果,Qwen3.7-Max 在數(shù)項(xiàng)權(quán)威評測中也位居前列。

編程智能體:Qwen3.7-Max 在 Terminal Bench 2.0-Terminus 得分 69.7,超過了 DeepSeek-v4-pro-Max、Claude-Opus4.6 等一眾頂尖模型;

通用智能體:在 MCP-Atlas、MCP-Mark、Skillbench 等現(xiàn)實(shí)能力測試中力壓 GLM5.1、Kimi-K2.6 等國產(chǎn)模型,較前代提升顯著,并且在 Kernel Bench L3上展示了強(qiáng)大的 GPU 內(nèi)核優(yōu)化能力;

推理能力:在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等推理核心測評中均超越了 Claude-Opus4.6 及所有國產(chǎn)模型,拿下國產(chǎn)模型新 SOTA 的寶座;

通用能力與多語言:在指令遵循 IFBench 評測中得分 79.1 分,突破新高,在多語言理解和翻譯的WMT24++、MAXIFE評測中領(lǐng)先;

在這份長長的成績單中,有兩個(gè)能力維度上的表現(xiàn)格外亮眼。

一是推理。Qwen3.7-Max 在 GPQA Diamond 上拿下了 92.4 的分?jǐn)?shù),作為對比的是 Claude Opus 4.6 的 91.3。對這兩款頂尖模型而言,三分之差已經(jīng)不是擠牙膏式的性能提升。更亮眼的是,Qwen3.7-Max 在數(shù)學(xué)推理(Apex Math Reasoning)上領(lǐng)先 Opus 近三成,這是國產(chǎn)模型首次在“硬推理”上躋身全球第一梯隊(duì)。

二是編程 Agent 能力。在 SWE-bench 系列測試中,Qwen3.7-Max 超過 Claude Opus 4.6-Max 和 Kimi-K2.6,Terminal Bench 2.0 較前代提升 6.9pp,這背后是從寫代碼,到理解 issue、定位 bug、編寫修復(fù) patch,從編程助手到編程智能體的關(guān)鍵跨越。

看懂了這份成績單,就會(huì)明白這屆阿里云峰會(huì)描繪了如何宏大的一副愿景。還記得峰會(huì)上那個(gè) 35 小時(shí)的 Demo 嗎?Qwen3.7-Max 在平頭哥真武 M890 芯片,一個(gè)訓(xùn)練時(shí)從未見過的國產(chǎn)硬件平臺上,自主完成了推理內(nèi)核優(yōu)化,速度提升 10 倍。

這個(gè) Demo 的戰(zhàn)略意義遠(yuǎn)超技術(shù)本身,它指向一個(gè)更大的命題。遷移成本為模型公司帶來的工程停滯和精度風(fēng)險(xiǎn),是 CUDA 生態(tài)最深的護(hù)城河之一。但如果 Qwen3.7-Max 已經(jīng)摸到了自主針對國產(chǎn)芯片編寫優(yōu)化軟件棧的性能閾值,那么前者的生態(tài)壁壘便幾乎不復(fù)存在。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

01

核心成績單:超強(qiáng)的推理和編程能力

“全球第五、國產(chǎn)第一”的成績已經(jīng)足夠醒目,這一躍升背后是 Qwen3.7-Max 在推理、數(shù)學(xué)、代碼、Agent 執(zhí)行幾條關(guān)鍵能力線上的同時(shí)抬升。換言之,Qwen3.7-Max 今天的排名不是靠著在某個(gè)單項(xiàng)上把分?jǐn)?shù)刷高,而是在大模型從 Chatbot 走向 Agent 的核心賽道上,補(bǔ)齊了最難的幾塊拼圖。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

之前已經(jīng)提到,Qwen3.7-Max 是國產(chǎn)模型第一次躋身“硬推理”的前列。

GPQA Diamond 是當(dāng)前衡量大模型高難科學(xué)推理能力的重要基準(zhǔn)之一,涵蓋物理、化學(xué)、生物等研究生級別問題。相比普通知識問答,它更考驗(yàn)?zāi)P偷亩嗖竭壿嬐蒲菽芰Α⒖鐚W(xué)科知識整合能力、對干擾項(xiàng)的識別能力、在不確定條件下保持推理一致性的能力。

能在這一項(xiàng)目上拿到 92.4 分,意味著 Qwen3.7-Max 不只是依靠中文能力、應(yīng)用場景或工程調(diào)優(yōu)獲得優(yōu)勢,而是在全球最難的一類推理測試中,開始和最強(qiáng)閉源模型正面競爭。

在更難的 Humanity’s Last Exam 上,Qwen3.7-Max 同樣沒有掉隊(duì)。

這個(gè)榜單考察的是“推理 + 知識”的綜合硬度,題目覆蓋范圍更廣、知識顆粒度更細(xì),也更難通過單一能力刷分。圖中,Qwen3.7-Max 拿到 38%,位列全球頭部陣營,排在它前面的選手包括 Gemini 3.1 Pro、GPT-5.5、GPT-5.4、Gemini 3.5 Flash、Claude Opus 4.7 等少數(shù)幾款旗艦?zāi)P汀?/span>

這同樣可以視為 Qwen3.7-Max 綜合能力全面走向成熟的例證。表面的測試單項(xiàng)之下,仍然能劃分出諸多原子能力,對于 HLE 而言它們可能是長鏈推理、跨學(xué)科知識、多步分析、隱含條件理解和高噪聲問題。HLE 高分成績的含金量也在于此,諸多原子能力的結(jié)合考察,徹底堵死了 RL 刷題、專項(xiàng)優(yōu)化和模板化 COT 的“刷分三板斧”。

全球旗艦的競爭,在這種維度的測試上才有說服力。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

推理能力決定模型能不能“想明白”,編程 Agent 能力則決定模型能不能“把活干完”。在這一點(diǎn)上,Qwen3.7-Max 也沒有讓人失望。

編程 Agent 的差距,首先體現(xiàn)在 Terminal Bench 2.0-Terminus。這項(xiàng)測試考察的不是“寫一個(gè)函數(shù)”類型的單項(xiàng)任務(wù),而是在終端里完成包括查文件、跑命令、讀報(bào)錯(cuò)、改代碼、再驗(yàn)證的連續(xù)操作。Qwen3.7-Max 拿到 69.7 分,已經(jīng)能夠說明它和真實(shí)開發(fā)者工作方式之間更近一步的距離。

而即使在競爭最激烈的 SWE-Verified 上,Qwen3.7-Max 也拿到了 80.4,與 Opus-4.6 Max 的 80.8、DS-V4-Pro Max 的 80.6 幾乎持平。前者在 Claude Code 和 Codex 用戶圈中有著出名的穩(wěn)定口碑,后者更是公認(rèn)的性價(jià)比之王。BenchMark 上這樣的名次格局,意味著 Qwen3.7-Max 已經(jīng)在 軟件工程 Agent 第一梯隊(duì)中站住了腳跟。

更細(xì)分的代碼任務(wù)里,Qwen3.7-Max 在 SciCode 上拿到 53.5,超過 K2.6 Thinking 和 Opus-4.6 Max。這說明它在科學(xué)計(jì)算代碼、復(fù)雜邏輯實(shí)現(xiàn)上也具備較強(qiáng)穩(wěn)定性。

前端和可視化任務(wù)同樣值得注意。QwenSVG 達(dá)到 1608,為該組最高;QwenWebDev 為 1568,處于第一梯隊(duì)。

這些指標(biāo)共同拼出了一副完整的 Qwen3.7-Max 能力圖景。比起僅僅補(bǔ)全代碼,它更加傲人的是開始具備了完整的工程執(zhí)行能力,這意味著理解需求、定位 bug、修改代碼、運(yùn)行測試、提交 patch,這些過去屬于工程師的連續(xù)動(dòng)作,正在被模型逐步接管。

這也解釋了,它為什么適合被放進(jìn) Claude Code 這樣的 Agent CLI 中實(shí)測。真正的編程智能體,看的不是單次生成有多漂亮,而是能否在一個(gè)真實(shí)項(xiàng)目里,把問題一路解決到最后。那么Qwen3.7-Max 水平到底如何,我們?yōu)樗O(shè)計(jì)了一些任務(wù)。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

02

邏輯推理實(shí)測:玻璃過門與數(shù)學(xué)公式完形

我們在 Claude Code 環(huán)境下接入 Qwen3.7-Max,實(shí)測也圍繞著推理和 Coding 能力展開。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

首先是一個(gè)很經(jīng)典的玻璃過門問題。

題目:


代碼塊

6米長4.5寬的玻璃能否通過高4米寬3米的門?請給出推理過程

Qwen3.7-Max 的回答如下:

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

面對這道經(jīng)典空間推理題, 這個(gè)問題的陷阱在于,不能簡單比較玻璃邊長和門的寬高。Qwen3.7-Max 給出的結(jié)論是“可以”,并很快抓住關(guān)鍵:門洞對角線為 5 米,玻璃的 4.5 米寬度可以沿門洞對角線方向放置,而 6 米長度則沿門的縱深方向逐步穿過。

更重要的是,它沒有停留在“4.5 米小于 5 米”的粗略判斷,而是繼續(xù)做了投影驗(yàn)證。模型將 4.5 米線段居中放在門洞對角線方向上,計(jì)算出其水平方向半投影為 1.35 米,小于門寬一半的 1.5 米;豎直方向半投影為 1.8 米,小于門高一半的 2 米。也就是說,這塊玻璃在門平面上的截面能夠完整落入門框內(nèi),且上下左右都有余量。

Qwen3.7-Max 沒有被“6 米和 4.5 米都大于門寬高”的直覺誤導(dǎo),把問題轉(zhuǎn)化成三維穿過路徑和二維截面約束。它先找到關(guān)鍵幾何關(guān)系,再做邊界驗(yàn)證,最后解釋 6 米長度為何不構(gòu)成限制。對一款推理模型來說,這遠(yuǎn)比單純答對更重要。它說明模型具備把現(xiàn)實(shí)問題結(jié)構(gòu)化、拆解約束并完成可驗(yàn)證推理的能力。

另外一項(xiàng)測試是數(shù)學(xué)公式完形,這類題目也被廣泛用于考驗(yàn)?zāi)P偷耐评砟芰Α?/span>

題目:


代碼塊

在數(shù)字3、7、5之間添加適當(dāng)?shù)臄?shù)學(xué)符號(不改變數(shù)字順序),使得等式 `3   7   5 = 8` 成立。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

Qwen3.7-Max 給出的答案是 3! + 7 - 5 = 8。這個(gè)解法的關(guān)鍵在于引入階乘符號,將 3 轉(zhuǎn)換為 6,再通過簡單加減得到結(jié)果:6 + 7 - 5 = 8。

重要的是過程,Qwen3.7-Max 并不是直接猜出答案,而是先嘗試排除只使用加減乘除的情況。它枚舉了 3、7、5 之間兩處符號的基礎(chǔ)組合,并進(jìn)一步考慮括號變體,判斷純四則運(yùn)算無法得到 8。隨后,模型才轉(zhuǎn)向更高階的數(shù)學(xué)符號,找到階乘這個(gè)突破口。

Qwen3.7-Max 的回答顯示,它能夠先在常規(guī)解空間中驗(yàn)證不可行,再擴(kuò)展到非常規(guī)符號空間。這種思考方式,非常接近人類。而事實(shí)上,這類能力對于 Agent 同樣重要。當(dāng)常規(guī)路徑走不通時(shí),模型能否主動(dòng)擴(kuò)大搜索范圍,往往決定任務(wù)能不能繼續(xù)推進(jìn)。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

03

Coding 實(shí)測:從數(shù)據(jù)可視化到 3D 建模

Coding 能力測試的部分,我們選擇讓 Qwen3.7-Max 完成一項(xiàng)數(shù)據(jù)分析可視化開發(fā)。

題目:


代碼塊

1 請從零開發(fā)一個(gè)本地?cái)?shù)據(jù)可視化網(wǎng)頁工具,用戶上傳 Excel 文件后,自動(dòng)讀取數(shù)據(jù)并展示表格預(yù)覽。

2 工具需要自動(dòng)識別數(shù)值列,生成柱狀圖、折線圖和餅圖,并支持選擇不同字段進(jìn)行可視化。

3 頁面要簡潔美觀,普通用戶打開瀏覽器即可使用,不依賴后端。

4 請給出完整文件結(jié)構(gòu)、全部代碼和運(yùn)行方法。

5 最后說明這個(gè)工具測試了 Agent 的哪些能力。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?
四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

在這道題中,我們給 Qwen3.7-Max 的任務(wù)是從零開發(fā)一個(gè)本地?cái)?shù)據(jù)可視化網(wǎng)頁工具。要求并不只是寫一個(gè)頁面,而是要完成 Excel 上傳、數(shù)據(jù)解析、表格預(yù)覽、數(shù)值列識別、圖表生成、字段切換、無后端運(yùn)行等一整套功能。Qwen3.7-Max 最終生成了一個(gè)四文件項(xiàng)目:index.html、style.css、app.js 和 README.md,并明確給出運(yùn)行方式,既可以直接雙擊 index.html,也可以通過 python3 -m http.server 8080 在本地啟動(dòng)。

從生成結(jié)果看,它選擇了比較合理的前端技術(shù)路線,用 SheetJS 解析 Excel,用 Chart.js 渲染圖表,通過 CDN 引入第三方庫,避免后端依賴。代碼結(jié)構(gòu)也比較完整,index.html 負(fù)責(zé)頁面骨架,style.css 負(fù)責(zé)響應(yīng)式布局和視覺樣式,app.js 承擔(dān)文件讀取、數(shù)據(jù)轉(zhuǎn)換、狀態(tài)管理和圖表配置。

很像是專業(yè)開發(fā)者的一處表現(xiàn)是,模型還補(bǔ)充了 README,以說明功能清單和使用方法,這讓整體結(jié)果更像一個(gè)可交付的小型前端項(xiàng)目,而不是一段孤立的 demo 代碼。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

打開網(wǎng)頁,上傳區(qū)設(shè)計(jì)簡潔,支持拖拽或點(diǎn)擊選擇 .xlsx、.xls、.csv 文件。上傳 Excel 后,工具可以讀取數(shù)據(jù)并生成預(yù)覽表格,識別出行數(shù)、列數(shù)和數(shù)值字段;在測試文件中,它展示了 13196 行、11 列數(shù)據(jù),并識別出 9 個(gè)數(shù)值列。頁面下方還能根據(jù)選擇的 X 軸和 Y 軸字段生成可視化圖表,支持柱狀圖、折線圖和餅圖切換。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

這個(gè)測試真正考察的是 Agent 的工程閉環(huán)能力。Qwen3.7-Max 需要先拆解需求,再完成庫選型、文件組織、前端交互、數(shù)據(jù)處理、圖表渲染和運(yùn)行說明。這些需求讓任務(wù)更接近真實(shí)開發(fā)流程,寫對代碼是最基本的要求,模型還要保證多個(gè)文件之間能協(xié)同工作,最終讓普通用戶在瀏覽器中直接使用。因此 Qwen3.7-Max 在這個(gè)任務(wù)中,實(shí)質(zhì)上已經(jīng)表現(xiàn)出了一定的端到端產(chǎn)品開發(fā)能力。

同樣是可視化,下面的 Coding 任務(wù)從數(shù)據(jù)工具變成了 3D 戶型圖。

題目:


代碼塊

以北京為背景,為我創(chuàng)建一個(gè)120平方的3D戶型圖,要求有3個(gè)臥室、1個(gè)廚房、2個(gè)衛(wèi)生間、不少于1個(gè)陽臺,并標(biāo)注每個(gè)房間的面積。

使用HTML、CSS、JS以及Three.JS。只給我一個(gè)可以運(yùn)行并查看這個(gè)戶型圖的HTML文件。

我們要求 Qwen3.7-Max 生成一個(gè)北京背景下的 120 平方三居室戶型圖,并且只能交付一個(gè)可運(yùn)行的 HTML 文件。模型最終生成了 floorplan.html,共 691 行代碼,內(nèi)置 HTML、CSS、JS 和 Three.js 邏輯,雙擊即可在瀏覽器中打開,不需要額外工程配置。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

從交付結(jié)果可以看到,頁面呈現(xiàn)了一個(gè)完整的 3D 戶型模型。房間布局包含 3 個(gè)臥室、1 個(gè)廚房、2 個(gè)衛(wèi)生間、南北陽臺、客廳/餐廳、走廊、儲(chǔ)物間和玄關(guān),基本元素滿足題目要求。此外每個(gè)區(qū)域都有獨(dú)立顏色區(qū)分,并在左側(cè)圖例中對應(yīng)展示房間名稱和面積,模型中懸浮標(biāo)簽也同步標(biāo)注了面積,沒有出現(xiàn)房間名稱、面積與圖例不一致的問題。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

令人驚喜的是,Qwen3.7-Max 沒有止步于生成一個(gè)靜態(tài)模型,而是加入了 OrbitControls,支持鼠標(biāo)拖拽旋轉(zhuǎn)和滾輪縮放。用戶可以從俯視圖切換到透視視圖,也可以圍繞戶型 360 度查看墻體、房間分布和家具擺放,基本不存在單一視角遮擋信息的問題。

更細(xì)節(jié)的是,模型還提供了“顯示/隱藏屋頂”和“顯示/隱藏標(biāo)注”按鈕。隱藏屋頂后,可以直接觀察室內(nèi)空間;打開標(biāo)注后,房間面積信息會(huì)以浮動(dòng)標(biāo)簽形式固定在對應(yīng)房間上方。即使在旋轉(zhuǎn)視角后,標(biāo)簽仍能跟隨場景顯示,避免了 3D 模型常見的“看得見房間、對不上信息”的問題。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

從 Agent 能力看,這道題的復(fù)雜程度已經(jīng)遠(yuǎn)遠(yuǎn)超過普通的前端頁面。它要求模型同時(shí)完成空間布局、三維建模、交互控制、中文標(biāo)注、視覺風(fēng)格和單文件封裝。而 Qwen3.7-Max 的表現(xiàn)說明,把抽象需求轉(zhuǎn)換成可交互、可驗(yàn)證的 3D 產(chǎn)品原型,也已經(jīng)進(jìn)入了它的能力范圍。

縱觀四組測試,會(huì)發(fā)現(xiàn) Qwen3.7-Max 的一個(gè)突出特點(diǎn)在于,它并沒有把推理和編程當(dāng)成兩件事來做。推理題中,它展示了對約束條件的識別和路徑搜索能力;編程題中,這種能力進(jìn)一步轉(zhuǎn)化成了需求拆解和工程實(shí)現(xiàn)。也就是說,推理能力為編程能力提供了“方向感”,編程能力則讓推理結(jié)果變成了可體驗(yàn)、可運(yùn)行、可驗(yàn)證的產(chǎn)品形態(tài)。

這正是當(dāng)前大模型競爭中越來越被看重的能力組合。下一階段的模型不會(huì)只拼參數(shù)規(guī)?;?benchmark 分?jǐn)?shù),而是復(fù)雜任務(wù)中穩(wěn)定性和閉環(huán)能力的競爭。尤其在企業(yè)場景中,用戶并不關(guān)心模型是否能講出漂亮的推理過程,而是關(guān)心它能不能把需求做成結(jié)果,能不能減少人工反復(fù)溝通,能不能在出現(xiàn)邊界條件時(shí)繼續(xù)推進(jìn)。

這也是當(dāng)前大模型從 Chatbot 走向 Agent 時(shí),最關(guān)鍵的一道分水嶺。

四道題評測 Qwen3.7-Max:從空間推理到 3D 建模,它離 Agent 更近了嗎?

04

旗艦?zāi)P停呦铝魉€

當(dāng)然,這目前仍然只是對未來技術(shù)脈絡(luò)的展望。四道測試題只能說明 Qwen3.7-Max 在典型推理和原型開發(fā)任務(wù)中表現(xiàn)出了較強(qiáng)能力,并不等于它已經(jīng)完全具備生產(chǎn)級 Agent 的所有條件。真實(shí)業(yè)務(wù)環(huán)境會(huì)更加復(fù)雜,包括長上下文中的狀態(tài)保持、多輪修改中的一致性、代碼安全、性能優(yōu)化、依賴沖突、團(tuán)隊(duì)工程規(guī)范等,都需要更長時(shí)間和更嚴(yán)苛場景來驗(yàn)證。

但是同樣把 Qwen3.7-Max 放進(jìn)更宏觀的技術(shù)脈絡(luò),無法忽視的事實(shí)在于,這已經(jīng)是阿里在三個(gè)月內(nèi)發(fā)布的第三款旗艦?zāi)P汀?/span>或許比起 Qwen3.7-Max 此刻做到了什么,更值得關(guān)注的問題是,阿里憑什么能以如此頻率更新旗艦?zāi)P?,以及這種迭代節(jié)奏對于整個(gè)大模型行業(yè)又意味著什么。

代際突破長期以來都是大模型行業(yè)的主流敘事,特別是從 GPT-3 到 GPT-4 的躍遷之后,頂尖模型的每一次更新,都承載了開啟下一代模型范式革命的期待。也因此,模型發(fā)布呈現(xiàn)出周期長、訓(xùn)練成本高的特征??梢哉f,這一時(shí)期的模型是更接近科研成果的實(shí)驗(yàn)室產(chǎn)物。

在這一背景下,千問的月更節(jié)奏就顯得耐人尋味。三個(gè)月內(nèi)接連問世的 Qwen3.5、3.6、3.7,是否意味著阿里正在將大模型研發(fā)從十年磨一劍的科研項(xiàng)目,變成以月為單位迭代的流水線工程?

如果這一轉(zhuǎn)向是真實(shí)發(fā)生的,其意義就遠(yuǎn)不止于 BenchMark 上的幾分提升。高頻迭代靠的不僅是算力,如果沒有成熟的基礎(chǔ)設(shè)施支撐,不可能做到在 30 天更新一個(gè)旗艦版本的情況下,仍然保持模型性能的持續(xù)提升,并且有大規(guī)模的可用 API。這背后必然有一個(gè)覆蓋數(shù)據(jù)清洗、訓(xùn)練調(diào)度、自動(dòng)評測、后訓(xùn)練、推理部署等全套工程能力,能夠持續(xù)訓(xùn)練、微調(diào)、上線旗艦?zāi)P偷墓I(yè)化生產(chǎn)體系。

這比 Qwen3.7-Max 本身更值得關(guān)注。

隨著數(shù)據(jù)處理、強(qiáng)化學(xué)習(xí)、合成數(shù)據(jù)和 MoE 架構(gòu)逐漸成熟,模型能力的提升開始從實(shí)驗(yàn)室里的偶發(fā)突破,轉(zhuǎn)向連續(xù)優(yōu)化的結(jié)果。而當(dāng)大模型行業(yè)進(jìn)入這一工程時(shí)代,更穩(wěn)定的訓(xùn)練、更快的迭代和更低的成本成為新的競爭焦點(diǎn),此時(shí)高頻的版本更新就是最有力的市場信號。

從 Qwen3.5 到 3.7,千問呈現(xiàn)的一種可能是,未來阿里在模型層的競爭力或許并不來自于某一代全球最強(qiáng)模型,而是能以最低的成本、最快的速度,穩(wěn)定產(chǎn)出一流模型。留給千問的問題是,這種能力是可持續(xù)的嗎?

雷峰網(wǎng)(公眾號:雷峰網(wǎng))文章

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說