阿里開源下一代模型架構(gòu)Qwen3-Next，模型訓(xùn)練及推理性價比創(chuàng)新高

本文作者：小七

2025-09-12 09:33

導(dǎo)語：阿里發(fā)布Qwen3-Next，訓(xùn)練成本降90%。

9月12日，阿里通義發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next。Qwen3-Next針對大模型在上下文長度和總參數(shù)兩方面不斷擴展（Scaling）的未來趨勢而設(shè)計，采用全新的高稀疏MoE架構(gòu)，并對經(jīng)典Transformer核心組件進行了重構(gòu)，創(chuàng)新線性注意力和自研的門控注意力結(jié)合的混合注意力機制，實現(xiàn)了模型訓(xùn)練和推理的雙重性價比突破。

基于這一新架構(gòu)，阿里通義“打樣”了Qwen3-Next-80B-A3B系列模型，開源指令（Instruct）和推理（Thinking）兩大模型版本。新模型總參數(shù) 80B 僅激活 3B，性能可媲美千問3旗艦版235B模型，模型計算效率大幅提升。Qwen3-Next訓(xùn)練成本較密集模型Qwen3-32B大降超90%，長文本推理吞吐量提升10倍以上，并可支持百萬Tokens超長上下文。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

小七

編輯

發(fā)私信

當(dāng)月熱門文章

階躍和千?科技官宣戰(zhàn)略合作：打造原?智駕基座模型，提升物理AI能?上限

阿里開源下一代模型架構(gòu)Qwen3-Next，模型訓(xùn)練及推理性價比創(chuàng)新高

阿里開源下一代模型架構(gòu)Qwen3-Next，模型訓(xùn)練及推理性價比創(chuàng)新高