日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給小七
發(fā)送

0

阿里開源下一代模型架構Qwen3-Next,模型訓練及推理性價比創(chuàng)新高

本文作者: 小七   2025-09-12 09:33
導語:阿里發(fā)布Qwen3-Next,訓練成本降90%。

9月12日,阿里通義發(fā)布下一代基礎模型架構Qwen3-Next。Qwen3-Next針對大模型在上下文長度和總參數(shù)兩方面不斷擴展(Scaling)的未來趨勢而設計,采用全新的高稀疏MoE架構,并對經(jīng)典Transformer核心組件進行了重構,創(chuàng)新線性注意力和自研的門控注意力結合的混合注意力機制,實現(xiàn)了模型訓練和推理的雙重性價比突破。

基于這一新架構,阿里通義“打樣”了Qwen3-Next-80B-A3B系列模型,開源指令(Instruct)和推理(Thinking)兩大模型版本。新模型總參數(shù) 80B 僅激活 3B,性能可媲美千問3旗艦版235B模型,模型計算效率大幅提升。Qwen3-Next訓練成本較密集模型Qwen3-32B大降超90%,長文本推理吞吐量提升10倍以上,并可支持百萬Tokens超長上下文。


雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說