日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給張進(jìn)
發(fā)送

0

最受歡迎開(kāi)源大模型,為什么是通義?

本文作者: 張進(jìn) 2024-09-29 11:15
導(dǎo)語(yǔ):開(kāi)源一年,通義千問(wèn)的血緣模型已經(jīng)達(dá)到 5 萬(wàn)多個(gè)。

開(kāi)源與閉源之爭(zhēng)早已非新奇的話(huà)題,但毋庸置疑的是,開(kāi)源極大地促進(jìn)了大模型技術(shù)發(fā)展和生態(tài)繁榮。

大模型被認(rèn)為是最燒錢(qián)的技術(shù),訓(xùn)練一個(gè)大模型往往需要大量的數(shù)據(jù)、計(jì)算資源,導(dǎo)致訓(xùn)練成本巨大,眾所周知GPT-3的訓(xùn)練費(fèi)用據(jù)說(shuō)超過(guò) 4600萬(wàn)美元,在大模型開(kāi)源之前,大模型一直是那些有大量資金加持的大廠和明星創(chuàng)業(yè)公司才有資格碰的事情。

隨著如 llama、Mistral、Falcon 這些開(kāi)源先鋒攪動(dòng)了整個(gè)大模型競(jìng)爭(zhēng)浪潮,那些沒(méi)有AI積累的企業(yè)、大量中小公司團(tuán)隊(duì),今天個(gè)人開(kāi)發(fā)者,都能基于開(kāi)源底座模型,用很低的成本訓(xùn)練、部署自己的專(zhuān)屬模型,llama 這樣的開(kāi)源先鋒也因此擁有一眾擁躉。

回到國(guó)內(nèi),在 llama、Mistral 這樣的開(kāi)源先鋒影響下,國(guó)產(chǎn)開(kāi)源也經(jīng)歷了百家爭(zhēng)鳴階段,如ChatGLM、Baichuan、DeepSeek、Qwen也曾掀起一陣陣開(kāi)源浪潮。

“百模大戰(zhàn)”至今不過(guò)一年多,全球開(kāi)源格局已幾經(jīng)變換,最出人意料的一件事,莫過(guò)于國(guó)產(chǎn)開(kāi)源大模型先發(fā)后至,有了比肩全球頂尖開(kāi)源模型的影響力。通義千問(wèn)開(kāi)源模型,就是“國(guó)模開(kāi)源”的代表角色。

據(jù)AI科技評(píng)論了解,根據(jù) Hugging Face的數(shù)據(jù),Qwen系列血緣模型已經(jīng)高達(dá)5萬(wàn)多個(gè),也就是說(shuō),全世界的開(kāi)發(fā)者,基于Qwen系列底座,已經(jīng)二次訓(xùn)練出5萬(wàn)多個(gè)衍生模型,僅次于Llama系列的7萬(wàn)左右。這個(gè)數(shù)據(jù),是判斷一個(gè)模型生態(tài)影響力最有說(shuō)服力的指標(biāo)。

金沙江創(chuàng)投主管合伙人朱嘯虎就曾在多個(gè)場(chǎng)合表示,國(guó)內(nèi)開(kāi)源模型已經(jīng)不比閉源模型差,尤其是阿里的通義千問(wèn),很多創(chuàng)業(yè)公司都拿通義開(kāi)源模型來(lái)訓(xùn)練自己的垂直模型。

據(jù)AI科技評(píng)論了解,Qwen系列的衍生模型中,不乏出自面壁等明星大模型公司的微調(diào)模型,根據(jù)GitHub的介紹,面壁的MiniCPM-V2.6多模態(tài)模型就是基于SigLip-400M和Qwen2-7B作為基座。

在今天于杭州舉辦的2024 云棲大會(huì)上,通義大模型再推全新開(kāi)源系列 Qwen2.5,旗艦?zāi)P陀中愠隽送腊袷降膹?qiáng)勁性能。在這之前,海內(nèi)外開(kāi)發(fā)者和開(kāi)源社區(qū)早已躍躍欲試、反復(fù)催更。

如此場(chǎng)景,距離通義去年首次開(kāi)源不過(guò)一年多。通義是怎么做到的?

最受歡迎開(kāi)源大模型,為什么是通義?

最受歡迎開(kāi)源大模型,為什么是通義?

1
Qwen2.5 全球開(kāi)源第一

2023 年 3 月15 日,OpenAI 發(fā)布了里程碑模型 GPT-4,同時(shí)智譜AI開(kāi)源了ChatGLM模型,自此拉開(kāi)了中國(guó)大模型開(kāi)源序幕,緊跟著 6 月百川智能開(kāi)源了Baichuan,8 月通義千問(wèn)宣布開(kāi)源,“百模大戰(zhàn)”進(jìn)入白熱化……23 年整個(gè)行業(yè)經(jīng)歷了一場(chǎng)開(kāi)源盛宴。

阿里通義千問(wèn)開(kāi)源相對(duì)晚,但勝在后勁足。23年12月,通義千問(wèn)第一款開(kāi)源旗艦?zāi)P蚎wen-72B 問(wèn)世,成為當(dāng)時(shí)性能最強(qiáng)的開(kāi)源模型,一舉超越了開(kāi)源標(biāo)桿 llama 2-70B,在此之前,中國(guó)大模型市場(chǎng)還沒(méi)有出現(xiàn)一個(gè)足以對(duì)抗 llama 2-70B的開(kāi)源模型。

自此,通義千問(wèn)在“全尺寸、全模態(tài)”開(kāi)源路上狂飆。2024年2月開(kāi)源Qwen1.5系列、2024年6月開(kāi)源Qwen2系列,三個(gè)月之后的今天又火速放出Qwen2.5系列,開(kāi)源模型橫貫大語(yǔ)言、多模態(tài)、數(shù)學(xué)、代碼多個(gè)類(lèi)別、模型尺寸包含0.5B到110B的完整譜系。幾乎可以說(shuō),只要開(kāi)發(fā)者想要,Qwen都能提供。

這種開(kāi)源力度在國(guó)產(chǎn)模型中前所未有,阿里通義千問(wèn)在大模型賽道的開(kāi)源「人設(shè)」逐漸穩(wěn)固,吸引了大波擁躉。

今天云棲大會(huì)發(fā)布的全新開(kāi)源系列 Qwen2.5,模型性能一如既往火力全開(kāi)。

最受歡迎開(kāi)源大模型,為什么是通義?

Qwen2.5 有兩大特點(diǎn),一是性能全球領(lǐng)先,穩(wěn)居全球開(kāi)源第一。根據(jù)阿里官方數(shù)據(jù)顯示,開(kāi)源旗艦?zāi)P蚎wen2.5-72B 在多個(gè)權(quán)威測(cè)評(píng)集中全面超越同尺寸開(kāi)源模型,甚至“跨數(shù)量級(jí)”超越Llama3.1-405B 模型,以不到1/5的參數(shù)規(guī)模,創(chuàng)下超越Llama  4050 億參數(shù)的整體表現(xiàn)。

最受歡迎開(kāi)源大模型,為什么是通義?

根據(jù)上圖,Qwen2.5-72B 在14 個(gè)關(guān)鍵基準(zhǔn)測(cè)試中,8 項(xiàng)擊敗了 llama3.1-405B 指微調(diào)模型,11 項(xiàng)擊敗了Mistral最新開(kāi)源的 Large-V2 指令微調(diào)模型,成為目前最強(qiáng)開(kāi)源模型。

今年 7 月 Meta 發(fā)布了最新開(kāi)源模型 llama3.1-405B 后,llama3.1-405B 便一舉成為地表最強(qiáng)開(kāi)源模型,甚至代表開(kāi)源模型首次超越閉源模型。從基準(zhǔn)測(cè)試結(jié)果來(lái)看,超大杯 Llama 3.1 405B 全方位碾壓了 GPT-3.5 Turbo、大部分基準(zhǔn)測(cè)試得分超過(guò)了 GPT-4 0125,面對(duì) OpenAI 此前最強(qiáng)閉源大模型GPT-4o和第一梯隊(duì)的 Claude 3.5 Sonnet,Llama 3.1 405B 依然有能力一戰(zhàn)。

只是,405B雖然強(qiáng)大,但模型參數(shù)實(shí)在太大、部署使用的硬件要求高出天際。對(duì)個(gè)人開(kāi)發(fā)者和預(yù)算有限的中小企業(yè)來(lái)說(shuō),可望不可及。

Qwen2.5-72B 對(duì) llama3.1-405B的超越,不僅是國(guó)產(chǎn)開(kāi)源模型與美國(guó)最強(qiáng)開(kāi)源模型的一次硬剛,也狠狠削平了“天花板性能”模型的使用成本。

Qwen2.5的第二個(gè)特點(diǎn),開(kāi)源模型數(shù)量史無(wú)前例,目的是為充分適配開(kāi)發(fā)者和中小企業(yè)的需求。

Qwen2.5延續(xù)了“全尺寸、多模態(tài)”路線(xiàn),同步開(kāi)源了多個(gè)尺寸的大語(yǔ)言模型、多模態(tài)模型、數(shù)學(xué)模型和代碼模型,涵蓋基礎(chǔ)版本、指令跟隨版本、量化版本,總計(jì)上架超過(guò) 100 個(gè)開(kāi)源模型,刷新業(yè)界新紀(jì)錄。

大語(yǔ)言模型共有 0.5B、1.5B、3B、7B、14B、32B、72B 七個(gè)尺寸,在等規(guī)模賽道全都創(chuàng)造了業(yè)界 SOTA,從這幾個(gè)型號(hào)尺寸,我們可以看到通義團(tuán)隊(duì)?wèi)?yīng)該是充分考慮了下游應(yīng)用的不同場(chǎng)景需求、從而做出上述開(kāi)源策略,大致對(duì)應(yīng)了當(dāng)下最火的三個(gè)場(chǎng)景:端側(cè)模型、小模型、大模型。

比如,3B 是適配手機(jī)等端側(cè)設(shè)備的黃金尺寸,業(yè)界認(rèn)為 3B-4B這個(gè)大小,意味著模型量化之后可以做到 2G 的體積,非常適合放在手機(jī)里面。端側(cè)則也一直是英偉達(dá)、微軟和各類(lèi)手機(jī)廠商都非??粗氐念I(lǐng)域。

32B是最受開(kāi)發(fā)者期待的“性?xún)r(jià)比之王”,可在性能和功耗之間獲得最佳平衡。最讓開(kāi)發(fā)者驚喜的,則是 140 億和320億兩種參數(shù)模型的重新回歸,14B 和 32B 是最適合本地單卡部署的模型大小。上一代Qwen2系列沒(méi)有這兩個(gè)尺寸,一直是開(kāi)發(fā)者心中遺憾。

這還沒(méi)結(jié)束,下一個(gè)類(lèi)別是多模態(tài)模型。上個(gè)月通義團(tuán)隊(duì)開(kāi)源了 2B 和 7B 版本的視覺(jué)理解模型Qwen2-VL,這次直接把720億參數(shù)的Qwen2-VL-72B 也開(kāi)源了,Qwen2-VL 能識(shí)別不同分辨率和長(zhǎng)寬比的圖片,能夠理解20分鐘以上長(zhǎng)視頻,還具備自主操作手機(jī)和機(jī)器人的視覺(jué)智能體能力。

Qwen2-VL基于Qwen2打造,在多個(gè)視覺(jué)理解基準(zhǔn)測(cè)試中取得了全球領(lǐng)先的表現(xiàn),其中包括但不限于考察數(shù)學(xué)推理能力的MathVista、考察文檔圖像理解能力的DocVQA、考察真實(shí)世界空間理解能力的RealWorldQA、考察多語(yǔ)言理解能力的MTVQA。

通義千問(wèn)從 6 個(gè)方面來(lái)評(píng)估 Qwen2-VL 分別在72B、7B、2B三種規(guī)模上的視覺(jué)能力,包括復(fù)雜的大學(xué)水平問(wèn)題解決、數(shù)學(xué)能力、文檔和表格的理解、多語(yǔ)言文本圖像的理解、通用場(chǎng)景問(wèn)答、視頻理解、視覺(jué)智能代理(Visual AI Agent)能力。

整體來(lái)看,Qwen2-VL-72B在大部分指標(biāo)上都達(dá)到了最優(yōu),甚至超過(guò)了GPT-4o和Claude 3.5 Sonnet等閉源模型。

最后是主攻數(shù)學(xué)和代碼賽道的兩組專(zhuān)項(xiàng)模型,數(shù)學(xué)開(kāi)源模型Qwen2.5-Math包含1.5B、7B、72B,全部支持中文。Qwen2.5-Math在精心設(shè)計(jì)的數(shù)學(xué)語(yǔ)料庫(kù)上進(jìn)行了預(yù)訓(xùn)練,可以處理大學(xué)和競(jìng)賽級(jí)別的數(shù)學(xué)問(wèn)題。

代碼開(kāi)源模型Qwen2.5-Coder 是為編程特別設(shè)計(jì)的模型,包含1.5B、7B兩個(gè)版本,通義團(tuán)隊(duì)還預(yù)告了Qwen2.5-Coder -32B也在開(kāi)源的路上。這組模型最多支持 128K tokens 上下文,支持 92 種編程語(yǔ)言, 7B 版本打敗了更大尺寸的 DeepSeek-Coder-V2-Lite 和 Codestral-20B,成為當(dāng)前最強(qiáng)大的基礎(chǔ)代碼模型之一。

最受歡迎開(kāi)源大模型,為什么是通義?

與此同時(shí),一直免費(fèi)對(duì)外提供服務(wù)的通義千問(wèn)旗艦?zāi)P?Qwen-Max也實(shí)現(xiàn)了全面升級(jí),整體性能比前代有明顯提升。通義千問(wèn)官網(wǎng)和通義APP的后臺(tái)模型均已切換為Qwen-Max,繼續(xù)免費(fèi)為所有用戶(hù)提供服務(wù)。


2
模型、生態(tài)兩手抓

自 2023 年 8 月開(kāi)源以來(lái),通義千問(wèn)不斷在基座模型上發(fā)力,并將所有模型能力全部開(kāi)放出來(lái)供業(yè)界使用。這背后是阿里云在 AI 大模型時(shí)代的開(kāi)源開(kāi)放策略在支撐。開(kāi)源能夠推動(dòng)大模型的研發(fā)和應(yīng)用,最終,作為AI基礎(chǔ)設(shè)施的云計(jì)算廠商將是整個(gè)行業(yè)算力需求的最重要承接方。

路徑純粹、目標(biāo)清晰,輕裝上陣、方得致遠(yuǎn)。

不過(guò),開(kāi)源概念雖然美好,行動(dòng)卻毫無(wú)捷徑可言。在所有模型都免費(fèi)可用、所有用戶(hù)都來(lái)去自如的開(kāi)源社區(qū),開(kāi)發(fā)者的選擇太多了。模型好,開(kāi)發(fā)者會(huì)駐足,模型不行,開(kāi)發(fā)者可以毫不猶豫選用別家。

通義團(tuán)隊(duì)總結(jié)了他們的開(kāi)源經(jīng)驗(yàn),道理之樸素,幾乎沒(méi)有任何驚喜:性能上日拱一卒,不斷訓(xùn)練和迭代模型,不斷提升數(shù)據(jù)處理、模型訓(xùn)練方面的技能,始終跑在模型技術(shù)第一線(xiàn)。生態(tài)上從零起步、開(kāi)疆拓土,與海內(nèi)外的開(kāi)源社區(qū)、生態(tài)伙伴、開(kāi)發(fā)者共建生態(tài)網(wǎng)絡(luò),融入基模核心競(jìng)技場(chǎng)。

生態(tài)建設(shè)方面,通義團(tuán)隊(duì)做了幾方面的“細(xì)活”:

一,努力實(shí)現(xiàn)生態(tài)兼容。自Qwen1.5發(fā)布以來(lái),通義團(tuán)隊(duì)就與Hugging Face合作,把模型代碼合并到HuggingFace transformers代碼庫(kù),方便開(kāi)發(fā)者直接使用 transformers原生代碼;通義團(tuán)隊(duì)還積極溝通生態(tài)伙伴,獲得各類(lèi)開(kāi)源框架、開(kāi)源工具對(duì)Qwen系列的兼容和支持,包括vLLM、SGLang、AutoAWQ、AutoGPTQ、Axolotl、LLaMA-Factory、llama.cpp、 Ollama 、LMStudio 等等。

二,做好開(kāi)發(fā)者服務(wù)。模型開(kāi)源并不是把模型放到社區(qū)就行,Qwen團(tuán)隊(duì)注重從細(xì)節(jié)處提升開(kāi)發(fā)者體驗(yàn)。準(zhǔn)備模型文檔(model card)時(shí),除了主流的英文文檔,還會(huì)準(zhǔn)備中文甚至其他語(yǔ)種的文檔;優(yōu)化文檔質(zhì)量,讓開(kāi)發(fā)者一眼讀懂模型的亮點(diǎn)、效果、demo;準(zhǔn)備代碼片段,幫助開(kāi)發(fā)者快速部署和使用模型。Qwen團(tuán)隊(duì)還非常重視與開(kāi)發(fā)者的互動(dòng),積極處理開(kāi)發(fā)者提交的問(wèn)題和建議。

三、積極吸納研究界和開(kāi)源社區(qū)的創(chuàng)意。比如為了回應(yīng)開(kāi)發(fā)者對(duì) 14B 和 32B 模型的需求,本次Qwen2.5增加了14B、32B 尺寸的開(kāi)源模型。

今天我們可以看到通義大模型在開(kāi)源屆已經(jīng)成功躋身一流之列,比肩國(guó)際最強(qiáng)開(kāi)源模型Llama,多次登頂Hugging Face全球大模型榜單。

最受歡迎開(kāi)源大模型,為什么是通義?

通義千問(wèn)開(kāi)源模型Qwen的衍生模型數(shù)量已經(jīng)超過(guò)5萬(wàn),僅次于Llama,數(shù)據(jù)來(lái)自全球最大的開(kāi)源社區(qū)Hugging Face

兩個(gè)數(shù)據(jù)最能體現(xiàn)通義作為中國(guó)開(kāi)源大模型的影響力,一是模型下載量,根據(jù)通義官方數(shù)據(jù),截至 2024 年 9 月初,通義千問(wèn)開(kāi)源模型累計(jì)下載量已經(jīng)突破4000萬(wàn),這是開(kāi)發(fā)者和中小企業(yè)用腳投票的結(jié)果;二是衍生模型數(shù)量,截至9月初,通義原生模型和衍生模型總數(shù)超過(guò)5萬(wàn)個(gè),成為僅次于Llama的世界級(jí)模型群。

除了開(kāi)源模型,通義也提供 API 服務(wù)。據(jù)官方透露,通過(guò)阿里云,通義大模型已經(jīng)服務(wù)了30多萬(wàn)客戶(hù),他們涉及千行百業(yè)。盡管消費(fèi)者市場(chǎng)的超級(jí)大模型應(yīng)用還未出現(xiàn),但在很多垂直領(lǐng)域,大模型正在人們看不見(jiàn)的地方,逐漸生根發(fā)芽。阿里巴巴最新季度業(yè)績(jī)報(bào)告顯示,阿里云的AI相關(guān)產(chǎn)品收入實(shí)現(xiàn)三位數(shù)增長(zhǎng)。


3
后記

從去年百模大戰(zhàn)中的普通一員,到如今擁有“萬(wàn)模同源”的模型族群,通義大模型的開(kāi)源之路,也是中國(guó)大模型追趕世界一線(xiàn)水平的縮影。

回顧世界技術(shù)史,在每一次技術(shù)浪潮中,開(kāi)源對(duì)一項(xiàng)新技術(shù)的推動(dòng)和創(chuàng)新早已經(jīng)過(guò)多次驗(yàn)證,開(kāi)源的價(jià)值和意義毋庸置疑,站在大模型技術(shù)發(fā)展的角度可以說(shuō),在過(guò)去一年里通義大模型極大地推動(dòng)了中國(guó)大模型的生態(tài)繁榮?!咐追寰W(wǎng)(公眾號(hào):雷峰網(wǎng))」「雷峰網(wǎng)」




雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

最受歡迎開(kāi)源大模型,為什么是通義?

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)