萬卡集群，進入AI核心圈的入場券

本文作者：包永剛

2024-07-08 18:13

導語：今年開始，萬卡以上的智算中心才有價值。

OpenAI的單點集群大概5萬張卡，谷歌2.6萬張卡，Meta2.45萬張卡。

萬卡集群，進入AI核心圈的入場券

頂級的AI公司已經為這場“暴力美學”的競賽，設定了單點集群萬卡的門檻。

華為昇騰AI集群規(guī)模在去年7月已經擴展至16000卡。去年10月科大訊飛啟動萬卡集群算力平臺“飛星一號”。

今年3月，天翼云上海臨港國產萬卡算力池啟用。4月，中國移動宣布今年將商用3個自主可控萬卡集群。

摩爾線程創(chuàng)始人兼CEO張建中在2024世界人工智能大會（WAIC）前夕的摩爾線程AI DAY 暨萬卡智算集群解決方案發(fā)布會上表示，“AI主戰(zhàn)場，萬卡是最低標配?！?/strong>

可實現萬卡集群至少面臨6個層面的挑戰(zhàn)，國內公司如何實現國產算力的萬卡智算集群？

AI主戰(zhàn)場，萬卡是標配

最近兩年火爆的生成式AI，被許多人稱為“暴力美學”。

也就是在數據量足夠大、模型參數數量大到一定程度，模型的精度、準確度會出現智能涌現會，突破傳統(tǒng)大模型的準確度。

比如，在自然語言理解場景，當算力參數量和數據量綜合算力達到10的23次方時，準確度有極大的飛躍。

這個規(guī)律被稱作Scaling Law。與Scaling Law相伴的是對算力的指數級增長。

比如訓練GPT4，大概需要1千張H100的算力，而如果使用A100則需要3萬張。

“GPT5需要的算力是10萬卡?！睆埥ㄖ姓J為。

這是基于假設Scaling Law按照線性比例成長，估算參數、數據量和算力之間的關系。

從GTP3到GPT4，模型的參數從百億到萬億，100倍的參數增長，數據量也從幾TB到幾十TB，是10倍的提升，兩者一乘，整個算力的需求就是1000倍的提升。

滿足Scaling Law的唯一辦法就是建立一個單點超大規(guī)模算力集群。

“只有這樣，才可以把這個大模型在一個地方，一個網絡，單節(jié)點之內把它訓練完成?！睆埥ㄖ兄赋?。

假設訓練一個5000億參數的模型，15TB的數據，如果使用1000P的集群，三年都訓練不完。如果要在一個月內，甚至1-2周內訓練完5000億參數的模型，至少要1萬P的算力集群。

“從今年開始，所有智算中心萬卡是最低標配，萬卡以上的智算中心才有價值?！睆埥ㄖ姓J為。

Scaling Law持續(xù)奏效的同時，還不能忽視算法和架構的演進。

目前，Transformer架構雖然是主流，但新興架構如Mamba、RWKV和RetNet等不斷刷新計算效率，加快創(chuàng)新速度。

“有公司專門為Transformer架構做加速計算，這個創(chuàng)意很好，但如果很容易實現一定會被融合到GPU當中，成為GPU當中的Transformer引擎。我們相信未來還會出現各種架構的變種，要支持不停出現的新框架，只有一個辦法，就是通用且能持續(xù)發(fā)展的計算平臺。”張建中表示。

那就應該建設一個萬卡規(guī)模加上通用可擴展的智算中心，這面臨眾多挑戰(zhàn)。

萬卡智算中心的6大難題

有統(tǒng)計數據，2024年國內有上百個在建的智算中心。這是一項超高額的投入，建設幾萬P的智算中心成本高達幾十億，更大算力規(guī)模則需投資上百億。

“連市場客戶都沒有就盲目建設智算中心肯定不對，不是所有人都應該去建算力中心，應該由專業(yè)的人干專業(yè)的事?！睆埥ㄖ羞M一步表示，“智算中心是否好用，能否通用，能不能穩(wěn)定運行，有沒有能力運營都是建設智算中心需要考慮的事情?！?/p>

很多客戶喜歡喜歡DIY，但張建中建議不要太多DIY，而是采用整體解決方案，這樣集群買回去之后馬上就可以用起來，能夠避免風險。

特別是從千卡到萬卡集群，不是簡單的堆疊，復雜度指數級增加，國產千卡/萬卡超級系統(tǒng)工程面臨著6大難題：包括超大規(guī)模組網互聯(lián)、集群有效計算效率、訓練高穩(wěn)定性與可用性、故障快速定位與可診斷工具、生態(tài)Day0級快速遷移、未來場景通用計算。

“可以把萬卡想象成一個萬人團隊，需要有非常強的溝通機制，才能協(xié)同的把一件事情完成?！蹦柧€程CTO張鈺勃說，“對于萬卡集群，僅靠單卡算力還不夠，提供匹配單卡算力的通訊也至關重要?！?/p>

卡間互聯(lián)和交換機是關鍵。雷峰網了解到，摩爾線程千/萬卡集群的卡間互聯(lián)是自研的MTLink，和NVLink作用相同，目前已經演進到MTLink2.0版本。

“我們還沒有交換機芯片，是用行業(yè)里的交換機芯片去搭建我們的集群?！睆埥ㄖ型嘎叮昂笃谖覀儠灾餮邪l(fā)，或者是和行業(yè)合作伙伴一起研發(fā)下一代大規(guī)模的交換機?！?/p>

互聯(lián)之外的另一個難題是穩(wěn)定性。

“集群規(guī)模越大越不穩(wěn)定?！睆埥ㄖ袑追寰W(公眾號：雷峰網)表示，“千卡集群故障率可能做到0.1%就可以，萬卡集群要提升到0.01%甚至是0.001%，這對硬件設計和生產制造都是很大的挑戰(zhàn)。摩爾線程投入了很多，確保架構本身的穩(wěn)定性，以及讓芯片的平均無故障時間更長?！?/p>

散熱也是提升萬卡集群穩(wěn)定性的關鍵，千卡集群還可以考風冷解決，萬卡就需要液冷保證集群的穩(wěn)定運行。

“還需要不同的容錯機制，在出問題的時候硬件自動恢復，而不是靠軟件。”張建中表示。

為此，摩爾線程推出了智算中心全棧解決方案夸娥（KUAE），以全功能GPU為底座，構建了夸娥計算集群為核心的基礎設施、夸娥集群管理平臺（KUAE Platform）以及夸娥大模型服務平臺（KUAE ModelStudio）的一體化交付的解決方案。

夸娥智算集群也可以實現從千卡至萬卡集群的無縫擴展。

夸娥國產萬卡萬P智算集群的差異化優(yōu)勢

全新一代夸娥智算集群實現單集群規(guī)模超萬卡，浮點運算能力達到10Exa-Flops，大幅提升單集群計算性能，能夠為萬億參數級別大模型訓練提供堅實算力基礎。

同時，夸娥萬卡集群達到PB級的超大顯存總容量、每秒PB級的超高速卡間互聯(lián)總帶寬和每秒PB級超高速節(jié)點互聯(lián)總帶寬，實現算力、顯存和帶寬的系統(tǒng)性協(xié)同優(yōu)化。

算力利用率（MFU）方面，千卡夸娥集群MFU有50%多，萬卡夸娥集群的MFU目標是60%。

穩(wěn)定性層面，摩爾線程夸娥萬卡集群平均無故障運行時間超過15天，最長可實現大模型穩(wěn)定訓練30天以上，周均訓練有效率在99%以上。

月級長穩(wěn)訓練遠超行業(yè)平均水平，得益于摩爾線程自主研發(fā)的一系列可預測、可診斷的多級可靠機制，包括軟硬件故障的自動定位與診斷預測實現分鐘級的故障定位，Checkpoint多級存儲機制實現內存秒級存儲和訓練任務分鐘級恢復以及高容錯高效能的萬卡集群管理平臺實現秒級納管分配與作業(yè)調度。

夸娥智算集群還有一個對所有用戶來說非常友好的特性——CUDA兼容。

“我們的產品跟國內外主流生態(tài)在兼容性方面做的很好，開發(fā)者移植到夸娥集群幾乎不需要修改代碼，遷移成本接近0，可以在數小時之內就完成遷移工作。”張鈺勃表示，“當然用戶可能需要花數天的時間去調優(yōu)性能，但整體的遷移成本很低，并不需要幾周這么長的時間?！?/p>

在諸多的智算中心中，張建中認為摩爾線程夸娥的差異化優(yōu)勢在于，是國內唯一一家用全功能GPU實現通用加速計算的公司。

“摩爾線程有1000多人，我們花了4年時間，把GPU的圖形能力、編解碼能力、科學計算能力、人工智能訓練推理能力都做了提升，我們希望能夠搭建首個中國本土通用型的萬卡集群?！睆埥ㄖ兄赋?。

摩爾線程的GPU也幾乎適配了所有國產CPU，這也是夸娥智算集群的差異化所在。

“我們與國內所有的CPU、操作系統(tǒng)一起打造了一個生態(tài)系統(tǒng)，叫PES聯(lián)盟，形成一個本土化完整生態(tài)?！睆埥ㄖ姓f。

不少人都知道摩爾線程的GPU能做圖形渲染，卻忽視了基于摩爾線程全功能的GPU能夠實現的AI功能。摩爾線程的夸娥千卡集群，已經有包括無問芯穹、清程極智、360、京東云、智平方等合作伙伴。

在摩爾線程夸娥千卡集群上，360分別部署70億、700億參數大語言模型，全程軟硬件即插即用，工作有效訓練時間占比100%；全程穩(wěn)定無軟硬件故障，集群有效訓練時間占比100%。

京東基于摩爾線程夸娥集群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模型推理測試，Chatglm2-6B推理測試，S4000的單卡推理性能是RTX 4090D性能的1.26倍，其他兩個模型，S4000性能均能達到RTX 4090D性能的90%左右。

夸娥萬卡集群，摩爾線程與中國移動通信集團青海有限公司、中國聯(lián)通青海公司、北京德道信科集團、中國能源建設股份有限公司總承包公司、桂林華崛大數據科技有限公司，分別就青海零碳產業(yè)園萬卡集群項目、青海高原夸娥萬卡集群項目、廣西東盟萬卡集群項目進行了戰(zhàn)略簽約。

接下來，夸娥萬卡智算集群就將考驗摩爾線程能夠作為一家系統(tǒng)級公司，解決國內AI算力緊缺的難題。

張建中要帶領摩爾線程做難而正確的事。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

分享：

相關文章

夸娥萬卡集群摩爾線程AI 智算中心

48天落地智算中心、營收增值超2億元，算力「落地難」 ...

上市AI芯片公司落地數個千卡集群；國內有萬卡經驗的 ...

新窗口指導大范圍取消補貼；智算中心建設先算虧多少 ...

蓮花紫星算力項目縮水超9成；某國產全功能GPU性能對 ...

包永剛

編輯

發(fā)私信

當月熱門文章

AI進入推理主導的下半場，星宸科技押注哪5大賽道？

深圳理工大學唐志敏：異構計算已成必然，軟件決定芯片勝負｜GAIR 2025

猛攻AI PC市場，第三代酷睿Ultra只用了「一半」實力

首屆開發(fā)者大會，讓摩爾線程全功能GPU的獨特優(yōu)勢更「具像化」

最新文章

當手機SoC不再缺算力，MediaTek解開的下一個難題是什么？

輕薄本，也能跑大模型了：第三代英特爾酷睿Ultra的野心與邊界

猛攻AI PC市場，第三代酷睿Ultra只用了「一半」實力

從移動設備到機器人，高通如何解鎖端側AI的「全域智能」？

48天落地智算中心、營收增值超2億元，算力「落地難」迎來新解？

昇思MindSpore實現超節(jié)點的「類單機開發(fā)體驗」的三項關鍵能力

熱門搜索

機器學習 360 手機 OPPO Siri HTML5 iPhone 4S 數字化轉型數據庫產品 MIUI

萬卡集群，進入AI核心圈的入場券

萬卡集群，進入AI核心圈的入場券