0
| 本文作者: 楊依婷 | 2025-12-30 10:04 |
當(dāng)大模型進(jìn)入十萬億參數(shù)、長序列、稀疏化和非規(guī)則結(jié)構(gòu)并行發(fā)展的階段,AI算力基礎(chǔ)設(shè)施正在發(fā)生一次根本性變化:從傳統(tǒng)服務(wù)器集群,演進(jìn)為以高速互聯(lián)為核心的超節(jié)點架構(gòu)。
2025年12月25日,昇思人工智能框架峰會在杭州召開。大會以“昇思MindSpore為超節(jié)點而生的AI框架”為主題,來自產(chǎn)業(yè)界、學(xué)術(shù)界和開源社區(qū)的多位嘉賓,從不同角度給出了一個共同判斷:AI基礎(chǔ)設(shè)施已經(jīng)進(jìn)入超節(jié)點時代,而AI框架正站在范式切換的臨界點上。
超節(jié)點不再只是多臺服務(wù)器的簡單堆疊,而是通過高速互聯(lián),在邏輯層面“像一臺機(jī)器一樣學(xué)習(xí)、思考和推理”,具備資源池化、對等架構(gòu)與網(wǎng)絡(luò)拓?fù)浞謱佣鄻拥奶卣鳌?/p>
昇思MindSpore開源社區(qū)技術(shù)委員會主席金雪鋒在演講中指出,大模型的演進(jìn)正在同時帶來三重挑戰(zhàn):
一是模型規(guī)模持續(xù)增長,片上內(nèi)存壓力急劇上升;
二是模型結(jié)構(gòu)從單一語言模型走向全模態(tài),子模型組合更加復(fù)雜、不規(guī)則;
三是訓(xùn)推范式趨于異構(gòu),訓(xùn)練、推理與Agent運行需要協(xié)同編排。
金雪鋒說,正是這些變化,推動AI基礎(chǔ)設(shè)施從“服務(wù)器集群時代”邁入“超節(jié)點時代”,AI框架將迎來新的架構(gòu)范式。
昇思MindSpore給出的答案是,把超節(jié)點當(dāng)作一臺“超級計算機(jī)”,在框架層面統(tǒng)一編程和調(diào)度,而不是讓開發(fā)者直接面對復(fù)雜的集群拓?fù)浜筒⑿屑?xì)節(jié)。
這一判斷,也成為昇思MindSpore提出“為超節(jié)點而生”的核心邏輯起點。
“很多人聽過超節(jié)點,但并不真正理解超節(jié)點?!?/p>
在峰會之后的媒體溝通會上,現(xiàn)任昇思MindSpore開源社區(qū)理事長王紫東強調(diào)這一點。
在他的解釋中,超節(jié)點并不是簡單地把更多NPU卡堆在一起,而是通過超高帶寬互聯(lián),讓大量計算單元在邏輯層面形成一個高度耦合的整體??ㄅc卡之間不再是“慢速通信的鄰居”,而是隨時可調(diào)度的數(shù)據(jù)通路。
這一變化,直接服務(wù)于一個現(xiàn)實需求:模型太大了,大到必須極致并行。
當(dāng)模型被切分到數(shù)百、數(shù)千張卡上時,真正的瓶頸已經(jīng)不再是算力本身,而是:
? 數(shù)據(jù)什么時候該在哪一張卡上
? 狀態(tài)何時遷移
? 通信與計算如何重疊
? 并行策略如何隨模型結(jié)構(gòu)變化而調(diào)整
“硬件的性能上限提高了,但如果軟件跟不上,性能是用不出來的?!蓖踝蠔|直言,超節(jié)點越強,對AI框架的要求反而越高。
昇思MindSpore提出了一個清晰而激進(jìn)的定位——
把復(fù)雜留給自己,把簡單留給開發(fā)者。
在傳統(tǒng)集群時代,開發(fā)者往往需要手動理解并行策略、通信模式和硬件拓?fù)?,而在超?jié)點時代,這種模式已經(jīng)不可持續(xù)。集群拓?fù)湓絹碓綇?fù)雜,節(jié)點規(guī)模越來越大,如果復(fù)雜性繼續(xù)外溢到開發(fā)層,開發(fā)效率和穩(wěn)定性將迅速崩塌。
MindSpore的選擇,是讓AI框架本身承擔(dān)更多系統(tǒng)級責(zé)任,其目標(biāo),是讓開發(fā)者在超節(jié)點復(fù)雜算力環(huán)境中仍能保持“類單機(jī)”的開發(fā)體驗,而HyperParallel架構(gòu)正是實現(xiàn)這一目標(biāo)的關(guān)鍵。
金雪鋒在峰會上系統(tǒng)拆解了HyperParallel的三項關(guān)鍵能力。
首先是 HyperOffload。
隨著模型規(guī)模持續(xù)擴(kuò)大,片上內(nèi)存容量成為制約訓(xùn)練和推理的重要瓶頸。HyperOffload通過實現(xiàn)計算與狀態(tài)分離,利用超節(jié)點的池化存儲能力,將模型狀態(tài)卸載到遠(yuǎn)端內(nèi)存中,從而釋放片上資源。在實際應(yīng)用中,MindSpore給出的數(shù)據(jù)是:訓(xùn)練性能提升20%以上,推理支持的序列長度提升70%以上,這不是簡單的“搬數(shù)據(jù)”,而是對計算時序的精確調(diào)度。
其次是 HyperMPMD。
SPMD曾經(jīng)是AI并行的黃金標(biāo)準(zhǔn),但在多模態(tài)、強化學(xué)習(xí)、Agent 等場景下,它開始顯得僵硬。HyperMPMD推動并行從 “所有節(jié)點做同一件事”,走向 “不同節(jié)點做不同任務(wù)”,這種 MPMD 模式,充分利用了超節(jié)點對等互聯(lián)的優(yōu)勢,讓通算并發(fā)成為常態(tài),在相關(guān)場景中,算力利用率可提升 15% 以上。
第三是 HyperShard。
在傳統(tǒng)命令式并行編程中,算法、并行策略與集群架構(gòu)高度耦合,新模型一旦出現(xiàn),往往需要對并行方案進(jìn)行大規(guī)模重構(gòu)。HyperShard引入聲明式并行編程方式,將算法與并行策略解耦,同時屏蔽底層超節(jié)點網(wǎng)絡(luò)拓?fù)涞膹?fù)雜性。金雪鋒表示,在這一模式下,新算法的并行化改造時間可以壓縮到1天以內(nèi),并行策略調(diào)優(yōu)從“天級”縮短至“小時級”。
從HyperOffload到HyperMPMD,再到HyperShard,昇思MindSpore的目標(biāo)并非單點性能提升,而是讓超節(jié)點的復(fù)雜性由框架消化,而不是由開發(fā)者承擔(dān)。
MindSpore為什么“突然變好用了”?
現(xiàn)任昇思MindSpore開源社區(qū)理事長王紫東并沒有從性能參數(shù)或功能列表切入,而是給出了一個并不“市場化”的判斷標(biāo)準(zhǔn)——社區(qū)Issue的自閉環(huán)率。
在他看來,一個健康的AI框架社區(qū),并不是依賴官方不斷“救火”,而是開發(fā)者之間能夠圍繞問題展開討論,自主定位原因、提交修復(fù),并通過PR形成持續(xù)正反饋?!皢栴}能不能在社區(qū)內(nèi)部被解決,往往比解決得有多快更重要?!蓖踝蠔|說。
也正是在這一意義上,他將MindSpore五年來最重要的成果,歸結(jié)為兩個字:社區(qū)。
華為于2020年3月28日正式開源昇思MindSpore。五年來,這一社區(qū)逐步形成規(guī)模效應(yīng):覆蓋全球156個國家和地區(qū),累計下載量超過1300萬次,代碼合入量超過12萬次,核心貢獻(xiàn)開發(fā)者超過5.2萬人,并聯(lián)合2000多家社區(qū)伙伴,孵化出3100多個行業(yè)應(yīng)用。
這些數(shù)字本身并不新鮮,但它們背后所指向的,是一條已經(jīng)被反復(fù)驗證的路徑——自主AI框架并非封閉體系,而可以通過開放協(xié)作,形成持續(xù)演進(jìn)的技術(shù)能力。
時任昇思MindSpore開源社區(qū)理事長丁誠在峰會上表示,昇思始終堅持開放治理,踐行“共建、共治、共享”的社區(qū)理念。一方面持續(xù)推進(jìn)框架技術(shù)演進(jìn),另一方面也通過課程、競賽和工程實踐,支持AI人才從入門到深度參與開源生態(tài),逐步成長為產(chǎn)業(yè)中的中堅力量。
當(dāng)這種社區(qū)能力與超節(jié)點架構(gòu)結(jié)合時,其價值開始在真實工程場景中顯現(xiàn)。
中國工程院院士、中國商飛首席科學(xué)家吳光輝在演講中介紹,中國商飛上海飛機(jī)設(shè)計研究院基于昇思MindSpore框架,推出了民機(jī)超臨界翼型氣動設(shè)計智能體“御風(fēng)·智翼”,構(gòu)建了基于工程經(jīng)驗的超臨界翼型智能一站式解決方案。
吳光輝指出,大飛機(jī)是“工業(yè)皇冠上的明珠”,而飛機(jī)氣動設(shè)計直接決定民用飛機(jī)的關(guān)鍵性能,通過將AI框架與工程經(jīng)驗深度結(jié)合,相關(guān)設(shè)計研發(fā)正在向更加智能化、一體化的方向演進(jìn)。這一實踐,也成為昇思MindSpore在復(fù)雜工程領(lǐng)域落地的一個縮影。
從服務(wù)器集群到超節(jié)點,從單一模型訓(xùn)練到多任務(wù)并行運行,AI 算力形態(tài)正在發(fā)生根本性變化。在這條變化曲線上,AI框架的角色也隨之轉(zhuǎn)變——它不再只是“讓模型跑起來”的工具,而正在演變?yōu)檫B接算力、模型與應(yīng)用的組織者。
昇思MindSpore給出的選擇,是將超節(jié)點帶來的復(fù)雜性盡可能收斂到框架內(nèi)部,讓開發(fā)者不必直接面對集群拓?fù)渑c并行細(xì)節(jié),也不必在模型結(jié)構(gòu)變化時反復(fù)推倒重來。
這種選擇并不輕松。它意味著更重的系統(tǒng)工程投入、更長周期的技術(shù)積累,也意味著必須依托一個真實活躍的開源社區(qū),在實踐中不斷校正方向。
但在超節(jié)點逐漸成為主流算力形態(tài)、Agent 與多任務(wù)運行走向常態(tài)的背景下,AI 框架是否具備“消化復(fù)雜性”的能力,正在成為新的分水嶺。
或許正是在這個意義上,昇思 MindSpore 圍繞超節(jié)點與開源展開的探索,并不是一次孤立的技術(shù)發(fā)布,而是一種關(guān)于AI框架如何參與下一輪算力演進(jìn)的現(xiàn)實回答。
雷峰網(wǎng)(公眾號:雷峰網(wǎng))(雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。