0
| 本文作者: 楊依婷 | 2026-04-30 09:51 |
2025年,AI算力進入深水區(qū)。
一邊是需求持續(xù)外溢:大模型訓(xùn)練規(guī)模仍在擴張,推理請求呈指數(shù)級增長,數(shù)據(jù)中心的投資未見降溫;另一邊,是一系列隱性的制約正逐漸浮出水面——算力利用率始終在低處徘徊,系統(tǒng)抖動頻發(fā),集群效率難以維持穩(wěn)定。
行業(yè)逐漸意識到,瓶頸并不總出現(xiàn)在“算力”本身。很多時候,問題卡在“數(shù)據(jù)”這一環(huán)。
當(dāng)計算集群規(guī)模擴大到萬卡級別,任何一個環(huán)節(jié)的延遲波動,都會被放大為整體性能問題。一些云服務(wù)的宕機事件,表面上是調(diào)度算法失效,深層原因卻是數(shù)據(jù)供給與計算節(jié)奏之間的錯位——數(shù)據(jù)來不及被組織、搬運、分發(fā),算力只能在空轉(zhuǎn)中等待。
這讓一個長期被視為基礎(chǔ)組件的領(lǐng)域,重新進入核心視野:存儲。
過去,存儲的任務(wù)是解決“存得下”;而在AI時代,它開始決定“算得快不快”。
正是在這一背景下,“AI SSD”應(yīng)運而生,幾乎所有主流存儲廠商,都在嘗試交出自己的答卷。
但問題也隨之而來——當(dāng)整個行業(yè)都在做AI SSD時,什么才是真正有效的改進?存儲,究竟需要為AI改變什么?
帶著這些問題,我們與英韌科技董事長吳子寧博士進行了一次對話。他沒有急于回答,而是先講起了一個二十多年前的故事。
(本文作者長期關(guān)注存儲行業(yè),對周期波動與企業(yè)分化有持續(xù)追蹤,歡迎添加微信 EATINGNTAE 交流探討。)
技術(shù)史,并不是一條筆直向前的曲線,而更像是一連串不斷被推翻、被修正、再重建的嘗試。吳子寧博士用一個故事,解釋了這種平衡如何被打破、又如何重建。
2001年,蘋果發(fā)布iPod,那款音樂播放器采用了一項當(dāng)時頗具突破性的設(shè)計——把機械硬盤縮到火柴盒大小,實現(xiàn)了5GB的存儲容量。而在同一時期,主流MP3播放器普遍僅配備64MB或128MB的閃存。
蘋果首先顛覆了人們對音樂播放器的認(rèn)知。吳子寧博士回憶道,“用戶不再需要頻繁管理音樂文件,而是可以將整個音樂庫隨身攜帶?!?/p>
這一變化迅速在產(chǎn)業(yè)鏈中引發(fā)連鎖反應(yīng)。多家硬盤廠商將小尺寸機械硬盤視為新的增長方向,投入大量資源進行研發(fā)。然而不久之后,另一項技術(shù)路徑開始加速演進——閃存技術(shù)快速迭代,容量飛速發(fā)展。蘋果隨即推出基于全閃存的iPod,盡管入門容量僅為1GB,但憑借小型化和便利性,很快在市場上超越了機械硬盤版本。
很多存儲公司投入大量資源研發(fā)小尺寸機械硬盤,都因為新技術(shù)的出現(xiàn)受到了巨大的沖擊。
彼時,吳子寧博士正任職于Marvell,而Marvell正是業(yè)界最早全面投入閃存固態(tài)硬盤解決方案的公司之一。這一經(jīng)歷在他心中形成了一個重要判斷:技術(shù)持續(xù)演進是常態(tài),短周期內(nèi)會有漸進式創(chuàng)新,而在更長周期內(nèi),則可能出現(xiàn)顛覆性變革。能否準(zhǔn)確把握技術(shù)與市場趨勢,并據(jù)此做出前瞻性決策,至關(guān)重要。
2016年創(chuàng)辦英韌科技時,他已經(jīng)觀察到兩個關(guān)鍵趨勢的疊加。
“一邊是數(shù)據(jù)需求在爆發(fā),而且是長期趨勢;另一邊是存儲介質(zhì)正在從機械硬盤向固態(tài)硬盤遷移?!彼f,“當(dāng)需求和技術(shù)同時發(fā)生變化,就會出現(xiàn)一個很典型的機會窗口。”
而在AI驅(qū)動的新一輪數(shù)據(jù)浪潮之下,這一“判斷能力”的重要性再次被放大——面對全新的計算范式,存儲系統(tǒng)應(yīng)當(dāng)如何演進?
據(jù)DESIGNRUSH估計,2025年實際數(shù)據(jù)量約為173.4ZB,而2026年全年數(shù)據(jù)生成量預(yù)計在230ZB至240ZB之間,到了2029年,該數(shù)字預(yù)計將達到527.5ZB。
作為IT基礎(chǔ)設(shè)施三大核心支柱之一,存儲在半導(dǎo)體市場中占比約為20%至30%,但在AI時代,這一“支柱”正承受前所未有的壓力。
這種壓力主要體現(xiàn)在三個方面。
第一,數(shù)據(jù)形態(tài)正在改變。傳統(tǒng)數(shù)據(jù)通常具備明確的冷熱分層:熱數(shù)據(jù)駐留內(nèi)存,溫數(shù)據(jù)進入SSD,冷數(shù)據(jù)則歸檔至機械硬盤。然而在AI訓(xùn)練與推理過程中,數(shù)據(jù)呈現(xiàn)出高頻交互特征——大模型訓(xùn)練需要持續(xù)吞吐海量數(shù)據(jù),推理階段涉及大量中間狀態(tài)的頻繁訪問,而向量檢索則帶來高比例的小塊隨機讀寫。數(shù)據(jù)不再嚴(yán)格遵循既有分層結(jié)構(gòu)。
第二,應(yīng)用場景高度分化,基礎(chǔ)大模型正在向行業(yè)大模型演進。銀行的風(fēng)控數(shù)據(jù)、車企的自動駕駛數(shù)據(jù)、醫(yī)學(xué)影像系統(tǒng)數(shù)據(jù),每個場景對存儲的要求都不一樣:有的需要超高吞吐,有的需要極低延遲,有的需要在邊緣節(jié)點上實現(xiàn)高密度數(shù)據(jù)處理。
第三,系統(tǒng)容忍度顯著降低。當(dāng)計算集群擴展至萬卡級規(guī)模時,任一環(huán)節(jié)的性能波動都可能拖慢整體訓(xùn)練效率。與此同時,邊緣側(cè)原本受限的內(nèi)存帶寬,還需匹配接近GPU級別的計算能力。存儲不再只是數(shù)據(jù)的承載介質(zhì),而成為影響數(shù)據(jù)流動效率、進而決定訓(xùn)練與推理性能的關(guān)鍵因素。
在他看來,這種變化的根源,在于計算體系中心的遷移。
“過去是CPU在做調(diào)度,GPU只是執(zhí)行單元;但現(xiàn)在,在AI系統(tǒng)里,GPU本身開始承擔(dān)調(diào)度角色?!彼f,“如果數(shù)據(jù)還要經(jīng)過CPU中轉(zhuǎn),就相當(dāng)于在兩條高速公路之間接了一座很窄的橋,這個環(huán)節(jié)會成為瓶頸。”
吳子寧博士用一個形象的比喻來說明這一變化:“一輛車即使最高速度很高,如果大部分時間處于等待狀態(tài),發(fā)動機空轉(zhuǎn),那么它的實際效率依然很低?!?/p>
在AI計算體系中,“等待”正成為日益突出的瓶頸。計算單元具備極高的算力,但數(shù)據(jù)往往滯留在存儲側(cè)——如果無法被高效調(diào)度至計算單元,就會導(dǎo)致算力資源閑置與浪費。
“存儲不僅要完成數(shù)據(jù)的持久化,還需要具備對數(shù)據(jù)進行高效組織與調(diào)度的能力?!眳亲訉幉┦恐赋?,“我們已經(jīng)開始探索,在存儲側(cè)引入更智能的控制機制,對數(shù)據(jù)布局與訪問路徑進行優(yōu)化。”
這一思路指向一個明確方向:存儲系統(tǒng)需要針對AI負(fù)載進行系統(tǒng)性優(yōu)化。
過去幾年,行業(yè)已展開多路徑探索。例如,通過優(yōu)化固件與FTL(Flash Translation Layer)算法,使SSD在高并發(fā)場景下保持穩(wěn)定的延遲分布;通過重構(gòu)主控架構(gòu),提升數(shù)據(jù)調(diào)度效率;以及借助CXL(Compute Express Link)協(xié)議擴展內(nèi)存語義,使閃存在特定場景中承擔(dān)部分內(nèi)存功能。
這些技術(shù)路徑最終匯聚為一個共同的產(chǎn)品方向——AI SSD,這是整個行業(yè)對同一核心問題的多元回應(yīng):當(dāng)計算范式發(fā)生變化,存儲體系如何協(xié)同演進?
在吳子寧博士看來,一項技術(shù)是否值得投入,可以從三個維度判斷:技術(shù)合理性、商業(yè)可行性與生態(tài)兼容性。
以此衡量AI SSD,其可行性便清晰起來——
技術(shù)層面,AI負(fù)載對存儲提出了傳統(tǒng)SSD難以滿足的新要求,針對性優(yōu)化是解決“算力等數(shù)據(jù)”痛點的必要路徑;
商業(yè)層面,AI SSD在成熟閃存與主控技術(shù)基礎(chǔ)上演進,能夠復(fù)用現(xiàn)有供應(yīng)鏈,具備大規(guī)模部署的成本基礎(chǔ);
生態(tài)層面,它延續(xù)PCIe/NVMe等標(biāo)準(zhǔn)接口與協(xié)議,與現(xiàn)有計算體系保持兼容,能夠被平滑接納。
從這個角度看,AI SSD的出現(xiàn)具有內(nèi)在必然性——它并非對現(xiàn)有體系的顛覆,而是在既有架構(gòu)基礎(chǔ)上,針對新型負(fù)載特征進行的系統(tǒng)性優(yōu)化。
正如當(dāng)年閃存逐步取代小尺寸機械硬盤——技術(shù)進步提供了替代能力,而應(yīng)用需求則明確了替代方向。
在這一過程中,能夠深入理解AI負(fù)載特征,并據(jù)此構(gòu)建差異化存儲方案的廠商,將更有可能在下一輪系統(tǒng)級重構(gòu)中占據(jù)有利位置。
2025年,這場“系統(tǒng)重排”已經(jīng)拉開序幕。
從鎧俠公布AI SSD中長期路線圖,到三星、海力士、美光陸續(xù)推出針對AI場景優(yōu)化的超高速顆粒產(chǎn)品;從FMS存儲峰會上多家廠商的同臺競技,到華為在上海發(fā)布“AI SSD,加速智能經(jīng)濟涌現(xiàn)”——幾乎在同一時間點上,全球主要存儲廠商都在朝同一個方向發(fā)力。
當(dāng)“AI SSD”成為行業(yè)共識,英韌必須回答一個更具體的問題:差異化路徑何在?
在英韌內(nèi)部,對這個問題的思考始于對AI負(fù)載的拆解。AI并非單一應(yīng)用,而是一組差異顯著的計算任務(wù),大致可以歸納為三類典型負(fù)載形態(tài)。
第一種是訓(xùn)練。大模型訓(xùn)練的特征是持續(xù)、穩(wěn)定且高帶寬的數(shù)據(jù)流動,樣本被反復(fù)讀取、重排與迭代,這個場景對順序吞吐能力高度敏感,但對極端微秒級延遲的要求相對次要。穩(wěn)定的大規(guī)模供給,比瞬時極限性能更重要。
第二種是推理,這是變化最劇烈的部分。推理階段的數(shù)據(jù)訪問呈現(xiàn)高度碎片化特征,包括大量小塊隨機讀寫、KV Cache頻繁交換以及向量索引調(diào)用。此時,存儲從“批量搬運”轉(zhuǎn)變?yōu)椤皩崟r響應(yīng)”,系統(tǒng)性能對尾延遲高度敏感,一旦尾延遲失控,將直接影響整體服務(wù)質(zhì)量。
第三種是數(shù)據(jù)歸集與管理。隨著模型規(guī)模擴大,數(shù)據(jù)留存、分層與生命周期管理成為剛性需求。該場景對延遲的要求相對寬松,但對容量密度與單位成本極為敏感,需要在規(guī)模與成本之間取得平衡。
這三類負(fù)載之間,并不存在一個能夠同時最優(yōu)覆蓋的統(tǒng)一設(shè)計方案。
因此,英韌的策略是針對不同負(fù)載特征,設(shè)計具備差異化能力的主控架構(gòu)與產(chǎn)品組合。
在通用訓(xùn)練場景中,采用TLC NAND的“洞庭-N3”更強調(diào)帶寬與穩(wěn)定性的平衡,順序讀取帶寬在14.5GB/s以上,隨機讀取能力約3.4M IOPS,適合作為訓(xùn)練集群中的常規(guī)數(shù)據(jù)層。
針對容量敏感型場景,則引入基于QLC NAND的“洞庭-N3Q”。在更高存儲密度的前提下,通過控制器與糾錯機制優(yōu)化,將單盤容量提升至64TB,同時維持超過14GB/s的順序讀取水平,用于降低單位容量成本。
而在對響應(yīng)時間更敏感的推理側(cè),則采用“洞庭-N3X”這一低時延方案。該產(chǎn)品結(jié)合XL-Flash與SLC NAND,在隨機訪問下可實現(xiàn)約13微秒讀取延遲、4微秒寫入延遲,隨機讀取性能超過3.5M IOPS,隨機寫入性能可達1.6M IOPS,且具備最高100 DWPD的耐用性,更適合高并發(fā)、小請求場景。
該產(chǎn)品的實際表現(xiàn),近期已獲得第三方測試驗證。
英韌的洞庭-N3X參加了ODCC AI存儲實驗室“面向AI推理場景KV Cache的數(shù)據(jù)存儲測試項目”,SSD能支持GPU Direct Storage (GDS),采用GPU直接調(diào)度的方式,構(gòu)建“以存代算”的第三級緩存。
實測數(shù)據(jù)顯示:采用英韌科技AI SSD(洞庭-N3X)后,能夠有效打破“內(nèi)存墻”,讓數(shù)據(jù)更快供給 GPU,H20平臺的系統(tǒng)吞吐量提升約12倍,RTX 6000D平臺的系統(tǒng)吞吐量提升約20倍。在10K輸入長度下,原生架構(gòu)由于需要重新計算或處理顯存溢出,存在一定延遲,但采用N3X后,首Token延遲可從數(shù)秒級縮短至毫秒級。隨著輸入長度從100 tokens增加到100K tokens,存儲壓力呈線性甚至指數(shù)級增長,而輸入文本越長,N3X對系統(tǒng)換入換出效率的提升效果越明顯。
這一結(jié)果表明:當(dāng)AI負(fù)載規(guī)模跨越特定閾值后,存儲將從輔助角色轉(zhuǎn)變?yōu)殛P(guān)鍵性能變量;而針對推理場景深度優(yōu)化的AI SSD,可以顯著改變系統(tǒng)整體效率。
在英韌看來,這三類產(chǎn)品的劃分并非傳統(tǒng)意義上的“高、中、低端”區(qū)隔,而是對不同數(shù)據(jù)訪問模式的針對性響應(yīng),是基于負(fù)載模型推導(dǎo)的工程結(jié)果,而非簡單的參數(shù)堆疊。
真正的挑戰(zhàn),在于如何在系統(tǒng)層面實現(xiàn)這些差異化能力的協(xié)同。
隨著接口標(biāo)準(zhǔn)持續(xù)演進——從PCIe 4.0到5.0,并邁向即將到來的6.0——SSD不僅需要提升物理帶寬能力,更需要同步增強主控的并發(fā)調(diào)度與隊列管理能力。否則,底層介質(zhì)性能的提升將難以轉(zhuǎn)化為系統(tǒng)級收益。
“必須抓住每一代接口升級的窗口期?!眳亲訉幉┦恳矎娬{(diào),更具挑戰(zhàn)性的部分在于內(nèi)部架構(gòu)的重構(gòu):在高并發(fā)場景下如何避免隊列阻塞?如何有效控制尾延遲?如何在不同介質(zhì)特性之間實現(xiàn)負(fù)載均衡?
這些問題,最終都指向一個具體的性能目標(biāo)。
“要把吞吐量從現(xiàn)在的300萬IOPS,在兩年后提升至1億IOPS,這相當(dāng)于接近兩個數(shù)量級的躍升。”吳子寧博士進一步闡釋道,“單靠更先進的芯片制程,無法支撐這一量級的性能跨越,關(guān)鍵在于架構(gòu)層面的重構(gòu)。我們需要在數(shù)據(jù)調(diào)度路徑上實現(xiàn)更精細(xì)的優(yōu)化與更高的效率,推動介質(zhì)層與接口層之間的深度協(xié)同,將數(shù)據(jù)從存儲介質(zhì)到主機接口的整條通路壓縮至最短,從而在根本上降低訪問延遲?!?/p>
這些問題,構(gòu)成了AI SSD主控芯片的研發(fā)關(guān)鍵。
圍繞“內(nèi)部架構(gòu)重排”,英韌的探索正在延伸至下一代產(chǎn)品。
2026年,英韌計劃推出PCIe Gen6的新一代產(chǎn)品,將融合下一代NVMe與CXL雙協(xié)議,在帶寬實現(xiàn)翻倍的同時,512B隨機讀取性能有望達到千萬IOPS量級。
其中,CXL(Compute Express Link)尤為關(guān)鍵。該協(xié)議通過引入內(nèi)存語義,實現(xiàn)高速互聯(lián),構(gòu)建更大的存儲池。從更廣義角度看,這一方向正指向“存算一體”的演進路徑——即更高效地將數(shù)據(jù)從存儲側(cè)調(diào)度至計算側(cè)。
“這不僅是硬件問題,軟件體系同樣在同步演進?!眳亲訉幉┦恐赋觥?/p>
與此同時,英韌也在和顆粒原廠開展更深度的合作——因為無論主控多強,沒有好的介質(zhì)配合,一切都無從談起。
從PCIe 3.0到5.0,再到即將到來的6.0;從TLC到QLC,再到XL-FLASH與SLC的協(xié)同;從單一的SSD主控,到NVMe與CXL雙協(xié)議的融合——英韌的技術(shù)路線,始終圍繞同一個核心問題展開:當(dāng)數(shù)據(jù)的調(diào)度和使用方式變了,存儲該如何重新設(shè)計?
對于英韌當(dāng)前的產(chǎn)品方向,吳子寧博士在對話中表示:“大方向需要通過經(jīng)驗與市場反饋來校準(zhǔn),避免戰(zhàn)略性錯誤;而在具體路徑上,則必須持續(xù)迭代與修正?!?/p>
這個態(tài)度,或許比任何產(chǎn)品參數(shù)都更能說明問題——在AI帶來的新一輪“系統(tǒng)重排”中,沒有人能預(yù)知終點。唯一能做的,是在變化中不斷調(diào)整自己的位置。
(本文作者長期關(guān)注存儲行業(yè),對周期波動與企業(yè)分化有持續(xù)追蹤,歡迎添加微信 EATINGNTAE 交流探討。)
雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。