英韌科技董事長吳子寧：從空轉(zhuǎn)到滿載，AI SSD如何把閑置算力變成「有效算力」？丨存儲芯片十人談

本文作者：楊依婷

2026-04-30 09:51

導(dǎo)語：“AI SSD的關(guān)鍵不僅在更快的硬件，更在能否根據(jù)不同負(fù)載重構(gòu)數(shù)據(jù)的組織與調(diào)度方式。 ”

2025年，AI算力進入深水區(qū)。

一邊是需求持續(xù)外溢：大模型訓(xùn)練規(guī)模仍在擴張，推理請求呈指數(shù)級增長，數(shù)據(jù)中心的投資未見降溫；另一邊，是一系列隱性的制約正逐漸浮出水面——算力利用率始終在低處徘徊，系統(tǒng)抖動頻發(fā)，集群效率難以維持穩(wěn)定。

行業(yè)逐漸意識到，瓶頸并不總出現(xiàn)在“算力”本身。很多時候，問題卡在“數(shù)據(jù)”這一環(huán)。

當(dāng)計算集群規(guī)模擴大到萬卡級別，任何一個環(huán)節(jié)的延遲波動，都會被放大為整體性能問題。一些云服務(wù)的宕機事件，表面上是調(diào)度算法失效，深層原因卻是數(shù)據(jù)供給與計算節(jié)奏之間的錯位——數(shù)據(jù)來不及被組織、搬運、分發(fā)，算力只能在空轉(zhuǎn)中等待。

這讓一個長期被視為基礎(chǔ)組件的領(lǐng)域，重新進入核心視野：存儲。

過去，存儲的任務(wù)是解決“存得下”；而在AI時代，它開始決定“算得快不快”。

正是在這一背景下，“AI SSD”應(yīng)運而生，幾乎所有主流存儲廠商，都在嘗試交出自己的答卷。

但問題也隨之而來——當(dāng)整個行業(yè)都在做AI SSD時，什么才是真正有效的改進？存儲，究竟需要為AI改變什么？

帶著這些問題，我們與英韌科技董事長吳子寧博士進行了一次對話。他沒有急于回答，而是先講起了一個二十多年前的故事。

（本文作者長期關(guān)注存儲行業(yè)，對周期波動與企業(yè)分化有持續(xù)追蹤，歡迎添加微信 EATINGNTAE 交流探討。）

在技術(shù)的交叉口，選對方向很重要

技術(shù)史，并不是一條筆直向前的曲線，而更像是一連串不斷被推翻、被修正、再重建的嘗試。吳子寧博士用一個故事，解釋了這種平衡如何被打破、又如何重建。

2001年，蘋果發(fā)布iPod，那款音樂播放器采用了一項當(dāng)時頗具突破性的設(shè)計——把機械硬盤縮到火柴盒大小，實現(xiàn)了5GB的存儲容量。而在同一時期，主流MP3播放器普遍僅配備64MB或128MB的閃存。

蘋果首先顛覆了人們對音樂播放器的認(rèn)知。吳子寧博士回憶道，“用戶不再需要頻繁管理音樂文件，而是可以將整個音樂庫隨身攜帶?！?/p>

這一變化迅速在產(chǎn)業(yè)鏈中引發(fā)連鎖反應(yīng)。多家硬盤廠商將小尺寸機械硬盤視為新的增長方向，投入大量資源進行研發(fā)。然而不久之后，另一項技術(shù)路徑開始加速演進——閃存技術(shù)快速迭代，容量飛速發(fā)展。蘋果隨即推出基于全閃存的iPod，盡管入門容量僅為1GB，但憑借小型化和便利性，很快在市場上超越了機械硬盤版本。

很多存儲公司投入大量資源研發(fā)小尺寸機械硬盤，都因為新技術(shù)的出現(xiàn)受到了巨大的沖擊。

彼時，吳子寧博士正任職于Marvell，而Marvell正是業(yè)界最早全面投入閃存固態(tài)硬盤解決方案的公司之一。這一經(jīng)歷在他心中形成了一個重要判斷：技術(shù)持續(xù)演進是常態(tài)，短周期內(nèi)會有漸進式創(chuàng)新，而在更長周期內(nèi)，則可能出現(xiàn)顛覆性變革。能否準(zhǔn)確把握技術(shù)與市場趨勢，并據(jù)此做出前瞻性決策，至關(guān)重要。

2016年創(chuàng)辦英韌科技時，他已經(jīng)觀察到兩個關(guān)鍵趨勢的疊加。

“一邊是數(shù)據(jù)需求在爆發(fā)，而且是長期趨勢；另一邊是存儲介質(zhì)正在從機械硬盤向固態(tài)硬盤遷移?！彼f，“當(dāng)需求和技術(shù)同時發(fā)生變化，就會出現(xiàn)一個很典型的機會窗口。”

而在AI驅(qū)動的新一輪數(shù)據(jù)浪潮之下，這一“判斷能力”的重要性再次被放大——面對全新的計算范式，存儲系統(tǒng)應(yīng)當(dāng)如何演進？

為什么需要AI SSD?

據(jù)DESIGNRUSH估計，2025年實際數(shù)據(jù)量約為173.4ZB，而2026年全年數(shù)據(jù)生成量預(yù)計在230ZB至240ZB之間，到了2029年，該數(shù)字預(yù)計將達到527.5ZB。

作為IT基礎(chǔ)設(shè)施三大核心支柱之一，存儲在半導(dǎo)體市場中占比約為20%至30%，但在AI時代，這一“支柱”正承受前所未有的壓力。

這種壓力主要體現(xiàn)在三個方面。

第一，數(shù)據(jù)形態(tài)正在改變。傳統(tǒng)數(shù)據(jù)通常具備明確的冷熱分層：熱數(shù)據(jù)駐留內(nèi)存，溫數(shù)據(jù)進入SSD，冷數(shù)據(jù)則歸檔至機械硬盤。然而在AI訓(xùn)練與推理過程中，數(shù)據(jù)呈現(xiàn)出高頻交互特征——大模型訓(xùn)練需要持續(xù)吞吐海量數(shù)據(jù)，推理階段涉及大量中間狀態(tài)的頻繁訪問，而向量檢索則帶來高比例的小塊隨機讀寫。數(shù)據(jù)不再嚴(yán)格遵循既有分層結(jié)構(gòu)。

第二，應(yīng)用場景高度分化，基礎(chǔ)大模型正在向行業(yè)大模型演進。銀行的風(fēng)控數(shù)據(jù)、車企的自動駕駛數(shù)據(jù)、醫(yī)學(xué)影像系統(tǒng)數(shù)據(jù)，每個場景對存儲的要求都不一樣：有的需要超高吞吐，有的需要極低延遲，有的需要在邊緣節(jié)點上實現(xiàn)高密度數(shù)據(jù)處理。

第三，系統(tǒng)容忍度顯著降低。當(dāng)計算集群擴展至萬卡級規(guī)模時，任一環(huán)節(jié)的性能波動都可能拖慢整體訓(xùn)練效率。與此同時，邊緣側(cè)原本受限的內(nèi)存帶寬，還需匹配接近GPU級別的計算能力。存儲不再只是數(shù)據(jù)的承載介質(zhì)，而成為影響數(shù)據(jù)流動效率、進而決定訓(xùn)練與推理性能的關(guān)鍵因素。

在他看來，這種變化的根源，在于計算體系中心的遷移。

“過去是CPU在做調(diào)度，GPU只是執(zhí)行單元；但現(xiàn)在，在AI系統(tǒng)里，GPU本身開始承擔(dān)調(diào)度角色?！彼f，“如果數(shù)據(jù)還要經(jīng)過CPU中轉(zhuǎn)，就相當(dāng)于在兩條高速公路之間接了一座很窄的橋，這個環(huán)節(jié)會成為瓶頸。”

吳子寧博士用一個形象的比喻來說明這一變化：“一輛車即使最高速度很高，如果大部分時間處于等待狀態(tài)，發(fā)動機空轉(zhuǎn)，那么它的實際效率依然很低?！?/p>

在AI計算體系中，“等待”正成為日益突出的瓶頸。計算單元具備極高的算力，但數(shù)據(jù)往往滯留在存儲側(cè)——如果無法被高效調(diào)度至計算單元，就會導(dǎo)致算力資源閑置與浪費。

“存儲不僅要完成數(shù)據(jù)的持久化，還需要具備對數(shù)據(jù)進行高效組織與調(diào)度的能力?！眳亲訉幉┦恐赋?，“我們已經(jīng)開始探索，在存儲側(cè)引入更智能的控制機制，對數(shù)據(jù)布局與訪問路徑進行優(yōu)化。”

這一思路指向一個明確方向：存儲系統(tǒng)需要針對AI負(fù)載進行系統(tǒng)性優(yōu)化。

過去幾年，行業(yè)已展開多路徑探索。例如，通過優(yōu)化固件與FTL（Flash Translation Layer）算法，使SSD在高并發(fā)場景下保持穩(wěn)定的延遲分布；通過重構(gòu)主控架構(gòu)，提升數(shù)據(jù)調(diào)度效率；以及借助CXL（Compute Express Link）協(xié)議擴展內(nèi)存語義，使閃存在特定場景中承擔(dān)部分內(nèi)存功能。

這些技術(shù)路徑最終匯聚為一個共同的產(chǎn)品方向——AI SSD，這是整個行業(yè)對同一核心問題的多元回應(yīng)：當(dāng)計算范式發(fā)生變化，存儲體系如何協(xié)同演進？

在吳子寧博士看來，一項技術(shù)是否值得投入，可以從三個維度判斷：技術(shù)合理性、商業(yè)可行性與生態(tài)兼容性。

以此衡量AI SSD，其可行性便清晰起來——

技術(shù)層面，AI負(fù)載對存儲提出了傳統(tǒng)SSD難以滿足的新要求，針對性優(yōu)化是解決“算力等數(shù)據(jù)”痛點的必要路徑；

商業(yè)層面，AI SSD在成熟閃存與主控技術(shù)基礎(chǔ)上演進，能夠復(fù)用現(xiàn)有供應(yīng)鏈，具備大規(guī)模部署的成本基礎(chǔ)；

生態(tài)層面，它延續(xù)PCIe/NVMe等標(biāo)準(zhǔn)接口與協(xié)議，與現(xiàn)有計算體系保持兼容，能夠被平滑接納。

從這個角度看，AI SSD的出現(xiàn)具有內(nèi)在必然性——它并非對現(xiàn)有體系的顛覆，而是在既有架構(gòu)基礎(chǔ)上，針對新型負(fù)載特征進行的系統(tǒng)性優(yōu)化。

正如當(dāng)年閃存逐步取代小尺寸機械硬盤——技術(shù)進步提供了替代能力，而應(yīng)用需求則明確了替代方向。

在這一過程中，能夠深入理解AI負(fù)載特征，并據(jù)此構(gòu)建差異化存儲方案的廠商，將更有可能在下一輪系統(tǒng)級重構(gòu)中占據(jù)有利位置。

先理解負(fù)載特征，再定義產(chǎn)品形態(tài)

2025年，這場“系統(tǒng)重排”已經(jīng)拉開序幕。

從鎧俠公布AI SSD中長期路線圖，到三星、海力士、美光陸續(xù)推出針對AI場景優(yōu)化的超高速顆粒產(chǎn)品；從FMS存儲峰會上多家廠商的同臺競技，到華為在上海發(fā)布“AI SSD，加速智能經(jīng)濟涌現(xiàn)”——幾乎在同一時間點上，全球主要存儲廠商都在朝同一個方向發(fā)力。

當(dāng)“AI SSD”成為行業(yè)共識，英韌必須回答一個更具體的問題：差異化路徑何在？

在英韌內(nèi)部，對這個問題的思考始于對AI負(fù)載的拆解。AI并非單一應(yīng)用，而是一組差異顯著的計算任務(wù)，大致可以歸納為三類典型負(fù)載形態(tài)。

第一種是訓(xùn)練。大模型訓(xùn)練的特征是持續(xù)、穩(wěn)定且高帶寬的數(shù)據(jù)流動，樣本被反復(fù)讀取、重排與迭代，這個場景對順序吞吐能力高度敏感，但對極端微秒級延遲的要求相對次要。穩(wěn)定的大規(guī)模供給，比瞬時極限性能更重要。

第二種是推理，這是變化最劇烈的部分。推理階段的數(shù)據(jù)訪問呈現(xiàn)高度碎片化特征，包括大量小塊隨機讀寫、KV Cache頻繁交換以及向量索引調(diào)用。此時，存儲從“批量搬運”轉(zhuǎn)變?yōu)椤皩崟r響應(yīng)”，系統(tǒng)性能對尾延遲高度敏感，一旦尾延遲失控，將直接影響整體服務(wù)質(zhì)量。

第三種是數(shù)據(jù)歸集與管理。隨著模型規(guī)模擴大，數(shù)據(jù)留存、分層與生命周期管理成為剛性需求。該場景對延遲的要求相對寬松，但對容量密度與單位成本極為敏感，需要在規(guī)模與成本之間取得平衡。

這三類負(fù)載之間，并不存在一個能夠同時最優(yōu)覆蓋的統(tǒng)一設(shè)計方案。

因此，英韌的策略是針對不同負(fù)載特征，設(shè)計具備差異化能力的主控架構(gòu)與產(chǎn)品組合。

在通用訓(xùn)練場景中，采用TLC NAND的“洞庭-N3”更強調(diào)帶寬與穩(wěn)定性的平衡，順序讀取帶寬在14.5GB/s以上，隨機讀取能力約3.4M IOPS，適合作為訓(xùn)練集群中的常規(guī)數(shù)據(jù)層。

針對容量敏感型場景，則引入基于QLC NAND的“洞庭-N3Q”。在更高存儲密度的前提下，通過控制器與糾錯機制優(yōu)化，將單盤容量提升至64TB，同時維持超過14GB/s的順序讀取水平，用于降低單位容量成本。

而在對響應(yīng)時間更敏感的推理側(cè)，則采用“洞庭-N3X”這一低時延方案。該產(chǎn)品結(jié)合XL-Flash與SLC NAND，在隨機訪問下可實現(xiàn)約13微秒讀取延遲、4微秒寫入延遲，隨機讀取性能超過3.5M IOPS，隨機寫入性能可達1.6M IOPS，且具備最高100 DWPD的耐用性，更適合高并發(fā)、小請求場景。

該產(chǎn)品的實際表現(xiàn)，近期已獲得第三方測試驗證。

英韌的洞庭-N3X參加了ODCC AI存儲實驗室“面向AI推理場景KV Cache的數(shù)據(jù)存儲測試項目”，SSD能支持GPU Direct Storage (GDS)，采用GPU直接調(diào)度的方式，構(gòu)建“以存代算”的第三級緩存。

實測數(shù)據(jù)顯示：采用英韌科技AI SSD(洞庭-N3X)后，能夠有效打破“內(nèi)存墻”，讓數(shù)據(jù)更快供給 GPU，H20平臺的系統(tǒng)吞吐量提升約12倍，RTX 6000D平臺的系統(tǒng)吞吐量提升約20倍。在10K輸入長度下，原生架構(gòu)由于需要重新計算或處理顯存溢出，存在一定延遲，但采用N3X后，首Token延遲可從數(shù)秒級縮短至毫秒級。隨著輸入長度從100 tokens增加到100K tokens，存儲壓力呈線性甚至指數(shù)級增長，而輸入文本越長，N3X對系統(tǒng)換入換出效率的提升效果越明顯。

這一結(jié)果表明：當(dāng)AI負(fù)載規(guī)模跨越特定閾值后，存儲將從輔助角色轉(zhuǎn)變?yōu)殛P(guān)鍵性能變量；而針對推理場景深度優(yōu)化的AI SSD，可以顯著改變系統(tǒng)整體效率。

在英韌看來，這三類產(chǎn)品的劃分并非傳統(tǒng)意義上的“高、中、低端”區(qū)隔，而是對不同數(shù)據(jù)訪問模式的針對性響應(yīng)，是基于負(fù)載模型推導(dǎo)的工程結(jié)果，而非簡單的參數(shù)堆疊。

真正的挑戰(zhàn)，在于如何在系統(tǒng)層面實現(xiàn)這些差異化能力的協(xié)同。

隨著接口標(biāo)準(zhǔn)持續(xù)演進——從PCIe 4.0到5.0，并邁向即將到來的6.0——SSD不僅需要提升物理帶寬能力，更需要同步增強主控的并發(fā)調(diào)度與隊列管理能力。否則，底層介質(zhì)性能的提升將難以轉(zhuǎn)化為系統(tǒng)級收益。

“必須抓住每一代接口升級的窗口期?！眳亲訉幉┦恳矎娬{(diào)，更具挑戰(zhàn)性的部分在于內(nèi)部架構(gòu)的重構(gòu)：在高并發(fā)場景下如何避免隊列阻塞？如何有效控制尾延遲？如何在不同介質(zhì)特性之間實現(xiàn)負(fù)載均衡？

這些問題，最終都指向一個具體的性能目標(biāo)。

“要把吞吐量從現(xiàn)在的300萬IOPS，在兩年后提升至1億IOPS，這相當(dāng)于接近兩個數(shù)量級的躍升。”吳子寧博士進一步闡釋道，“單靠更先進的芯片制程，無法支撐這一量級的性能跨越，關(guān)鍵在于架構(gòu)層面的重構(gòu)。我們需要在數(shù)據(jù)調(diào)度路徑上實現(xiàn)更精細(xì)的優(yōu)化與更高的效率，推動介質(zhì)層與接口層之間的深度協(xié)同，將數(shù)據(jù)從存儲介質(zhì)到主機接口的整條通路壓縮至最短，從而在根本上降低訪問延遲?！?/p>

這些問題，構(gòu)成了AI SSD主控芯片的研發(fā)關(guān)鍵。

方向靠校準(zhǔn)，路徑需修正

圍繞“內(nèi)部架構(gòu)重排”，英韌的探索正在延伸至下一代產(chǎn)品。

2026年，英韌計劃推出PCIe Gen6的新一代產(chǎn)品，將融合下一代NVMe與CXL雙協(xié)議，在帶寬實現(xiàn)翻倍的同時，512B隨機讀取性能有望達到千萬IOPS量級。

其中，CXL（Compute Express Link）尤為關(guān)鍵。該協(xié)議通過引入內(nèi)存語義，實現(xiàn)高速互聯(lián)，構(gòu)建更大的存儲池。從更廣義角度看，這一方向正指向“存算一體”的演進路徑——即更高效地將數(shù)據(jù)從存儲側(cè)調(diào)度至計算側(cè)。

“這不僅是硬件問題，軟件體系同樣在同步演進?！眳亲訉幉┦恐赋觥?/p>

與此同時，英韌也在和顆粒原廠開展更深度的合作——因為無論主控多強，沒有好的介質(zhì)配合，一切都無從談起。

從PCIe 3.0到5.0，再到即將到來的6.0；從TLC到QLC，再到XL-FLASH與SLC的協(xié)同；從單一的SSD主控，到NVMe與CXL雙協(xié)議的融合——英韌的技術(shù)路線，始終圍繞同一個核心問題展開：當(dāng)數(shù)據(jù)的調(diào)度和使用方式變了，存儲該如何重新設(shè)計？

對于英韌當(dāng)前的產(chǎn)品方向，吳子寧博士在對話中表示：“大方向需要通過經(jīng)驗與市場反饋來校準(zhǔn)，避免戰(zhàn)略性錯誤；而在具體路徑上，則必須持續(xù)迭代與修正?！?/p>

這個態(tài)度，或許比任何產(chǎn)品參數(shù)都更能說明問題——在AI帶來的新一輪“系統(tǒng)重排”中，沒有人能預(yù)知終點。唯一能做的，是在變化中不斷調(diào)整自己的位置。

（本文作者長期關(guān)注存儲行業(yè)，對周期波動與企業(yè)分化有持續(xù)追蹤，歡迎添加微信 EATINGNTAE 交流探討。）

雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章