日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

本文作者: 包永剛 2020-06-25 10:14
導語:數(shù)據(jù)流芯片為什么能實現(xiàn)超高利用率?在哪些領(lǐng)域有應(yīng)用優(yōu)勢?

AI芯片的競爭早已不是簡單的峰值算力比拼,架構(gòu)創(chuàng)新、軟硬件的結(jié)合、芯片利用率(芯片實測算力/芯片峰值算力)越來越多的被關(guān)注。6月23日,鯤云科技發(fā)布了全球首款量產(chǎn)數(shù)據(jù)流AI芯片CAISA,定位高性能AI推理。據(jù)悉,CAISA最高可實現(xiàn)95.4%的芯片利用率,較同類芯片提升最高11.6倍。搭載CAISA加速卡可以實現(xiàn)英偉達同類產(chǎn)品最高3.91倍的實測性能。

數(shù)據(jù)流芯片為什么能實現(xiàn)超高利用率?CAISA在哪些領(lǐng)域優(yōu)勢明顯?

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

鯤云科技創(chuàng)始人牛昕宇

什么是數(shù)據(jù)流芯片?

相比數(shù)據(jù)流芯片,馮諾依曼架構(gòu)的芯片更被大部分人所熟知,CPU就是馮諾依曼架構(gòu)的代表。不過,由于馮諾依曼架構(gòu)是通過指令執(zhí)行次序控制計算順序,并通過分離數(shù)據(jù)搬運與數(shù)據(jù)計算提供計算通用性。憑借其通用性和廣泛的應(yīng)用,馮諾依曼架構(gòu)芯片成為了重要的AI芯片。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

基于馮諾依曼的典型指令集架構(gòu)示意圖

但是,隨著AI算法的不斷演進,AI模型對算力的需求不斷提升,內(nèi)存性能跟不上計算單元算力的迅速提升,馮諾依曼架構(gòu)的內(nèi)存墻問題成了阻礙AI和AI芯片發(fā)展的關(guān)鍵。打破內(nèi)存墻瓶頸成為關(guān)鍵,可重構(gòu)、存算一體等創(chuàng)新的架構(gòu)受到越來越多的關(guān)注,數(shù)據(jù)流芯片也是其中之一。

與馮諾依曼架構(gòu)芯片不同,數(shù)據(jù)流芯片是依托數(shù)據(jù)流流動次序控制計算次序,采用計算流和數(shù)據(jù)流重疊運行方式消除空閑計算單元,并采用動態(tài)配置方式保證對于人工智能算法的通用支持,突破指令集技術(shù)對于芯片算力的限制。目前,全球基于數(shù)據(jù)流方式研究AI芯片的并不多,主要是鯤云、Wave Computing、Sambanova、Groq。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

定制數(shù)據(jù)流計算示意圖

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

指令集架構(gòu)與數(shù)據(jù)流架構(gòu)在數(shù)據(jù)流動和計算順序上的區(qū)別

全球推出量產(chǎn)數(shù)據(jù)流AI芯片的目前只有鯤云。以鯤云的CAISA架構(gòu)為例,數(shù)據(jù)流架實現(xiàn)AI計算有三大核心挑戰(zhàn):

  • 高算力性價比:要在保持計算正確前提下,通過不斷壓縮每個空閑時鐘推高芯片實測性能以接近芯片物理極限,讓芯片內(nèi)的每個時鐘、每個計算單元都在執(zhí)行有效計算;

  • 高架構(gòu)通用性:要在保證每個算法在數(shù)據(jù)流芯片上運行能夠?qū)崿F(xiàn)高芯片利用率的同時,支持所有主流CNN算法;

  • 高軟件易用性:要讓用戶無需底層數(shù)據(jù)流架構(gòu)背景知識,簡單幾步即可實現(xiàn)算法遷移和部署,降低使用門檻。

數(shù)據(jù)流芯片如何實現(xiàn)最高95.4%的芯片利用率?

鯤云CAISA3.0架構(gòu)在這三大技術(shù)上都有突破。實現(xiàn)高算力性價比的關(guān)鍵是時鐘級準確的計算,這也是數(shù)據(jù)流架構(gòu)芯片的核心挑戰(zhàn)。

鯤云科技創(chuàng)始人牛昕宇對雷鋒網(wǎng)表示:“時鐘級準確的計算是數(shù)據(jù)流本身核心開發(fā)的挑戰(zhàn),在架構(gòu)設(shè)計的第一天腦海中就要有一個時鐘精確的概念。不止是架構(gòu)要時鐘精確,軟件要時鐘精確,開發(fā)的模型也要時鐘精確。要做到這一點其實很難,今天我們跟大家說為什么鯤云迭代了三代架構(gòu),這里面每一個挑戰(zhàn)都需要大量工程積累,不斷的迭代來做到時鐘精確。”

具體而言,CAISA3.0架構(gòu)通過數(shù)據(jù)計算與數(shù)據(jù)流動的重疊,壓縮計算資源的每一個空閑時鐘;通過算力資源的動態(tài)平衡,消除流水線的性能瓶頸;通過數(shù)據(jù)流的時空映射,最大化復用芯片內(nèi)的數(shù)據(jù)流帶寬,減少對外部存儲帶寬的需求。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

CAISA3.0架構(gòu)

這樣的設(shè)計使CNN算法的計算數(shù)據(jù)在CAISA3.0內(nèi)可以實現(xiàn)不間斷的持續(xù)運算,最高可實現(xiàn)95.4%的芯片利用率,在同等峰值算力條件下,可獲得相對于GPU 3倍以上的實測算力,提供更高的算力性價比。

除了高性能,面對復雜多樣的AI需求,AI芯片的通用性也決定著AI芯片能否更廣泛被應(yīng)用。據(jù)悉,CAISA3.0架構(gòu)可以通過流水線動態(tài)重組實現(xiàn)對不同深度學習算法的高性能支持。通過CAISA架構(gòu)層的數(shù)據(jù)流引擎、全局數(shù)據(jù)流網(wǎng)、全局數(shù)據(jù)流緩存,以及數(shù)據(jù)流引擎內(nèi)部的人工智能算子模塊、局部數(shù)據(jù)流網(wǎng)、局部數(shù)據(jù)流緩存的分層設(shè)計,在數(shù)據(jù)流配置器控制下,CAISA架構(gòu)中的數(shù)據(jù)流連接關(guān)系和運行狀態(tài)都可以被自動化動態(tài)配置,從而生成面向不同AI算法的高性能定制化流水線。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

數(shù)據(jù)流動與數(shù)據(jù)計算重疊示意圖

說的簡單一些,借助數(shù)據(jù)流配置器,CAISA架構(gòu)可以根據(jù)不同的AI算法定制適合的流水線,去滿足目標檢測、分類及語義分割等的需求。另外需要補充的是,數(shù)據(jù)流架構(gòu)中數(shù)據(jù)和計算是融合在一起,數(shù)據(jù)通過PCIe接口輸入,芯片內(nèi)有少量緩存單元,在兩個數(shù)據(jù)流連接不是那么完美的時候,起到緩存作用。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

CAISA架構(gòu)中資源配置示意圖

“至于對新算法的支持,我們一方面通過軟件工具不斷迭代,另外CAISA架構(gòu)也會持續(xù)迭代。CAISA支持的8GB DDR能滿足多種算法的組合和存儲,我們考慮了AI長期的發(fā)展。”牛昕宇表示。

軟件不僅有助于滿足不斷更新算法的需求,其易用性還是吸引客戶的關(guān)鍵。據(jù)了解,鯤云專為CAISA3.0架構(gòu)配備的RainBuilder編譯工具鏈支持從算法到芯片的端到端自動化部署,無需了解架構(gòu)的底層硬件配置,簡單兩步即可實現(xiàn)算法快速遷移和部署。

鯤云科技合伙人兼研發(fā)總監(jiān)熊超表示“我們支持開發(fā)中常用的語言,C、C++、Python接口都提供。在使用方式上,RainBuilder也跟現(xiàn)有市面上比較常見的工具鏈相似。絕大多數(shù)情況下,用戶通過代碼上較小的改動就可以將算法切換到鯤云的加速卡上運行。雖然我們底層是數(shù)據(jù)流架構(gòu)芯片,但是從使用上來說架構(gòu)的不同對用戶來說是感知不到的?!?/p>

當然,RainBuilder編譯器還可自動提取主流AI開發(fā)框架(TensorFlow,Caffe,Pytorch,ONNX等)中開發(fā)的深度學習算法的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)信息,并面向CAISA架構(gòu)進行優(yōu)化。

鯤云科技合伙人兼COO 王少軍博士對雷鋒網(wǎng)表示:“通過主流開發(fā)框架開發(fā)出的模型通過編譯器部署到CAISA這個過程是自動化的,只需要跑一個腳本,目前實測的客戶包括已經(jīng)部署的客戶效率都非常高。當然,我們不排除第一次部署過程中軟件的兼容性或者其他方式會有一些問題?!?/strong>

CAISA對標英偉達邊緣端旗艦產(chǎn)品

接下來關(guān)鍵的問題是,CAISA實際表現(xiàn)如何。鯤云此次發(fā)布的CAISA AI芯片采用英特爾28nm工藝,搭載了四個CAISA 3.0引擎,有超過1.6萬個MAC(乘累加)單元,峰值性能可達10.9TOPs。通過PCIe 3.0×4接口與主處理器通信,同時具有雙DDR通道,可為每個CAISA芯片提供超過340Gbps的帶寬。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

基于CAISA 芯片,鯤云推出了星空系列邊緣和數(shù)據(jù)中心計算平臺,X3加速卡和X9加速卡。星空X3加速卡為工業(yè)級半高半長單槽規(guī)格的PCIe板卡可以與不同類型的計算機設(shè)備進行適配,包括個人電腦、工業(yè)計算機、網(wǎng)絡(luò)視頻錄像機、工作站、服務(wù)器。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

相較于英偉達邊緣端旗艦產(chǎn)品Xavier,X3可實現(xiàn)1.48-4.12倍的實測性能提升。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

X3 vs Xavier 芯片利用率對比圖

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

X3 vs Xavier 性能對比圖

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

X3 vs Xavier 延時對比圖

星空X9加速卡定位比星空X3更高,搭載4顆CAISA 芯片,峰值性能43.6TOPS,對標的也是英偉達AI加速卡T4。

X9在ResNet50可達5240FPS,與T4性能接近,在YOLO v3、UNet Industrial等檢測分割網(wǎng)絡(luò),實測性能相較T4有1.83-3.91倍性能提升。在達到最優(yōu)實測性能下,X9處理延時相比于T4降低1.83-32倍。

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

X9 vs T4 芯片利用率對比圖

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

X9 vs T4 性能對比圖

全球首款量產(chǎn)數(shù)據(jù)流AI芯片面世!95.4%利用率實現(xiàn)11.6倍提升

X9 vs T4 延時對比圖

整體而言,憑借CAISA數(shù)據(jù)流架構(gòu)的高芯片利用率,實現(xiàn)的實測性能,對芯片峰值算力的要求可大幅降低3-10倍,這可以進一步降低芯片制造成本。目前星空X3加速卡已經(jīng)推向市場,星空X9加速卡將于今年8月推出。

目前,星空加速卡已在電力、教育、智能遙感、智能制造、智慧城市等領(lǐng)域落地。王少軍說:“我們的低延時優(yōu)勢確實比較明顯,尤其是工業(yè)和自動駕駛行業(yè)里,我們的各種客戶都給我們反饋了同樣的信息。當然,作為一家初創(chuàng)公司,軟件生態(tài)是我們需要去努力的方向?!?/strong>

雷鋒網(wǎng)小結(jié)

成立于2016年的鯤云科技,團隊在數(shù)據(jù)流領(lǐng)域有30年的積累的情況下,四年后的2020年才隆重的舉行新品發(fā)布會。這讓我們可以了解要將一個突破性的技術(shù)推向市場的難度。但無論如何,鯤云作為全球首家量產(chǎn)數(shù)據(jù)流AI芯片的公司,也讓我們對中國AI芯片的競爭力增加了信心。

當然,CAISA數(shù)據(jù)流芯片高利用率、低延遲的優(yōu)勢能否最終成為客戶愿意買單的產(chǎn)品,是決定鯤云成功的關(guān)鍵,生態(tài)在其中將發(fā)揮至關(guān)重要的作用。

牛昕宇接受采訪時也說:“當芯片利用率已經(jīng)接近95%時,證明我們已經(jīng)將芯片的物理極限發(fā)揮出來給用戶了。未來更多的提升方向是軟件的提升,讓客戶更好的去部署。”

相關(guān)文章:

鯤云牛昕宇:一個定制化數(shù)據(jù)流人工智能芯片憑什么滿足眾多AI場景需求?

AI芯片賽道再入局競爭者,鯤云科技獲Pre-A輪投資

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄