日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
芯片 正文
發(fā)私信給包永剛
發(fā)送

0

Arm全新NPU性能提升4倍,支持Transformer,邊緣生成式AI時代指日可待

本文作者: 包永剛 2024-04-10 19:48
導語:可復用的軟件是Arm在AI市場競爭的重要武器。

生成式AI在經歷了火熱的百模大戰(zhàn)之后,開始進入落地階段。

以工業(yè)機器視覺、可穿戴設備和消費者機器人為代表的邊緣應用,無疑是生成式AI落地的重要場景。

本周,Arm宣布推出了性能相比前代提升4倍的Arm Ethos-U85神經網絡處理器 (NPU),這是一款硬件支持Transformer 架構和卷積神經網絡 (CNN)的AI加速器,能夠以高能效實現邊緣側AI推理。

Arm物聯網事業(yè)部業(yè)務拓展副總裁馬健表示,“生態(tài)系統中的開發(fā)者在樹莓派設備上評估運行包括 LLaMA 等在內的大模型。邊緣部署大模型和生成式AI用例指日可待,Arm已經為此做好準備?!?/p>

全新NPU原生支持Transformer 

Ethos-U NPU系列是Arm推出的AI微加速器,主要是滿足邊緣邊緣AI和嵌入式AI的市場需求,此前已經發(fā)布了Ethos-U55、Ethos-U65,并且已經有多個量產產品。

本周最新發(fā)布的Ethos-U85,與上一代產品相比,Ethos-U85 性能提升4倍,同時能效提高了20%,可以滿足工廠自動化和商用或智能家居攝像頭等物聯網應用不斷攀升的性能需求。

Arm全新NPU性能提升4倍,支持Transformer,邊緣生成式AI時代指日可待

Ethos-U85的主要特性包括:

  • 單周期支持從 128 到 2048 個 MAC單元的配置——在 1GHz 時,算力可支持從 256 GOPS 到 4 TOPS。

  • 支持 int8 權重和 int8 或 int16 激活。

  • 支持 Transformer 架構網絡,以及 CNN 和 RNN。

  • 硬件原生支持 2/4 稀疏性,使吞吐量翻倍。

  • 內部 SRAM 為 29 至 267 KB,多達六個 128 位 AXI5 接口。

  • 支持權重壓縮,采用標準和快速權重編碼器。

  • 支持擴展壓縮。

對于Arm來說,設計出一款高性能的產品難度不大,關鍵在于產品的定義,Ethos-U85相比此前同系列產品一個明顯的不同是支持Transformer模型。

具體實現上,Ethos-U85除了支持Ethos-U55和Ethos-U65 目前支持的算子,通過支持TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR和 ARGMAX等運算,Ethos-U85實現了對Transformer模型和DeeplabV3語義分割網絡的原生硬件支持。

更高的性能往往意味著更高功耗,為了兼顧性能和能效,更好滿足邊緣和端側AI應用的需求,Ethos-U85通過支持元素級算子鏈化提升效率。

通過鏈化將元素級運算與先前的運算相結合,SRAM不必先寫入再讀取中間張量。由此減少NPU和內存之間數據傳輸量,提高NPU的效率。

相比Ethos-U65,鏈化是Ethos-U85在效率提升上的新功能之一,此外還有快速的權重編碼器、優(yōu)化的 MAC 陣列能效,以及提升的元素效率。

參考設計加速邊緣生成式AI落地

目前,Arm Ethos NPU系列產品已有逾20家授權許可合作伙伴,Alif Semiconductor和英飛凌是全新Arm Ethos-U85 NPU的早期采用者。

對于大量邊緣設備的開發(fā)者來說,基于Arm Ethos-U85 NPU開發(fā)和設計產品依舊有比較高的開發(fā)門檻。

降低AI開發(fā)門檻最一個直接的方式就是提供參考設計。

與Ethos-U85同時推出的是Arm Corstone-320物聯網參考設計平臺。這一全新的參考設計平臺集成了Arm最高性能的Cortex-M CPU——Cortex-M85、Mali-C55 ISP和全新的Ethos-U85 NPU。

Arm全新NPU性能提升4倍,支持Transformer,邊緣生成式AI時代指日可待

除了IP,Corstone-320物聯網參考設計平臺還有軟件套件,包括固件、所有 IP 的驅動程序、中間件、實時操作系統 (RTOS) 和云集成、ML 模型和參考應用程序。

有了配套的軟件套件,軟件開發(fā)者能夠輕松選擇其特定細分市場所需的組件,并使用所選開發(fā)工具為該設備構建物聯網堆棧。開源應用程序演示了關鍵詞識別、語音識別和目標識別用例。

還附帶了仿真Corstone-320完整系統的Arm虛擬硬件(Arm Virtual Hardware),以及單獨的 CPU和NPU的固定虛擬平臺 (FVP) 模型,能簡化開發(fā)并加速產品設計,支持軟硬件并行協同開發(fā)。

Arm全新NPU性能提升4倍,支持Transformer,邊緣生成式AI時代指日可待

為了支持中國廣大的物聯網嵌入式開發(fā)者,我們將Arm虛擬硬件落地在了百度云上,正在實現與百度BML和EasyDL工具鏈的組合,使基于Arm技術的AI開發(fā)可以在百度飛槳 (PaddlePaddle)上變得更加容易,且實現軟硬件協同開發(fā)?!瘪R健說,“在基于 Arm 最新 IP 量產芯片就緒之前,就可以預先做軟件應用的開發(fā)以及 AI/ML 算法的開發(fā)和優(yōu)化。”

Arm在軟件和生態(tài)方面還有一個顯著的優(yōu)勢,那就是Arm 在數據中心、云、邊、端都有統一的工具鏈支持,開發(fā)者可以使用已經熟知的工具鏈,具有投資復用、上手容易等優(yōu)勢。

Arm全新NPU性能提升4倍,支持Transformer,邊緣生成式AI時代指日可待

Corstone-320能夠加速語音、音頻和視覺系統,比如智能家居、智能零售、智能工業(yè)制造領域的AI落地。

即便Corstone-320中的Cortex-M85不滿足邊緣AI的需求,Arm也支持從基于 Cortex-A 的系統直接驅動 Ethos-U85 的功能,大幅增加Ethos-U85的適用范圍。 

如何應對碎片化和RISC-V挑戰(zhàn)?

性能提升4倍的全新NPU和全新的參考設計平臺,是Arm能夠對外提供的能力。

但要在邊緣市場落地生成式AI,依舊面臨著模型成熟度、邊緣AI平臺的開發(fā),以及生態(tài)鏈對大模型量化和部署支持的問題。

Arm全新NPU性能提升4倍,支持Transformer,邊緣生成式AI時代指日可待

還有不可避免的邊緣市場碎片化的問題,以及RISC-V的競爭。

馬健說,“Arm始終聚焦軟件生態(tài)標準以及硬件標準的投入,幫助整個生態(tài)減少碎片化。”

比如,Arm建立了SystemReady標準,以實現在不同的Arm計算平臺和芯片平臺上,有標準的軟件包。

另外,Arm還創(chuàng)立了PSA Certified認證標準,讓通過PSA Certified 認證的產品和系統有最基本的安全和合規(guī)的保證。

AI方面,Arm提供標準的生態(tài)工具以及軟件工具鏈。

“期待未來通過大模型和多模態(tài),物聯網碎片化問題可以得到更好的改進。AI 會從單一功能到多功能,甚至是向通用AI的方向演進?!瘪R健也表示。

至于如何應對RISC-V在邊緣AI市場的競爭?

馬健對雷峰網(公眾號:雷峰網)說,“我們的戰(zhàn)略一直非常簡單,專注做好最優(yōu)秀的產品,使產品更加易用,以及持續(xù)打造強大的生態(tài)系統。歷史經驗告訴我們,只要我們專注做好這三件事情,整個行業(yè)就能夠以互相合作的方式來共同前進,我們會繼續(xù)堅持這一策略,在AI甚至未來的其他市場上取得更大的成功?!?/p>

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說