谷歌首次透露TPU細節(jié)：處理速度是GPU/CPU的15-30倍

本文作者：李秀琴

2017-04-06 11:01

導語：谷歌首次向外公布其TPU的細節(jié)和測試結果：比GPU/CPU組合平均要快15-30倍，并能提供高達30-80倍瓦特的速率。

雷鋒網(wǎng)消息，在2016年5月的I/O開發(fā)者大會上，谷歌首次向外透露了其機器學習專用芯片Tensor處理單元（TPU）。之后，谷歌除了公布它們是圍繞公司自身進行優(yōu)化的TensorFlow機器學習框架之外，就再未透露更多的細節(jié)。今日，谷歌的硬件工程師Norm Jouppi首次向外分享了更多關于該項目的細節(jié)和測試結果。

如果你是一個芯片設計師，你可以在谷歌公布的研究報告里找到很多關于這一TPU如何運作的細節(jié)。

在此次測試中，谷歌基于自己的基準測試對自研芯片進行了測試。測試結果表明，TPU在執(zhí)行谷歌常規(guī)機器學習工作負載方面，比一個標準的GPU/CPU組合（一般是Intel Haswell處理器和Nvidia K80 GPU組合的情況下）平均要快15-30倍。另外，由于數(shù)據(jù)中心的功耗計算，TPU還能提供高達30-80倍瓦特的速率。研究報告作者表示，如果將來使用更快的內存，該TPU還有進一步優(yōu)化的空間。

谷歌首次透露TPU細節(jié)：處理速度是GPU/CPU的15-30倍

值得注意的是，這些數(shù)字是關于在生產中使用機器學習模型的，而不是首次創(chuàng)建模型。

谷歌還指出，雖然大多數(shù)架構師為卷積神經網(wǎng)絡（convolutional neural networks，例如，對于圖像識別工作良好的特定類型的神經網(wǎng)絡）優(yōu)化了其芯片。然而，谷歌表示，這些網(wǎng)絡只占其數(shù)據(jù)中心工作負載的5％左右，而大部分應用使用的是多層感知器（ multi-layer perceptrons）。

機器學習的本質是密集計算，比如 Google 工程師舉的例子 —— 如果人們每天用三分鐘的語音搜索，但運行沒有 TPU 加持的語音識別人物的話，該公司將需要建造兩倍多的數(shù)據(jù)中心。

事實上，據(jù)谷歌表示，該公司在2006年就已開始研究如何其數(shù)據(jù)中心中使用GPU，F(xiàn)PGA和自定義ASICS（其實質上是TPU）。然而，由于他們所需的大量工作負載，可能只能利用數(shù)據(jù)中心里面已經可用的多余硬件，而當時并沒有那么多的應用程序真的可以在這種特殊硬件中受益。

據(jù)悉，谷歌已經將TPU用于許多內部項目，如機器學習系統(tǒng)RankBrain、Google街景、以及AlphaGo等。但Google尚未給出將TPU應用于外部項目的計劃。

谷歌在其研究報告里表示：2013年，我們預計到DNN或許在將來會成為非常受歡迎的方向，而這可能會使數(shù)據(jù)中心的計算需求增加一倍，如果要滿足傳統(tǒng)的CPU將會需要高昂的價格?！耙虼?，我們開始了這個高度優(yōu)先的項目，以快速生成用于推理的定制ASIC（并購買了現(xiàn)成的GPU來進行培訓）?！惫雀枰晃还こ處煴硎尽?/p>

谷歌首次透露TPU細節(jié)：處理速度是GPU/CPU的15-30倍