日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

阿里NIPS 2017 Workshop論文:基于TensorFlow的深度模型訓(xùn)練GPU顯存優(yōu)化

本文作者: 奕欣 2017-12-18 09:49
導(dǎo)語:阿里巴巴有兩篇論文入選今年的NIPSWorkshop,三大技術(shù)事業(yè)部也在大會期間向 5000 余名參會人員阿里在機器學(xué)習(xí)、人工智能領(lǐng)域的技術(shù)研究、產(chǎn)品與落地應(yīng)用

雷鋒網(wǎng) AI 科技評論按:本文轉(zhuǎn)載自“阿里技術(shù)”,雷鋒網(wǎng) AI 科技評論獲授權(quán)轉(zhuǎn)載,并做了不改動原意的編輯。

NIPS 2017 在美國長灘舉辦,場面非常熱烈。在本屆會議上,阿里巴巴除有兩篇論文入選 Workshop 并進行 Oral 和 Poster 形式報告外,三大技術(shù)事業(yè)部連續(xù) 3 天(5 日-7 日)在阿里展區(qū)舉行多場技術(shù)研討會,向 5000 余名參會人員介紹阿里在機器學(xué)習(xí)、人工智能領(lǐng)域的技術(shù)研究、產(chǎn)品與落地應(yīng)用。

阿里NIPS 2017 Workshop論文:基于TensorFlow的深度模型訓(xùn)練GPU顯存優(yōu)化

(NIPS 2017 阿里巴巴展臺-阿里巴巴 iDST 院長金榕進行演講)

這篇介紹深度模型訓(xùn)練 GPU 顯存優(yōu)化的論文《Training Deeper Models by GPU Memory Optimization on TensorFlow》將于 8 日在 NIPS 2017 ML Systems Workshop 中由作者做口頭報告。這篇論文聚焦特征圖,提出兩種方法減少深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的顯存消耗,并且把這些方法的實現(xiàn)無縫整合到 TensorFlow 中,克服了 TensorFlow 訓(xùn)練大模型時無法有效優(yōu)化顯存的缺點。

近期深度學(xué)習(xí)在不同應(yīng)用中發(fā)揮的作用越來越重要。訓(xùn)練深度學(xué)習(xí)模型的必要邏輯包括適合 GPU 的并行線性代數(shù)計算。但是,由于物理限制,GPU 的設(shè)備內(nèi)存(即顯存)通常比主機內(nèi)存小。最新的高端 NVIDIA GPU P100 具備 12–16 GB 的顯存,而一個 CPU 服務(wù)器有 128GB 的主機內(nèi)存。然而,深度學(xué)習(xí)模型的趨勢是「更深更寬」的架構(gòu)。例如,ResNet 包含多達 1001 個神經(jīng)元層,神經(jīng)網(wǎng)絡(luò)機器翻譯(NMT)模型包含 8 個使用注意力機制的層,且 NMT 模型中的大部分的單個層是按順序水平循環(huán)展開的,難以避免地帶來大量顯存消耗。

簡言之,有限的 GPU 顯存與不斷增長的模型復(fù)雜度之間的差距使顯存優(yōu)化成為必然。下面將介紹深度學(xué)習(xí)訓(xùn)練流程中 GPU 顯存使用的主要組成。

特征圖(feature map)

對于深度學(xué)習(xí)模型,特征圖是一個層在前向傳輸中生成的中間輸出結(jié)果,且在后向傳輸?shù)奶荻扔嬎阒凶鳛檩斎?。圖 1 是 ResNet-50 在 ImageNet 數(shù)據(jù)集上進行一次小批量訓(xùn)練迭代的 GPU 顯存占用曲線。隨著特征圖的不斷累積,曲線到達最高點。特征圖的大小通常由批尺寸(batch size)和模型架構(gòu)決定(如 CNN 架構(gòu)的卷積步幅大小、輸出通道數(shù)量;RNN 架構(gòu)的門數(shù)量、時間步長和隱層大小)。不再需要作為輸入的特征圖占用的顯存將會被釋放,導(dǎo)致圖 1 中顯存占用曲線的下降。對于復(fù)雜的模型訓(xùn)練,用戶必須通過調(diào)整批尺寸,甚至重新設(shè)計模型架構(gòu)來避免「內(nèi)存不足」的問題。盡管在分布式訓(xùn)練的情況下,訓(xùn)練任務(wù)可以分配到多個設(shè)備上來緩解內(nèi)存不足的問題,但是這也導(dǎo)致了額外的通信開銷。設(shè)備的帶寬限制也可能顯著拖慢訓(xùn)練過程。

阿里NIPS 2017 Workshop論文:基于TensorFlow的深度模型訓(xùn)練GPU顯存優(yōu)化

圖 1:ResNet-50 的顯存占用在一個訓(xùn)練步中的變化曲線。橫軸代表分配/釋放次數(shù),縱軸代表當前顯存占用的總比特數(shù)。

權(quán)重

與特征圖相比,權(quán)重占用內(nèi)存相對較少。在這篇論文中,權(quán)重作為 GPU 內(nèi)存中的持久內(nèi)存,只有整個訓(xùn)練任務(wù)完成后才可以被釋放。

臨時顯存(Temporary memory)

一些算法(如基于 Fast-Fourier-Transform(FFT)的卷積算法)需要大量的額外顯存。這些顯存占用是暫時的,在計算結(jié)束后立即得到釋放。臨時顯存的大小可以通過在 GPU 軟件庫(如 cuDNN)中列舉每個算法來自動調(diào)整,因此可以被忽略。

很明顯,特征圖是 GPU 顯存使用的主要組成部分。論文作者聚焦特征圖,提出了兩種方法來解決 GPU 顯存限制問題,即通用的「swap-out/in」方法以及適用于 Seq2Seq 模型的內(nèi)存高效注意力層。所有這些優(yōu)化都基于 TensorFlow。TensorFlow 具備內(nèi)置內(nèi)存分配器,實現(xiàn)了「best-fit with coalescing」的算法。該分配器旨在通過 coalescing 支持碎片整理(de-fragmentation)。但是,它的內(nèi)置內(nèi)存管理策略未考慮大模型訓(xùn)練時的顯存優(yōu)化。

《Training Deeper Models by GPU Memory Optimization on TensorFlow》的論文貢獻如下:聚焦于特征圖,提出兩種方法減少深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的 GPU 顯存消耗?;跀?shù)據(jù)流圖的「swap-out/in」方法使用主機內(nèi)存作為更大的內(nèi)存池,從而放寬 GPU 顯存上限的限制;而內(nèi)存高效的注意力層可用來優(yōu)化顯存消耗量大的 Seq2Seq 模型。這些方法的實現(xiàn)被無縫整合到 TensorFlow 中,且可透明地應(yīng)用于所有模型,無需對現(xiàn)有模型架構(gòu)的描述作任何改變。

阿里NIPS 2017 Workshop論文:基于TensorFlow的深度模型訓(xùn)練GPU顯存優(yōu)化

論文: Training Deeper Models by GPU Memory Optimization on TensorFlow

作者:孟晨、孫敏敏、楊軍、邱明輝、顧揚

論文地址:https://github.com/LearningSys/nips17/blob/9ee207c054cf109bc4a068b1064b644d75d0381f/assets/papers/paper_18.pdf

摘要:隨著大數(shù)據(jù)時代的到來、GPGPU 的獲取成本降低以及神經(jīng)網(wǎng)絡(luò)建模技術(shù)的進步,在 GPU 上訓(xùn)練深度學(xué)習(xí)模型變得越來越流行。然而,由于深度學(xué)習(xí)模型的內(nèi)在復(fù)雜性和現(xiàn)代 GPU 的顯存資源限制,訓(xùn)練深度模型仍然是一個困難的任務(wù),尤其是當模型大小對于單個 GPU 而言太大的時候。在這篇論文中,我們提出了一種基于通用數(shù)據(jù)流圖的 GPU 顯存優(yōu)化策略,即「swap-out/in」,將主機內(nèi)存當做一個更大的內(nèi)存池來克服 GPU 的內(nèi)存限制。同時,為了優(yōu)化內(nèi)存消耗大的 Seq2Seq 模型,我們還提出了專用的優(yōu)化策略。我們將這些策略無縫整合到 TensorFlow 中,且優(yōu)化不會造成準確率的損失。我們在大量的實驗中觀察到了顯著的顯存使用降低。給定一個固定的模型和系統(tǒng)配置,最大訓(xùn)練批尺寸可以增加 2 到 30 倍。

阿里NIPS 2017 Workshop論文:基于TensorFlow的深度模型訓(xùn)練GPU顯存優(yōu)化

圖 2:引用計數(shù)(reference count) 阿里NIPS 2017 Workshop論文:基于TensorFlow的深度模型訓(xùn)練GPU顯存優(yōu)化

圖 3:swap out/in 優(yōu)化的原子操作(Atomic operation)

刪除從節(jié)點 e 到節(jié)點 b 的引用邊,并添加了紅色和藍色的節(jié)點和邊。

阿里NIPS 2017 Workshop論文:基于TensorFlow的深度模型訓(xùn)練GPU顯存優(yōu)化

圖 4:注意力操作(Attention operation)優(yōu)化。

d 指梯度。圖左未經(jīng)優(yōu)化,圖右經(jīng)過了顯存優(yōu)化。

阿里NIPS 2017 Workshop論文:基于TensorFlow的深度模型訓(xùn)練GPU顯存優(yōu)化

表 1:對 swap out/in 的評估。GPU 的顯存上限是 12GB。

 阿里NIPS 2017 Workshop論文:基于TensorFlow的深度模型訓(xùn)練GPU顯存優(yōu)化

表 2:對顯存高效序列模型的評估。

更多資訊,敬請關(guān)注雷鋒網(wǎng) AI 科技評論。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

阿里NIPS 2017 Workshop論文:基于TensorFlow的深度模型訓(xùn)練GPU顯存優(yōu)化

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說