日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給汪思穎
發(fā)送

0

DeepMind 推出分布式訓(xùn)練框架 IMPALA,開(kāi)啟智能體訓(xùn)練新時(shí)代

本文作者: 汪思穎 2018-02-09 09:48
導(dǎo)語(yǔ):訓(xùn)練智能體新體驗(yàn),try it!

雷鋒網(wǎng) AI 研習(xí)社按,日前,DeepMind 推出一種全新的分布式智能體訓(xùn)練框架 IMPALA,該框架具有高度可擴(kuò)展性,將學(xué)習(xí)和執(zhí)行過(guò)程分開(kāi),使用了一種名為 V-trace 的離策略(off-policy)修正算法,具有顯著的加速性能,極高的效率。具體如何呢,雷鋒網(wǎng) AI 研習(xí)社將其原文編譯整理如下:

深度強(qiáng)化學(xué)習(xí) (DeepRL) 在一系列任務(wù)中取得很顯著的成果,比如機(jī)器人的連續(xù)控制問(wèn)題、玩圍棋和 Atari 等游戲。目前為止,我們看到的這些成果僅限于單一任務(wù),每個(gè)任務(wù)都要單獨(dú)對(duì)智能體進(jìn)行調(diào)參和訓(xùn)練。

在我們最近的工作中,研究了在多個(gè)任務(wù)中訓(xùn)練單個(gè)智能體。

今天我們發(fā)布 DMLab-30,這是一組橫跨很多挑戰(zhàn)的新任務(wù),在視覺(jué)統(tǒng)一的環(huán)境中,有著普通的行動(dòng)空間(action space)。想訓(xùn)練好一個(gè)在許多任務(wù)上都有良好表現(xiàn)的智能體,需要大量的吞吐量,有效利用每個(gè)數(shù)據(jù)點(diǎn)。

為此,我們開(kāi)發(fā)了一種全新的、高度可擴(kuò)展的分布式智能體訓(xùn)練框架 IMPALA(重點(diǎn)加權(quán)行動(dòng)-學(xué)習(xí)器框架,Importances Weighted Actor-Learner Architectures),這種框架使用了一種名為 V-trace 的離策略(off-policy)修正算法。

DMLab-30

DMLab-30 是通過(guò)開(kāi)源強(qiáng)化學(xué)習(xí)環(huán)境 DeepMind Lab 設(shè)計(jì)的一系列新任務(wù)。有了 DMLab-30,任何深度強(qiáng)化學(xué)習(xí)研究人員都能夠在大范圍的、有趣的任務(wù)中測(cè)試系統(tǒng),支持單獨(dú)測(cè)試、多任務(wù)環(huán)境測(cè)試。

DeepMind 推出分布式訓(xùn)練框架 IMPALA,開(kāi)啟智能體訓(xùn)練新時(shí)代

這些任務(wù)被設(shè)計(jì)得盡可能多樣化。它們有著不同的目標(biāo),有的是學(xué)習(xí),有的是記憶,有的則是導(dǎo)航。它們的視覺(jué)效果也各不相同,比如有的是色彩鮮艷、現(xiàn)代風(fēng)格的紋理,有的是黎明、正午或夜晚的沙漠中微妙的棕色和綠色。環(huán)境設(shè)置也不同,從開(kāi)闊的山區(qū),到直角迷宮,再到開(kāi)放的圓房間,這里都存在。

此外,一些環(huán)境中還有「機(jī)器人」,這些機(jī)器人會(huì)執(zhí)行以目標(biāo)為導(dǎo)向的行為。同樣重要的是,任務(wù)不同,目標(biāo)和獎(jiǎng)勵(lì)也會(huì)有所不同,比如遵循語(yǔ)言指令、使用鑰匙開(kāi)門(mén)、采摘蘑菇、繪制和跟蹤一條復(fù)雜的不能回頭的路徑這些任務(wù),最終目的和獎(jiǎng)勵(lì)都會(huì)有所不同。  

但是,就行動(dòng)空間和觀察空間來(lái)說(shuō),任務(wù)的環(huán)境是一樣的??梢栽诿總€(gè)環(huán)境中對(duì)智能體進(jìn)行訓(xùn)練。在 DMLab 的 GitHub 頁(yè)面上可以找到更多關(guān)于訓(xùn)練環(huán)境的細(xì)節(jié)。

IMPALA::重點(diǎn)加權(quán)行動(dòng)-學(xué)習(xí)器框架

為了在 DMLab-30 中訓(xùn)練那些具有挑戰(zhàn)性的任務(wù),我們開(kāi)發(fā)了一個(gè)名為 IMPALA 的分布式智能體框架,它利用 TensorFlow 中高效的分布式框架來(lái)最大化數(shù)據(jù)吞吐量。

IMPALA 的靈感來(lái)自流行的 A3C 框架,后者使用多個(gè)分布式 actor 來(lái)學(xué)習(xí)智能體的參數(shù)。

在這樣的模型中,每個(gè) actor 都使用策略參數(shù)的克隆在環(huán)境中行動(dòng)。actor 會(huì)周期性地暫停探索來(lái)共享梯度,這些梯度是用一個(gè)中央?yún)?shù)服務(wù)器來(lái)計(jì)算的,會(huì)實(shí)時(shí)更新(見(jiàn)下圖)。

 DeepMind 推出分布式訓(xùn)練框架 IMPALA,開(kāi)啟智能體訓(xùn)練新時(shí)代

另一方面,在 IMPALA 中,不會(huì)用 actor 來(lái)計(jì)算梯度。它們只是用來(lái)收集經(jīng)驗(yàn),這些經(jīng)驗(yàn)會(huì)傳遞給計(jì)算梯度的中央學(xué)習(xí)器,從而得到一個(gè)擁有獨(dú)立 actor 和 learner 的模型。

現(xiàn)代計(jì)算系統(tǒng)有諸多優(yōu)勢(shì),IMPALA 可以利用其優(yōu)勢(shì),用單個(gè) learner 或多個(gè) learner 進(jìn)行同步更新。以這種方式將學(xué)習(xí)和行動(dòng)分離,有助于提高整個(gè)系統(tǒng)的吞吐量,因?yàn)?actor 不再需要執(zhí)行諸如Batched A2C 框架中的等待學(xué)習(xí)步驟。

這使我們?cè)诃h(huán)境中訓(xùn)練 IMPALA 時(shí)不會(huì)受到框架渲染時(shí)間的變動(dòng)或任務(wù)重新啟動(dòng)時(shí)間的影響。

DeepMind 推出分布式訓(xùn)練框架 IMPALA,開(kāi)啟智能體訓(xùn)練新時(shí)代

IMPALA 中的學(xué)習(xí)是連續(xù)的,不同于其他框架,每一步學(xué)習(xí)都要暫停

然而,將行動(dòng)與學(xué)習(xí)分離會(huì)導(dǎo)致 actor 中的策略落后于 learner。為了彌補(bǔ)這一差異,我們引入 V-trace——條理化的離策略 actor critic 算法,它可以對(duì) actor 落后的軌跡進(jìn)行補(bǔ)償??梢栽谖覀兊恼撐?nbsp;IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures 中看到該算法的具體細(xì)節(jié)。

DeepMind 推出分布式訓(xùn)練框架 IMPALA,開(kāi)啟智能體訓(xùn)練新時(shí)代

IMPALA 中的優(yōu)化模型相對(duì)于類(lèi)似智能體,能多處理 1 到 2 個(gè)數(shù)量級(jí)的經(jīng)驗(yàn),這使得在極具挑戰(zhàn)的環(huán)境中進(jìn)行學(xué)習(xí)成為可能。

我們將 IMPALA 與幾個(gè)流行的 actor-critic 的方法進(jìn)行了比較,發(fā)現(xiàn)它具有顯著的加速效果。此外,使用 IMPALA 的情況下,隨著 actor 和 learner 的增長(zhǎng),吞吐量幾乎是按線性增長(zhǎng)的。這表明,分布式智能體模型和 V-trace 算法都能支持極大規(guī)模的實(shí)驗(yàn),支持的規(guī)模甚至可以達(dá)到上千臺(tái)機(jī)器。

當(dāng)在 DMLab-30 上進(jìn)行測(cè)試時(shí),與 A3C 相比,IMPALA 的數(shù)據(jù)效率提高了 10 倍,最終得分達(dá)到后者的兩倍。此外,與單任務(wù)訓(xùn)練相比,IMPALA 在多任務(wù)環(huán)境下的訓(xùn)練呈正遷移趨勢(shì)。

IMPALA 論文地址:https://arxiv.org/abs/1802.01561

DMLab-30 GitHub地址:https://github.com/deepmind/lab/tree/master/game_scripts/levels/contributed/dmlab30

via:DeepMind Blog

雷鋒網(wǎng) AI 研習(xí)社編譯整理

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

DeepMind 推出分布式訓(xùn)練框架 IMPALA,開(kāi)啟智能體訓(xùn)練新時(shí)代

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)