伯克利《深度強化學習》更新 | 第十三講：利用模仿優(yōu)化控制器學習策略

本文作者： AI研習社

2019-11-27 15:01

導語：AI 研習社獲得官方授權(quán)，漢化翻譯伯克利 CS 294-112 《深度強化學習》，今天更新至第十三講啦~

語音播放文章內(nèi)容

由深聲科技提供技術(shù)支持

AI 研習社獲得官方授權(quán)，漢化翻譯伯克利 CS 294-112 《深度強化學習》，今天更新至第十三講啦~

我們先來一睹為快——

第十三講：

利用模仿優(yōu)化控制器學習策略

上手視頻約 5 分鐘

翻譯 | 郭瑋王明輝張璐

字幕 | 唐里后期 | 唐里

看完是不是不夠過癮！

進入小組：https://ai.yanxishe.com/page/groupDetail/30 觀看完整視頻

同時，針對這門課程，我們同樣開設(shè)了微信社群，

回復字幕君（微信：leiphonefansub）

你加入該課程小組的截圖

我們將你拉入微信群聊

伯克利《深度強化學習》更新 | 第十三講：利用模仿優(yōu)化控制器學習策略

加時備注“CS294加群”~

小組介紹

截止到今日，AI研習社學習2018秋季CS294-112深度強化學習小組成員人數(shù)將近3000人啦！

在AI研習社，這里有濃厚的學習氛圍——

伯克利《深度強化學習》更新 | 第十三講：利用模仿優(yōu)化控制器學習策略

小組成員在這里打卡，記錄自己的學習成果，在這里交流筆記心得——

伯克利《深度強化學習》更新 | 第十三講：利用模仿優(yōu)化控制器學習策略

「小組」產(chǎn)品上線后，AI 研習社推出了一系列的激勵計劃，鼓勵各位組員學習視頻課程，表現(xiàn)積極的學員還將獲得由 AI 研習社提供的福利，這些福利包括但不限于機械鍵盤、雙肩背包以及 AI 研習社定制的「浪中求穩(wěn)」保溫杯。

心動了嗎，趕快將“AI研習小組”小程序添加到“我的小程序”吧！隨時隨地都能學習名校經(jīng)典課程，和上千位小伙伴們一起，共同進步。

課程介紹

伯克利《深度強化學習》更新 | 第十三講：利用模仿優(yōu)化控制器學習策略

伯克利 CS 294-112 《深度強化學習》為官方開源最新版本，由伯克利大學該門課程授課講師 Sergey Levine 授權(quán) AI 研習社翻譯。

12 月 20 日開始正式同步更新在 AI 研習社，大約 1 到 2 周更新一次。

該課程主題選擇深度增強學習，即緊跟當前人工智能研究的熱點，又可作為深度學習的后續(xù)方向，值得推薦。

先修要求

想要學習伯克利 CS 294-112 《深度強化學習》這門課程，學生需要先學習 CS189 或者其他同等學力課程。本課程將假定學生掌握強化學習、數(shù)值優(yōu)化和機器學習的相關(guān)背景知識。

如果你對上述主題不是非常了解，那么需要自主學習補充以下知識點：

增強學習和馬爾科夫決策過程（MDPs）

MDPs的定義

具體算法：策略迭代和價值迭代

搜索算法

數(shù)值最優(yōu)化方法

梯度下降和隨機梯度下降

反向傳播算法

機器學習

分類和回歸問題：用什么樣的損失函數(shù)，如何擬合線性或非線性模型

訓練/測試誤差，過擬合

視頻截圖

伯克利《深度強化學習》更新 | 第十三講：利用模仿優(yōu)化控制器學習策略

譯者評價

比較有趣，講課用很多例子來解釋，不是那種光給你一大堆公式概念的，感覺偏重實際應用和前沿技術(shù)一點，推薦大家來看。

@周清逸

這門課是基本覆蓋了強化學習的主要內(nèi)容和前沿的研究話題，通過理論到應用例子的講述，以及五次作業(yè)（實際上是七次）的實踐練習對經(jīng)典算法的復現(xiàn)，可以讓學生達到在強化學習領(lǐng)域的入門研究水平。重點是免費！課程有中文字幕！有作業(yè)參考！不過這門課并不是零門檻，需要上過機器學習課程，最好是還上過深度學習（比如cmu deeplearning），最最好用過tensorflow（因為作業(yè)的官方基礎(chǔ)代碼只有tensorflow版本）。

@朱海浩

側(cè)重于增強學習與深度學習相結(jié)合，應用在機器人方面的例子比較多，翻譯的話老師語速挺快的，雖然語氣詞比較多，整體邏輯很清晰。

@段小杰

課程大綱

第一講：課程介紹和概覽

第二講：監(jiān)督學習和模仿學習

第三講：TensorFlow 和神經(jīng)網(wǎng)絡(luò)簡述

第四講：強化學習簡介

第五講：策略梯度簡介

第六講：Actor-Critic 算法簡介

第七講：價值函數(shù)介紹

第八講：高級 Q-學習算法

第九講：高級策略梯度

第十講：最優(yōu)控制和規(guī)劃

第十一講：基于模型的強化學習

第十二講：高級強化學習和圖像處理應用

第十三講：利用模仿優(yōu)化控制器學習策略

第十四講：概率和變分推斷入門

第十五講：推斷和控制之間的聯(lián)系

第十六講：逆向強化學習

第十七講：探索（上）

第十八講：探索（下）

第十九講：遷移學習與多任務學習

第二十講：元學習

第二十一講：平行結(jié)構(gòu)和強化學習系統(tǒng)設(shè)計

第二十二講：進階模仿學習和開放性問題

第二十三講：客座講師：Craig Boutilier

第二十四講：客座講師：Gregory Kahn

第二十五講：客座講師：Quoc Le & Barret Zoph

第二十六講：客座講師：Karol Hausman

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

AI研習社

編輯

聚焦數(shù)據(jù)科學，連接 AI 開發(fā)者。更多精彩內(nèi)容，請訪問：yanxishe.com

發(fā)私信

當月熱門文章