日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給AI研習社
發(fā)送

0

伯克利《深度強化學習》更新 | 第十三講:利用模仿優(yōu)化控制器學習策略

本文作者: AI研習社 2019-11-27 15:01
導語:AI 研習社獲得官方授權(quán),漢化翻譯伯克利 CS 294-112 《深度強化學習》,今天更新至第十三講啦~

AI 研習社獲得官方授權(quán),漢化翻譯伯克利 CS 294-112 《深度強化學習》,今天更新至第十三講啦~

我們先來一睹為快——

第十三講:

利用模仿優(yōu)化控制器學習策略

上手視頻約 5 分鐘

翻譯 | 郭瑋 王明輝 張璐

字幕 | 唐里     后期 | 唐里

看完是不是不夠過癮!

進入小組:https://ai.yanxishe.com/page/groupDetail/30 觀看完整視頻

同時,針對這門課程,我們同樣開設(shè)了微信社群,

回復字幕君(微信:leiphonefansub)

你加入該課程小組的截圖

我們將你拉入微信群聊

伯克利《深度強化學習》更新 | 第十三講:利用模仿優(yōu)化控制器學習策略

加時備注“CS294加群”~

  小組介紹          

截止到今日,AI研習社學習2018秋季CS294-112深度強化學習小組成員人數(shù)將近3000人啦!

在AI研習社,這里有濃厚的學習氛圍——

伯克利《深度強化學習》更新 | 第十三講:利用模仿優(yōu)化控制器學習策略



小組成員在這里打卡,記錄自己的學習成果,在這里交流筆記心得——

伯克利《深度強化學習》更新 | 第十三講:利用模仿優(yōu)化控制器學習策略


「小組」產(chǎn)品上線后,AI 研習社推出了一系列的激勵計劃,鼓勵各位組員學習視頻課程,表現(xiàn)積極的學員還將獲得由 AI 研習社提供的福利,這些福利包括但不限于機械鍵盤、雙肩背包以及 AI 研習社定制的「浪中求穩(wěn)」保溫杯。


心動了嗎,趕快將“AI研習小組”小程序添加到“我的小程序”吧!隨時隨地都能學習名校經(jīng)典課程,和上千位小伙伴們一起,共同進步。


  課程介紹

伯克利《深度強化學習》更新 | 第十三講:利用模仿優(yōu)化控制器學習策略

伯克利 CS 294-112 《深度強化學習》為官方開源最新版本,由伯克利大學該門課程授課講師 Sergey Levine 授權(quán) AI 研習社翻譯。

12 月 20 日開始正式同步更新在 AI 研習社,大約 1 到 2 周更新一次。

該課程主題選擇深度增強學習,即緊跟當前人工智能研究的熱點,又可作為深度學習的后續(xù)方向,值得推薦。


  先修要求

想要學習伯克利 CS 294-112 《深度強化學習》這門課程,學生需要先學習 CS189 或者其他同等學力課程。本課程將假定學生掌握強化學習、數(shù)值優(yōu)化和機器學習的相關(guān)背景知識。

如果你對上述主題不是非常了解,那么需要自主學習補充以下知識點:

  • 增強學習和馬爾科夫決策過程(MDPs)

MDPs的定義

具體算法:策略迭代和價值迭代

搜索算法

  • 數(shù)值最優(yōu)化方法

梯度下降和隨機梯度下降

反向傳播算法

  • 機器學習

分類和回歸問題:用什么樣的損失函數(shù),如何擬合線性或非線性模型

訓練/測試誤差,過擬合


  視頻截圖

伯克利《深度強化學習》更新 | 第十三講:利用模仿優(yōu)化控制器學習策略

伯克利《深度強化學習》更新 | 第十三講:利用模仿優(yōu)化控制器學習策略

伯克利《深度強化學習》更新 | 第十三講:利用模仿優(yōu)化控制器學習策略


  譯者評價

比較有趣,講課用很多例子來解釋,不是那種光給你一大堆公式概念的,感覺偏重實際應用和前沿技術(shù)一點,推薦大家來看。

@周清逸

這門課是基本覆蓋了強化學習的主要內(nèi)容和前沿的研究話題,通過理論到應用例子的講述,以及五次作業(yè)(實際上是七次)的實踐練習對經(jīng)典算法的復現(xiàn),可以讓學生達到在強化學習領(lǐng)域的入門研究水平。重點是免費!課程有中文字幕!有作業(yè)參考!不過這門課并不是零門檻,需要上過機器學習課程,最好是還上過深度學習(比如cmu deeplearning),最最好用過tensorflow(因為作業(yè)的官方基礎(chǔ)代碼只有tensorflow版本)。

@朱海浩

側(cè)重于增強學習與深度學習相結(jié)合,應用在機器人方面的例子比較多,翻譯的話老師語速挺快的,雖然語氣詞比較多,整體邏輯很清晰。

@段小杰


  課程大綱

第一講:課程介紹和概覽

第二講:監(jiān)督學習和模仿學習

第三講:TensorFlow 和神經(jīng)網(wǎng)絡(luò)簡述

第四講:強化學習簡介

第五講:策略梯度簡介

第六講:Actor-Critic 算法簡介

第七講:價值函數(shù)介紹

第八講:高級 Q-學習算法

第九講:高級策略梯度

第十講:最優(yōu)控制和規(guī)劃

第十一講:基于模型的強化學習

第十二講:高級強化學習和圖像處理應用

第十三講:利用模仿優(yōu)化控制器學習策略

第十四講:概率和變分推斷入門

第十五講:推斷和控制之間的聯(lián)系

第十六講:逆向強化學習

第十七講:探索(上)

第十八講:探索(下)

第十九講:遷移學習與多任務學習

第二十講:元學習

第二十一講:平行結(jié)構(gòu)和強化學習系統(tǒng)設(shè)計

第二十二講:進階模仿學習和開放性問題

第二十三講:客座講師:Craig Boutilier

第二十四講:客座講師:Gregory Kahn

第二十五講:客座講師:Quoc Le & Barret Zoph

第二十六講:客座講師:Karol Hausman  

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

伯克利《深度強化學習》更新 | 第十三講:利用模仿優(yōu)化控制器學習策略

分享:
相關(guān)文章

編輯

聚焦數(shù)據(jù)科學,連接 AI 開發(fā)者。更多精彩內(nèi)容,請訪問:yanxishe.com
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說