日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給MrBear
發(fā)送

0

論強(qiáng)化學(xué)習(xí)的根本缺陷

本文作者: MrBear 編輯:楊曉凡 2018-07-25 10:08
導(dǎo)語(yǔ):純強(qiáng)化學(xué)習(xí)取得了令人矚目的成就,然而,它存在著怎樣的缺陷呢?如何對(duì)其進(jìn)行改進(jìn)?

雷鋒網(wǎng) AI 科技評(píng)論按:本文來(lái)自斯坦福大學(xué)博士生 Andrey Kurenkov 在 The Gradient 上發(fā)表的文章。

在本文中,我們將討論人工智能的一個(gè)核心領(lǐng)域——強(qiáng)化學(xué)習(xí)——的局限性。

在這個(gè)過(guò)程中,起初我們將通過(guò)一個(gè)有趣的例子提出我們要討論的問(wèn)題,然后向大家介紹一套方法引入深度學(xué)習(xí)相關(guān)的先驗(yàn)知識(shí)和說(shuō)明,最終得出一個(gè)重要結(jié)論。

現(xiàn)在讓我們進(jìn)入第一部分,你將了解到什么是強(qiáng)化學(xué)習(xí),以及為什么說(shuō)強(qiáng)化學(xué)習(xí)(或者至少說(shuō)我們稱之為「純強(qiáng)化學(xué)習(xí)」的版本,我們將在接下來(lái)的文章中定義「純強(qiáng)化學(xué)習(xí)」的概念)從根本上說(shuō)是有缺陷的。這個(gè)部分可能包含一些人工智能從業(yè)者已經(jīng)十分熟悉的解釋,他們可以直接跳過(guò)該部分。但是請(qǐng)一定要重視最近關(guān)于「非純強(qiáng)化學(xué)習(xí)」的研究進(jìn)展,我們認(rèn)為這代表著對(duì)純強(qiáng)化學(xué)習(xí)的根本缺陷的改進(jìn)。但是現(xiàn)在,讓我們一起來(lái)看看一個(gè)有趣的例子。

案例:棋盤游戲

想象一下,你的朋友正邀請(qǐng)你參與一個(gè)你從未玩過(guò)的棋盤游戲。假設(shè)在你至今為止的歲月中,你還沒(méi)接觸過(guò)這種棋盤游戲,也從未玩過(guò)任何類型的游戲。你的朋友向你介紹了規(guī)則,說(shuō)明了什么是「有效移動(dòng)」。但是沒(méi)有說(shuō)明它們的意義是什么,或者如何才能得分。所以,你在不能問(wèn)更多的問(wèn)題,也無(wú)法獲得更多的解釋的情況下開(kāi)始玩這個(gè)游戲??上攵婚_(kāi)始,你輸?shù)袅擞螒?。接著,你開(kāi)始了屢戰(zhàn)屢敗的嘗試,一次一次玩這個(gè)游戲,一次一次地輸?shù)簟?然而,幸運(yùn)的是,你漸漸地在失敗中領(lǐng)悟到了一些有用的模式;此時(shí),盡管你仍然會(huì)輸?shù)粲螒?,但是并不?huì)那么快地被秒殺,能多掙扎一會(huì)…… 接著,你越挫越勇,在經(jīng)歷了長(zhǎng)達(dá)數(shù)周的游戲時(shí)間后,你甚至能勉強(qiáng)獲勝了!

這個(gè)故事看上去有些傻,是吧?你會(huì)問(wèn):為什么你不直接問(wèn)朋友游戲的目標(biāo)是什么?正確的游戲方法是什么?然而,上面這一段的故事實(shí)際上描述了如今大多數(shù)強(qiáng)化學(xué)習(xí)方法仍舊是如何工作的。

強(qiáng)化學(xué)習(xí)(reinforcement learning)是人工智能的子領(lǐng)域之一。在強(qiáng)化學(xué)習(xí)框架中,一個(gè)智能體(agent)與環(huán)境(environment)進(jìn)行交互,從而學(xué)習(xí)到它(智能體)在任意給定的環(huán)境中的狀態(tài)(state)下需要選擇怎樣的動(dòng)作(action)才能最大化它的長(zhǎng)期獎(jiǎng)勵(lì)(reward)。在棋盤游戲的例子中,這意味著你(智能體)需要與棋盤(環(huán)境)進(jìn)行交互,從而學(xué)習(xí)到你(智能體)在每一輪棋盤(環(huán)境)的游戲配置(狀態(tài))中需要采取什么樣的移動(dòng)策略(動(dòng)作)才能夠最大化你最終的得分(獎(jiǎng)勵(lì))。

在深度學(xué)習(xí)的經(jīng)典模型中,智能體一開(kāi)始只知道那些動(dòng)作是可以采取的。他對(duì)所處的世界中的先驗(yàn)知識(shí)一無(wú)所知,只能通過(guò)與環(huán)境交互來(lái)學(xué)習(xí)這種技能,并在每次采用動(dòng)作之后得到獎(jiǎng)勵(lì)。缺乏先驗(yàn)知識(shí)意味著智能體需要從頭開(kāi)始學(xué)習(xí),我們將這種從頭開(kāi)始學(xué)習(xí)的方法稱為「純強(qiáng)化學(xué)習(xí)」。純強(qiáng)化學(xué)習(xí)如今主要被用于解決雙陸棋和圍棋這樣的游戲問(wèn)題,以及機(jī)器人和其他領(lǐng)域的各種各樣的問(wèn)題。

論強(qiáng)化學(xué)習(xí)的根本缺陷

在棋盤游戲的例子中,一「節(jié)」代表一個(gè)完整的游戲過(guò)程。在這個(gè)例子以及許多的強(qiáng)化學(xué)習(xí)問(wèn)題中,只有最終的狀態(tài)有一個(gè)非零的獎(jiǎng)勵(lì)。

近年來(lái),深度學(xué)習(xí)給強(qiáng)化學(xué)習(xí)的研究注入了新的活力,但最基本的模型并沒(méi)有發(fā)生太大的變化;畢竟,這種從頭開(kāi)始學(xué)習(xí)的方法可以追溯到強(qiáng)化學(xué)習(xí)作為一個(gè)研究領(lǐng)域被創(chuàng)建的伊始,并且通過(guò)其最基本的方程(貝爾曼方程)進(jìn)行編碼。

那么,一個(gè)基本的問(wèn)題來(lái)了:如果純強(qiáng)化學(xué)習(xí)乍一看并沒(méi)有這么大的意義,那么設(shè)計(jì)一個(gè)基于純強(qiáng)化學(xué)習(xí)的人工智能模型是否合理呢?如果讓一個(gè)人通過(guò)純強(qiáng)化學(xué)習(xí)的方式學(xué)習(xí)一個(gè)新的棋盤游戲是如此荒謬的話,難道我們不應(yīng)該想想,這對(duì)于人工智能體來(lái)說(shuō)不是一種存在缺陷的學(xué)習(xí)框架嗎?在既沒(méi)有先驗(yàn)的經(jīng)驗(yàn)又沒(méi)有更高層次的指導(dǎo)的情況下,僅僅基于獎(jiǎng)勵(lì)信號(hào)就開(kāi)始學(xué)習(xí)新的技能真的有意義嗎?

先驗(yàn)經(jīng)驗(yàn)和高層次的指導(dǎo)在用于形式化定義強(qiáng)化學(xué)習(xí)的經(jīng)典的方程式中均沒(méi)有得到體現(xiàn),而且無(wú)論是隱式還是顯式地改變這些方程,都可能對(duì)我們用來(lái)訓(xùn)練用于所有的強(qiáng)化學(xué)習(xí)的人工智能算法都有很大的影響(這些算法已經(jīng)遠(yuǎn)遠(yuǎn)超出了棋盤游戲的范疇,從機(jī)器人技術(shù)到資源分配問(wèn)題)。換句話說(shuō),這是一個(gè)很大的問(wèn)題,為了得到這個(gè)問(wèn)題的答案,你需要閱讀下面兩篇文章:

1. 在第一部分(本文)中,我們首先將指出,純深度學(xué)習(xí)的主要成果并不像他們看上去那么令人印象深刻。接著,我們將進(jìn)一步說(shuō)明,在純強(qiáng)化學(xué)習(xí)框架下不太可能實(shí)現(xiàn)更復(fù)雜的成果,這是因?yàn)樗鼘?duì)人工智能體強(qiáng)加了諸多限制。

2. 在第二部分中,我們將概述人工智能技術(shù)中能夠解決這種限制的不同方法(主要是元學(xué)習(xí)和零樣本學(xué)習(xí))。最后,我們將調(diào)查到目前為止,基于這些方法的具有里程碑意義的工作,并且總結(jié)出這項(xiàng)工作對(duì)強(qiáng)化學(xué)習(xí)和整個(gè)人工智能研究領(lǐng)域意味著什么。

論強(qiáng)化學(xué)習(xí)的根本缺陷

幾乎人人認(rèn)同純強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的基本形式。但他們真的應(yīng)該這么認(rèn)為嗎?

純強(qiáng)化學(xué)習(xí)有意義嗎? 

對(duì)于這個(gè)問(wèn)題,許多人下意識(shí)的反應(yīng)大概是:「當(dāng)然,使用純強(qiáng)化學(xué)習(xí)還是很有意義的——人工智能體并不是人類,所以并不需要像我們一樣學(xué)習(xí),況且純強(qiáng)化學(xué)習(xí)已經(jīng)被證明可以解決各種各樣復(fù)雜的問(wèn)題。 」

我不同意以上觀點(diǎn)。根據(jù)定義,人工智能研究涉及到使機(jī)器能夠做一些目前只有人類和動(dòng)物才能做到的事情。因此,將人工智能與人類智能進(jìn)行比較是合適的。至于那些目前使用純強(qiáng)化學(xué)習(xí)解決的問(wèn)題,有人給出了一些重要的忠告,但是往往被人忽視:這些問(wèn)題其實(shí)往往并不像看上去那么復(fù)雜。 

也許,對(duì)于很多人來(lái)說(shuō),這種說(shuō)法是非常令人驚訝的,因?yàn)榻鉀Q這些問(wèn)題是目前人工智能最廣為人知的成就。說(shuō)實(shí)話,盡管這些成就確實(shí)是很偉大的,但我仍然認(rèn)為這些涉及到的問(wèn)題并不想他們看上去那么復(fù)雜。在討論為什么我們這么說(shuō)之前,我們不妨列舉一下這些成就,并指出為什么這些成就是完全配得上這種贊揚(yáng)的:

1. DQN(深度 Q 學(xué)習(xí)網(wǎng)絡(luò)):短短5 年前,DeepMind 的一項(xiàng)研究項(xiàng)目大大提升了人們對(duì)強(qiáng)化學(xué)習(xí)的興趣,該項(xiàng)目表明,將深度學(xué)習(xí)與純強(qiáng)化學(xué)習(xí)和一些新的創(chuàng)意相結(jié)合可以解決比以往任何時(shí)候都要更加復(fù)雜的問(wèn)題。

毫不夸張地說(shuō),DQN 是一種以一己之力重新激發(fā)廣大研究人員對(duì)強(qiáng)化學(xué)習(xí)的興趣的模型。盡管它只包含了一些相對(duì)簡(jiǎn)單的創(chuàng)新,但是這些創(chuàng)新被證明對(duì)于使深度強(qiáng)化學(xué)習(xí)更加實(shí)用非常重要。

論強(qiáng)化學(xué)習(xí)的根本缺陷

盡管看起來(lái)很簡(jiǎn)單,但是從游戲畫面的像素輸入中學(xué)習(xí)如何玩這個(gè)游戲在十年前還是不可想象的。

2. AlphaGo Zero 以及 AlphaZero:學(xué)習(xí)如何以超越所有人類的水平下圍棋、象棋和將棋的純強(qiáng)化學(xué)習(xí)模型??破找幌拢珹lphaGo Zero 是DeepMind 開(kāi)發(fā)出的 AlphaGo 的繼任者(AlphaGo 是第一個(gè)擊敗人類圍棋冠軍的程序)。不同于原始的通過(guò)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合進(jìn)行學(xué)習(xí)的AlphaGo,AlphaGo Zero 純粹通過(guò)強(qiáng)化學(xué)習(xí)和自我對(duì)弈進(jìn)行學(xué)習(xí)。因此,它在整體上緊密地遵循純強(qiáng)化學(xué)習(xí)的方法(智能體從完全沒(méi)有任何先驗(yàn)知識(shí)的情況開(kāi)始,從獎(jiǎng)勵(lì)信號(hào)中學(xué)習(xí)知識(shí)),盡管它也使用一個(gè)事先被提供的模型(游戲規(guī)則),并且通過(guò)自我對(duì)弈以可靠的、可持續(xù)的方式不斷提升。雷鋒網(wǎng) AI 科技評(píng)論早先也有文章進(jìn)行介紹「阿爾法狗」再進(jìn)化!通用算法AlphaZero再攻克幾種棋又有何難!

由于AlphaGo Zero 不再?gòu)娜祟惖慕?jīng)驗(yàn)中學(xué)習(xí)如何獲得成功,在許多人眼中,它比 AlphaGo 對(duì)這個(gè)游戲的改變更大。接著,AlphaZero 應(yīng)運(yùn)而生,它是一個(gè)更加普適的版本,被證明不僅能夠處理圍棋任務(wù),還能對(duì)象棋、將棋進(jìn)行學(xué)習(xí)。這是人們第一次用同一個(gè)算法來(lái)攻破象棋和圍棋,而且它并沒(méi)有像「深藍(lán)」和原始的 AlphaGo 那樣專門為某種游戲?qū)δP瓦M(jìn)行裁剪。基于上述原因,AlphaGo Zero 和 AlphaZero 無(wú)疑是具有里程碑意義的、令人激動(dòng)的成就(DeepMind 的媒體宣傳也超贊)。

論強(qiáng)化學(xué)習(xí)的根本缺陷

李世石敗給了Alpha,這是一個(gè)歷史性的時(shí)刻。

3. OpenAI 的 Dota 機(jī)器人:用深度強(qiáng)化學(xué)習(xí)訓(xùn)練的人工智能體能在風(fēng)靡全球而且非常復(fù)雜的多人對(duì)抗游戲——Dota2 中擊敗人類玩家。2017 年,OpenAI 成功地在有限制的 1v1 版本的 Dota2 比賽中擊敗人類職業(yè)玩家(Dendi)就足以令人印象深刻了,但是與他們最近取得的成就相比,這根本算不了什么,要知道,他們最近成功地在復(fù)雜得多的 5v5 版本的游戲中戰(zhàn)勝了人類玩家組成的隊(duì)伍。它也是 AlphaGo Zero 的繼承者,因?yàn)樗膊恍枰魏稳祟愔R(shí),完全通過(guò)自我對(duì)弈進(jìn)行訓(xùn)練。

毫無(wú)疑問(wèn),能夠在這個(gè)以團(tuán)隊(duì)合作為基礎(chǔ)、極其復(fù)雜的游戲中獲得出色的表現(xiàn),遠(yuǎn)遠(yuǎn)比之前玩轉(zhuǎn) Atari 游戲和擊敗職業(yè)圍棋選手所取得的成就更加震撼。更重要的是,這是在沒(méi)有做出任何重大的算法改進(jìn)的情況下完成的。這個(gè)工作之所以能取得成功,要?dú)w功于其令人震驚的計(jì)算量,并且使用了一個(gè)已經(jīng)十分成熟的純強(qiáng)化學(xué)習(xí)算法,以及深度學(xué)習(xí)技術(shù)。在人工智能社區(qū)中,人們普遍認(rèn)為這是一個(gè)令人印象深刻的成就,也是強(qiáng)化學(xué)習(xí)的一系列重要的里程碑中的一個(gè)重要進(jìn)展。

正如你所看到的,純強(qiáng)化學(xué)習(xí)已經(jīng)取得了很大的成就。但是,現(xiàn)在讓我們更仔細(xì)地研究一下,看看為什么說(shuō)這些成就沒(méi)有他們看上去的那么偉大。

強(qiáng)化學(xué)習(xí)近期成果的復(fù)雜度分析

讓我們從DQN 開(kāi)始討論這個(gè)問(wèn)題。

DQN 可以在許多 Atari 游戲中達(dá)到超乎常人的游戲水平,但遠(yuǎn)非所有游戲。一般來(lái)說(shuō),它只能在不需要推理和記憶的條件反射類的游戲中取得好的表現(xiàn)。即使在5 年后,也沒(méi)有一種純強(qiáng)化學(xué)習(xí)算法能夠攻破需要推理和記憶的游戲。相反,凡是能夠在這些任務(wù)上表現(xiàn)優(yōu)秀的模型,要么使用了先驗(yàn)信息指導(dǎo)(https://arxiv.org/abs/1704.05539  )要么使用了演示(https://blog.openai.com/learning-montezumas-revenge-from-a-single-demonstration/  ),就像我們?cè)谥暗钠灞P游戲的例子中提到的那樣起作用。

 論強(qiáng)化學(xué)習(xí)的根本缺陷

雖然 DQN 在打磚塊這樣的游戲中性能不俗,但是它仍然不能處理相對(duì)簡(jiǎn)單的游戲,比如蒙特祖瑪?shù)膹?fù)仇。

即使在那些 DQN 可以取得極其優(yōu)秀的性能的游戲中,與人類相比,它還是需要大量的時(shí)間和經(jīng)驗(yàn)去進(jìn)行學(xué)習(xí)。

論強(qiáng)化學(xué)習(xí)的根本缺陷

建造像人一樣學(xué)習(xí)和思考的機(jī)器

AlphaGo Zero 和 AlphaZero 也存在同樣的局限性。你知道,我們已經(jīng)為圍棋任務(wù)提供了最簡(jiǎn)單的人工智能問(wèn)題的環(huán)境,使其維持在目前這種難度級(jí)別上。也就是說(shuō),圍棋問(wèn)題具備一些讓學(xué)習(xí)任務(wù)變得簡(jiǎn)單的特性:即圍棋任務(wù)具有確定性、離散型、靜態(tài)性,而且是完全可觀察的、信息完全可知的單智能體任務(wù),可以被分成一節(jié)一節(jié),開(kāi)銷較小、易于模擬、易于計(jì)分…… 而圍棋問(wèn)題唯一的挑戰(zhàn)就是:巨大的分支空間。

論強(qiáng)化學(xué)習(xí)的根本缺陷

一個(gè)用于簡(jiǎn)單說(shuō)明圍棋任務(wù)類別的 Venn 圖

因此,圍棋可能是最困難(搜索空間巨大)的簡(jiǎn)單(限制較多)問(wèn)題,但歸根到底它還是一個(gè)簡(jiǎn)單問(wèn)題。而且,那些僅僅根據(jù) AlphaGo 的成功就預(yù)測(cè)說(shuō)通用人工智能(AGI)的實(shí)現(xiàn)近在咫尺的言論可以被直接忽略掉!由于所有上面提到的原因,更多的研究人員意識(shí)到:現(xiàn)實(shí)世界遠(yuǎn)比圍棋這樣的簡(jiǎn)單游戲復(fù)雜得多。盡管 AlphaGo 的成功令人印象深刻,但其所有的變體(AlphaGo Zero,AlphaZero等)基本上仍然是類似于深藍(lán)的程序:這是一個(gè)開(kāi)銷巨大的系統(tǒng),經(jīng)過(guò)了多年的設(shè)計(jì)和制造,投入了數(shù)百萬(wàn)美元的資金,而這一切都純粹是為了玩一個(gè)抽象的棋盤游戲——除此之外別無(wú)其它意義。

至于 Dota 嘛。確實(shí),這是一個(gè)遠(yuǎn)比圍棋更加復(fù)雜的游戲,而且并不像圍棋那樣有很多可以限制它、使其變得簡(jiǎn)單的屬性。Dota 游戲的過(guò)程不是離散的、靜態(tài)的,游戲的局勢(shì)并不是完全可觀察的,智能體不是單一的,游戲過(guò)程也不能被氛圍一個(gè)個(gè)回合,這確實(shí)是一類非常具有挑戰(zhàn)性的問(wèn)題。但從本質(zhì)上說(shuō),Dota 仍然可以被視為一個(gè)通過(guò)易用的 API 控制的簡(jiǎn)單模擬游戲,它完全消除了對(duì)與感知和運(yùn)動(dòng)控制的需求。這樣一來(lái),與我們每天在現(xiàn)實(shí)世界中通過(guò)學(xué)習(xí)去解決問(wèn)題的真實(shí)復(fù)雜度相比,這樣的游戲最終還是很簡(jiǎn)單的。而且,Dota 機(jī)器人仍然和 AlphaGo 一樣,需要大量的投資和許多工程師的參與才能得出一種使用巨量時(shí)間和經(jīng)驗(yàn)解決問(wèn)題的算法(需要長(zhǎng)達(dá)數(shù)千年的游戲體驗(yàn)時(shí)間進(jìn)行訓(xùn)練,并且需要使用多達(dá) 256 個(gè)的GPU 和 128,000 個(gè)CPU 核心)。

因此,盡管我們已經(jīng)取得了巨大的成就,我們對(duì)于它們還是要有一個(gè)清醒的認(rèn)識(shí)。

僅僅因?yàn)榧儚?qiáng)化學(xué)習(xí)讓我們?nèi)〉昧爽F(xiàn)在的成果就認(rèn)為它是完美無(wú)缺的是不對(duì)的!盡管如此,我們必須思考——純強(qiáng)化學(xué)習(xí)是第一個(gè)能夠?qū)崿F(xiàn)這些成就的方法,但它是最好的方法嗎?

純強(qiáng)化學(xué)習(xí)的根本缺陷——從頭開(kāi)始學(xué)習(xí)

是否有更好的方法讓人工智能體學(xué)會(huì)下圍棋和玩 Dota 呢?事實(shí)上,「AlphaGo Zero」這個(gè)名字指的就是模型從頭開(kāi)始學(xué)習(xí)下圍棋的意思。現(xiàn)在,我們不妨回想一下棋盤游戲的例子。在沒(méi)有任何解釋的情況下試圖從頭學(xué)習(xí)棋盤游戲是很荒謬的,對(duì)嗎?那么,為什么要借助人工智能技術(shù)努力實(shí)現(xiàn)這個(gè)目標(biāo)呢?

事實(shí)上,如果你試圖學(xué)習(xí)的棋盤游戲是圍棋,你將如何開(kāi)始學(xué)習(xí)它呢?首先,你需要閱讀規(guī)則,學(xué)習(xí)一些高層次的策略,回想一下你在過(guò)去如何玩類似的游戲,想辦法得到一些建議…是嗎?確實(shí)如此,至少有一部分原因正是由于 AlphaGo Zero 和 OpenAI 的 Dota 機(jī)器人需要從頭開(kāi)始訓(xùn)練的限制使得它們與人類的學(xué)習(xí)相比并沒(méi)有那么令人印象深刻:它們依賴于比人類多觀察好幾個(gè)數(shù)量級(jí)的游戲,并且使用遠(yuǎn)遠(yuǎn)比任何人類更多的純粹計(jì)算能力。

論強(qiáng)化學(xué)習(xí)的根本缺陷

AlphaGo Zero 的圍棋水平提升的過(guò)程。請(qǐng)注意,它花費(fèi)了一整天的訓(xùn)練時(shí)間、也就是相當(dāng)于一個(gè)人數(shù)千輩子的游戲時(shí)間達(dá)到了埃洛等級(jí)分為 0 的水準(zhǔn)(即使是最弱的人類玩家也能輕易得到這個(gè)分?jǐn)?shù))。圖片來(lái)自 DeepMind 的 AlphaGo Zero 博客的文章。

公平地說(shuō),純強(qiáng)化學(xué)習(xí)技術(shù)對(duì)于一些「范圍較窄」的任務(wù)來(lái)說(shuō)是有效的,例如:連續(xù)控制(https://arxiv.org/pdf/1806.09460.pdf  )或更近期的 Dota 和星際爭(zhēng)霸這樣的游戲。然而,隨著深度學(xué)習(xí)大獲成功,人工智能研究社區(qū)作為一個(gè)整體正在試圖解決更加復(fù)雜的任務(wù),這些任務(wù)必須處理真實(shí)世界中沒(méi)有限制的、開(kāi)放的復(fù)雜問(wèn)題(例如,駕駛汽車或進(jìn)行對(duì)話)。對(duì)于這些范圍并不那么窄的任務(wù)(即大多數(shù)人工智能需要解決的問(wèn)題),同時(shí)也為了整個(gè)人工智能社區(qū)在未來(lái)的發(fā)展,對(duì)超越純強(qiáng)化學(xué)習(xí)的方法進(jìn)行研究是十分必要的。 

所以,讓我們繼續(xù)討論我們提到過(guò)的問(wèn)題:純強(qiáng)化學(xué)習(xí),以及從通常意義上來(lái)說(shuō)從頭學(xué)習(xí)的思路,對(duì)范圍不窄/復(fù)雜的任務(wù)來(lái)說(shuō)是否是正確的解決方法?

我們應(yīng)該堅(jiān)持純強(qiáng)化學(xué)習(xí)嗎?

這個(gè)問(wèn)題的一個(gè)答案可能是:「是的,除了像圍棋和Dota 這樣的任務(wù),純強(qiáng)化學(xué)習(xí)也是解決其他問(wèn)題的正確方法。雖然在棋類游戲的環(huán)境下沒(méi)有意義,「從頭開(kāi)始」學(xué)習(xí)也是非常具有普適的意義的。而且,除了人類所具有的靈感,從頭開(kāi)始學(xué)習(xí)是有意義的,這樣智能體不會(huì)有任何先入為主的知識(shí),而且也能達(dá)到比人類更高的水平(就像AlphaGo Zero 一樣)?!?/p>

讓我從這段話最后的部分開(kāi)始,「忽略人類的靈感,在通用的人工智能的背景下考慮從頭開(kāi)始學(xué)習(xí)的好處。「從頭開(kāi)始」進(jìn)行學(xué)習(xí)的理由是」:事先假定的替代品——將人類的直覺(jué)硬編碼到模型中——可能通過(guò)不必要的限定限制了模型的準(zhǔn)確率,或者甚至通過(guò)錯(cuò)誤的直覺(jué)降低了模型的性能。隨著深度學(xué)習(xí)方法的成功,這種觀點(diǎn)已經(jīng)成為了主流,這些方法可以學(xué)習(xí)具有數(shù)以百萬(wàn)計(jì)的參數(shù)的「端到端」模型,對(duì)數(shù)量驚人的數(shù)據(jù)進(jìn)行訓(xùn)練,而且只用到了很少的先驗(yàn)知識(shí)(http://www.abigailsee.com/2018/02/21/deep-learning-structure-and-innate-priors.html  )。

論強(qiáng)化學(xué)習(xí)的根本缺陷 

老式的傳統(tǒng)語(yǔ)音識(shí)別和端到端的深度學(xué)習(xí)方法的示意圖。后者的性能更好,而且成為了目前最先進(jìn)的語(yǔ)音識(shí)別的基礎(chǔ)。

事情是這樣的:引入先驗(yàn)知識(shí)或指導(dǎo)并不一定需要在進(jìn)行學(xué)習(xí)的智能體上強(qiáng)加許多給予人類直覺(jué)的限制結(jié)構(gòu)。換句話說(shuō),可以告知學(xué)習(xí)的智能體或模型有關(guān)即將處理的任務(wù)的信息,而不限制它通過(guò)深度學(xué)習(xí)方式進(jìn)行學(xué)習(xí)的能力(即主要通過(guò)數(shù)據(jù)傳遞信息,而不像深藍(lán)和之前的專家系統(tǒng)里那樣人為規(guī)定)。

在不久的將來(lái),我們將看到能夠讓我們做到這一點(diǎn)的技術(shù)案例。但是重要的是,對(duì)于大多數(shù)的人工智能問(wèn)題,不從頭開(kāi)始學(xué)習(xí)并不一定會(huì)限制智能體可以以任何方式進(jìn)行學(xué)習(xí)的能力。對(duì)于 AlphaGo Zero 這樣的算法,沒(méi)有明確的理由過(guò)分強(qiáng)調(diào)必須從頭開(kāi)始學(xué)習(xí),因?yàn)樗赡軙?huì)被人類知識(shí)所引導(dǎo)(就像最初的 AlphaGo 一樣),或者事先從其它棋盤游戲中學(xué)到知識(shí),并且仍然能夠收斂到同樣的超乎常人的水平。我們應(yīng)該很快就看到類似這樣的具體技術(shù)案例。

即使你不在乎這些,就是想要從頭開(kāi)始訓(xùn)練,那么純強(qiáng)化學(xué)習(xí)是否就是最好的方法呢?給這個(gè)問(wèn)題作答曾經(jīng)可以不需要任何思考。在梯度無(wú)關(guān)的優(yōu)化問(wèn)題中,純強(qiáng)化學(xué)習(xí)是你可以選擇的最有條理的并且最值得信賴的方法。但最近的許多論文都對(duì)這種立場(chǎng)提出了嚴(yán)重的質(zhì)疑,它們認(rèn)為相對(duì)簡(jiǎn)單的(而且廣泛不受認(rèn)可的)基于進(jìn)化策略的方法似乎也同樣適用于純強(qiáng)化學(xué)習(xí)已經(jīng)被經(jīng)常用來(lái)測(cè)試的同類型的對(duì)比基準(zhǔn):

  • 簡(jiǎn)單的隨機(jī)搜索提供了一種對(duì)強(qiáng)化學(xué)習(xí)具有競(jìng)爭(zhēng)力的方法(https://arxiv.org/abs/1803.07055  )

  • 深度神經(jīng)進(jìn)化:遺傳算法是訓(xùn)練用于強(qiáng)化學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)的一種具有競(jìng)爭(zhēng)力的選項(xiàng)(https://arxiv.org/abs/1712.06567  )

    論強(qiáng)化學(xué)習(xí)的根本缺陷

    通過(guò)隨機(jī)搜索找到的在 Frostbite 中表現(xiàn)優(yōu)異的智能體的例子。詳情請(qǐng)見(jiàn)對(duì)于該策略的變現(xiàn)的描述。它在該輪中的最終得分為3,620,這比 DQN,A3C 和 ES 算法得到的分?jǐn)?shù)都高,盡管并不像 GA(遺傳算法)得到的分?jǐn)?shù)那么高。圖片來(lái)源:https://arxiv.org/abs/1712.06567 

  • 進(jìn)化策略作為一種可伸縮的強(qiáng)化學(xué)習(xí)的替代品(https://arxiv.org/abs/1703.03864  )

  • 實(shí)現(xiàn)連續(xù)控制的普適性和簡(jiǎn)易性(https://arxiv.org/abs/1703.02660  )

理論和實(shí)踐優(yōu)化算法的領(lǐng)軍研究者、論文「簡(jiǎn)單的隨機(jī)搜索提供了一種對(duì)強(qiáng)化學(xué)習(xí)具有競(jìng)爭(zhēng)力的方」的作者之一 Ben Recht 很好的總結(jié)了上述所有觀點(diǎn)(http://www.argmin.net/2018/03/20/mujocoloco/  ):

我們已經(jīng)看到,隨機(jī)搜索在簡(jiǎn)單的線性問(wèn)題上效果很好,并且顯示出比策略梯度算法等強(qiáng)化學(xué)習(xí)算法更好的性能。但是隨機(jī)搜索是否會(huì)隨著我們開(kāi)始處理更難的問(wèn)題而崩潰呢?先說(shuō)結(jié)論:并沒(méi)有!

所以,人們至今還不清楚純強(qiáng)化學(xué)習(xí)是否是從頭開(kāi)始學(xué)習(xí)的正確方法。但是,讓我們回到人類從頭開(kāi)始進(jìn)行學(xué)習(xí)的問(wèn)題上。人們有沒(méi)有在沒(méi)有給定任何信息(除了作為技能的一部分可采取的動(dòng)作)的情況下開(kāi)始學(xué)習(xí)一項(xiàng)復(fù)雜的新技能(例如組裝新的宜家家居或甚至是開(kāi)車)?沒(méi)有,不是嗎?

也許對(duì)于一些非?;A(chǔ)和普遍的問(wèn)題(比如年幼的嬰兒所面對(duì)的那些問(wèn)題),從頭開(kāi)始學(xué)習(xí),進(jìn)行純強(qiáng)化學(xué)習(xí)是很有意義的,因?yàn)檫@些問(wèn)題是如此廣泛。但是對(duì)于人工智能中的大多數(shù)問(wèn)題來(lái)說(shuō),從頭開(kāi)始學(xué)習(xí)并沒(méi)有明顯的好處:我們知道我們想要人工智能體學(xué)習(xí)到什么,并且能夠?yàn)槠涮峁┻@種技能的演示或指導(dǎo)。事實(shí)上,從頭開(kāi)始學(xué)習(xí)是許多廣泛被認(rèn)同(https://www.wired.com/story/greedy-brittle-opaque-and-shallow-the-downsides-to-deep-learning/  )的目前人工智能和深度學(xué)習(xí)具有的限制的主要原因:

  • 目前的人工智能非常缺乏數(shù)據(jù)(即樣本效率低下),在大多數(shù)情況下,需要大量的數(shù)據(jù)才能使最先進(jìn)的人工智能方法變得有效。這對(duì)純強(qiáng)化學(xué)習(xí)來(lái)說(shuō)尤其糟糕?;叵胍幌?,AlphaGo Zero 需要進(jìn)行數(shù)以百萬(wàn)次計(jì)的圍棋游戲才能得到為 0 的埃洛等級(jí)分,這是大多數(shù)人稍加努力就可以達(dá)到的分?jǐn)?shù)。從定義上說(shuō),從頭學(xué)習(xí)可能是樣本效率最低的方法。

  • 目前的人工智能系統(tǒng)是不透明的,在大多數(shù)情況下,我們對(duì)人工智能算法能學(xué)到什么、它將如何工作只有高層次的直覺(jué)。對(duì)于大多數(shù)人工智能問(wèn)題來(lái)說(shuō),我們希望算法是可預(yù)測(cè)、可解釋的。一個(gè)在只給定低層次的獎(jiǎng)勵(lì)信號(hào)的、從頭開(kāi)始學(xué)習(xí)想要的知識(shí)的大的神經(jīng)網(wǎng)絡(luò),或者一個(gè)環(huán)境模型(就像 AlphaGo Zero 那樣工作),可能是解釋性和可預(yù)測(cè)性最差的方法。

  • 目前的人工智能應(yīng)用的范圍很窄,在大多情況下,我們建立的人工智能模型只能完成一個(gè)很小的范圍內(nèi)的任務(wù),而且很容易就失效。從頭開(kāi)始學(xué)習(xí)每一項(xiàng)技能限制了模型學(xué)習(xí)除了一個(gè)特定的任務(wù)之外的任意任務(wù)的能力。

  • 目前的人工智能是脆弱的,大多數(shù)情況下,我們的人工智能模型只是通過(guò)大量的數(shù)據(jù)獲得了泛化到不可見(jiàn)的輸入上的能力。甚至在以后仍然是很容易失效的。

因此,我們更傾向于知道我們究竟想要人工智能體學(xué)習(xí)到什么。如果人工智能體是一個(gè)人類,我們可以向他解釋這個(gè)任務(wù),還可能提供一些提示。但是人工智能體終究不是人,那么我們還能為一個(gè)人工智能體做這些事嗎?事實(shí)證明,我們可以通過(guò)許多方法做到。欲知方法為何,且聽(tīng)下回分解(https://thegradient.pub/how-to-fix-rl/)。

via The Gradient,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

論強(qiáng)化學(xué)習(xí)的根本缺陷

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)