論強(qiáng)化學(xué)習(xí)的根本缺陷

本文作者： MrBear

編輯：楊曉凡

2018-07-25 10:08

導(dǎo)語(yǔ)：純強(qiáng)化學(xué)習(xí)取得了令人矚目的成就，然而，它存在著怎樣的缺陷呢？如何對(duì)其進(jìn)行改進(jìn)？

雷鋒網(wǎng) AI 科技評(píng)論按：本文來(lái)自斯坦福大學(xué)博士生 Andrey Kurenkov 在 The Gradient 上發(fā)表的文章。

在本文中，我們將討論人工智能的一個(gè)核心領(lǐng)域——強(qiáng)化學(xué)習(xí)——的局限性。

在這個(gè)過(guò)程中，起初我們將通過(guò)一個(gè)有趣的例子提出我們要討論的問(wèn)題，然后向大家介紹一套方法引入深度學(xué)習(xí)相關(guān)的先驗(yàn)知識(shí)和說(shuō)明，最終得出一個(gè)重要結(jié)論。

現(xiàn)在讓我們進(jìn)入第一部分，你將了解到什么是強(qiáng)化學(xué)習(xí)，以及為什么說(shuō)強(qiáng)化學(xué)習(xí)（或者至少說(shuō)我們稱之為「純強(qiáng)化學(xué)習(xí)」的版本，我們將在接下來(lái)的文章中定義「純強(qiáng)化學(xué)習(xí)」的概念）從根本上說(shuō)是有缺陷的。這個(gè)部分可能包含一些人工智能從業(yè)者已經(jīng)十分熟悉的解釋，他們可以直接跳過(guò)該部分。但是請(qǐng)一定要重視最近關(guān)于「非純強(qiáng)化學(xué)習(xí)」的研究進(jìn)展，我們認(rèn)為這代表著對(duì)純強(qiáng)化學(xué)習(xí)的根本缺陷的改進(jìn)。但是現(xiàn)在，讓我們一起來(lái)看看一個(gè)有趣的例子。

案例：棋盤游戲

想象一下，你的朋友正邀請(qǐng)你參與一個(gè)你從未玩過(guò)的棋盤游戲。假設(shè)在你至今為止的歲月中，你還沒(méi)接觸過(guò)這種棋盤游戲，也從未玩過(guò)任何類型的游戲。你的朋友向你介紹了規(guī)則，說(shuō)明了什么是「有效移動(dòng)」。但是沒(méi)有說(shuō)明它們的意義是什么，或者如何才能得分。所以，你在不能問(wèn)更多的問(wèn)題，也無(wú)法獲得更多的解釋的情況下開(kāi)始玩這個(gè)游戲?？上攵婚_(kāi)始，你輸?shù)袅擞螒?。接著，你開(kāi)始了屢戰(zhàn)屢敗的嘗試，一次一次玩這個(gè)游戲，一次一次地輸?shù)簟?然而，幸運(yùn)的是，你漸漸地在失敗中領(lǐng)悟到了一些有用的模式；此時(shí)，盡管你仍然會(huì)輸?shù)粲螒?，但是并不?huì)那么快地被秒殺，能多掙扎一會(huì)…… 接著，你越挫越勇，在經(jīng)歷了長(zhǎng)達(dá)數(shù)周的游戲時(shí)間后，你甚至能勉強(qiáng)獲勝了！

這個(gè)故事看上去有些傻，是吧？你會(huì)問(wèn)：為什么你不直接問(wèn)朋友游戲的目標(biāo)是什么？正確的游戲方法是什么？然而，上面這一段的故事實(shí)際上描述了如今大多數(shù)強(qiáng)化學(xué)習(xí)方法仍舊是如何工作的。

強(qiáng)化學(xué)習(xí)（reinforcement learning）是人工智能的子領(lǐng)域之一。在強(qiáng)化學(xué)習(xí)框架中，一個(gè)智能體（agent）與環(huán)境（environment）進(jìn)行交互，從而學(xué)習(xí)到它（智能體）在任意給定的環(huán)境中的狀態(tài)（state）下需要選擇怎樣的動(dòng)作（action）才能最大化它的長(zhǎng)期獎(jiǎng)勵(lì)（reward）。在棋盤游戲的例子中，這意味著你（智能體）需要與棋盤（環(huán)境）進(jìn)行交互，從而學(xué)習(xí)到你（智能體）在每一輪棋盤（環(huán)境）的游戲配置（狀態(tài)）中需要采取什么樣的移動(dòng)策略（動(dòng)作）才能夠最大化你最終的得分（獎(jiǎng)勵(lì)）。

在深度學(xué)習(xí)的經(jīng)典模型中，智能體一開(kāi)始只知道那些動(dòng)作是可以采取的。他對(duì)所處的世界中的先驗(yàn)知識(shí)一無(wú)所知，只能通過(guò)與環(huán)境交互來(lái)學(xué)習(xí)這種技能，并在每次采用動(dòng)作之后得到獎(jiǎng)勵(lì)。缺乏先驗(yàn)知識(shí)意味著智能體需要從頭開(kāi)始學(xué)習(xí)，我們將這種從頭開(kāi)始學(xué)習(xí)的方法稱為「純強(qiáng)化學(xué)習(xí)」。純強(qiáng)化學(xué)習(xí)如今主要被用于解決雙陸棋和圍棋這樣的游戲問(wèn)題，以及機(jī)器人和其他領(lǐng)域的各種各樣的問(wèn)題。

論強(qiáng)化學(xué)習(xí)的根本缺陷

在棋盤游戲的例子中，一「節(jié)」代表一個(gè)完整的游戲過(guò)程。在這個(gè)例子以及許多的強(qiáng)化學(xué)習(xí)問(wèn)題中，只有最終的狀態(tài)有一個(gè)非零的獎(jiǎng)勵(lì)。

近年來(lái)，深度學(xué)習(xí)給強(qiáng)化學(xué)習(xí)的研究注入了新的活力，但最基本的模型并沒(méi)有發(fā)生太大的變化；畢竟，這種從頭開(kāi)始學(xué)習(xí)的方法可以追溯到強(qiáng)化學(xué)習(xí)作為一個(gè)研究領(lǐng)域被創(chuàng)建的伊始，并且通過(guò)其最基本的方程（貝爾曼方程）進(jìn)行編碼。

那么，一個(gè)基本的問(wèn)題來(lái)了：如果純強(qiáng)化學(xué)習(xí)乍一看并沒(méi)有這么大的意義，那么設(shè)計(jì)一個(gè)基于純強(qiáng)化學(xué)習(xí)的人工智能模型是否合理呢？如果讓一個(gè)人通過(guò)純強(qiáng)化學(xué)習(xí)的方式學(xué)習(xí)一個(gè)新的棋盤游戲是如此荒謬的話，難道我們不應(yīng)該想想，這對(duì)于人工智能體來(lái)說(shuō)不是一種存在缺陷的學(xué)習(xí)框架嗎？在既沒(méi)有先驗(yàn)的經(jīng)驗(yàn)又沒(méi)有更高層次的指導(dǎo)的情況下，僅僅基于獎(jiǎng)勵(lì)信號(hào)就開(kāi)始學(xué)習(xí)新的技能真的有意義嗎？

先驗(yàn)經(jīng)驗(yàn)和高層次的指導(dǎo)在用于形式化定義強(qiáng)化學(xué)習(xí)的經(jīng)典的方程式中均沒(méi)有得到體現(xiàn)，而且無(wú)論是隱式還是顯式地改變這些方程，都可能對(duì)我們用來(lái)訓(xùn)練用于所有的強(qiáng)化學(xué)習(xí)的人工智能算法都有很大的影響（這些算法已經(jīng)遠(yuǎn)遠(yuǎn)超出了棋盤游戲的范疇，從機(jī)器人技術(shù)到資源分配問(wèn)題）。換句話說(shuō)，這是一個(gè)很大的問(wèn)題，為了得到這個(gè)問(wèn)題的答案，你需要閱讀下面兩篇文章：

1. 在第一部分（本文）中，我們首先將指出，純深度學(xué)習(xí)的主要成果并不像他們看上去那么令人印象深刻。接著，我們將進(jìn)一步說(shuō)明，在純強(qiáng)化學(xué)習(xí)框架下不太可能實(shí)現(xiàn)更復(fù)雜的成果，這是因?yàn)樗鼘?duì)人工智能體強(qiáng)加了諸多限制。

2. 在第二部分中，我們將概述人工智能技術(shù)中能夠解決這種限制的不同方法（主要是元學(xué)習(xí)和零樣本學(xué)習(xí)）。最后，我們將調(diào)查到目前為止，基于這些方法的具有里程碑意義的工作，并且總結(jié)出這項(xiàng)工作對(duì)強(qiáng)化學(xué)習(xí)和整個(gè)人工智能研究領(lǐng)域意味著什么。

論強(qiáng)化學(xué)習(xí)的根本缺陷

幾乎人人認(rèn)同純強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的基本形式。但他們真的應(yīng)該這么認(rèn)為嗎？

純強(qiáng)化學(xué)習(xí)有意義嗎？

對(duì)于這個(gè)問(wèn)題，許多人下意識(shí)的反應(yīng)大概是：「當(dāng)然，使用純強(qiáng)化學(xué)習(xí)還是很有意義的——人工智能體并不是人類，所以并不需要像我們一樣學(xué)習(xí)，況且純強(qiáng)化學(xué)習(xí)已經(jīng)被證明可以解決各種各樣復(fù)雜的問(wèn)題。」

我不同意以上觀點(diǎn)。根據(jù)定義，人工智能研究涉及到使機(jī)器能夠做一些目前只有人類和動(dòng)物才能做到的事情。因此，將人工智能與人類智能進(jìn)行比較是合適的。至于那些目前使用純強(qiáng)化學(xué)習(xí)解決的問(wèn)題，有人給出了一些重要的忠告，但是往往被人忽視：這些問(wèn)題其實(shí)往往并不像看上去那么復(fù)雜。

也許，對(duì)于很多人來(lái)說(shuō)，這種說(shuō)法是非常令人驚訝的，因?yàn)榻鉀Q這些問(wèn)題是目前人工智能最廣為人知的成就。說(shuō)實(shí)話，盡管這些成就確實(shí)是很偉大的，但我仍然認(rèn)為這些涉及到的問(wèn)題并不想他們看上去那么復(fù)雜。在討論為什么我們這么說(shuō)之前，我們不妨列舉一下這些成就，并指出為什么這些成就是完全配得上這種贊揚(yáng)的：

1. DQN（深度 Q 學(xué)習(xí)網(wǎng)絡(luò)）：短短5 年前，DeepMind 的一項(xiàng)研究項(xiàng)目大大提升了人們對(duì)強(qiáng)化學(xué)習(xí)的興趣，該項(xiàng)目表明，將深度學(xué)習(xí)與純強(qiáng)化學(xué)習(xí)和一些新的創(chuàng)意相結(jié)合可以解決比以往任何時(shí)候都要更加復(fù)雜的問(wèn)題。

毫不夸張地說(shuō)，DQN 是一種以一己之力重新激發(fā)廣大研究人員對(duì)強(qiáng)化學(xué)習(xí)的興趣的模型。盡管它只包含了一些相對(duì)簡(jiǎn)單的創(chuàng)新，但是這些創(chuàng)新被證明對(duì)于使深度強(qiáng)化學(xué)習(xí)更加實(shí)用非常重要。

論強(qiáng)化學(xué)習(xí)的根本缺陷

盡管看起來(lái)很簡(jiǎn)單，但是從游戲畫面的像素輸入中學(xué)習(xí)如何玩這個(gè)游戲在十年前還是不可想象的。

2. AlphaGo Zero 以及 AlphaZero：學(xué)習(xí)如何以超越所有人類的水平下圍棋、象棋和將棋的純強(qiáng)化學(xué)習(xí)模型?？破找幌拢珹lphaGo Zero 是DeepMind 開(kāi)發(fā)出的 AlphaGo 的繼任者（AlphaGo 是第一個(gè)擊敗人類圍棋冠軍的程序）。不同于原始的通過(guò)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合進(jìn)行學(xué)習(xí)的AlphaGo，AlphaGo Zero 純粹通過(guò)強(qiáng)化學(xué)習(xí)和自我對(duì)弈進(jìn)行學(xué)習(xí)。因此，它在整體上緊密地遵循純強(qiáng)化學(xué)習(xí)的方法（智能體從完全沒(méi)有任何先驗(yàn)知識(shí)的情況開(kāi)始，從獎(jiǎng)勵(lì)信號(hào)中學(xué)習(xí)知識(shí)），盡管它也使用一個(gè)事先被提供的模型（游戲規(guī)則），并且通過(guò)自我對(duì)弈以可靠的、可持續(xù)的方式不斷提升。雷鋒網(wǎng) AI 科技評(píng)論早先也有文章進(jìn)行介紹「阿爾法狗」再進(jìn)化！通用算法AlphaZero再攻克幾種棋又有何難！。

由于AlphaGo Zero 不再?gòu)娜祟惖慕?jīng)驗(yàn)中學(xué)習(xí)如何獲得成功，在許多人眼中，它比 AlphaGo 對(duì)這個(gè)游戲的改變更大。接著，AlphaZero 應(yīng)運(yùn)而生，它是一個(gè)更加普適的版本，被證明不僅能夠處理圍棋任務(wù)，還能對(duì)象棋、將棋進(jìn)行學(xué)習(xí)。這是人們第一次用同一個(gè)算法來(lái)攻破象棋和圍棋，而且它并沒(méi)有像「深藍(lán)」和原始的 AlphaGo 那樣專門為某種游戲?qū)δＰ瓦M(jìn)行裁剪。基于上述原因，AlphaGo Zero 和 AlphaZero 無(wú)疑是具有里程碑意義的、令人激動(dòng)的成就（DeepMind 的媒體宣傳也超贊）。

論強(qiáng)化學(xué)習(xí)的根本缺陷

李世石敗給了Alpha，這是一個(gè)歷史性的時(shí)刻。

3. OpenAI 的 Dota 機(jī)器人：用深度強(qiáng)化學(xué)習(xí)訓(xùn)練的人工智能體能在風(fēng)靡全球而且非常復(fù)雜的多人對(duì)抗游戲——Dota2 中擊敗人類玩家。2017 年，OpenAI 成功地在有限制的 1v1 版本的 Dota2 比賽中擊敗人類職業(yè)玩家（Dendi）就足以令人印象深刻了，但是與他們最近取得的成就相比，這根本算不了什么，要知道，他們最近成功地在復(fù)雜得多的 5v5 版本的游戲中戰(zhàn)勝了人類玩家組成的隊(duì)伍。它也是 AlphaGo Zero 的繼承者，因?yàn)樗膊恍枰魏稳祟愔R(shí)，完全通過(guò)自我對(duì)弈進(jìn)行訓(xùn)練。

毫無(wú)疑問(wèn)，能夠在這個(gè)以團(tuán)隊(duì)合作為基礎(chǔ)、極其復(fù)雜的游戲中獲得出色的表現(xiàn)，遠(yuǎn)遠(yuǎn)比之前玩轉(zhuǎn) Atari 游戲和擊敗職業(yè)圍棋選手所取得的成就更加震撼。更重要的是，這是在沒(méi)有做出任何重大的算法改進(jìn)的情況下完成的。這個(gè)工作之所以能取得成功，要?dú)w功于其令人震驚的計(jì)算量，并且使用了一個(gè)已經(jīng)十分成熟的純強(qiáng)化學(xué)習(xí)算法，以及深度學(xué)習(xí)技術(shù)。在人工智能社區(qū)中，人們普遍認(rèn)為這是一個(gè)令人印象深刻的成就，也是強(qiáng)化學(xué)習(xí)的一系列重要的里程碑中的一個(gè)重要進(jìn)展。

正如你所看到的，純強(qiáng)化學(xué)習(xí)已經(jīng)取得了很大的成就。但是，現(xiàn)在讓我們更仔細(xì)地研究一下，看看為什么說(shuō)這些成就沒(méi)有他們看上去的那么偉大。

強(qiáng)化學(xué)習(xí)近期成果的復(fù)雜度分析

讓我們從DQN 開(kāi)始討論這個(gè)問(wèn)題。

DQN 可以在許多 Atari 游戲中達(dá)到超乎常人的游戲水平，但遠(yuǎn)非所有游戲。一般來(lái)說(shuō)，它只能在不需要推理和記憶的條件反射類的游戲中取得好的表現(xiàn)。即使在5 年后，也沒(méi)有一種純強(qiáng)化學(xué)習(xí)算法能夠攻破需要推理和記憶的游戲。相反，凡是能夠在這些任務(wù)上表現(xiàn)優(yōu)秀的模型，要么使用了先驗(yàn)信息指導(dǎo)（https://arxiv.org/abs/1704.05539 ）要么使用了演示（https://blog.openai.com/learning-montezumas-revenge-from-a-single-demonstration/ ），就像我們?cè)谥暗钠灞P游戲的例子中提到的那樣起作用。

論強(qiáng)化學(xué)習(xí)的根本缺陷

雖然 DQN 在打磚塊這樣的游戲中性能不俗，但是它仍然不能處理相對(duì)簡(jiǎn)單的游戲，比如蒙特祖瑪?shù)膹?fù)仇。

即使在那些 DQN 可以取得極其優(yōu)秀的性能的游戲中，與人類相比，它還是需要大量的時(shí)間和經(jīng)驗(yàn)去進(jìn)行學(xué)習(xí)。

論強(qiáng)化學(xué)習(xí)的根本缺陷

建造像人一樣學(xué)習(xí)和思考的機(jī)器

AlphaGo Zero 和 AlphaZero 也存在同樣的局限性。你知道，我們已經(jīng)為圍棋任務(wù)提供了最簡(jiǎn)單的人工智能問(wèn)題的環(huán)境，使其維持在目前這種難度級(jí)別上。也就是說(shuō)，圍棋問(wèn)題具備一些讓學(xué)習(xí)任務(wù)變得簡(jiǎn)單的特性：即圍棋任務(wù)具有確定性、離散型、靜態(tài)性，而且是完全可觀察的、信息完全可知的單智能體任務(wù)，可以被分成一節(jié)一節(jié)，開(kāi)銷較小、易于模擬、易于計(jì)分…… 而圍棋問(wèn)題唯一的挑戰(zhàn)就是：巨大的分支空間。

論強(qiáng)化學(xué)習(xí)的根本缺陷

一個(gè)用于簡(jiǎn)單說(shuō)明圍棋任務(wù)類別的 Venn 圖

因此，圍棋可能是最困難（搜索空間巨大）的簡(jiǎn)單（限制較多）問(wèn)題，但歸根到底它還是一個(gè)簡(jiǎn)單問(wèn)題。而且，那些僅僅根據(jù) AlphaGo 的成功就預(yù)測(cè)說(shuō)通用人工智能（AGI）的實(shí)現(xiàn)近在咫尺的言論可以被直接忽略掉！由于所有上面提到的原因，更多的研究人員意識(shí)到：現(xiàn)實(shí)世界遠(yuǎn)比圍棋這樣的簡(jiǎn)單游戲復(fù)雜得多。盡管 AlphaGo 的成功令人印象深刻，但其所有的變體（AlphaGo Zero，AlphaZero等）基本上仍然是類似于深藍(lán)的程序：這是一個(gè)開(kāi)銷巨大的系統(tǒng)，經(jīng)過(guò)了多年的設(shè)計(jì)和制造，投入了數(shù)百萬(wàn)美元的資金，而這一切都純粹是為了玩一個(gè)抽象的棋盤游戲——除此之外別無(wú)其它意義。

至于 Dota 嘛。確實(shí)，這是一個(gè)遠(yuǎn)比圍棋更加復(fù)雜的游戲，而且并不像圍棋那樣有很多可以限制它、使其變得簡(jiǎn)單的屬性。Dota 游戲的過(guò)程不是離散的、靜態(tài)的，游戲的局勢(shì)并不是完全可觀察的，智能體不是單一的，游戲過(guò)程也不能被氛圍一個(gè)個(gè)回合，這確實(shí)是一類非常具有挑戰(zhàn)性的問(wèn)題。但從本質(zhì)上說(shuō)，Dota 仍然可以被視為一個(gè)通過(guò)易用的 API 控制的簡(jiǎn)單模擬游戲，它完全消除了對(duì)與感知和運(yùn)動(dòng)控制的需求。這樣一來(lái)，與我們每天在現(xiàn)實(shí)世界中通過(guò)學(xué)習(xí)去解決問(wèn)題的真實(shí)復(fù)雜度相比，這樣的游戲最終還是很簡(jiǎn)單的。而且，Dota 機(jī)器人仍然和 AlphaGo 一樣，需要大量的投資和許多工程師的參與才能得出一種使用巨量時(shí)間和經(jīng)驗(yàn)解決問(wèn)題的算法（需要長(zhǎng)達(dá)數(shù)千年的游戲體驗(yàn)時(shí)間進(jìn)行訓(xùn)練，并且需要使用多達(dá) 256 個(gè)的GPU 和 128,000 個(gè)CPU 核心）。

因此，盡管我們已經(jīng)取得了巨大的成就，我們對(duì)于它們還是要有一個(gè)清醒的認(rèn)識(shí)。

僅僅因?yàn)榧儚?qiáng)化學(xué)習(xí)讓我們?nèi)〉昧爽F(xiàn)在的成果就認(rèn)為它是完美無(wú)缺的是不對(duì)的！盡管如此，我們必須思考——純強(qiáng)化學(xué)習(xí)是第一個(gè)能夠?qū)崿F(xiàn)這些成就的方法，但它是最好的方法嗎？

純強(qiáng)化學(xué)習(xí)的根本缺陷——從頭開(kāi)始學(xué)習(xí)

是否有更好的方法讓人工智能體學(xué)會(huì)下圍棋和玩 Dota 呢？事實(shí)上，「AlphaGo Zero」這個(gè)名字指的就是模型從頭開(kāi)始學(xué)習(xí)下圍棋的意思。現(xiàn)在，我們不妨回想一下棋盤游戲的例子。在沒(méi)有任何解釋的情況下試圖從頭學(xué)習(xí)棋盤游戲是很荒謬的，對(duì)嗎？那么，為什么要借助人工智能技術(shù)努力實(shí)現(xiàn)這個(gè)目標(biāo)呢？

事實(shí)上，如果你試圖學(xué)習(xí)的棋盤游戲是圍棋，你將如何開(kāi)始學(xué)習(xí)它呢？首先，你需要閱讀規(guī)則，學(xué)習(xí)一些高層次的策略，回想一下你在過(guò)去如何玩類似的游戲，想辦法得到一些建議…是嗎？確實(shí)如此，至少有一部分原因正是由于 AlphaGo Zero 和 OpenAI 的 Dota 機(jī)器人需要從頭開(kāi)始訓(xùn)練的限制使得它們與人類的學(xué)習(xí)相比并沒(méi)有那么令人印象深刻：它們依賴于比人類多觀察好幾個(gè)數(shù)量級(jí)的游戲，并且使用遠(yuǎn)遠(yuǎn)比任何人類更多的純粹計(jì)算能力。

論強(qiáng)化學(xué)習(xí)的根本缺陷

AlphaGo Zero 的圍棋水平提升的過(guò)程。請(qǐng)注意，它花費(fèi)了一整天的訓(xùn)練時(shí)間、也就是相當(dāng)于一個(gè)人數(shù)千輩子的游戲時(shí)間達(dá)到了埃洛等級(jí)分為 0 的水準(zhǔn)（即使是最弱的人類玩家也能輕易得到這個(gè)分?jǐn)?shù)）。圖片來(lái)自 DeepMind 的 AlphaGo Zero 博客的文章。

公平地說(shuō)，純強(qiáng)化學(xué)習(xí)技術(shù)對(duì)于一些「范圍較窄」的任務(wù)來(lái)說(shuō)是有效的，例如：連續(xù)控制（https://arxiv.org/pdf/1806.09460.pdf ）或更近期的 Dota 和星際爭(zhēng)霸這樣的游戲。然而，隨著深度學(xué)習(xí)大獲成功，人工智能研究社區(qū)作為一個(gè)整體正在試圖解決更加復(fù)雜的任務(wù)，這些任務(wù)必須處理真實(shí)世界中沒(méi)有限制的、開(kāi)放的復(fù)雜問(wèn)題（例如，駕駛汽車或進(jìn)行對(duì)話）。對(duì)于這些范圍并不那么窄的任務(wù)（即大多數(shù)人工智能需要解決的問(wèn)題），同時(shí)也為了整個(gè)人工智能社區(qū)在未來(lái)的發(fā)展，對(duì)超越純強(qiáng)化學(xué)習(xí)的方法進(jìn)行研究是十分必要的。

所以，讓我們繼續(xù)討論我們提到過(guò)的問(wèn)題：純強(qiáng)化學(xué)習(xí)，以及從通常意義上來(lái)說(shuō)從頭學(xué)習(xí)的思路，對(duì)范圍不窄/復(fù)雜的任務(wù)來(lái)說(shuō)是否是正確的解決方法？

我們應(yīng)該堅(jiān)持純強(qiáng)化學(xué)習(xí)嗎？

這個(gè)問(wèn)題的一個(gè)答案可能是：「是的，除了像圍棋和Dota 這樣的任務(wù)，純強(qiáng)化學(xué)習(xí)也是解決其他問(wèn)題的正確方法。雖然在棋類游戲的環(huán)境下沒(méi)有意義，「從頭開(kāi)始」學(xué)習(xí)也是非常具有普適的意義的。而且，除了人類所具有的靈感，從頭開(kāi)始學(xué)習(xí)是有意義的，這樣智能體不會(huì)有任何先入為主的知識(shí)，而且也能達(dá)到比人類更高的水平（就像AlphaGo Zero 一樣）?！?/p>

讓我從這段話最后的部分開(kāi)始，「忽略人類的靈感，在通用的人工智能的背景下考慮從頭開(kāi)始學(xué)習(xí)的好處。「從頭開(kāi)始」進(jìn)行學(xué)習(xí)的理由是」：事先假定的替代品——將人類的直覺(jué)硬編碼到模型中——可能通過(guò)不必要的限定限制了模型的準(zhǔn)確率，或者甚至通過(guò)錯(cuò)誤的直覺(jué)降低了模型的性能。隨著深度學(xué)習(xí)方法的成功，這種觀點(diǎn)已經(jīng)成為了主流，這些方法可以學(xué)習(xí)具有數(shù)以百萬(wàn)計(jì)的參數(shù)的「端到端」模型，對(duì)數(shù)量驚人的數(shù)據(jù)進(jìn)行訓(xùn)練，而且只用到了很少的先驗(yàn)知識(shí)（http://www.abigailsee.com/2018/02/21/deep-learning-structure-and-innate-priors.html ）。

論強(qiáng)化學(xué)習(xí)的根本缺陷

老式的傳統(tǒng)語(yǔ)音識(shí)別和端到端的深度學(xué)習(xí)方法的示意圖。后者的性能更好，而且成為了目前最先進(jìn)的語(yǔ)音識(shí)別的基礎(chǔ)。

事情是這樣的：引入先驗(yàn)知識(shí)或指導(dǎo)并不一定需要在進(jìn)行學(xué)習(xí)的智能體上強(qiáng)加許多給予人類直覺(jué)的限制結(jié)構(gòu)。換句話說(shuō)，可以告知學(xué)習(xí)的智能體或模型有關(guān)即將處理的任務(wù)的信息，而不限制它通過(guò)深度學(xué)習(xí)方式進(jìn)行學(xué)習(xí)的能力（即主要通過(guò)數(shù)據(jù)傳遞信息，而不像深藍(lán)和之前的專家系統(tǒng)里那樣人為規(guī)定）。

在不久的將來(lái)，我們將看到能夠讓我們做到這一點(diǎn)的技術(shù)案例。但是重要的是，對(duì)于大多數(shù)的人工智能問(wèn)題，不從頭開(kāi)始學(xué)習(xí)并不一定會(huì)限制智能體可以以任何方式進(jìn)行學(xué)習(xí)的能力。對(duì)于 AlphaGo Zero 這樣的算法，沒(méi)有明確的理由過(guò)分強(qiáng)調(diào)必須從頭開(kāi)始學(xué)習(xí)，因?yàn)樗赡軙?huì)被人類知識(shí)所引導(dǎo)（就像最初的 AlphaGo 一樣），或者事先從其它棋盤游戲中學(xué)到知識(shí)，并且仍然能夠收斂到同樣的超乎常人的水平。我們應(yīng)該很快就看到類似這樣的具體技術(shù)案例。

即使你不在乎這些，就是想要從頭開(kāi)始訓(xùn)練，那么純強(qiáng)化學(xué)習(xí)是否就是最好的方法呢？給這個(gè)問(wèn)題作答曾經(jīng)可以不需要任何思考。在梯度無(wú)關(guān)的優(yōu)化問(wèn)題中，純強(qiáng)化學(xué)習(xí)是你可以選擇的最有條理的并且最值得信賴的方法。但最近的許多論文都對(duì)這種立場(chǎng)提出了嚴(yán)重的質(zhì)疑，它們認(rèn)為相對(duì)簡(jiǎn)單的（而且廣泛不受認(rèn)可的）基于進(jìn)化策略的方法似乎也同樣適用于純強(qiáng)化學(xué)習(xí)已經(jīng)被經(jīng)常用來(lái)測(cè)試的同類型的對(duì)比基準(zhǔn)：

簡(jiǎn)單的隨機(jī)搜索提供了一種對(duì)強(qiáng)化學(xué)習(xí)具有競(jìng)爭(zhēng)力的方法（https://arxiv.org/abs/1803.07055 ）
深度神經(jīng)進(jìn)化：遺傳算法是訓(xùn)練用于強(qiáng)化學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)的一種具有競(jìng)爭(zhēng)力的選項(xiàng)（https://arxiv.org/abs/1712.06567 ）
通過(guò)隨機(jī)搜索找到的在 Frostbite 中表現(xiàn)優(yōu)異的智能體的例子。詳情請(qǐng)見(jiàn)對(duì)于該策略的變現(xiàn)的描述。它在該輪中的最終得分為3,620，這比 DQN，A3C 和 ES 算法得到的分?jǐn)?shù)都高，盡管并不像 GA（遺傳算法）得到的分?jǐn)?shù)那么高。圖片來(lái)源：https://arxiv.org/abs/1712.06567
進(jìn)化策略作為一種可伸縮的強(qiáng)化學(xué)習(xí)的替代品（https://arxiv.org/abs/1703.03864 ）
實(shí)現(xiàn)連續(xù)控制的普適性和簡(jiǎn)易性（https://arxiv.org/abs/1703.02660 ）

理論和實(shí)踐優(yōu)化算法的領(lǐng)軍研究者、論文「簡(jiǎn)單的隨機(jī)搜索提供了一種對(duì)強(qiáng)化學(xué)習(xí)具有競(jìng)爭(zhēng)力的方」的作者之一 Ben Recht 很好的總結(jié)了上述所有觀點(diǎn)（http://www.argmin.net/2018/03/20/mujocoloco/ ）：

我們已經(jīng)看到，隨機(jī)搜索在簡(jiǎn)單的線性問(wèn)題上效果很好，并且顯示出比策略梯度算法等強(qiáng)化學(xué)習(xí)算法更好的性能。但是隨機(jī)搜索是否會(huì)隨著我們開(kāi)始處理更難的問(wèn)題而崩潰呢？先說(shuō)結(jié)論：并沒(méi)有！

所以，人們至今還不清楚純強(qiáng)化學(xué)習(xí)是否是從頭開(kāi)始學(xué)習(xí)的正確方法。但是，讓我們回到人類從頭開(kāi)始進(jìn)行學(xué)習(xí)的問(wèn)題上。人們有沒(méi)有在沒(méi)有給定任何信息（除了作為技能的一部分可采取的動(dòng)作）的情況下開(kāi)始學(xué)習(xí)一項(xiàng)復(fù)雜的新技能（例如組裝新的宜家家居或甚至是開(kāi)車）？沒(méi)有，不是嗎？

也許對(duì)于一些非?；A(chǔ)和普遍的問(wèn)題（比如年幼的嬰兒所面對(duì)的那些問(wèn)題），從頭開(kāi)始學(xué)習(xí)，進(jìn)行純強(qiáng)化學(xué)習(xí)是很有意義的，因?yàn)檫@些問(wèn)題是如此廣泛。但是對(duì)于人工智能中的大多數(shù)問(wèn)題來(lái)說(shuō)，從頭開(kāi)始學(xué)習(xí)并沒(méi)有明顯的好處：我們知道我們想要人工智能體學(xué)習(xí)到什么，并且能夠?yàn)槠涮峁┻@種技能的演示或指導(dǎo)。事實(shí)上，從頭開(kāi)始學(xué)習(xí)是許多廣泛被認(rèn)同（https://www.wired.com/story/greedy-brittle-opaque-and-shallow-the-downsides-to-deep-learning/ ）的目前人工智能和深度學(xué)習(xí)具有的限制的主要原因：

目前的人工智能非常缺乏數(shù)據(jù)（即樣本效率低下），在大多數(shù)情況下，需要大量的數(shù)據(jù)才能使最先進(jìn)的人工智能方法變得有效。這對(duì)純強(qiáng)化學(xué)習(xí)來(lái)說(shuō)尤其糟糕?；叵胍幌?，AlphaGo Zero 需要進(jìn)行數(shù)以百萬(wàn)次計(jì)的圍棋游戲才能得到為 0 的埃洛等級(jí)分，這是大多數(shù)人稍加努力就可以達(dá)到的分?jǐn)?shù)。從定義上說(shuō)，從頭學(xué)習(xí)可能是樣本效率最低的方法。
目前的人工智能系統(tǒng)是不透明的，在大多數(shù)情況下，我們對(duì)人工智能算法能學(xué)到什么、它將如何工作只有高層次的直覺(jué)。對(duì)于大多數(shù)人工智能問(wèn)題來(lái)說(shuō)，我們希望算法是可預(yù)測(cè)、可解釋的。一個(gè)在只給定低層次的獎(jiǎng)勵(lì)信號(hào)的、從頭開(kāi)始學(xué)習(xí)想要的知識(shí)的大的神經(jīng)網(wǎng)絡(luò)，或者一個(gè)環(huán)境模型（就像 AlphaGo Zero 那樣工作），可能是解釋性和可預(yù)測(cè)性最差的方法。
目前的人工智能應(yīng)用的范圍很窄，在大多情況下，我們建立的人工智能模型只能完成一個(gè)很小的范圍內(nèi)的任務(wù)，而且很容易就失效。從頭開(kāi)始學(xué)習(xí)每一項(xiàng)技能限制了模型學(xué)習(xí)除了一個(gè)特定的任務(wù)之外的任意任務(wù)的能力。
目前的人工智能是脆弱的，大多數(shù)情況下，我們的人工智能模型只是通過(guò)大量的數(shù)據(jù)獲得了泛化到不可見(jiàn)的輸入上的能力。甚至在以后仍然是很容易失效的。

因此，我們更傾向于知道我們究竟想要人工智能體學(xué)習(xí)到什么。如果人工智能體是一個(gè)人類，我們可以向他解釋這個(gè)任務(wù)，還可能提供一些提示。但是人工智能體終究不是人，那么我們還能為一個(gè)人工智能體做這些事嗎？事實(shí)證明，我們可以通過(guò)許多方法做到。欲知方法為何，且聽(tīng)下回分解（https://thegradient.pub/how-to-fix-rl/）。

via The Gradient，雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。