0
| 本文作者: AI研習(xí)社-譯站 | 2018-03-05 10:51 |
本文為雷鋒字幕組編譯的技術(shù)博客,原標(biāo)題How to build your own AlphaZero AI using Python and Keras,作者David Foster。
翻譯 | 黃偉聰 董星 校對 | 凡江

在這篇文章,我會試著闡明三件事:
AlphaZero之所以是人工智能前進(jìn)一大步的兩個答案
怎樣生成一個 AlphaZero方法論的副本使其能玩Connect4
怎樣改代碼能使其插入其他游戲仍然有用
AlphaGo → AlphaGo Zero → AlphaZero
在2016年三月,Deepmind 公司的 AlphaGo ,在超過2億人次觀看的比賽中,4比1打敗了18次世界冠軍的圍棋選手李世石。一個機(jī)器學(xué)會遠(yuǎn)超人類的下圍棋策略,以前認(rèn)為是不可能做到的,或者退一步,當(dāng)時認(rèn)為至少也要10年完成的。

AlphaGo vs 李世石 比賽第三場
這本就是一個卓越的成就。但是,在 2017年10月18日,DeepMind 取得了更大的飛躍性成就。
在一篇名為 ‘Mastering the Game of Go without Human Knowledge(無師自通圍棋)’的論文公布了一種新的算法,AlphaGo Zero 用其 100–0 大敗AlphaGo。不可思議的是,它僅僅靠自我博弈做到如此,從零開始并且逐漸找方法打敗舊版本。構(gòu)建一個超越人類的人工智能不再需要專家博弈時的數(shù)據(jù)庫。

圖表來自 ‘Mastering the Game of Go without Human Knowledge’
僅僅48天之后,在2017年12月5日,DeepMind 放出另一篇論文 ‘Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm(通過使用通用的強(qiáng)化學(xué)習(xí)算法,自我博弈來掌握國際象棋和日本象棋)’ ,文章展示了 AlphaGo Zero 如何成長,并最終能在國際象棋和日本象棋分別打敗世界冠軍程序StockFish和Elmo。整一個學(xué)習(xí)過程,AlphaGo Zero從第一次觀看比賽到成為世上最強(qiáng)象棋程序不到24小時。
由此,AlphaZero橫空出世?—而這個通用算法,無需人類專家的先驗策略便能讓它快速掌握某些知識。
關(guān)于這個成就令人驚奇的兩點:
1. AlphaZero 無需以人類知識作為輸入
這點是非常重要的。這意味著 AlphaGo Zero 根本的方法論能適用于 任何 完全信息的游戲(游戲臺面總是完全公開可見)因為它除游戲規(guī)則外無需知道其他專業(yè)的知識。
這就是DeepMind 為什么能在原 AlphaGo Zero論文發(fā)表僅48天后,又發(fā)表國際象棋和日本象棋論文的原因。毫不夸張的說,要做得只是改變闡述博弈機(jī)制的輸入頭文件和調(diào)整與神經(jīng)網(wǎng)絡(luò)和蒙特卡洛搜索有關(guān)的超參數(shù)。
2. 這個算法出人意料的簡潔
如果AlphaZero用的是世界上只有少數(shù)人能理解的超級復(fù)雜算法,那么這將是令人難以置信的成就。而讓它特別的是,實際上論文中許多理念遠(yuǎn)沒有以前的版本復(fù)雜。它的核心思路正是下面簡單的學(xué)習(xí)口訣:
通過模擬演繹可能的未來場景,優(yōu)先考慮有前景的路徑,同時考慮其他人對你行為最有可能做出的反應(yīng)并繼續(xù)探索未知情況。
在到達(dá)一個陌生的場景后,評估所選位置有利程度并通過模擬路徑級聯(lián)先前位置的得分。
完成對未來可能性思考后,采取探索的最多次的行動。
游戲結(jié)束,退回并且評估哪一步錯判了對未來的影響由此來更新認(rèn)知。
這聽起來不像你當(dāng)時學(xué)習(xí)玩游戲的的過程? 當(dāng)你下一步壞著,可能你錯判了著后位置對未來的影響,或者你錯誤預(yù)測了對手的某個行動,所以你沒有去想這種可能性。而這正是AlphaZero在游戲中學(xué)習(xí)訓(xùn)練的兩個方面。
怎樣構(gòu)建你自己的AlphaZero
首先,為了得到較深層次AlphaGo Zero工作原理的理解,需要認(rèn)真看AlphaGo Zero背后的文檔。當(dāng)我們過代碼的每個部分時這很值得參考。這里同樣有一篇好文章更詳細(xì)解釋 AlphaZero如何工作。
代碼
套用這個包含我將引用代碼的Git庫。
開始學(xué)習(xí)流程之前,在Jupyter notebook頂部兩個面板運行run.ipynb 。一旦它建立了足夠的游戲位置的來填補(bǔ)它的記憶,神經(jīng)網(wǎng)絡(luò)就會開始訓(xùn)練。通過額外的自我博弈和訓(xùn)練,它會逐漸在預(yù)測上變好,從而做出更好的決策和使總體游戲行動更智能。
現(xiàn)在我們來更深入地了解代碼,并且展示一些AI隨著時間變強(qiáng)大的成果。
注意—?這是我自己基于上面參考文獻(xiàn)對AlphaZero工作原理的理解.。如果以下有任何錯誤,我請求原諒并且會盡力改正!
Connect4
我們算法學(xué)習(xí)的游戲是 Connect4 (或者Four In A Row)。遠(yuǎn)沒有圍棋復(fù)雜… 但總計仍有 4,531,985,219,092種位置情況。

connect 4
游戲規(guī)則很簡單。玩家在棋盤輪流從有空位列的頂部放一個他們顏色的棋子。第一個達(dá)到同色四珠相串的玩家即贏(包括水平,豎直,對角線)。如果棋盤放滿也沒有四珠相串,則游戲平局。
以下是組成代碼庫的核心文件總覽:
game.py
每個方塊被分配了一個從0到41的數(shù)字, 如下:
這個文件包含了connect4的游戲規(guī)則。

Connect4的行動方格
這個 game.py 文件提供了從一個游戲狀態(tài)移動到另一個的邏輯,給出可選的動作。例如,給出一個空棋盤并進(jìn)行放置38號空位,這個行動返回一個新的游戲臺面,就是開始玩家的這枚棋子將在中間列底部。
你能用任何游戲文件替換game.py文件,只要它適用于相同的API,并且算法會在你給定的規(guī)則上通過自我博弈學(xué)會策略。
run.ipynb
這個文件包含了啟動學(xué)習(xí)過程的代碼。首先它會加載游戲規(guī)則,然后迭代算法的主循環(huán),其中包含三個階段:
自我博弈
神經(jīng)網(wǎng)絡(luò)再訓(xùn)練
神經(jīng)網(wǎng)絡(luò)評估
這個循環(huán)涉及到兩個智能體,最強(qiáng)玩家和當(dāng)前玩家。
最強(qiáng)玩家擁有表現(xiàn)最優(yōu)的神經(jīng)網(wǎng)絡(luò),用來產(chǎn)生自我博弈的學(xué)習(xí)記憶。當(dāng)前玩家在這些記憶的基礎(chǔ)上重新訓(xùn)練它的神經(jīng)網(wǎng)絡(luò),然后再與最強(qiáng)玩家進(jìn)行比賽。如果它贏了,最強(qiáng)玩家內(nèi)部的神經(jīng)網(wǎng)絡(luò)就會被切換到當(dāng)前玩家的神經(jīng)網(wǎng)絡(luò),再開啟新一輪循環(huán)。
agent.py
這段程序包含了智能體類(游戲中的一個玩家)。初始時,每個玩家都有自己的神經(jīng)網(wǎng)絡(luò)和蒙特卡羅搜索樹。
模擬方法會運行蒙特卡羅樹搜索過程。具體地說,智能體將移動到樹的葉節(jié)點,用它的神經(jīng)網(wǎng)絡(luò)對節(jié)點進(jìn)行評估,然后沿著樹向上填充節(jié)點的值。
行動方法會多次重復(fù)模擬方法,從而獲得從當(dāng)前位置最有利的移動方式。接著,它將所選操作返回到游戲中,并執(zhí)行這個動作。
重玩方法利用以前游戲中的記憶重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
model.py

使用Keras構(gòu)建的殘差卷積網(wǎng)絡(luò)樣本
這個文件包含了Residual_CNN(殘差卷積神經(jīng)網(wǎng)絡(luò))類,它定義了如何構(gòu)建一個神經(jīng)網(wǎng)絡(luò)的實例。
它使用AlphaGoZero論文中神經(jīng)網(wǎng)絡(luò)架構(gòu)的壓縮版-即一個卷積層,緊跟著是許多殘差層,然后分裂成一個數(shù)值和策略頭。
卷積濾波器的深度和數(shù)量可以在配置文件中設(shè)置。
Keras庫用來構(gòu)建網(wǎng)絡(luò),它的后端是Tensorflow。
想要查看神經(jīng)網(wǎng)絡(luò)中的單個卷積濾波器和緊密相連的層,運行下面run.ipynb文本中的程序。
current_player.model.viewLayers()

神經(jīng)網(wǎng)絡(luò)中的的卷積濾波器
MCTS.py
這段代碼包含節(jié)點、邊和MCTS類,構(gòu)成了一個蒙特卡羅搜索樹。
MCTS類包含前面提到的moveToLeaf和backFill方法,并且Edge類的實例儲存了每個潛在移動方式的統(tǒng)計數(shù)據(jù)。
config.py
這段程序用來定義影響算法的關(guān)鍵參數(shù)。
調(diào)整這些變量將影響運行時間、神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性和算法整體的成功。上面的參數(shù)生成了一個高水平Connect4玩家,但這要花很長時間才能做到。為了加快算法的速度,請嘗試以下步驟。

funcs.py
這段程序包含了 playMatches 和 playMatchesBetweenVersions 函數(shù),可以進(jìn)行兩個智能體之間的比賽。

為了和你創(chuàng)造的玩家進(jìn)行比賽,運行下面的代碼(它也在run.ipynb文本中)
initialise.py
當(dāng)你運行該算法的時候,所有的模型和內(nèi)存文件都保存在根目錄的run文件夾中。
之后想要從這個節(jié)點重新啟動算法,需要將run文件夾轉(zhuǎn)移到run_archive文件夾,并在文件夾名稱中添加一個運行編號。接著將運行號、模型版本號和內(nèi)存版本號輸入到initialise.py文件,與run_archive文件夾中的相關(guān)文件位置相對應(yīng)。正常運行算法后將會從這個節(jié)點開始啟動。
memory.py
內(nèi)存類的一個實例,存儲了之前的游戲記錄,算法可以用它來訓(xùn)練當(dāng)前玩家的神經(jīng)網(wǎng)絡(luò)。
loss.py
這份文件包含一個自定義的損失函數(shù),在傳遞到交叉熵?fù)p失函數(shù)之前,它掩蓋了非法移動的預(yù)測。
settings.py
定義了run和run_archive文件夾的位置。
loggers.py
日志文件保存在run文件夾中的log文件夾中。
想要啟動日志記錄,將文件中的logger_disabled 變量值設(shè)置為False。
查看日志文件可以幫助你理解算法是如何工作的,并且參透它的“思想”。例如這里有一個log.mcts文件的樣本。

logger.mcts 文件輸出
在評估階段,同樣從logger.tourney文件中,可以看到每次移動的概率:

logger.tourney 文件輸出
結(jié)果
經(jīng)過幾天的訓(xùn)練,我們得到了下面的損失vs小批量迭代次數(shù)關(guān)系圖。

損失vs小批量迭代次數(shù)關(guān)系圖
最上面的線形圖是策略頭中的錯誤(MCTS移動概率的交叉熵vs神經(jīng)網(wǎng)絡(luò)的輸出)。最下面線圖是值頭的誤差(實際游戲值和神經(jīng)網(wǎng)絡(luò)推測值之間的平均平方誤差)。中間線圖是這兩者的平均值。
顯而易見,神經(jīng)網(wǎng)絡(luò)在預(yù)測每個游戲狀態(tài)值和下一步可能動作方面表現(xiàn)越來越優(yōu)異。為了展示它如何培養(yǎng)出一個逐步強(qiáng)大的玩家,我參加了17個玩家之間的一場聯(lián)賽,逐步使用神經(jīng)網(wǎng)絡(luò)的第1次到49次迭代。
每場比賽都進(jìn)行兩次,雙方都有機(jī)會走第一步。
這是最后的排名:

可以看出,神經(jīng)網(wǎng)絡(luò)后期版本贏得了大部分比賽,表現(xiàn)明顯要優(yōu)于前期版本。同時,我們可以發(fā)現(xiàn)學(xué)習(xí)還沒有達(dá)到飽和——隨著訓(xùn)練時間的增加,玩家將會逐步變強(qiáng),學(xué)習(xí)越來越復(fù)雜的策略。
例如,盡早搶占中間列是神經(jīng)網(wǎng)絡(luò)一直偏愛的一個清晰策略。讓我們觀察一下算法的第1個版本和第30個版本之間的區(qū)別:

神經(jīng)網(wǎng)絡(luò)第一次迭代

神經(jīng)網(wǎng)絡(luò)第30次迭代
這是一個很好的策略,因為很多棋子相連成線都需要占有中心列——搶先占領(lǐng)它可以確保你的對手失去優(yōu)勢。這是沒有任何人為輸入的情況下,由神經(jīng)網(wǎng)絡(luò)自己學(xué)會的策略。
學(xué)習(xí)一種不同的游戲
在games文件夾中有一個game.py 文件,它是 ‘Metasquares’ 的游戲文件。這個游戲需要在網(wǎng)格中放置X和O標(biāo)記,以形成不同大小的正方形。大方塊比小方塊得分更多,當(dāng)網(wǎng)格被填滿時,得分最多的玩家獲勝。
如果你將Connect4的game.py文件替換成Metasquares游戲的 game.py文件,同樣的算法也可以用來學(xué)習(xí)如何玩Metasquares。
博客原址
更多文章,關(guān)注雷鋒網(wǎng)
添加雷鋒字幕組微信號(leiphonefansub)為好友
備注「我要加入」,To be a AI Volunteer !


雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。