大二少年的煉丹入門之路：專訪NIPS 2017“Learning to Run” 比賽亞軍黃哲威 | NIPS 2017

本文作者：岑大師

2017-11-25 12:54

專題：NIPS 2017

導(dǎo)語(yǔ)：自古英雄出少年。

2017年11月13日，北京大學(xué)信息科學(xué)技術(shù)學(xué)院的黃哲威同學(xué)發(fā)布了這樣一條朋友圈：

"結(jié)束了一個(gè)多月的雜交煉丹，業(yè)余RL選手最后兩天被吊打，Juergen Schmidhuber搶我核彈，顯卡拿好QAQ"

他所說(shuō)的“核彈”，指的是來(lái)自于“核彈廠”NVIDIA的新一代超級(jí)計(jì)算機(jī)、售價(jià)6.9萬(wàn)美元起的DGX Station，是NIPS 2017“Learning to Run”競(jìng)賽的優(yōu)勝獎(jiǎng)品，而二三名的獎(jiǎng)品是NVIDIA Titan Xp。比賽第一輪結(jié)束后，PKU-hzwer （黃哲威的參賽帳號(hào)）排名第二，第一名的 USTC-IMCL 來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)，前幾名幾乎全是中國(guó)選手；第二輪最后兩天卻全被來(lái)自于NNAISENSE（“LSTM之父”Juergen Schmidhuber所創(chuàng)辦的人工智能公司）的Wojciech Jaskowski反超。

“第一名隱藏了實(shí)力，我們一度認(rèn)為勝利在望?！秉S哲威無(wú)不遺憾地告訴雷鋒網(wǎng)。最終他們屈居亞軍。

“Learning to Run”是即將在長(zhǎng)灘召開(kāi)的機(jī)器學(xué)習(xí)頂級(jí)學(xué)術(shù)會(huì)議NIPS 2017的5個(gè)官方挑戰(zhàn)賽之一，比賽共有595支隊(duì)伍報(bào)名。挑戰(zhàn)賽由斯坦福神經(jīng)肌肉生物力學(xué)實(shí)驗(yàn)室（MNBL）主辦，要求參賽者開(kāi)發(fā)一個(gè)控制器，使符合生理學(xué)的人體模型能夠盡可能快地在復(fù)雜的障礙物中進(jìn)行奔跑。比賽提供人體肌肉骨骼模型和基于物理的模擬環(huán)境，參賽者可以在其中合成物理和生理上精確的運(yùn)動(dòng)，最終根據(jù)在規(guī)定的時(shí)間內(nèi)跑動(dòng)的距離和韌帶拉伸懲罰來(lái)計(jì)分。

從比賽官網(wǎng)雷鋒網(wǎng)了解到，本次比賽的目標(biāo)是：

利用深度強(qiáng)化學(xué)習(xí)解決醫(yī)學(xué)問(wèn)題；
推動(dòng)增強(qiáng)學(xué)習(xí)中的開(kāi)源工具研究（物理模擬器，增強(qiáng)學(xué)習(xí)環(huán)境和競(jìng)賽平臺(tái)等）；
在具有隨機(jī)性和高度維度的行動(dòng)空間的復(fù)雜計(jì)算環(huán)境中推進(jìn)增強(qiáng)學(xué)習(xí)的研究。

大二少年的煉丹入門之路：專訪NIPS 2017“Learning to Run” 比賽亞軍黃哲威 | NIPS 2017

根據(jù)比賽要求，參賽者需要建立一個(gè)采用當(dāng)前狀態(tài)觀察（41維向量）為輸入的函數(shù)f，并以最大化獎(jiǎng)勵(lì)的方式輸出肌肉的激勵(lì)行為（18維向量）。其中，總回報(bào)是最后一次迭代后X軸上的骨盤位置（即跑動(dòng)的距離）減去過(guò)度使用韌帶力量帶來(lái)的懲罰（韌帶的作用是防止關(guān)節(jié)過(guò)度彎曲，如果跑動(dòng)幅度過(guò)大會(huì)導(dǎo)致韌帶受到傷害，而這是在比賽中需要避免的）。

賽后雷鋒網(wǎng)也在第一時(shí)間聯(lián)系了黃哲威，向他請(qǐng)教第一次參賽就取得好成績(jī)的奧秘。

雷鋒網(wǎng)（以下用Q代表）：你是怎么注意到這個(gè)比賽的？

黃哲威（以下用A代表）：我在曠視Face++的研究院實(shí)習(xí)，9月份的時(shí)候，我的Mentor向我推薦了這個(gè)比賽，正好入門一下各種煉丹工具。

Q：介紹一下你的Mentor的情況，以及他給了哪些有益的解決問(wèn)題的思路？

A：我的Mentor（周舒暢）和另外一些研究員提供了許多思路，包括網(wǎng)絡(luò)模型、激活函數(shù)，動(dòng)作噪聲等等，以及科學(xué)的實(shí)驗(yàn)管理方法。

Q：你認(rèn)為這個(gè)比賽最大的難點(diǎn)在哪里？

A：最大的難點(diǎn)是官方提供的模擬器的計(jì)算速度很慢，每輪障礙跑在單核 cpu 上的模擬時(shí)間超過(guò)一個(gè)小時(shí)，獲取訓(xùn)練數(shù)據(jù)代價(jià)很高；連續(xù)動(dòng)作空間的決策本來(lái)就是強(qiáng)化學(xué)習(xí)的一個(gè)難題，在這個(gè)任務(wù)中，環(huán)境提供的輸入信息是41維的0到1實(shí)數(shù)向量，包括下肢關(guān)節(jié)的位置，角度，速度，障礙信息等，根據(jù)這些信息我們需要輸出18維的0到1實(shí)數(shù)向量，決策下肢肌肉的動(dòng)作；環(huán)境具有隨機(jī)性，障礙的大小和位置是不確定的，而且輸入信息中只有模型前方最近的一個(gè)障礙。

Q：模擬慢的問(wèn)題最后是怎么解決的？

A：一位中國(guó)選手（@qing-yongliangaka）為大家提供了模擬器并行的框架，這個(gè)框架讓我們能夠在多臺(tái)服務(wù)器上并行模擬器然后訓(xùn)練，節(jié)約了大量的訓(xùn)練時(shí)間。這位選手也獲得了比賽方頒發(fā)的特別獎(jiǎng)。

Q：你們是如何搭建模型的？

A：1) 我參考了一些開(kāi)源的代碼，并嘗試在OpenAI gym上訓(xùn)練了一些簡(jiǎn)單的任務(wù)，正確實(shí)現(xiàn)了 DDPG 之后，我們通過(guò)比較多的對(duì)比實(shí)驗(yàn)確定了各種參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)；

2) 發(fā)現(xiàn)訓(xùn)練出的模型瘸腿（拖著一條腿）和重心靠后的情況比較多，我們針對(duì)這兩個(gè)問(wèn)題設(shè)計(jì)了一些懲罰。

Q：在你看來(lái)，參與比賽的過(guò)程中有哪些比較重要的節(jié)點(diǎn)？

A：1) 由于我缺乏并行處理的知識(shí)，單個(gè)模擬器速度又極其緩慢，剛開(kāi)始數(shù)天毫無(wú)進(jìn)展，后來(lái)發(fā)現(xiàn)有參賽者開(kāi)源了并行模擬器的框架，使得我們能在數(shù)百個(gè) cpu 上開(kāi)展訓(xùn)練；

2) 加入了比賽的討論組之后，驚訝地得知一些選手從隨機(jī)網(wǎng)絡(luò)參數(shù)開(kāi)始，不到一天就能訓(xùn)練出表現(xiàn)很不錯(cuò)的模型，而我對(duì)著一份網(wǎng)絡(luò)參數(shù)折騰許多天也沒(méi)什么進(jìn)展，于是開(kāi)始了提高訓(xùn)練速度的探索；

3) 通過(guò)以及降低控制幀率并將多幀獎(jiǎng)勵(lì)合并，還有一些其它技巧，數(shù)十倍地加快了訓(xùn)練，比賽后期我們訓(xùn)練一個(gè)40分的模型只要幾個(gè)小時(shí)，使得大量的對(duì)比實(shí)驗(yàn)變得可行。

Q：第二輪比賽中，障礙物從3個(gè)增加到了10個(gè)，這給訓(xùn)練帶來(lái)了什么樣的變化？

A：因?yàn)樵黾拥恼系K離起點(diǎn)比較遠(yuǎn)，AI要學(xué)會(huì)控制模型在高速奔跑時(shí)避開(kāi)障礙，后腿很容易被絆到。模型的摔倒概率上升到接近30%，使得我們不得不花費(fèi)精力在穩(wěn)定性上下工夫，后來(lái)通過(guò)多個(gè)actor和 critic 群策群力的方法將摔倒概率降低到5%以下。這方面的工作我們之后會(huì)寫一個(gè)實(shí)驗(yàn)報(bào)告。

Q：除了DDPG，你們是否還有采用其他方式，例如PPO（雷鋒網(wǎng)注：PPO是OpenAI強(qiáng)化學(xué)習(xí)的默認(rèn)算法）來(lái)實(shí)現(xiàn)？

A：我們隊(duì)伍沒(méi)有采用其它的訓(xùn)練方式，主要是我能力和精力有限，一些選手嘗試了許多方法，似乎也沒(méi)有本質(zhì)提高。值得一提的是，有選手使用進(jìn)化算法獲得了很不錯(cuò)的結(jié)果。

Q：第一次參加比賽就取得好成績(jī)，有什么想和其他初學(xué)者分享的經(jīng)驗(yàn)嗎？

A：多和其它參賽選手交流討論，獲取靈感，及時(shí)反思；提高工程能力，將理論和實(shí)踐結(jié)合；注重代碼管理和實(shí)驗(yàn)的可重現(xiàn)性。

后記

盡管黃哲威一再?gòu)?qiáng)調(diào)自己是“業(yè)余選手”，“能力和精力有限”，但從其認(rèn)定了一個(gè)方向后不斷持續(xù)深挖的做法來(lái)看，最終取得好成績(jī)也有著一定的必然性。有的時(shí)候，選擇過(guò)多不一定是好事，從人工智能發(fā)展的歷史來(lái)看，正是有著一批在人工智能發(fā)展遇冷時(shí)仍然堅(jiān)持研究的先驅(qū)的不斷努力，才迎來(lái)了當(dāng)下以機(jī)器學(xué)習(xí)推動(dòng)的又一波人工智能的春天。在恭喜黃哲威首次參賽就取得好成績(jī)的同時(shí)，也希望有更多機(jī)器學(xué)習(xí)的初學(xué)者們能夠不畏困難和努力鉆研，共同進(jìn)步。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

專題

NIPS 2017

本專題其他文章

岑大師

發(fā)私信

當(dāng)月熱門文章