復(fù)雜的中國駕駛場景，正是深度學(xué)習(xí)的優(yōu)勢

本文作者：李星宇

2016-06-18 09:33

導(dǎo)語：傳統(tǒng)的算法的表現(xiàn)往往無法滿足自動駕駛的要求，而深度學(xué)習(xí)非常適合在復(fù)雜場景下的自動駕駛應(yīng)用。

今年8月，雷鋒網(wǎng)將在深圳舉辦一場盛況空前有全球影響力的人工智能與機(jī)器人創(chuàng)新大會。屆時雷鋒網(wǎng)將發(fā)布“人工智能&機(jī)器人Top25創(chuàng)新企業(yè)榜”榜單。目前，我們正在拜訪人工智能、機(jī)器人領(lǐng)域的相關(guān)公司，從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中，請聯(lián)系：2020@leiphone.com。

雷鋒網(wǎng)按：本文作者李星宇，現(xiàn)地平線機(jī)器人汽車業(yè)務(wù)總監(jiān)，前飛思卡爾應(yīng)用處理器汽車業(yè)務(wù)市場經(jīng)理，原士蘭微電子安全技術(shù)專家。

深度學(xué)習(xí)十分適合高度復(fù)雜場景下的自動駕駛應(yīng)用，尤其與增強(qiáng)學(xué)習(xí)相配合，能讓從感知到執(zhí)行的過程變得簡單。

谷歌和李世石的人機(jī)大戰(zhàn)引爆了公眾對于人工智能的關(guān)注，也讓基于深度學(xué)習(xí)的人工智能成為汽車業(yè)界關(guān)注的重點(diǎn)，那么深度學(xué)習(xí)在智能駕駛的應(yīng)用場景下有什么幫助呢?

自動駕駛最先出現(xiàn)在美國，而不是歐洲或者日本，更不是中國，非常關(guān)鍵的一個原因在于，美國的駕駛環(huán)境相對于其它地區(qū)而言，是最簡單的，無論是道路情況還是駕駛習(xí)慣。這就意味著，開發(fā)一個自動駕駛原型產(chǎn)品的技術(shù)難度可以大大降低。

這種高度復(fù)雜的場景很難用有限的規(guī)則來定義清楚，所以傳統(tǒng)的算法的表現(xiàn)往往無法滿足自動駕駛的要求，而深度學(xué)習(xí)非常適合在復(fù)雜場景下的自動駕駛應(yīng)用。如果這個場景足夠簡單的話，深度學(xué)習(xí)并不能表現(xiàn)出相對于其它基于傳統(tǒng)模式識別方法的優(yōu)勢。

更具體一點(diǎn)來講，對于非結(jié)構(gòu)化數(shù)據(jù)的識別、判斷、分類是它的優(yōu)勢所在。圖像、語音都是非結(jié)構(gòu)化的，而像 Excel 表格上的數(shù)據(jù)，我們稱之為結(jié)構(gòu)化的數(shù)據(jù)。自動駕駛所面臨的環(huán)境，如果表達(dá)出來，正是非結(jié)構(gòu)化的數(shù)據(jù)，深度學(xué)習(xí)可以很好地處理這種場景。

| 深度學(xué)習(xí)的前沿技術(shù)

深度學(xué)習(xí)的發(fā)展其實有很長的歷史，它的原理從上世紀(jì)五十年代末期就已經(jīng)出，80 年代在手寫體數(shù)字的識別方面取得相當(dāng)?shù)某删停?yīng)用于美國的郵政系統(tǒng)。但其真正崛起還是在十年前開始的。

這里面其實是有時代的大背景的因素，這個時代提供了深度學(xué)習(xí)兩個最關(guān)鍵的助推引擎：大數(shù)據(jù)和高性能處理器。深度學(xué)習(xí)非常適合利用大數(shù)據(jù)提高性能，隨著用于訓(xùn)練的數(shù)據(jù)量不斷增加，深度學(xué)習(xí)的性能也得到持續(xù)的提升。

事實上到目前為止，我們還沒有發(fā)現(xiàn)其性能提升的上限。這是深度學(xué)習(xí)目前受到關(guān)注的一個非常重要的原因。過去很難獲得如此大量的數(shù)據(jù)，也缺乏足夠強(qiáng)勁的計算平臺，而今天隨著物聯(lián)網(wǎng)的發(fā)展，據(jù)獲取已經(jīng)不再是問題。另一方面，著單個處理器的性能進(jìn)入 TFLOPS 時代，深度學(xué)習(xí)所需要海量計算已經(jīng)在經(jīng)濟(jì)上變得可承受了。谷歌的 AlphaGo 的計算能力是當(dāng)年擊敗國際象棋冠軍的 IBM 深藍(lán)的三萬倍。要知道當(dāng)年的深藍(lán)可是大型機(jī)，成本不是一般應(yīng)用可以承受的。

從 2012 年 Hinton 和他的學(xué)生 Alex 在國際上權(quán)威的圖像識別領(lǐng)域 Imagenet 比賽奪冠以來，深度學(xué)習(xí)目前已經(jīng)可以達(dá)到 97%的識別準(zhǔn)確率，超過普通人的 95% 的識別準(zhǔn)確率。機(jī)器視覺的識別能力超過人類，這是人工智能領(lǐng)域了不起的成就，而這一切在僅僅 4 年的時間內(nèi)就實現(xiàn)，則更凸顯了深度學(xué)習(xí)的潛力和業(yè)界的研究熱潮。深度學(xué)習(xí)還在持續(xù)擴(kuò)展其潛力，在人臉識別方面的準(zhǔn)確率可達(dá) 99.5%以上（基于 LFW 數(shù)據(jù)庫）。

很多人也會問，到底深度學(xué)習(xí)是一個什么樣的東西？要用簡單的話解釋清楚其實是一件很有挑戰(zhàn)性的事情，它涉及很多較為抽象的基礎(chǔ)知識，比較形象地描述：深度學(xué)習(xí)其實是對人的大腦識別機(jī)制的模擬。

舉個例子，我看到對面走來一個人，瞬間就可以判斷出這個人是我的同事。眼睛獲取的影像有幾十萬像素，需要上百萬字節(jié)去描述，而大腦經(jīng)過處理后，可以將它簡化為幾個字節(jié)，就是同事的名字。人的大腦可以非常高效地處理海量的非結(jié)構(gòu)化數(shù)據(jù)，把其中的內(nèi)容識別出來，用極其精簡的信息去描述。這也正是深度學(xué)習(xí)的本質(zhì)——把復(fù)雜信息精簡地表達(dá)出來。

技術(shù)化的描述是：基于數(shù)據(jù)驅(qū)動的、自動學(xué)習(xí)要建模的數(shù)據(jù)的潛在（隱含）分布的多層（復(fù)雜）表達(dá)的算法（車云菌表示讀完以后，舌頭已經(jīng)不好使了）。目前深度學(xué)習(xí)使用最多的建模技術(shù)是多層卷積神經(jīng)網(wǎng)絡(luò)，并建立大量的隱含層（可達(dá)上百層）。

這個技術(shù)出現(xiàn)已經(jīng)很久了，但在此之前一直表現(xiàn)不好，那個時候大家都是在小規(guī)模樣本下進(jìn)行的，對于參數(shù)的調(diào)整非常困難。深度學(xué)習(xí)一個最大的突破就是，將參數(shù)的計算自動化，人不再進(jìn)行干預(yù)，而是讓它通過大量的數(shù)據(jù)學(xué)習(xí)，自己確定這個參數(shù)。

深度學(xué)習(xí)的技術(shù)也在快速演進(jìn)，比如 LSTM（長短期記憶模型）的使用，賦予深度神經(jīng)網(wǎng)絡(luò)保存狀態(tài)的能力。也就是，我們將賦予機(jī)器記憶的能力。

它的用途在哪里呢？拿玩游戲來說。比如射擊類的游戲，目前基于深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的人工智能系統(tǒng)可以有非常出色的表現(xiàn)，因為它不需要記住過去的游戲狀態(tài)，而當(dāng)機(jī)器玩一些策略類游戲的時候，比如星際爭霸，沒有記憶能力導(dǎo)致它無法進(jìn)行長時間跨度的策略規(guī)劃，與人的表現(xiàn)就相差甚遠(yuǎn)。

LSTM 使得深度神經(jīng)網(wǎng)絡(luò)從一個二維空間網(wǎng)絡(luò)變成了一個時空結(jié)構(gòu)的網(wǎng)絡(luò)，即在時間尺度上也表現(xiàn)出深度，結(jié)果就是機(jī)器不需要從頭開始認(rèn)知，而是把過去和現(xiàn)在連接在一起，規(guī)劃下一步的行動。顯然，這讓大型的策略類游戲成為機(jī)器的下一個征服目標(biāo)。上周傳出消息 AlphaGo 要在今年內(nèi)對戰(zhàn)柯潔，期待一下 AlphaGo 的下一次驚艷出場吧。

深度學(xué)習(xí)的注意力模型也是一個技術(shù)熱點(diǎn)，它是對整個場景進(jìn)行語義級別的理解，可以讓機(jī)器鎖定圖像中我們需要關(guān)注的部分。在未來幾年，這些技術(shù)可以讓機(jī)器理解視頻流，并將其轉(zhuǎn)化為直接的語義述。這么說吧，結(jié)合上面的技術(shù)，機(jī)器可以跟你一起看電影，并分享對于電影的理解(單身狗的福利呀，一個人去電影院也不會感到寂寞了，只要帶著你的機(jī)器寵物一起去) 。

總體來講，具備深度學(xué)習(xí)能力的設(shè)備就好像是一個有生命力的機(jī)器，它會隨著數(shù)據(jù)訓(xùn)練的過程逐步成長，它的本領(lǐng)是可以持續(xù)提高的，而且這種本領(lǐng)可以被復(fù)制到另一個設(shè)備中。

| 深度學(xué)習(xí)與增強(qiáng)學(xué)習(xí)雙管齊下通往自動駕駛

深度學(xué)習(xí)對感知有非常強(qiáng)的能力，可以理解各種復(fù)雜圖像的含義，但是它并不能把這種感知轉(zhuǎn)化為決策能力。增強(qiáng)學(xué)習(xí)就是用來解決這個問題。

如果打個比方的話，增強(qiáng)學(xué)習(xí)借鑒了馴獸員的方法，不教動物們?nèi)魏我?guī)則(當(dāng)然也教不會呀)，一開始讓動物們隨便地做各種動作。當(dāng)其中有一個動作是符合期望的時候，立即給它們好吃的，就是增強(qiáng)了它們繼續(xù)這個動作的動力。隨著訓(xùn)練時間和次數(shù)的增加，動物們就會真的在頭腦里建立一個規(guī)則：做某個動作可以得到好吃的。因而，將其稱之為「增強(qiáng)（reinforcement）」學(xué)習(xí)的原因。

某種意義上，這也借鑒了管理學(xué)上的結(jié)果導(dǎo)向的理念，有兩個關(guān)鍵點(diǎn)：第一，只看重結(jié)果，不關(guān)心過程或者動機(jī)；第二，對于每一次行動，及時獎懲，強(qiáng)化認(rèn)知。

自動駕駛的整個系統(tǒng)，一般來說由三個層級組成：感知層、規(guī)劃決策層和控制執(zhí)行層。深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)結(jié)合的結(jié)果，會使得感知和執(zhí)行以前所未有地方式真正緊密地結(jié)合在一起，完成自動駕駛。

1、感知

感知層的任務(wù)是完成環(huán)境態(tài)勢感知，這個是自動駕駛的核心環(huán)節(jié)。在自動駕駛中，任何執(zhí)行動作都要以理解整個駕駛環(huán)境為前提。這里面分為兩層：車外環(huán)境和車內(nèi)環(huán)境。

對于車外環(huán)境，首先是多種傳感器的輸入，比如多攝像頭、毫米波雷達(dá)以及激光雷達(dá)等，通過融合映射到一個統(tǒng)一的坐標(biāo)系中，這些圖像信息需要進(jìn)行物體的識別和分類，比如車道、路肩、車輛、行人等等，這正是深度學(xué)習(xí)的優(yōu)勢。利用深度學(xué)習(xí)，在計算系統(tǒng)中重構(gòu)出來一個 3D 環(huán)境，這個環(huán)境中的各個物體都會被識別并理解。

對于車內(nèi)環(huán)境，是指對車內(nèi)駕駛員的感知，包括其疲勞程度、駕駛意圖等，這將給后面的決策控制提供決策基礎(chǔ)信息，如疲勞檢測系統(tǒng)在檢測到駕駛員進(jìn)入嚴(yán)重的疲勞狀態(tài)后，自動將駕駛狀態(tài)從人工操控轉(zhuǎn)為自動駕駛。

2、局部路徑規(guī)劃

這里需要對整個車外環(huán)境中車輛、交通狀況和行人等的意圖或者在一段時間內(nèi)的行為進(jìn)行預(yù)測，再根據(jù)本車的狀態(tài)和意圖，結(jié)合前面的環(huán)境感知結(jié)果和高精度地圖提供的道路信息等，規(guī)劃出最佳的行駛路徑，這個規(guī)劃需要可以滿足駕駛意圖，并對周圍的車輛友好、安全。

通過積累大量的數(shù)據(jù)進(jìn)行足夠的訓(xùn)練，基于深度學(xué)習(xí)的系統(tǒng)可以給出最優(yōu)規(guī)劃。當(dāng)然，這種規(guī)劃不能單純依賴深度學(xué)習(xí)的預(yù)判，它必須和交通規(guī)則的專家系統(tǒng)，以及其它高可靠性手段結(jié)合，才可以達(dá)到實用。例如 V2X 的普及，會使得本車可以在超視距范圍內(nèi)，精確地獲取周圍車輛的位置、速度以及駕駛意圖（轉(zhuǎn)彎/變道）等。

3、決策控制

在路徑規(guī)劃確定后，自動駕駛系統(tǒng)需要進(jìn)行本車意圖決策，比如什么時候進(jìn)行超車、什么時候轉(zhuǎn)彎、選擇什么時機(jī)進(jìn)行變道是最優(yōu)的等等。自動駕駛系統(tǒng)需要學(xué)習(xí)人類開車的習(xí)慣，學(xué)會如何在復(fù)雜的會車場景下進(jìn)行操作、保持合理的車距等，更進(jìn)一步地，學(xué)習(xí)主人的開車習(xí)慣，在滿足安全性的前提下，盡量使自動駕駛的風(fēng)格與其開車行為相適應(yīng)，提供更好的用戶體驗，并優(yōu)化自己的駕駛效率。很顯然，這里增強(qiáng)學(xué)習(xí)是非常適合的技術(shù)。

目前，前沿的研究人員正利用深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)開展一些非常炫酷的功能，例如完成從原始傳感器數(shù)據(jù)到實際動作執(zhí)行器的直接過渡。

在今年的 CES 展上，豐田展示了一套類似的自動駕駛演示系統(tǒng)，在一塊布有障礙并有指示方向的方形地形中，8 輛沒有駕駛經(jīng)驗的模型車，將傳感器監(jiān)測到的環(huán)境信息輸入深度學(xué)習(xí)系統(tǒng)，并將深度學(xué)習(xí)系統(tǒng)與油門、制動和方向輸出連接。經(jīng)歷約 4 個小時的學(xué)習(xí)后，基本實現(xiàn)了零事故。

自動駕駛的測試是一個非常耗時、費(fèi)錢的工作，谷歌累計的自動駕駛實際道路測試?yán)锍桃呀?jīng)超過 100 萬英里，如何更高效地測試也是自動駕駛領(lǐng)域的一個關(guān)鍵問題。

從理論上講，我們可以用計算系統(tǒng)去模擬實際道路的情形，如果我們可以對道路上的各個要素進(jìn)行準(zhǔn)確地建模，并且模擬這些要素的行為，例如超車、剎車、變道。利用蒙特卡洛模擬，配合增強(qiáng)學(xué)習(xí)的技術(shù)，就能構(gòu)建一個自主運(yùn)行的系統(tǒng)。這個系統(tǒng)本身在不需要耗費(fèi)一滴汽油的情況下，產(chǎn)生大量的模擬場景，發(fā)現(xiàn)自動駕駛原型的各種缺陷，并獲得大量的數(shù)據(jù)。就像谷歌訓(xùn)練它的 AlphaGo 一樣。

雷鋒網(wǎng)注：轉(zhuǎn)載請聯(lián)系授權(quán)并注明出處和作者，不得修改內(nèi)容。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。