日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
專欄 正文
發(fā)私信給硅谷鋒向標(biāo)
發(fā)送

2

百度研究院副院長(zhǎng)余凱重磅演講:從大數(shù)據(jù)到人工智能

本文作者: 硅谷鋒向標(biāo) 2015-05-10 22:40
導(dǎo)語:世界是我們的,也是機(jī)器人的,但是歸根到底是屬于會(huì)控制機(jī)器人的人的。

受灣區(qū)同學(xué)技術(shù)沙龍(www.tech-meetup.com)邀請(qǐng),這周六百度研究院副院長(zhǎng)余凱在Santa Clara的Intel總部禮堂做了一場(chǎng)很干貨的分享。我覺得“干貨”的原因不僅僅是余凱對(duì)諸如“百度為什么要做各種智能硬件?”和“百度的自動(dòng)駕駛和Google有何不同?”等問題進(jìn)行了回答,而是因?yàn)橥ㄟ^這次分享,我們可以看到百度在包括基于大數(shù)據(jù)的深度學(xué)習(xí)等一些前沿研究領(lǐng)域的成果,以及在“萬物互聯(lián)”的大數(shù)據(jù)時(shí)代,百度在機(jī)器人、無人駕駛等方面的一些思考,也讓我們這些互聯(lián)網(wǎng)從業(yè)者對(duì)于未來大數(shù)據(jù)和人工智能的演化有一個(gè)更好的了解。

雖然觀眾幾乎坐滿了會(huì)場(chǎng),但我估計(jì)最多也就有兩百來號(hào)人分享到了這些東西。所以我對(duì)余凱的演講進(jìn)行了一些整理,供雷鋒網(wǎng)的讀者了解和學(xué)習(xí)。

百度研究院副院長(zhǎng)余凱重磅演講:從大數(shù)據(jù)到人工智能

以下內(nèi)容根據(jù)演講整理:

感謝郭曉峰、朱平還有好多朋友在周末來組織這么一個(gè)活動(dòng)。對(duì)我來講回到這個(gè)地方和大家交流有一種回家的感覺,因?yàn)槲沂侨昵暗臅r(shí)候從灣區(qū)回國(guó)加入百度,開始負(fù)責(zé)百度的人工智能和深度學(xué)習(xí)方面的研究。很親切。回顧這個(gè)歷史也是滿有趣的,當(dāng)時(shí)我在NEC Lab,有好多深度學(xué)習(xí)方面的工作,今天像Facebook等有很多人在從事深度學(xué)習(xí),好多都是從NEC Lab加入的。從灣區(qū)回到中國(guó)也確實(shí)把灣區(qū)的一些資源給介紹回去了,像以前我一個(gè)很好的朋友Andrew Ng,我也把他忽悠到了百度。

這反映什么呢?以前這些比較前沿的技術(shù)研發(fā)事情很多是在硅谷在美國(guó)去發(fā)生,在今天在北京或者深圳其實(shí)很多同樣事情也在發(fā)生,所以我覺得是一個(gè)創(chuàng)新的時(shí)代。

今天我的題目叫《從大數(shù)據(jù)到人工智能》。在過去的幾年時(shí)間里,百度比較有特色的一點(diǎn)就是作為一個(gè)私營(yíng)企業(yè)在技術(shù)研發(fā)這個(gè)領(lǐng)域做了很多工作,對(duì)我們來講是一個(gè)很鼓舞的事情。

我想即使在Google的朋友也會(huì)同意這個(gè)觀點(diǎn):搜索引擎本身也是一個(gè)人工智能的系統(tǒng),一方面通過免費(fèi)的服務(wù)提供很多數(shù)據(jù),另一方面把這些數(shù)據(jù)區(qū)變現(xiàn),這中間就要用到很多技術(shù),這當(dāng)中最重要的就是基于大數(shù)據(jù)的人工智能,比如說數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、自然語言理解在移動(dòng)時(shí)代或者IOT時(shí)代,語音識(shí)別語音理解圖像識(shí)別等很多人工智能技術(shù)在中間可以扮演非常重要的角色。


什么是人工智能

那什么是人工智能呢?有很多不同的看法,有強(qiáng)人工智能,有弱人工智能,我們也看到很多電影和小說等,但到今天沒有一個(gè)公認(rèn)的統(tǒng)一的定義,但我們講一個(gè)人工智能有幾個(gè)方面:

第一個(gè)是感知。就是采集數(shù)據(jù);

第二個(gè)是理解。對(duì)環(huán)境、對(duì)對(duì)話的對(duì)象有一些理解;

第三個(gè)是決策。這些數(shù)據(jù)你要做大量的分析,知道環(huán)境是什么樣的,基于這上面你會(huì)做大量的決策,本身來講感知、理解、決策這三步也是一個(gè)循環(huán)的過程。

我們今天看到各種各樣所謂的智能產(chǎn)品,那這些產(chǎn)品是否真的具有智能呢?其實(shí)一個(gè)很本質(zhì)的差別,也是互聯(lián)網(wǎng)服務(wù)和其他產(chǎn)品不一樣的地方,就是這個(gè)服務(wù)和產(chǎn)品是否能夠隨著經(jīng)驗(yàn)不斷演化,隨著用戶使用越來越多對(duì)用戶越來越了解,這種隨著經(jīng)驗(yàn)演化也就是學(xué)習(xí)的能力實(shí)際上是評(píng)估一件產(chǎn)品是否真正具有智能的因素。整個(gè)移動(dòng)互聯(lián)網(wǎng),通過手機(jī)也好,通過App也好,他對(duì)用戶是在不斷的去了解,去知道用戶的需求和喜好。

我們知道在機(jī)器學(xué)習(xí)研究的課程里,有一個(gè)詞叫經(jīng)驗(yàn)數(shù)據(jù),經(jīng)驗(yàn)就是數(shù)據(jù),數(shù)據(jù)就是經(jīng)驗(yàn)。我們今天講這是一個(gè)大數(shù)據(jù)的時(shí)代,大數(shù)據(jù)時(shí)代的意義在什么地方呢?就是能讓一個(gè)系統(tǒng)有機(jī)會(huì)變得越來越智能。因?yàn)橹悄鼙旧硪粋€(gè)特點(diǎn)就是學(xué)習(xí)的能力。


萬物互聯(lián)與大數(shù)據(jù)

大數(shù)據(jù)的時(shí)代從PC互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)有一個(gè)飛躍的變化,像這個(gè)圖是05年教皇選舉的場(chǎng)景,8年以后你可以看到,同樣的地方,同樣一波人,移動(dòng)互聯(lián)網(wǎng)對(duì)人們的改變是巨大的。每一個(gè)人隨著這個(gè)設(shè)備,無論是在打電話,拍照,帶在身上,你以為你沒有在用它,但手機(jī)上面的傳感器會(huì)把很多數(shù)據(jù)傳到云端。數(shù)據(jù)的產(chǎn)生是無時(shí)不刻的。

百度研究院副院長(zhǎng)余凱重磅演講:從大數(shù)據(jù)到人工智能

未來我們會(huì)進(jìn)入一個(gè)物聯(lián)網(wǎng)的時(shí)代或者機(jī)器人的時(shí)代,那萬物互聯(lián)的時(shí)代是一個(gè)什么樣的場(chǎng)景呢?我們可以想象到2020年,前段時(shí)間孫正義在烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上說,到2020年一個(gè)人可能會(huì)連接到上千個(gè)設(shè)備。今天在中國(guó)我們每個(gè)人可能都帶著兩三個(gè)手機(jī),因?yàn)橐粋€(gè)人在生活中會(huì)扮演很多角色(觀眾笑)。加上穿戴式設(shè)備和其他連接,在中國(guó)平均一個(gè)人帶三四個(gè)設(shè)備是很正常的。面向未來的話可能一個(gè)紐扣都會(huì)是一個(gè)設(shè)備,所以說每個(gè)人連接一千個(gè)設(shè)備并不是那么聳人聽聞。

這么多連接帶來的結(jié)果就是數(shù)據(jù)的暴增。大數(shù)據(jù)的時(shí)代實(shí)際上由萬物互聯(lián)導(dǎo)致,但數(shù)據(jù)也給我們的服務(wù)和產(chǎn)品一個(gè)學(xué)習(xí)的機(jī)會(huì)。從學(xué)術(shù)研究的角度講,人工智能在過去五六十年里起起伏伏,但真正大規(guī)模的應(yīng)用是從互聯(lián)網(wǎng)也就是2000年開始的,從2000年-2009年,我把這個(gè)時(shí)代叫做“潤(rùn)物細(xì)無聲”,因?yàn)樵诨ヂ?lián)網(wǎng)時(shí)代,無論是搜索還是廣告都有大量的人工智能技術(shù),但這些技術(shù)主要是一些后臺(tái)的技術(shù),不一定那么容易被感知。

我們當(dāng)前所處的時(shí)代,從2010年到2019年我用一個(gè)詞叫“于無聲處聽驚雷”,互聯(lián)網(wǎng)行業(yè)很多朋友確實(shí)都感到這種轟隆隆的雷聲。大數(shù)據(jù)的產(chǎn)生、計(jì)算能力、帶寬、深度學(xué)習(xí)這種技術(shù)的發(fā)展使得AI開始從后臺(tái)走到前臺(tái),比如說語音識(shí)別,我記得三年前我組建百度語音識(shí)別的團(tuán)隊(duì),我們當(dāng)時(shí)發(fā)現(xiàn)招不到人,我覺得很奇怪,我記得我讀大學(xué)的時(shí)候不是有很多人在從事語音識(shí)別的研究嗎?后來我一打聽,他們?nèi)哭D(zhuǎn)行了。因?yàn)樵谏疃葘W(xué)習(xí)之前的時(shí)代,語音識(shí)別看不到希望,大家覺得沒法繼續(xù)做研究,但今天語音識(shí)別已經(jīng)是觸手可達(dá),而且發(fā)展非常快。包括圖像,包括自然語言的理解,包括機(jī)器人的技術(shù)都是如此。


從大數(shù)據(jù)到深度學(xué)習(xí)的人工智能

人工智能技術(shù)最近為什么這么受到重視?我覺得最重要的原因是大數(shù)據(jù),第二個(gè)原因是計(jì)算能力,第三個(gè)原因就是深度學(xué)習(xí)。最頂尖的互聯(lián)網(wǎng)公司在這個(gè)領(lǐng)域都有相當(dāng)投入,百度在深度學(xué)習(xí)領(lǐng)域可以說是投資最大的公司之一。

百度研究院副院長(zhǎng)余凱重磅演講:從大數(shù)據(jù)到人工智能

為什么深度學(xué)習(xí)受到重視?首先第一點(diǎn)就是深度學(xué)習(xí)技術(shù)有一個(gè)浪漫主義的方面,就是深度學(xué)習(xí)從機(jī)制、行為等方面和大腦有一些關(guān)聯(lián)性。這點(diǎn)在媒體強(qiáng)調(diào)得比較多,但從我們的角度來講這反而是最不重要的原因。

第二點(diǎn)是深度學(xué)習(xí)特別適合大數(shù)據(jù)。一開始深度學(xué)習(xí)有受到生物神經(jīng)系統(tǒng)的啟發(fā),但隨后的進(jìn)展主要是因?yàn)榻y(tǒng)計(jì)、建模、大數(shù)據(jù)和功能實(shí)現(xiàn)。

然后第三點(diǎn)它帶來的是一個(gè)思維觀念也就是解決問題方式的改變。過去我們一般先對(duì)數(shù)據(jù)做一些預(yù)處理,然后通過機(jī)器建模的方法去處理數(shù)據(jù),但深度學(xué)習(xí)帶來的一個(gè)改變,就是端到端的學(xué)習(xí),希望把原始數(shù)據(jù)放到系統(tǒng)里,中間每個(gè)步驟都是用學(xué)習(xí)的方法去完成。比如說語音識(shí)別,它分為好幾個(gè)步驟,但這幾個(gè)步驟是不是去一致性的優(yōu)化?不一定。但深度學(xué)習(xí)的目標(biāo)是去一致性的優(yōu)化最終的目標(biāo)的。

第四點(diǎn),也是一個(gè)糾正,就是很多人覺得深度學(xué)習(xí)是一個(gè)黑箱系統(tǒng),覺得你不需要太多的了解,只要去用它就好了。實(shí)際上深度學(xué)習(xí)和機(jī)器學(xué)習(xí)一樣,提供的是一套框架,一套語言系統(tǒng)。什么叫語言系統(tǒng)?比如中文就是一套語言系統(tǒng),你要寫出優(yōu)美的文章至少需要兩個(gè)條件,第一是你要掌握這種語言,第二是你對(duì)生活的感悟。套用在深度學(xué)習(xí)上也有兩個(gè)條件,第一個(gè)就是你要有駕馭這個(gè)模型和計(jì)算的能力,第二個(gè)就是對(duì)問題要有足夠的了解。

我給大家舉一些例子。深度學(xué)習(xí)最成功的一個(gè)例子是卷及神經(jīng)網(wǎng)絡(luò),他確實(shí)和我們對(duì)視覺神經(jīng)系統(tǒng)的了解尤其是早期的視覺皮層細(xì)胞關(guān)系是非常大的。今天我們的深度學(xué)習(xí)已經(jīng)遠(yuǎn)遠(yuǎn)超越這些模型的結(jié)構(gòu)。打個(gè)比方,他們之間為什么不一樣呢?這就好比研究鳥類如何飛行,但深度學(xué)習(xí)是像波音公司研究如何造飛機(jī),本質(zhì)上并不一樣,今天我們的飛機(jī)可以長(zhǎng)得完全不像鳥,更多的是空氣動(dòng)力學(xué)、機(jī)械方面的東西。

從統(tǒng)計(jì)和計(jì)算的角度講,深度學(xué)習(xí)的原因其實(shí)更基礎(chǔ)。一個(gè)機(jī)器學(xué)習(xí)系統(tǒng),我們可能對(duì)它的誤差的每個(gè)來源去做分解,去了解和控制它,從而可以控制整體的預(yù)測(cè)誤差。一般做機(jī)器學(xué)習(xí)我們會(huì)做一些假設(shè),我們知道所有假設(shè)都不是完美的,也就是第一個(gè),模型的不完美。第二個(gè)問題是數(shù)據(jù)的不完美導(dǎo)致的,比如說數(shù)據(jù)是有限的,有偏的;第三個(gè)是計(jì)算的不完美。統(tǒng)計(jì)學(xué)通常關(guān)心前兩個(gè)問題,但在現(xiàn)實(shí)中,比如說我的一個(gè)工程師說,老大,我這個(gè)問題需要五百臺(tái)機(jī)器。我說,扯淡,我最多給你五十臺(tái)。他說,五十臺(tái)的話,我需要算半年。那我說,不行,必須今天晚上算出來。在有限的計(jì)算資源下去處理這樣的問題,我們必須要考慮這種計(jì)算的不完美。

百度研究院副院長(zhǎng)余凱重磅演講:從大數(shù)據(jù)到人工智能

所以我們可以看到,第一我們需要用一個(gè)非常復(fù)雜的模型,去減少這種偏差,第二個(gè)問題我們要用無偏的,也就是大數(shù)據(jù)去彌補(bǔ)。這樣我們得出一個(gè)結(jié)論:深度學(xué)習(xí)跟傳統(tǒng)的人工智能比較,隨著數(shù)據(jù)的增長(zhǎng)能夠吸收數(shù)據(jù)增長(zhǎng)帶來的紅利。傳統(tǒng)人工智能模型可能不夠復(fù)雜,比如是一個(gè)線性模型,數(shù)據(jù)量大了后偏差會(huì)比較大。還有一種可能是模型很好,但計(jì)算的問題無法解決。比如有一種很好的模型,它的計(jì)算復(fù)雜度是N的二次方到三次方,這樣處理一萬個(gè)學(xué)習(xí)樣本和一百萬個(gè)學(xué)習(xí)樣本,需要的計(jì)算資源就至少相差一萬倍。在大數(shù)據(jù)的時(shí)代,這就只能到此為止了。

深度學(xué)習(xí)是一套靈活的、復(fù)雜的語言系統(tǒng)。在不同的問題里會(huì)有不同的語言框架,用不同的結(jié)構(gòu)去處理不同的問題。百度今天在這方面可以說走在相當(dāng)?shù)那懊?,從?guī)模上講,百度可能是世界上第一個(gè)運(yùn)用大規(guī)模的GPU Servers的公司 , 12年的時(shí)候,當(dāng)時(shí)我們就采購(gòu)了世界上最大的采購(gòu)量。

今天我們有五六千臺(tái)的PC Server,超過兩千臺(tái)GPU的Server在一起做這種混合的大規(guī)模的深度學(xué)習(xí)的訓(xùn)練,所以我們現(xiàn)在能夠構(gòu)建這種相當(dāng)大的、千億級(jí)參數(shù)的世界上最大的人工神經(jīng)網(wǎng)絡(luò)。在其他方面很多算法比如語音識(shí)別、圖像識(shí)別、自然語言、廣告、用戶建模等幫助很大。

今天我們已經(jīng)不是停留在研究的層面,而是對(duì)于百度的業(yè)務(wù)比如說搜索、廣告、圖像、語音,因?yàn)樯疃葘W(xué)習(xí)帶來的提升是非常巨大的。在整個(gè)業(yè)務(wù)里扮演的角色也變得更加的智能,一言以蔽之,我們的業(yè)務(wù)模式是連接人和信息,連接人和服務(wù),你如何去理解人的意圖,比如一個(gè)關(guān)鍵詞,一張照片,說一句話,如何匹配用戶需求,如何推送信息和服務(wù)。


深度學(xué)習(xí)的應(yīng)用例子

鳳巢就是一個(gè)用深度學(xué)習(xí)去實(shí)現(xiàn)變現(xiàn)的例子,在過去兩年對(duì)點(diǎn)擊率和搜索滿意度的提升都是巨大的。

再舉一個(gè)例子,我們?nèi)绾?strong>提升搜索的相關(guān)性。它是怎么做的呢?大致的思想是,評(píng)估相關(guān)性過去我們要做很多特征的抽取,今天我們把用戶的查詢和結(jié)果匹配得到一個(gè)分?jǐn)?shù),在神經(jīng)網(wǎng)絡(luò)里進(jìn)行比較,當(dāng)在訓(xùn)練的時(shí)候,我們會(huì)把用戶體現(xiàn)出來的這種偏好給到一個(gè)差異足夠大的分?jǐn)?shù),我用超過一千億的的樣本來訓(xùn)練這個(gè)系統(tǒng),在過去兩年里面導(dǎo)致相關(guān)性有了一個(gè)巨大的提升。

這帶來的相關(guān)性更多的是在語義的理解,尤其是一天中查詢可能不到10次的這種長(zhǎng)尾查詢,這是最考驗(yàn)搜索引擎的能力的,因?yàn)閷?duì)于非常高頻的查詢,每個(gè)搜索引擎可能都差不多。這里有一個(gè)例子是瑪莎拉蒂的一款車車頭如何放車牌,我們過去的系統(tǒng)得到的基本是基于關(guān)鍵詞的匹配,沒有回答這個(gè)問題。我們的合作伙伴(Google)的結(jié)果匹配了“車頭”這個(gè)關(guān)鍵字,但對(duì)語義沒有進(jìn)行進(jìn)一步的理解。我們運(yùn)行了我們這個(gè)模型后,你可以看到查詢的問題是“車頭”、“放置車牌”,但結(jié)果找到了“前牌照怎么裝”,它不是用關(guān)鍵詞來進(jìn)行匹配,而是根據(jù)語義來匹配,這就是深度學(xué)習(xí)帶來的一個(gè)改變。

還有語音識(shí)別的例子。百度的語音識(shí)別實(shí)際從12年開始做,但深度學(xué)習(xí)使得過去陽(yáng)春白雪的東西變成了你用大數(shù)據(jù)就可以做的東西。過去語音識(shí)別從聲學(xué)角度抽取特征,比如頻率特征,將其抽取出來變成一種因素,然后從低層到高層的逐層處理。一開始的時(shí)候我們不關(guān)心它是什么,只是考慮它讀起來是什么樣子的,今天的深度學(xué)習(xí)盡量把中間的步驟變成可以訓(xùn)練的步驟,把中間的步驟變得可學(xué)習(xí),中間沒有過多的人工干預(yù),帶來的好處是用大量的數(shù)據(jù)訓(xùn)練這個(gè)模型。在Benchmark(標(biāo)桿測(cè)試)上我們可以得到一個(gè)非常好的結(jié)果。

另外再給大家看一個(gè)例子,這是運(yùn)單手寫電話號(hào)碼的識(shí)別,過去我們一開始是做檢測(cè)、切割,切割以后把每一個(gè)數(shù)字切割出來做識(shí)別,但像這個(gè)例子,你會(huì)發(fā)現(xiàn)是沒法做分割的,那你只能把它做成一個(gè)一體的的解碼。這反映的就是深度學(xué)習(xí)給我們帶來的不是一個(gè)黑盒,而是一個(gè)很豐富的語言系統(tǒng),我們希望對(duì)這些問題有足夠理解,然后去開發(fā)最適合它的模型。

我剛才提到了圖片的識(shí)別,加上字符的識(shí)別,加上語音的識(shí)別,加上機(jī)器的翻譯,那百度可以做出這樣的產(chǎn)品,比如今天中國(guó)人到紐約的街頭可以問:“附近哪里有川菜館?”你用中文說了后識(shí)別成中文,然后翻譯成英文讀出來。我們可以不斷優(yōu)化這個(gè)事情,在幾年的時(shí)間里可以變成現(xiàn)實(shí),那么中國(guó)的小朋友們就可以更多時(shí)間去玩,更少時(shí)間用在學(xué)無聊的英語上了(觀眾笑)。當(dāng)然還有拍照。這是我的一個(gè)好朋友,NYU的一個(gè)教授到上海,他用這個(gè)產(chǎn)品點(diǎn)菜,看菜單他就不擔(dān)心這個(gè)東西是不是鳳爪之類他不敢吃的東西。

我們?cè)倏戳硗庖粋€(gè)例子就是圖片識(shí)別。13年的時(shí)候,中國(guó)移動(dòng)互聯(lián)網(wǎng)有一個(gè)爆發(fā)的應(yīng)用就是百度魔圖,就是普通人可以拍張照,然后系統(tǒng)會(huì)告訴你長(zhǎng)得最像哪個(gè)大咖。我們這個(gè)產(chǎn)品在連續(xù)三周在iOS總榜排名第一,最多的時(shí)候一天900萬人上傳照片,我們一下子收集了好多人臉照片(觀眾笑)。至今這也是百度移動(dòng)產(chǎn)品的記錄。

很多高科技公司都會(huì)參加一個(gè)IFW競(jìng)賽,也就是人臉識(shí)別的測(cè)評(píng),它是怎樣的呢?就是一些照片,系統(tǒng)要判斷這是屬于同一個(gè)人還是不同的人。去年Facebook宣稱他們?nèi)〉昧俗詈玫慕Y(jié)果。但不同的公司也在不斷的PK,目前來講最好的結(jié)果是百度的(誤差率約0.15%),這個(gè)結(jié)果現(xiàn)在到了什么情況呢?有人讓人來參加了這個(gè)評(píng)估,結(jié)果大概是在這個(gè)地方(誤差約0.35%),也就是說機(jī)器可能比人還要好。當(dāng)然這只是一個(gè)具體的任務(wù)上,機(jī)器的表現(xiàn)比人好,不代表整個(gè)人工智能能達(dá)到人的地步。

還有一個(gè)很有意思的ImageNet,也就是圖像識(shí)別分類的競(jìng)賽。不同行業(yè)的人可能不一定感觸到,但我們這個(gè)行業(yè)能聽到轟隆隆的雷聲,是由于大數(shù)據(jù),由于深度學(xué)習(xí)在發(fā)生非??斓倪M(jìn)展。ImageNet做的是圖片的分類,過去五年里,我們可以看到錯(cuò)誤率在不斷下降,10年的第一屆,我的這個(gè)團(tuán)隊(duì)是拿了第一名,后面每年結(jié)果都在變化,去年最好的結(jié)果是我們?cè)诎俣鹊耐伦龅?,斯坦福同樣也做了一個(gè)評(píng)估,看人類來做這個(gè)測(cè)試結(jié)果會(huì)是怎樣。

百度研究院副院長(zhǎng)余凱重磅演講:從大數(shù)據(jù)到人工智能

(ImageNet)微軟在今年1月份發(fā)布的結(jié)果超過了百度,前段時(shí)間Google的同事的結(jié)果又比微軟好,上個(gè)禮拜,我同事和我說,我們的結(jié)果比Google還好。所以這個(gè)競(jìng)爭(zhēng)很有意思,很多年后我們?cè)倩叵刖陀X得,我們這些不同公司的研究人員就像一個(gè)班上的同學(xué)一起PK,一起分享經(jīng)驗(yàn),實(shí)際是在一起推動(dòng)行業(yè)的發(fā)展的。

OK,圖像的理解始終是和我們?nèi)祟悓?duì)知識(shí)的理解以及語言總是能夠耦合在一起的,那怎么把這個(gè)事情做得更加有意思呢?我們?cè)谛r(shí)候可能做過“看圖說話”,用語言來描述這幅圖像,比如這幅圖,用中文描述就是“起居室里有著百色的沙發(fā)和藍(lán)色的地毯,下午的陽(yáng)光照進(jìn)房間”。這樣的描述實(shí)際上是由機(jī)器來完成的。這是去年百度的研究人員最早在世界上發(fā)表了這樣的論文,后來Google等都發(fā)表了類似的論文,也引用了我們的研究結(jié)果。

我們現(xiàn)在也在做一些中文的描述,比如說這個(gè)例子:“一輛雙層巴士行駛在街道上”。我們可以做什么呢?比如說做圖像識(shí)別,我們?nèi)フ翌愃频膱D片,得出來的圖像可能是這樣的(一些街景),因?yàn)檫@個(gè)圖像它的主要內(nèi)容是建筑和街道。但如果我們用自然語言來描述這個(gè)場(chǎng)景,我們的出來的類似圖片是不一樣的。我們?cè)诎俣热绾斡米匀徽Z言描述去提升我們對(duì)圖像的理解,它背后的模型再度驗(yàn)證了我剛才的一個(gè)觀點(diǎn):深度學(xué)習(xí)實(shí)際提供的是一個(gè)語言系統(tǒng),對(duì)于一個(gè)具體的問題,你要有能力去構(gòu)建模型,模擬這樣一個(gè)問題。這樣一個(gè)例子就是下面是一個(gè)深度的卷積神經(jīng)網(wǎng)絡(luò),它產(chǎn)生的一個(gè)表示,上面是一個(gè)多層的神經(jīng)網(wǎng)絡(luò)去產(chǎn)生語言的模型。這樣的結(jié)果就是,它既是符合我們語義的語言,同時(shí)也反映了圖像的內(nèi)容。

我們?cè)龠M(jìn)一步去想:我們可以去做一些更加像人類做的事情。比如說對(duì)這樣一個(gè)圖像,我們可以去教小孩,去學(xué)習(xí)一些東西。這樣的圖像,機(jī)器可能會(huì)問小孩:他站在什么上?“他”是單人旁的他,而不是女字旁的“她”哦。我們也希望機(jī)器能回答這個(gè)問題,根據(jù)圖片本身的像素,根據(jù)本身的問題能夠回答:他站在沖浪板上。機(jī)器可能還會(huì)繼續(xù)問:那他有穿上衣嗎?然后機(jī)器可以回答:沒有。這都是今天的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)根據(jù)圖片內(nèi)容自動(dòng)生成的。它已經(jīng)超越了我們過去的圖像識(shí)別,也就是“你有什么東西”,變成了“你有什么樣的語義”和“你有什么樣的關(guān)系”。

對(duì)未來機(jī)器人、自動(dòng)駕駛、人工智能的思考

這里回到一個(gè)我們對(duì)人工智能目前的現(xiàn)狀和未來的一個(gè)思考:過去的互聯(lián)網(wǎng)服務(wù),它做的事情也有幾個(gè)方面,一個(gè)是感知,另外一個(gè)理解,還有一個(gè)決策。感知就是獲取數(shù)據(jù),經(jīng)過大規(guī)模的計(jì)算,比如處理,索引,然后在決策的時(shí)候能展示什么樣的結(jié)果和服務(wù)。這些所有都是線上的。今天移動(dòng)互聯(lián)網(wǎng)與人更近,它和你所處的場(chǎng)景有關(guān)系。從感知的角度講我們要從人,從物理世界獲得信息,這種線下信息可能比互聯(lián)網(wǎng)世界更加重要。從服務(wù)的角度,以前是線上的服務(wù),它會(huì)向線下延伸,向傳統(tǒng)行業(yè)延伸。像智能硬件、自動(dòng)駕駛、機(jī)器人,會(huì)在未來扮演更加重要的角色。

這是我們?cè)诤芏嘀悄苡布献龅囊恍﹪L試(展示一個(gè)自動(dòng)駕駛視頻),未來可能是用各種傳感器武裝到牙齒。為什么你要在中國(guó)做自動(dòng)駕駛呢?這當(dāng)中有的是純技術(shù)問題,有的是國(guó)情的。我跟同事有時(shí)開玩笑說,我們?cè)谥袊?guó)做自動(dòng)駕駛,這個(gè)技術(shù)一定是全世界的,但Google在美國(guó)做的技術(shù)一定不是全世界的,它不能處理中國(guó)式的過馬路,它不能處理我們的井蓋被撬掉(觀眾笑)。因?yàn)槿斯ぶ悄苁腔诖髷?shù)據(jù)的智能,沒有這些數(shù)據(jù)你是絕對(duì)不敢做的。我們?cè)谶@樣環(huán)境下開發(fā)出來的技術(shù)一定是放之四海而皆準(zhǔn)的。

這是基于圖像的這種實(shí)時(shí)的道路場(chǎng)景的理解、融合、深度學(xué)習(xí)的技術(shù),我們對(duì)交通標(biāo)志、道路線、對(duì)車輛、對(duì)標(biāo)示都要做到實(shí)時(shí)的識(shí)別。今天我們可以做到什么程度呢?這方面的一個(gè)Benchmark,我們可以看到第一名和第二名都是百度的,而且比第三名的結(jié)果好非常多。這是我們用一個(gè)沒有訓(xùn)練的人去標(biāo)識(shí)數(shù)據(jù)(交通場(chǎng)景圖片),我們會(huì)發(fā)現(xiàn)機(jī)器做得比人還要好。比如說這個(gè)人和交通標(biāo)志遮住了后面的車,只露出一小部分,人沒法意識(shí)這個(gè)車的存在,但機(jī)器可以識(shí)別。這樣基于傳感器去駕駛可能會(huì)更加的安全。前段時(shí)間Elon Musk說,未來人類開車是違法的,這個(gè)有可能成為現(xiàn)實(shí)。

這是對(duì)車道的一個(gè)理解。剛才講的我們?yōu)槭裁匆龆ㄎ荒兀课覀冇幸粋€(gè)現(xiàn)實(shí)的目標(biāo),就是做一個(gè)基于實(shí)時(shí)場(chǎng)景的增強(qiáng)現(xiàn)實(shí)導(dǎo)航系統(tǒng),在北京開過車的人可能知道,那么多主路輔路,比如說西直門立交就基本就和中國(guó)聯(lián)通的Logo一樣了?;趯?shí)時(shí)場(chǎng)景的增強(qiáng)現(xiàn)實(shí)導(dǎo)航系統(tǒng),它比基于語音的 導(dǎo)航或者基于二維的地圖導(dǎo)航更加場(chǎng)景化。我們認(rèn)為自動(dòng)駕駛應(yīng)該是一個(gè)漸進(jìn)式的過程,從輔助駕駛到主動(dòng)安全,到限定條件下的自動(dòng)駕駛,到高度自動(dòng)駕駛,在每一步都會(huì)有商業(yè)機(jī)會(huì)。我們要構(gòu)造的不是一個(gè)取代人的系統(tǒng),而是一個(gè)人車一體的系統(tǒng)。任何車的關(guān)系就像人和馬一樣,但馬是可以控制的。

最后我想總結(jié)一下,我們認(rèn)為在5-10年里,下面三件事情一定會(huì)成為必然:第一個(gè)是所有設(shè)備都有智能傳感器,第二是所有設(shè)備它一定都有云端大腦,第三是所有設(shè)備從單一功能的設(shè)備變成連接人和服務(wù)的節(jié)點(diǎn)。我們可以看到手機(jī)經(jīng)歷了這個(gè)過程,過去手機(jī)就是打電話,今天的手機(jī),你一天打幾個(gè)電話啊。從這個(gè)角度講,所有設(shè)備最后都會(huì)成為一個(gè)廣義的機(jī)器人系統(tǒng):它都有感知,都有理解,都有決策。

我們技術(shù)人員常常覺得,將機(jī)器變得非常強(qiáng)大是一件很酷的事情,但實(shí)際上這并沒有產(chǎn)生巨大的價(jià)值。像以前的深藍(lán),在一個(gè)場(chǎng)景下可能比人做得還好,但并沒有這個(gè)世界產(chǎn)生更多的影響。而像Google和百度這樣的搜索引擎,它拉近了人和信息的距離,它產(chǎn)生的巨大社會(huì)價(jià)值,才能夠去實(shí)現(xiàn)巨大的商業(yè)價(jià)值。這種技術(shù)的偉大,不在于讓機(jī)器更偉大,而在于讓每個(gè)平凡者變得有創(chuàng)造性,變得更偉大。

這句話大家都很熟悉,我改了一下:世界是我們的,也是機(jī)器人的,但是歸根到底是屬于會(huì)控制機(jī)器人的人的。謝謝大家!

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

百度研究院副院長(zhǎng)余凱重磅演講:從大數(shù)據(jù)到人工智能

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說