日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
新鮮 正文
發(fā)私信給溫曉樺
發(fā)送

11

人工智能下一個技術(shù)壁壘:理解周圍世界

本文作者: 溫曉樺 2016-01-29 08:35
導(dǎo)語:未來,使用Visual Genome的案例訓(xùn)練出來的算法不只是能夠識別物體,還應(yīng)該擁有對更復(fù)雜視覺場景的分析能力。

人工智能下一個技術(shù)壁壘:理解周圍世界

幾年前,人工智能技術(shù)之機器學(xué)習(xí)有了一項重大的突破:能夠識別圖片中的事物,而且準(zhǔn)確率極高。而目前該技術(shù)的瓶頸在于,機器能否理解圖片中事物蘊含的意義。

一個名叫Visual Genome的新圖像數(shù)據(jù)庫或?qū)⑼苿佑嬎銠C實現(xiàn)此目標(biāo),并幫助測量計算機在理解真實世界進程中獲得的進步。教導(dǎo)計算機分析視覺場景是人工智能的根本。這不僅將產(chǎn)生更多有用的視覺算法, 而且能夠幫助訓(xùn)練計算機更有效地進行交流。因為,語言與物質(zhì)世界的表現(xiàn)具有非常緊密的聯(lián)系。

Visual Genome由專門從事計算機視覺研究的教授以及斯坦福大學(xué)人工智能實驗室主任李菲菲(音譯)與幾位同事合作開發(fā)。“我們關(guān)注計算機視覺中最困難的問題,它們是連接從感知到認(rèn)知的橋梁。”李菲菲表示,“不只是輸入像數(shù)數(shù)據(jù)然后識別顏色、陰影等這類要素,而是真正將其轉(zhuǎn)化成3D的認(rèn)識,以及對完整的視覺語義世界的理解?!?/p>

人工智能下一個技術(shù)壁壘:理解周圍世界

李菲菲和同事曾創(chuàng)立ImageNet,一個包含了超過100萬張帶有內(nèi)容標(biāo)記的圖片的數(shù)據(jù)庫。每一年的ImageNet大型視覺識別挑戰(zhàn)賽,就是使用這個數(shù)據(jù)庫來測試計算機自動識別圖像內(nèi)容的能力。最近一次ImageNet大賽是在2015年12月,微軟憑借多達152層的深層神經(jīng)網(wǎng)絡(luò)獲勝。

計算機視覺革命是一場持久的斗爭。2012年,這項技術(shù)迎來了關(guān)鍵的轉(zhuǎn)折點,那時加拿大多倫多大學(xué)贏得了ImageNet比賽,他們使用非監(jiān)督的逐層貪心訓(xùn)練算法成功讓機器基于目前最大的圖像數(shù)據(jù)庫進行分類識別,而不是依靠人為制定的規(guī)則。多倫多團隊的成就標(biāo)志著深度學(xué)習(xí)的繁榮以及更普遍人工智能的復(fù)興。深度學(xué)習(xí)已經(jīng)在許多其它領(lǐng)域得到了應(yīng)用,也讓計算機能更好地處理其它重要任務(wù),比如音頻和文本處理。

多倫多大學(xué)團隊的成就標(biāo)志著深度學(xué)習(xí)研究的熱潮興起,以及人工智能的復(fù)興。深度學(xué)習(xí)開始應(yīng)用于多個領(lǐng)域,使得計算機在執(zhí)行音頻和文本處理等任務(wù)時變得越來越能干。

Visual Genome圖像的標(biāo)記比ImageNet更多,包括圖像中各種物體的名稱和細(xì)節(jié)、這些物體之間的關(guān)系以及正在發(fā)生的動作蘊含的信息等等。這些識別標(biāo)記是使用眾包方式完成的,該技術(shù)由李菲菲的斯坦福同事Michael Bernstein開發(fā)。

未來,使用Visual Genome的案例訓(xùn)練出來的算法不只是能夠識別物體,還應(yīng)該擁有對更復(fù)雜視覺場景的分析能力。

何為場景分析?李菲菲說道:“一個人坐在一間辦公室內(nèi),但是什么樣的布局,里面的人是誰,他在做什么,周圍有什么擺設(shè),當(dāng)時正發(fā)生什么事?——我們需要將感知、認(rèn)知與語言相連接?!?/p>

而這些技術(shù)最終可以應(yīng)用中方方面面,比如除了在線圖片管理等較簡單的應(yīng)用,它還可以用于幫助機器人或自動駕駛汽車更精確地識別周圍場景。它們可以指導(dǎo)計算機理解物質(zhì)世界,從而獲得更多的常識。

機器學(xué)習(xí)專家兼人工智能初創(chuàng)公司MetaMind創(chuàng)始人Richard Sochar表示,語言很大程度上是關(guān)于描述視覺世界的。
Visual Genome并不是唯一一個面向人工智能研究的圖像數(shù)據(jù)庫。比如,微軟也有一個名叫Common Objects in Context的數(shù)據(jù)庫,同時,谷歌、Facebook和其它公司也在加強人工智能算法分析視覺場景的能力。

via technologyreview

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說