日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

微軟亞洲研究院資深研究員梅濤:原來(lái)視頻可以這么玩了! | CCF-GAIR 2017

本文作者: 汪思穎 編輯:郭奕欣 2017-07-10 11:11 專(zhuān)題:GAIR 2017
導(dǎo)語(yǔ):視頻也可以像美圖一樣玩了。

7月9日,由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的CCF-GAIR 2017全球人工智能與機(jī)器人峰會(huì)進(jìn)入了第三天。在CV+專(zhuān)場(chǎng)首場(chǎng),微軟亞洲研究院資深研究員梅濤博士為大會(huì)帶來(lái)了題為《Video Content 3C: Creation, Curation, Consumption》的分享,即視頻的創(chuàng)造、處理和消費(fèi)。雷鋒網(wǎng)對(duì)梅濤博士的演講內(nèi)容梳理如下:

微軟亞洲研究院資深研究員梅濤:原來(lái)視頻可以這么玩了! | CCF-GAIR 2017

為什么要講視頻的內(nèi)容,梅濤博士提到如下幾點(diǎn)。

  • 一,視頻跟圖像相比信息更豐富,處理起來(lái)也更富挑戰(zhàn)性;

  • 二,大家近來(lái)看到比較多的是視覺(jué)領(lǐng)域比如人臉、安防方面的進(jìn)展,而視頻(尤其是短視頻)相對(duì)來(lái)說(shuō)是比較嶄新的領(lǐng)域;

  • 三,他本人從事視頻分析的研究和產(chǎn)品已經(jīng)十多年了,在這十幾年里,幾乎人人都說(shuō)視頻是下一個(gè)風(fēng)口,今天看來(lái)這個(gè)說(shuō)法似乎也是成立的。

在傳統(tǒng)的視覺(jué)理解的方法里,要做視覺(jué)問(wèn)題基本上分三個(gè)步驟:

  • 第一,理解一個(gè)物體,比如說(shuō)識(shí)別一個(gè)桌子,首先要檢測(cè)一個(gè)關(guān)鍵點(diǎn)(比如角、邊、面等);

  • 第二,人為設(shè)計(jì)一些特征來(lái)描述這些點(diǎn)的視覺(jué)屬性;

  • 第三,采用一些分類(lèi)器將這些人為設(shè)計(jì)的特征作為輸入進(jìn)行分類(lèi)和識(shí)別。

“現(xiàn)在的深度學(xué)習(xí),尤其是在2012開(kāi)始,圖像理解的錯(cuò)誤率在不斷降低,深度神經(jīng)網(wǎng)絡(luò)也從最早的8層到20多層,到現(xiàn)在能達(dá)到152層。我們最新的工作也表明,視頻理解的深度神經(jīng)網(wǎng)絡(luò)也可以從2015年3D CNN的11層做到現(xiàn)在的199層?!?/p>

梅濤博士也在演講中表示,視頻內(nèi)容的生命周期大致可以分為三個(gè)部分,即視頻的創(chuàng)作、處理和消費(fèi):

creation

要討論視頻的創(chuàng)作,這里面涉及到一個(gè)基本概念,那就是視頻的產(chǎn)生原理?!癡ideo的產(chǎn)生是先把Video切成一個(gè)一個(gè)的鏡頭,可以看成是一個(gè)一個(gè)斷碼,然后每一個(gè)鏡頭再組合編成一個(gè)故事或場(chǎng)景,每一個(gè)鏡頭還可以再細(xì)成子鏡頭,每個(gè)子鏡頭可以用一個(gè)關(guān)鍵幀來(lái)代表。通過(guò)這種分層式結(jié)構(gòu)可以把一段非線性的視頻流像切分文章一樣進(jìn)行結(jié)構(gòu)化,這種結(jié)構(gòu)化是后面做視頻處理和分析的基礎(chǔ)。通過(guò)這種結(jié)構(gòu)化將視頻分解成不同的單元,就可以做視頻的自動(dòng)摘要,即將一段長(zhǎng)視頻自動(dòng)剪輯為精彩的短視頻,或?qū)⒁欢伍L(zhǎng)視頻用一些具有高度視覺(jué)代表性的關(guān)鍵幀表示。這些摘要使得用戶對(duì)長(zhǎng)視頻的非線性快速瀏覽成為可能?!?/p>

梅濤博士表示,微軟目前將視頻摘要的技術(shù)用在了Bing的視頻搜索里,現(xiàn)在全世界有八百萬(wàn)的Bing用戶通過(guò)一種叫multi-thumb的技術(shù),可以快速預(yù)覽每一個(gè)視頻搜索結(jié)果。

此外,微軟研究院研發(fā)的PIX是一個(gè)全新的相機(jī)app,它可以在你按下拍攝按鍵的同時(shí)就對(duì)拍攝的視頻進(jìn)行實(shí)時(shí)處理,可以將一段抖動(dòng)的視頻變得平穩(wěn),還可以自動(dòng)判斷視頻中靜止和動(dòng)態(tài)的像素,生成 loopy video animation。

curation

當(dāng)用戶有了視頻之后,研究者要做的事情是給視頻片段打上標(biāo)簽,這樣后面的搜索就可以基于標(biāo)簽搜到視頻的內(nèi)容里面去?!拔覀冏罱墓ぷ骺梢詫?duì)視頻內(nèi)容打上1000多個(gè)靜態(tài)標(biāo)簽和超過(guò)500個(gè)以上的動(dòng)作標(biāo)簽。我們?cè)O(shè)計(jì)的P3D(pseudo 3D resent)是專(zhuān)門(mén)為視頻內(nèi)容理解而精心設(shè)計(jì)的3D殘差網(wǎng)絡(luò)?!?/p>

做圖像分析目前最好的深度神經(jīng)網(wǎng)絡(luò)是微軟亞洲研究院在2015年提出的152層的殘差網(wǎng)絡(luò)(ResNet),目前最深可以做到1000層。但是在視頻領(lǐng)域,專(zhuān)門(mén)為視頻設(shè)計(jì)的最有效的3D CNN目前才11層。為了解決這一問(wèn)題,梅濤博士表示,團(tuán)隊(duì)最近借用ResNet的思想,將3D CNN的層數(shù)做到了199,識(shí)別率能在UCF 101數(shù)據(jù)集上比之前的3D CNN提高6到7個(gè)百分點(diǎn)。這一對(duì)視頻進(jìn)行自動(dòng)標(biāo)簽的技術(shù),將會(huì)被使用在微軟的Azure云服務(wù)中。

實(shí)現(xiàn)了視頻自動(dòng)標(biāo)簽技術(shù)外,梅濤博士還闡述了團(tuán)隊(duì)“更進(jìn)一步”的研究工作:用一段連貫通順的自然語(yǔ)言,而不是孤立的單個(gè)標(biāo)簽,來(lái)描述一段視頻內(nèi)容。

“比如給定這段視頻,我們能不能生成一句話來(lái)描述這個(gè)Video?以前我們說(shuō)這個(gè)Video是一個(gè)舞蹈,現(xiàn)在可以告訴你這是一群人在跳一段什么舞蹈,這個(gè)技術(shù)就叫Video Captioning。這個(gè)技術(shù)使得自動(dòng)生成視頻的標(biāo)題成為可能?!?/p>

微軟亞洲研究院目前把這個(gè)技術(shù)用在了聊天機(jī)器人的自動(dòng)評(píng)價(jià)功能里,例如微軟小冰,當(dāng)用戶上傳視頻給小冰,它會(huì)夸贊對(duì)方。在這個(gè)技術(shù)上線一個(gè)月后,小冰在某視頻網(wǎng)站上的粉絲數(shù)漲了60%。當(dāng)然,小冰現(xiàn)在還可以根據(jù)圖片內(nèi)容寫(xiě)現(xiàn)代詩(shī),將來(lái)我們希望小冰能夠根據(jù)視頻來(lái)寫(xiě)詩(shī)。

“我們也可以將Video進(jìn)行編輯,加上濾鏡,或是做風(fēng)格的轉(zhuǎn)換,把自然的Video變得非常卡通。Video中的人物分割出來(lái)可以放到另外一個(gè)虛擬的場(chǎng)景里面去。你可以想象,當(dāng)兩個(gè)人在異地談戀愛(ài)的時(shí)候,我們能夠給他一個(gè)房間,讓他們?cè)谕粋€(gè)房間里、在星空下、在安靜湖面上的一艘小船上進(jìn)行聊天。

另外,我們也可以提供storytelling的服務(wù),讓原始的、沒(méi)有經(jīng)過(guò)任何編輯和處理的image、video集合變成一段非常吸引人的、有一定設(shè)計(jì)感和視覺(jué)感的故事,這段視頻demo就是機(jī)器自動(dòng)產(chǎn)生的效果。加上人工的處理,視頻就可以變得更加時(shí)尚?!?/p>

consumption

視頻的消費(fèi)往往和廣告緊密相關(guān)。梅濤提到,做Video廣告有兩個(gè)問(wèn)題需要解決:第一個(gè)問(wèn)題是廣告到底放在Video的什么位置;第二個(gè)問(wèn)題是選什么樣的廣告,這個(gè)廣告跟你插入點(diǎn)的信息是不是相關(guān),使得用戶接受度更加好。

他們的解決方案是將Video進(jìn)行分解,并計(jì)算出兩種度量,一個(gè)是discontinuity,衡量一個(gè)廣告插入點(diǎn)的故事情節(jié)是否連續(xù);另一個(gè)是attractiveness,衡量一段原始視頻的內(nèi)容是否精彩。對(duì)這兩種度量進(jìn)行不同的組合就可以滿足符合廣告商(advertiser)或用戶(viewer)的需求。

最后梅濤總結(jié)道,在做科研的人看來(lái),AI也好,深度學(xué)習(xí)也好,落地都有很長(zhǎng)的路要走?!半m然計(jì)算機(jī)視覺(jué)已經(jīng)發(fā)展了50多年,雖然現(xiàn)在AI炒的很火熱,但做科研和技術(shù)的,還是要腳踏實(shí)地去解決一個(gè)個(gè)的場(chǎng)景和一個(gè)個(gè)底層的基礎(chǔ)難題?!?/p>

雷鋒網(wǎng)AI科技評(píng)論原創(chuàng)文章,更多詳細(xì)的演講內(nèi)容參見(jiàn)雷鋒網(wǎng)AI科技評(píng)論后續(xù)報(bào)道。

微軟亞洲研究院資深研究員梅濤:原來(lái)視頻可以這么玩了! | CCF-GAIR 2017

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

微軟亞洲研究院資深研究員梅濤:原來(lái)視頻可以這么玩了! | CCF-GAIR 2017

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)