重塑技術(shù)與商業(yè)模態(tài)，「智慧城市·視覺智能」專場回顧｜CCF-GAIR 2019

本文作者：張瑞

2019-07-16 14:29

專題：CCF-GAIR 2019

導(dǎo)語：7月14日，2019第四屆全球人工智能與機(jī)器人峰會（CCF-GAIR 2019）之「智慧城市·視覺智能」專場正式拉開帷幕。

編者按：7月12日-7月14日，2019第四屆全球人工智能與機(jī)器人峰會（CCF-GAIR 2019）于深圳正式召開。峰會由中國計(jì)算機(jī)學(xué)會（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）承辦，深圳市人工智能與機(jī)器人研究院協(xié)辦，得到了深圳市政府的大力指導(dǎo)，是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流博覽盛會，旨在打造國內(nèi)人工智能領(lǐng)域極具實(shí)力的跨界交流合作平臺。

7月14日，「智慧城市·視覺智能」專場正式拉開帷幕。本專場全面圍繞“未來城市級視覺AI的發(fā)展方向”這一主題展開。

其中，騰訊賈佳亞、曠視孫劍、商湯王曉剛、云從溫浩、澎思申省梅、加州大學(xué)洛杉磯分校Demetri Terzopoulos、千視通胡大鵬，從產(chǎn)學(xué)交叉的視角，提出了新的視覺智能技術(shù)研究方向與產(chǎn)品化方法論。

以下是本次大會的精彩回顧：

騰訊賈佳亞：《人工智能的多模態(tài)發(fā)展》

重塑技術(shù)與商業(yè)模態(tài)，「智慧城市·視覺智能」專場回顧｜CCF-GAIR 2019

騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合負(fù)責(zé)人賈佳亞教授

人工智能的終極應(yīng)用離我們還有多久？

賈佳亞在演講中提出了這個(gè)問題，他給出的答案是可能還需要50-100年的發(fā)展路徑。

而人工智能學(xué)科發(fā)展與人類智能差距之一就是“多模態(tài)信息的智能化理解”。

人造信息量帶來了更大多樣性，視覺、聲音、符號語言、嗅覺和觸覺等信息，具有無限多樣性。

而多模態(tài)人工智能還存在不少基礎(chǔ)難點(diǎn)：第一是數(shù)據(jù)模態(tài)多種多樣，包括2D圖像、3D模型、結(jié)構(gòu)化信息、文本、聲音及更多無法量化的數(shù)據(jù)；第二是多模態(tài)數(shù)據(jù)的不對應(yīng)，如從圖像到文字，從文字到圖像，都是“一對多”的過程，會有多種的描述和呈現(xiàn)；第三是多模態(tài)數(shù)據(jù)的融合，一個(gè)軟件或算法的進(jìn)步較為容易，但多個(gè)算法一起，難度將幾何級上升，如“告訴機(jī)器人拿桌子左邊的瓶子”，會經(jīng)過語言模型、三維建模、自動尋路、圖像分析這些步驟；第四是多模態(tài)監(jiān)督，“如何告訴機(jī)器人拿錯(cuò)了”“哪一步驟拿錯(cuò)了”也是目前的難點(diǎn)。

而要解決這些多模態(tài)信息的難題，賈佳亞提出要更好研究嗅覺、味覺、觸覺、心理學(xué)等難以量化的信號問題，通過多模態(tài)數(shù)據(jù)使得計(jì)算成為可能，進(jìn)行協(xié)同學(xué)習(xí)、用一個(gè)資源豐富的模態(tài)信息輔助另一個(gè)資源貧瘠的模態(tài)。

多模態(tài)人工智能問題的解決，就會是人工智能更多落地的未來。

商湯王曉剛：《從學(xué)術(shù)到產(chǎn)業(yè)化的人工智能》

商湯科技聯(lián)合創(chuàng)始人、研究院院長王曉剛

王曉剛則回顧了人臉識別從學(xué)術(shù)到工業(yè)界逐步的進(jìn)步，以及人臉識別在智慧城市、智慧通行、手機(jī)、AR、游戲等具體場景的應(yīng)用。

王曉剛提出計(jì)算機(jī)視覺的研究有幾個(gè)重要的層次：

一是基礎(chǔ)層，包括芯片、AI超算平臺、深度學(xué)習(xí)平臺、AI平臺等基礎(chǔ)方面的研究，目前西方尤其是美國領(lǐng)先；二是應(yīng)用層，其中中國有很多豐富的場景，能給予反饋，是我國擅長的領(lǐng)域；三是工具鏈層，未來需要面臨的課題是如何讓普通的開發(fā)者、公測人員根據(jù)工具鏈迅速開發(fā)出人工智能的解決方案，使其生產(chǎn)力釋放出來。

而商湯以往、現(xiàn)在以及未來持續(xù)會做的就是，在算法精度不斷提升的前提下，拓展智慧城市從1到N的業(yè)務(wù)邊界、促進(jìn)2D的感知到3D世界的落地，以及現(xiàn)實(shí)到虛擬現(xiàn)實(shí)的融合。

2014年商湯團(tuán)隊(duì)發(fā)表DeepID系列人臉識別算法，使其全球首次超過人眼識別率，人臉識別超越肉眼突破工業(yè)應(yīng)用紅線，之后隨著技術(shù)的持續(xù)進(jìn)步，業(yè)務(wù)也不斷突破邊界，從相對簡單的1：1識別，向1：N進(jìn)發(fā)。

王曉剛列舉了數(shù)據(jù)，在門禁、閘機(jī)等通行場景中，一棟大樓或公司有1、2萬人的數(shù)據(jù)庫，智慧城市的數(shù)據(jù)庫可能達(dá)到幾十萬的量級。商湯所做的就是從幾萬到幾十萬人中識別和分析所需要找的人與物。隨著場景不斷的拓展，王曉剛認(rèn)為人臉會逐漸成為人的身份標(biāo)志。

另外，在3D的應(yīng)用上，商湯的3D人臉識別方案也已經(jīng)在很多手機(jī)上得到應(yīng)用。王曉剛現(xiàn)場展示了手機(jī)上通過3D攝像頭拍攝的人臉、物體以及人體圖像進(jìn)行3D重建，未來2D的相冊還能拓展到3D相冊。人體的跟蹤上也從2D延伸到3D，目前商湯已將其應(yīng)用于體感游戲。

云從溫浩：《泛在智能城市下的人機(jī)協(xié)同平臺》

重塑技術(shù)與商業(yè)模態(tài)，「智慧城市·視覺智能」專場回顧｜CCF-GAIR 2019 云從科技聯(lián)合創(chuàng)始人溫浩

人工智能如何落地？

溫浩提出一定要構(gòu)建“感知、認(rèn)知、決策”的智能經(jīng)濟(jì)的AI閉環(huán)。創(chuàng)業(yè)公司必須感知、認(rèn)知、決策環(huán)節(jié)都涉及。

而場景上，可分為邊緣場景和云端場景，但邊緣場景和云端要根據(jù)場景進(jìn)行智能的分配。

邊緣端和終端承載需要本地實(shí)時(shí)響應(yīng)的推理任務(wù)，并獨(dú)立完成數(shù)據(jù)收集、環(huán)境感知、人機(jī)交互以及部分決策控制。邊緣端如自動駕駛場景中，斷網(wǎng)下進(jìn)行獨(dú)立的本地處理；智能安防中，要對超大數(shù)據(jù)量本地處理；移動互聯(lián)網(wǎng)場景，要保證低功耗和數(shù)據(jù)安全；智能家居和智能制造場景，要求異構(gòu)和實(shí)時(shí)響應(yīng)。

云端則負(fù)責(zé)承載智能數(shù)據(jù)分析、模型訓(xùn)練和部分對傳輸帶寬要求不高的推理任務(wù)。

溫浩認(rèn)為，目前AI還并不成熟，很多產(chǎn)業(yè)中的需求也很多樣。而為了解決這一問題，應(yīng)該實(shí)現(xiàn)“人機(jī)協(xié)同”。

人機(jī)協(xié)同有幾個(gè)階段，第一是要做人機(jī)交互，首先讓機(jī)器知道你是誰，這就是為什么要先做人臉識別的原因。

第二步做人機(jī)融合，如銀行的產(chǎn)品經(jīng)理，只能設(shè)計(jì)十幾種產(chǎn)品，但基于大數(shù)據(jù)和AI，他可以針對每個(gè)小微企業(yè)設(shè)計(jì)成百上千種AI的金融產(chǎn)品。

然后是人機(jī)共創(chuàng)，未來就可以創(chuàng)造一些新的場景、新的業(yè)務(wù)，新的服務(wù)、新的流程。如零售門店可以進(jìn)行二次陳列，和精準(zhǔn)引流，這就是人機(jī)共創(chuàng)。

曠視孫劍：《深度學(xué)習(xí)變革視覺計(jì)算》

重塑技術(shù)與商業(yè)模態(tài)，「智慧城市·視覺智能」專場回顧｜CCF-GAIR 2019

曠視首席科學(xué)家孫劍

曠視首席科學(xué)家孫劍從視覺智能、計(jì)算機(jī)攝影學(xué)以及視覺計(jì)算等方面介紹了計(jì)算機(jī)視覺研究領(lǐng)域的變革。

孫劍也回顧了深度學(xué)習(xí)發(fā)展的歷史。他介紹道，深度學(xué)習(xí)發(fā)展到今天并不容易，過程中遇到兩個(gè)障礙：

第一，深度神經(jīng)網(wǎng)絡(luò)能否很好的被訓(xùn)練，在今天深度學(xué)習(xí)成功之前被很多人懷疑。相比傳統(tǒng)的機(jī)器學(xué)習(xí)理論，深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)要比數(shù)據(jù)還要大10倍甚至上百倍，如何很好地學(xué)習(xí)出來，很多人并不相信。

第二，當(dāng)時(shí)的訓(xùn)練過程非常不穩(wěn)定，論文即使給出了神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法，但其他研究者很難把結(jié)果復(fù)現(xiàn)出來。

這些障礙直到2012年開始慢慢被解除。

孫劍認(rèn)為，在很多實(shí)際中，深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)最大的差別，就是隨著數(shù)據(jù)量越來越大，用更大的神經(jīng)網(wǎng)絡(luò)就有可能很大程度上超越人類的性能。

而具體到計(jì)算平臺上，包括云、端、芯上的很多智能硬件。目前的一個(gè)趨勢是如何自適應(yīng)地根據(jù)計(jì)算平臺做自動模型設(shè)計(jì)，最新的方式是用權(quán)重分享的方式。

在這方面，曠視提出了Single Path One-Shot Nas的新方法，分為兩步：第一步是訓(xùn)練一個(gè)SuperNet，是一個(gè)超網(wǎng)絡(luò)，包含任何想搜索的子網(wǎng)絡(luò)，先訓(xùn)SuperNet所有的權(quán)重；第二步是搜索sub-nets子網(wǎng)咯，好處是第二步不需要訓(xùn)練，非常高效，訓(xùn)練時(shí)間是正常訓(xùn)練時(shí)間快1.5-2倍，可以得到非常好的效果。目前在多個(gè)測試集上得到了領(lǐng)先的結(jié)果。

此外，為了構(gòu)建核心技術(shù)，曠視還打造了自研的人工智能框架Brain++，包括具備多中心、強(qiáng)大算力的Brain++ Infrastructure，公司全員使用的深度學(xué)習(xí)引擎Brain++ Engine，以及整合最新模型搜索的AutoML技術(shù)；同時(shí)，曠視還有人工智能數(shù)據(jù)管理平臺Data++，借助算法輔助數(shù)據(jù)清洗和標(biāo)注。

澎思申省梅：《后深度學(xué)習(xí)時(shí)代的智能視覺技術(shù)落地》

重塑技術(shù)與商業(yè)模態(tài)，「智慧城市·視覺智能」專場回顧｜CCF-GAIR 2019 澎思科技首席科學(xué)家申省梅

作為人工智能領(lǐng)域嶄露頭角的公司，申省梅介紹道，澎思科技從傳感器-圖像處理到3D幾何，從機(jī)器學(xué)習(xí)到深度學(xué)習(xí)，到增強(qiáng)學(xué)習(xí)，從監(jiān)督學(xué)習(xí)到半監(jiān)督、無監(jiān)督學(xué)習(xí)都有布局，團(tuán)隊(duì)擁有計(jì)算機(jī)視覺全棧技術(shù)，并在人臉檢測和識別、行人檢測和跟蹤、行人再識別、車輛識別、自動駕駛、移動操作機(jī)器人等多項(xiàng)大賽中拿到冠軍。

在限制條件下的人臉識別已經(jīng)取得了很好的成績，但對于如何提高非受限條件下的動態(tài)人臉識別效率，申省梅認(rèn)為除了在人臉識別技術(shù)上不斷提高外，還要從源端著手，采用圖像增強(qiáng)的方法，用AI圖像增強(qiáng)，去除運(yùn)動模糊、降噪、去抖動、去霧、去雨、去云等。

另外，在視覺的落地上，申省梅認(rèn)為應(yīng)該堅(jiān)持“以商業(yè)價(jià)值為導(dǎo)向的算法開發(fā)”。用“最有效的算法+最經(jīng)濟(jì)的軟硬體”解決客戶的剛需，更重要的是，算法-軟硬件變動更新速度，要快速對接客戶的不同需求，形成敏捷而有價(jià)值的運(yùn)營模式。

而要得到一個(gè)好的模型也并不容易。申省梅判斷，獲得最佳視覺模型最簡單的規(guī)則是，足夠多的平衡數(shù)據(jù)、足夠好的數(shù)據(jù)標(biāo)注、足夠深的網(wǎng)絡(luò)。隨著大量數(shù)據(jù)的生成，半監(jiān)督無監(jiān)督的探討有所突破，計(jì)算機(jī)視覺的未來發(fā)展十分樂觀。隨著工業(yè)界對計(jì)算機(jī)視覺的持續(xù)青睞，眾多企業(yè)將結(jié)合實(shí)際應(yīng)用場景來剪枝優(yōu)化遷移，不斷開拓新的應(yīng)用領(lǐng)域，人工智能行業(yè)的發(fā)展還遠(yuǎn)沒有到巔峰，還有眾多的落地機(jī)會。

英國皇家科學(xué)院Demetri Terzopoulos：《視覺智能的未來》

重塑技術(shù)與商業(yè)模態(tài)，「智慧城市·視覺智能」專場回顧｜CCF-GAIR 2019

三院院士 Demetri Terzopoulos

Demetri Terzopoulos講解了虛擬視覺的應(yīng)用，及其在智慧城市中起到的作用。Demetri Terzopoulos認(rèn)為，虛擬視覺實(shí)際上包含了各種組合以描述感覺，計(jì)算機(jī)圖形、計(jì)算機(jī)視覺都是視覺計(jì)算的領(lǐng)域。

他所做的一項(xiàng)重要的工作就是虛擬人類生命的模型，然后基于物理的虛擬世界或現(xiàn)實(shí)的計(jì)算機(jī)圖形，渲染這些世界，用虛擬事實(shí)表現(xiàn)視覺。

Demetri Terzopoulos以其以往的實(shí)驗(yàn)為例，這些實(shí)驗(yàn)中包括對人體的肌肉和運(yùn)動的模擬，及體感游戲中對環(huán)境和游戲角色的模擬。這些虛擬視覺還能應(yīng)用于模擬多個(gè)攝像頭、對多個(gè)人體運(yùn)動的追蹤，體現(xiàn)攝像頭采用怎樣的拍攝角度對人進(jìn)行拍攝，多個(gè)攝像頭間如何形成更好的聯(lián)動。

虛擬視覺的優(yōu)勢在于，可以通過加速設(shè)計(jì)測試和科學(xué)方法應(yīng)用于這些系統(tǒng)，從而對現(xiàn)實(shí)進(jìn)行演示。一直以來，虛擬系統(tǒng)正變得越來越現(xiàn)實(shí)。從長遠(yuǎn)來看，虛擬現(xiàn)實(shí)應(yīng)該和我們生活于其中的物理現(xiàn)實(shí)不再有區(qū)別。

Demetri Terzopoulos還對未來的工作進(jìn)行了展望，未來他們將構(gòu)建物理傳感器網(wǎng)絡(luò)，將算法移植進(jìn)去，將它們部署到現(xiàn)實(shí)世界中的物理網(wǎng)絡(luò)中，當(dāng)然這還需要更好的虛擬攝像機(jī)。

而未來，更大的傳感器網(wǎng)絡(luò)可能在天空中，無人機(jī)等，甚至整個(gè)城市。

千視通胡大鵬：《千視通AIoT智慧社區(qū)無感通行》

千視通聯(lián)合創(chuàng)始人兼CTO胡大鵬

又一企業(yè)殺進(jìn)了智慧園區(qū)的市場。此前提出了“AIoT場景融合戰(zhàn)略”的千視通胡大鵬介紹道，千視通目前正專攻三維人臉，同時(shí)將Face-ID和ReID融合起來，打造“無感通行”。

二維視覺有什么問題？胡大鵬提出，二維人臉主要在非約束條件下存在問題，在角度比較大，強(qiáng)烈照度的情況下準(zhǔn)確度會不停下降，如側(cè)光、逆光、暗光等都會導(dǎo)致算法不準(zhǔn)。

而三維人臉的應(yīng)用優(yōu)勢，首先是可以防偽，適合對安全、保安標(biāo)準(zhǔn)比較重要的行業(yè)，然后是光線、不同的人臉照度，以及化妝問題，都能有更好的解決。

什么是無感通行？胡大鵬提出希望利用不同攝像頭提取出關(guān)鍵的車、人、物等，將其都關(guān)聯(lián)起來。例如人進(jìn)入園區(qū)，通過閘機(jī)，去哪里都可以用人臉+ReID整合進(jìn)來。通過每個(gè)時(shí)間段的軌跡，分解出每一個(gè)人、車、物的屬性，可以做到無感出入、無感考勤、無感追蹤、無感布控等，在園區(qū)、社區(qū)、校園、零售等不同的場景應(yīng)用。

「智慧城市·視覺智能」專場結(jié)語：視覺落地，去偽存真

計(jì)算機(jī)視覺無疑是AI領(lǐng)域最熱門的研究與應(yīng)用方向，目前視覺智能技術(shù)已落地至手機(jī)、家居、交通、零售、安防等各個(gè)城市戶外場景與城市戶內(nèi)生活當(dāng)中。

但一方面智能視覺，在向著準(zhǔn)確率高歌猛進(jìn)，另一方面，準(zhǔn)確率在多大程度上轉(zhuǎn)化成了應(yīng)用的效益，仍是個(gè)問題。

而計(jì)算機(jī)視覺起家，經(jīng)過打磨的AI企業(yè)們，也開始走自己的差異化路線以圖破局。

智能視覺企業(yè)們正逐步由以技術(shù)驅(qū)動業(yè)務(wù)，拿“錘子找釘子”的狀態(tài)演進(jìn)成以“業(yè)務(wù)”為重心的發(fā)展模式：左手“技術(shù)的詩和遠(yuǎn)方”，研究更前沿的算法，使得AI具備更強(qiáng)大的識別精度和認(rèn)知能力；右手“經(jīng)營的田間地頭”，讓視覺產(chǎn)品在保證高精度的前提下，大幅降低前期研發(fā)與后期運(yùn)算成本。

腳踏實(shí)地，仰望星空，智能視覺企業(yè)們正探索更遠(yuǎn)大的方向，AI掘金志也將再度站在算法、工程和產(chǎn)品的最前沿，推動行業(yè)認(rèn)知升級。

我們將會在本次峰會后，在「AI投研邦」上線CCF GAIR 2019峰會完整視頻與各大主題專場白皮書，包括機(jī)器人前沿專場、智能交通專場、智慧城市專場、AI芯片專場、AI金融專場、AI醫(yī)療專場、智慧教育專場等?！窤I投研邦」會員們可免費(fèi)觀看全年峰會視頻與研報(bào)內(nèi)容，掃碼進(jìn)入會員頁面了解更多。峰會期間專享立減399元福利，可進(jìn)入頁面直接領(lǐng)取，或私信助教小慕（微信：moocmm）咨詢。（最后一天50個(gè)名額，速搶。）雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章