日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給奕欣
發(fā)送

0

專訪鄢志杰:阿里全面進(jìn)軍 IoT,語音交互能做什么、將做什么?

本文作者: 奕欣 2018-04-05 10:42
導(dǎo)語:阿里巴巴達(dá)摩院的語音交互智能實(shí)驗(yàn)室正在嘗試架起「人機(jī)交互」和「個性化服務(wù)」的橋梁。而上升到技術(shù)層面來總結(jié),語音交互智能將成為IoT與互聯(lián)網(wǎng)內(nèi)容和服務(wù)的橋梁。

在 3 月底的云棲大會上,阿里云總裁胡曉明在會上做出戰(zhàn)略宣布:阿里巴巴全面進(jìn)軍 IoT。這是繼電商、金融、物流、云計(jì)算之后的一條新的主賽道。

阿里巴巴希望數(shù)字化整個物理世界,并作為 IoT 基礎(chǔ)設(shè)施的搭建者而存在。這樣一層「新身份」也讓不少人為之振奮,認(rèn)為「5 年內(nèi) 100 億設(shè)備」的未來將成為阿里云 IoT 事業(yè)部總經(jīng)理庫偉所說的「萬物智聯(lián)」的全新世界。

在阿里巴巴這樣的企業(yè)戰(zhàn)略規(guī)劃之下,以語音交互智能實(shí)驗(yàn)室為代表的眾多研究部門如何明確自己的定位,并助力阿里巴巴更好地領(lǐng)跑這一賽道,也成為一個亟待解答的問題。

在 3 月底舉辦的首屆 AITech 峰會上,阿里巴巴達(dá)摩院-機(jī)器智能技術(shù)研究院的語音交互智能實(shí)驗(yàn)室首席科學(xué)家鄢志杰做了題為《IoT 時代的語音交互智能》的主題演講。

專訪鄢志杰:阿里全面進(jìn)軍 IoT,語音交互能做什么、將做什么?

圖via 新一代人工智能聯(lián)盟

計(jì)算是心臟,AI 是大腦,IoT 是神經(jīng);這是阿里巴巴數(shù)字化進(jìn)程中發(fā)揮重要作用的三個「器官」。那么作為「阿里集團(tuán)乃至螞蟻金服語音技術(shù)的研究開發(fā)和產(chǎn)品部門」,鄢志杰所在的語音交互智能實(shí)驗(yàn)室在 IoT 中擔(dān)任怎樣的角色?

鄢志杰認(rèn)為,語音是最自然的與 IoT 交互的方式。首先它無需學(xué)習(xí)。用語言交流是人類所具備的一種獨(dú)特能力;其次,語音「hands-free」、「eyes-free」的特點(diǎn)也讓教育用戶的成本幾乎能夠降到最低。

「語音交互智能是 AI 與大眾最近的接觸?!?/strong>鄢志杰如是說。不論是 BB-8 還是 R2-D2,能與機(jī)器順暢自由地交流一直是科幻作品的美好想象。得益于 AI 近年來的突破性進(jìn)展,以語音、計(jì)算機(jī)視覺為代表的感知智能;與語義理解、語義生成的認(rèn)知智能,技術(shù)的飛躍有目共睹。

在近年來,業(yè)界也推出了以聊天機(jī)器人、智能音箱為代表的語音交互產(chǎn)品,也讓這一愿景不再遙遠(yuǎn)。而智能語音交互也已跨越了「能用」的基本訴求,正在逐步向「好用」邁進(jìn)。

阿里巴巴的語音交互智能實(shí)驗(yàn)室也正在嘗試架起「人機(jī)交互」和「個性化服務(wù)」的橋梁。而上升到技術(shù)層面來總結(jié),語音交互智能將成為 IoT 與互聯(lián)網(wǎng)內(nèi)容和服務(wù)的橋梁。

以 NUI 自然交互平臺為例,背靠「云+端基礎(chǔ)設(shè)施」和相應(yīng)的開發(fā)者社群,語音交互智能得以從意圖理解、對話管理、問答系統(tǒng)、聊天系統(tǒng)、推薦廣告和數(shù)據(jù)閉環(huán)展開對自然輸入輸出的技術(shù)發(fā)現(xiàn),并連接不同的功能選項(xiàng)(如出行、購物、天氣等)和相應(yīng)的 IoT 設(shè)備(如手機(jī)、汽車等)。

而從語音交互智能實(shí)驗(yàn)室的研究切入點(diǎn)來分析,一個完整的交互過程有兩個主要環(huán)節(jié),語音進(jìn)和語音出。

從用戶說第一句話開始,首先涉及的是麥克風(fēng)采集傳感器的硬件技術(shù),到麥克風(fēng)陣列的信號處理;在清晰采集到語音信息之后,系統(tǒng)需要對語音進(jìn)行正確識別;再者,對語義做出正確的判斷和理解,并結(jié)合用戶的需求獲取相應(yīng)的回復(fù);最終,合成語音達(dá)成輸出,反饋給用戶。鄢志杰還補(bǔ)充道,話題背后的相關(guān)數(shù)據(jù)積累,也作為整個交互過程的一個調(diào)用環(huán)節(jié)而存在。

語音交互智能實(shí)驗(yàn)室每半年會迭代一次聲學(xué)模型,原來的 BLSTM(雙向長短時記憶單元,Bidirectional LSTM)到后來的 Low frame rate latency controlled 的 BLSTM,在精度上已經(jīng)有了很大飛躍。而今年即將在國際聲學(xué)會議 ICASSP 2018 上做 oral 報(bào)告的 DFSMN(深度前饋序列記憶網(wǎng)絡(luò))。DFSMN 使用基于 BLSTM 的統(tǒng)計(jì)參數(shù)語音合成系統(tǒng)作為基線系統(tǒng),采用廣泛使用的跳躍連接技術(shù),在執(zhí)行反向傳播算法時,梯度可以繞過非線性變換。鄢志杰告訴雷鋒網(wǎng) AI 科技評論,這一技術(shù)已經(jīng)在阿里巴巴的實(shí)際業(yè)務(wù)中發(fā)光發(fā)熱。

除了典型的 IoT 產(chǎn)品,如天貓音箱、榮威智聯(lián)網(wǎng)汽車、天貓盒子、海爾人工智能電視外,鄢志杰還提及了 IoT 在公共場所服務(wù)上的應(yīng)用案例。去年 12 月,上海地鐵與阿里云攜手推出了上海地鐵語音售票機(jī)。

專訪鄢志杰:阿里全面進(jìn)軍 IoT,語音交互能做什么、將做什么?

理論要應(yīng)用到 IoT 實(shí)際層面,也有著不少門檻和障礙。在實(shí)際生活的體驗(yàn)和接觸中不難發(fā)現(xiàn),市面上的語音交互產(chǎn)品多應(yīng)用于家庭、辦公等安靜場景中,強(qiáng)噪音場景下的技術(shù)落地存在諸多難點(diǎn)。

  • 首先是識別「誰在說話」的問題。語音交互智能實(shí)驗(yàn)室結(jié)合攝像頭帶來的視覺數(shù)據(jù),結(jié)合語音輸入的信息,能夠進(jìn)一步確認(rèn)說話者及相應(yīng)的指令。視覺和語音的多模態(tài)交互配合能夠讓識別率更加精準(zhǔn),進(jìn)一步提升強(qiáng)噪音場景的應(yīng)用能力。

  • 解決了「誰在說話」的問題,下一步則是更好地保證語音輸入的信息完整。在排隊(duì)買票的過程中,如何精準(zhǔn)識別買票者的語音信息,而盡可能避免后方排隊(duì)者帶來的噪聲干擾,也是困擾語音交互智能實(shí)驗(yàn)室的又一問題。通過改造麥克風(fēng)陣列的立體布局,將關(guān)注點(diǎn)更多地定位在站在售票機(jī)前說話者身上,則成為了解決這一方法的有效手段。

而相應(yīng)地,上海地鐵的硬件設(shè)施也進(jìn)行了一次「大改造」,增加了光學(xué)攝像頭及面板背后的麥克風(fēng)陣列,這也涉及與以傳感器為代表的硬件廠商的合作。

鄢志杰也對雷鋒網(wǎng) AI 科技評論表示,從 IoT 的層面上看,語音交互智能實(shí)驗(yàn)室可能原本只需要研究純軟件的技術(shù),但進(jìn)軍 IoT 賽道后,包括機(jī)器智能技術(shù)研究院都要下沉到硬件,團(tuán)隊(duì)的擴(kuò)張有很大一部分源于聲學(xué)硬件人才的加盟,如雷鋒網(wǎng) AI 科技評論曾經(jīng)采訪過的馮津偉博士。

但不可忽視的一個現(xiàn)狀是,語音尚未成為主流的交互方式。鄢志杰經(jīng)常在內(nèi)部分享提一句話,「今天語音交互技術(shù)的真實(shí)水平,與用戶的期待、業(yè)界的 PR 存在明顯的鴻溝?!?/strong>針對這一點(diǎn),鄢志杰認(rèn)為可能有兩個方式可以去著力。

  • 首先是良好的交互設(shè)計(jì)。

交互設(shè)計(jì)本身是一門科學(xué),它能夠通過用戶調(diào)研將主觀的體驗(yàn)觀感轉(zhuǎn)化為客觀的指標(biāo)。這樣一來,即使技術(shù)水平在短時間內(nèi)無法有大的提升,但可以以巧妙的方式將技術(shù)的缺陷掩蓋過去。在《夏洛特?zé)馈防镉幸粋€情節(jié),沈騰告訴老大爺,自己要找馬冬梅。老大爺沒聽清,反問,「馬什么梅」。這就是一個典型的交互案例。

如果系統(tǒng)在識別時沒有完全聽清,對正確理解用戶的意圖沒有把握時,聰明的交互設(shè)計(jì)可以選擇避免讓用戶直接重復(fù)所說過的話,而是換一種角度讓用戶再次重申自己的意圖。

  • 其次是如何找到應(yīng)用場景,通過有效(useful)的交互結(jié)果讓用戶產(chǎn)生良好的反饋(reward),并最終培養(yǎng)用戶習(xí)慣。

在汽車內(nèi)的語音交互就是一個重要的強(qiáng)場景。在車載系統(tǒng)上用語音輸入想去的地點(diǎn),在技術(shù)成熟度和交互體驗(yàn)上都有了極大的提升,這也促使了正循環(huán),逐步淘汰原有的鍵盤輸入方式。如何暢想 IoT 可能與語音交互產(chǎn)生關(guān)聯(lián)的場景?鄢志杰表示,「當(dāng)萬物互聯(lián),或者說萬物智聯(lián)真正走向縱深,在你一天所可能接觸的任何場景都一定會有相應(yīng)的 IoT 設(shè)備。」

從商業(yè)化的角度來看,在 IoT 時代下的語音交互智能,需要將互聯(lián)網(wǎng)內(nèi)容和服務(wù)通過 IoT 觸達(dá)用戶形成商業(yè)閉環(huán),并做好端和云的布局。

鄢志杰也在會上提及了阿里巴巴的研究與實(shí)踐,主要分為三個方面。

  • 構(gòu)建有深度、全鏈路、多模態(tài)的關(guān)鍵技術(shù)棧;

  • 其次,產(chǎn)出低成本、易復(fù)制的智能化 IoT 方案;

  • 再者,以打造標(biāo)桿硬件為「手段」,以基礎(chǔ)平臺建設(shè)為「目的」。天貓音箱等產(chǎn)品和 NUI 自然交互平臺就是明證。

鄢志杰反復(fù)重申的多模態(tài)交互概念,也讓語音交互智能實(shí)驗(yàn)室不再局限于語音層面。這也就意味著,它與其他技術(shù)團(tuán)隊(duì)的交流也會變得越來越頻繁和深入。鄢志杰表示,目前主要協(xié)作較多的還是計(jì)算機(jī)視覺團(tuán)隊(duì)和用戶體驗(yàn)的團(tuán)隊(duì)。在未來,融合表情、動作等蘊(yùn)含高語境的模態(tài)識別,或許也會成為人機(jī)交互的一個重點(diǎn)攻關(guān)方向。

在此,引用鄢志杰在年初的技術(shù)預(yù)測做為結(jié)尾:

「從 2018 年開始,人類與機(jī)器的交互方式將開始徹底擺脫任何形式的交互界面,變得更接近人與人的交互。這背后是對聽覺、視覺、觸覺,甚至味覺等多模態(tài)技術(shù)的全面融合。機(jī)器將能感知到人類在語氣語態(tài)、肢體動作、面部表情等更豐富的表達(dá)方式,從而更智能的理解人類的意圖。生活空間、交通空間、工作空間將是三個首先落地領(lǐng)域?!?/p>

附鄢志杰簡介:

阿里巴巴達(dá)摩院-機(jī)器智能技術(shù)研究院語音交互智能實(shí)驗(yàn)室首席科學(xué)家。在 2015 年加入阿里巴巴前,就職于微軟亞洲研究院,任語音組主管研究員。畢業(yè)于中國科學(xué)技術(shù)大學(xué)訊飛語音實(shí)驗(yàn)室,獲博士學(xué)位。研究領(lǐng)域主要包括語音識別、語音合成、說話人識別驗(yàn)證、OCR/ 手寫識別、機(jī)器學(xué)習(xí)算法等。在語音及文本識別領(lǐng)域頂級學(xué)術(shù)期刊及會議發(fā)表多篇論文,長期擔(dān)任語音領(lǐng)域頂級學(xué)術(shù)會議及期刊的專家評審,并擁有多項(xiàng)美國及 PCT 專利,目前是 IEEE senior member。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

專訪鄢志杰:阿里全面進(jìn)軍 IoT,語音交互能做什么、將做什么?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄