日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給陳伊莉
發(fā)送

0

DeepMind技術(shù)加持,谷歌用AI改善 Duo 通話丟包

本文作者: 陳伊莉 2020-04-08 13:48
導(dǎo)語:“你能再重復(fù)一遍嗎,剛剛網(wǎng)絡(luò)不太好。”谷歌想要終結(jié)這種情況。

隨著  4G、5G通信技術(shù)發(fā)展,網(wǎng)絡(luò)通話越來越盛行。但是網(wǎng)絡(luò)不穩(wěn)定是常態(tài),所以通話中我們時不時可能會蹦出一句,“你能再重復(fù)一遍嗎,剛剛網(wǎng)絡(luò)不太好。”

為了提高通話質(zhì)量,谷歌近期在視頻聊天應(yīng)用 Duo 中應(yīng)用了一種新技術(shù) WaveNetEQ ,在出現(xiàn)音頻丟包情況時,該技術(shù)會判斷丟失的音頻數(shù)據(jù)可能是什么,并替換掉它,背后的技術(shù)支持來自谷歌聲名在外的 DeepMind 團(tuán)隊。

DeepMind技術(shù)加持,谷歌用AI改善 Duo 通話丟包

一個完整的在線呼叫,數(shù)據(jù)經(jīng)常會被分成多個小塊,每小塊就是一個數(shù)據(jù)包 packet 。然而,在這些“數(shù)據(jù)包”從發(fā)送方傳輸?shù)浇邮辗降倪^程中,數(shù)據(jù)包通常會以錯誤的順序到達(dá),從而產(chǎn)生抖動相關(guān)問題,或者直接丟失,造成音頻空白。

谷歌給出一份資料顯示, Duo 99% 的通話都有數(shù)據(jù)包丟失、過度抖動或網(wǎng)絡(luò)延遲情況。20% 的通話丟失了超過 3% 的音頻,10% 的通話丟包率超過 8% ,也就是說每次通話都有很多音頻需要替換。

每個視音頻 app 都會用某種方式處理丟包。谷歌表示,這些數(shù)據(jù)包丟失隱藏 (PLC) 過程可能很難更好地填補(bǔ) 60 毫秒或更長時間的空白。過去常用算法是 NetEQ ,這是 webRTC 中音頻技術(shù)方面的兩大核心技術(shù)之一(另一核心技術(shù)是音頻的前后處理,包括AEC、ANS、AGC等)。webRTC 是谷歌收購 GIPS 再開源的,是目前影響力極大的實時音視頻通信解決方案,但用它處理丟包,大多情況下聽起來像機(jī)器人或機(jī)械重復(fù)。

谷歌就用了大量的語音數(shù)據(jù),訓(xùn)練出了基于 DeepMind  WaveRNN 技術(shù)的 WaveNetEQ 模型。訓(xùn)練數(shù)據(jù)集來自 100 多名、48 種不同語言的志愿者,也就是說它可以自動填補(bǔ) 48 種語言的丟包情況。

WaveNetEQ 是一種用于語音合成的遞歸神經(jīng)網(wǎng)絡(luò)模型,由兩部分組成,即自回歸網(wǎng)絡(luò)(autoregressive network)和條件網(wǎng)絡(luò)(conditioning network)。自回歸網(wǎng)絡(luò)的作用是保持信號的平穩(wěn)流動,而條件網(wǎng)絡(luò)控制和影響自回歸網(wǎng)絡(luò)以保持音頻一致性。

谷歌用 WaveNetEQ 取代了原來的 NetEQ PLC 組件,相對于 NetEQ ,它在聲音質(zhì)感方面無疑有提升,而且 WaveNetEQ 模型跑得足夠快,可以在手機(jī)上運行,如此也可以規(guī)避用戶可能擔(dān)心的數(shù)據(jù)隱私問題。谷歌稱所有的處理都是在設(shè)備上進(jìn)行,因為 Duo 的通話默認(rèn)情況下就是端到端加密。一旦通話的真實音頻恢復(fù),將無縫地切換到現(xiàn)實對話。

不過,WaveNetEQ 替換的內(nèi)容和時長有限制。目前是支持在 120 毫秒以內(nèi)的空白,之后會逐漸消失并歸零;WaveNetEQ 不是生成完整的單詞,而是簡單的音節(jié)。

目前 WaveNetEQ 已經(jīng)應(yīng)用到 Pixel 4 手機(jī)上的 Duo APP 中,谷歌表示,它正在將其推廣到其他安卓手機(jī)上。

雷鋒網(wǎng)了解到,當(dāng)然用機(jī)器學(xué)習(xí)處理音頻丟包并不是頭一遭,許多公司都在研究相關(guān)技術(shù),以國內(nèi)公司為例,有些是自身業(yè)務(wù)本就涉及視音頻,比如騰訊;有些是音視頻云服務(wù)商,比如阿里,還有一些是專門的音視頻第三方服務(wù)商如聲網(wǎng)等。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

DeepMind技術(shù)加持,谷歌用AI改善 Duo 通話丟包

分享:
相關(guān)文章

編輯

數(shù)據(jù)漫游天地間。 聯(lián)系可通過上方郵箱或WeChat(請注明身份、姓名、來意,thx)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說