論文解讀：對端到端語音識別網(wǎng)絡(luò)的兩種全新探索

本文作者： AI科技評論

2018-11-08 10:42

導(dǎo)語：一種是基于原有的 CNN-RNN-CTC 網(wǎng)絡(luò)的改進，一種是基于 CTC loss 與 attention loss 結(jié)合機制的網(wǎng)絡(luò)。

云從科技

AI影響因子

活動

企業(yè)：云從科技

操作：論文解讀

事項：

雷鋒網(wǎng) AI 科技評論按：語音識別技術(shù)歷史悠久，早在上世紀(jì) 50 年代，貝爾研究所就研究出了可以識別十個英文數(shù)字的簡單系統(tǒng)。從上世紀(jì) 70 年代起，傳統(tǒng)的基于統(tǒng)計的 HMM 聲學(xué)模型，N 元組語言模型的發(fā)明，已經(jīng)使得語音識別技術(shù)可以在小規(guī)模詞匯量上使用。在新世紀(jì)伊始，GMM-HMM 模型的序列鑒別性訓(xùn)練方法的提出又進一步提升了語音識別的準(zhǔn)確率。最近 5-10 年間，隨著深度學(xué)習(xí)的快速發(fā)展，算力的快速增長，數(shù)據(jù)量的急速擴張，深度學(xué)習(xí)開始大規(guī)模應(yīng)用于語音識別領(lǐng)域并取得突破性進展，深度模型已經(jīng)可以在干凈標(biāo)準(zhǔn)的獨白類音頻上達到 5% 以下的錯詞率。此外，端到端的模型可以輕松的將各種語言揉合在一個模型中，不需要做額外的音素詞典的準(zhǔn)備，這將大大推動業(yè)界技術(shù)研究與應(yīng)用落地的進度。

在現(xiàn)在主流的利用深度學(xué)習(xí)的語音識別模型中仍在存在多種派系，一種是利用深度學(xué)習(xí)模型取代原來的 GMM 部分，即 DNN-HMM 類的模型，另一種則是端到端的深度學(xué)習(xí)模型。

第一種模型需要先實現(xiàn) HMM 結(jié)構(gòu)與語音的對齊，然后才能進一步地訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。除此之外，在訓(xùn)練這一類的模型時，訓(xùn)練樣本的標(biāo)注不僅僅是原本的文本，還需要對文本進一步拆解成為音素投入訓(xùn)練，這對于標(biāo)注部分的工作就會造成極大的挑戰(zhàn)。在解碼的時候，這種模型同樣還需要依賴這個發(fā)音詞典。

端到端的模型旨在一步直接實現(xiàn)語音的輸入與解碼識別，從而不需要繁雜的對齊工作與發(fā)音詞典制作工作，具有了可以節(jié)省大量的前期準(zhǔn)備時間的優(yōu)勢，真正的做到數(shù)據(jù)拿來就可用。

端到端的模型的另一個優(yōu)點是，更換識別語言體系時可以利用相同的框架結(jié)構(gòu)直接訓(xùn)練。例如同樣的網(wǎng)絡(luò)結(jié)構(gòu)可以訓(xùn)練包含 26 個字符的英文模型，也可以訓(xùn)練包含 3000 個常用漢字的中文模型，甚至可以將中英文的詞典直接合在一起，訓(xùn)練一個混合模型。

此外，最重要的一點是，端到端的模型在預(yù)測時的速度更快，對于一個 10 秒左右的音頻文件，端到端的模型在一塊 GPU 的服務(wù)器上僅需 0.2 秒左右的時間便可給出預(yù)測結(jié)果。

現(xiàn)在的語音識別問題有如下幾個難點：

對自然語言的識別和理解；
語音信息量大。語音模式不僅對不同的說話人不同，對同一說話人也是不同的，一個說話人在隨意說話和認真說話時的語音信息是不同的；
語音的模糊性。說話者在講話時，不同的詞可能聽起來是相似的；
單個字母或詞、字的語音特性受上下文的影響，以致改變了重音、音調(diào)、音量和發(fā)音速度等。

端到端的模型由于不引入傳統(tǒng)的音素或詞的概念，直接訓(xùn)練音頻到文本的模型，可以有效地規(guī)避上述難點。

云從科技基于端到端的語音識別網(wǎng)絡(luò)進行了兩種方法的探索，一種是基于原有的 CNN-RNN-CTC 網(wǎng)絡(luò)的改進，一種是基于 CTC loss 與 attention loss 結(jié)合機制的網(wǎng)絡(luò)。下面是對這兩種方法的詳細解讀。

第一種方法

地址：https://arxiv.org/abs/1810.12001

作者基于百度之前提出的 Deep Speech 2 的模型框架結(jié)構(gòu)，提出了三個改進的點。

第一是把循環(huán)神經(jīng)網(wǎng)絡(luò)中的長短時記憶層（LSTM）變成了雙向的殘差長短時記憶層（resBiLSTM）。此舉可以更好地保留之前卷積神經(jīng)網(wǎng)絡(luò)所提取出的音素信息和之后每一個雙向的殘差長短時記憶層更好的結(jié)合。因為循環(huán)神經(jīng)網(wǎng)絡(luò)中的每一層主要是負責(zé)提取句子中的語義信息，但語義信息的理解也和音素信息緊密相關(guān)。隨著循環(huán)神經(jīng)網(wǎng)絡(luò)的深入，原本更底層的層很難接收到卷積神經(jīng)網(wǎng)絡(luò)所給出的信息，對于復(fù)雜的長句子中音素和語義信息的結(jié)合較差，新提出的殘差網(wǎng)絡(luò)可以較好地修正這一問題。

第二點是引入了級聯(lián)的訓(xùn)練結(jié)構(gòu)，即對于第一個網(wǎng)絡(luò)中難分（分錯）的樣本進行二次訓(xùn)練。在實驗中我們發(fā)現(xiàn)，在第一層網(wǎng)絡(luò)結(jié)構(gòu)中被分錯的樣本比全部的樣本的平均句長多出了 11% 以上。隨著句子的變長，強語法和語義相關(guān)的單詞會距離更遠，那么對于較淺的循環(huán)神經(jīng)網(wǎng)絡(luò)來說就會更難捕捉到這一個信息。在發(fā)現(xiàn)這一區(qū)別后，作者在在第二層的級聯(lián)結(jié)構(gòu)中使用了更深的循環(huán)神經(jīng)網(wǎng)絡(luò) (7 層到 13 層），但同時縮減了每一層的隱含節(jié)點數(shù)（對應(yīng)樣本量的減少，防止出現(xiàn)復(fù)雜模型的過擬合問題)。下圖是對這兩點改進后具體的模型圖。