從語音產業(yè)的拓荒者到領頭羊，科大訊飛智能語音的探索和突破

本文作者：我在思考中

2021-12-23 09:54

導語：始終保持每年技術進步30%，這是科大訊飛對技術的要求，也是公司每一位科研人員的自我要求。

始終保持每年技術進步30%，這是科大訊飛對技術的要求，也是公司每一位科研人員的自我要求。

作者 | 維克多

編輯 | 岑峰

巴別塔本是猶太教是《圣經·舊約·創(chuàng)世記》中的一個故事，說的是人類產生不同語言的起源。在這個故事中，人類聯合起來興建希望能通往天堂的高塔；為了阻止人類的計劃，上帝讓人類說不同的語言，使人類相互之間不能溝通，計劃因此失敗，人類自此各散東西。

語言是作為最自然便捷的交流方式，是人類社會的瑰寶，傳承文明，承載文化。讓機器聽懂語言，延伸人類的能力，實現人和機器交互直至萬物互聯，一直是人類的遠大夢想。

而語音在未來人機交互中則起到關鍵性的作用。1952年，貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數字發(fā)音的實驗系統(tǒng)；70年代以后，在小詞匯量、孤立詞的識別方面取得了實質性的進展；80年代，逐漸由孤立詞識別轉向連接詞識別；90年代以后，大詞匯量連續(xù)語音識別得到優(yōu)化。

科大訊飛便是這個時間創(chuàng)立的。1999年以前的中文語音市場幾乎全部掌握在跨國公司手中。當時微軟、IBM等國際巨頭紛紛在中國設立語音研究基地，國內語音技術人才畢業(yè)后基本外流。從中國語音產業(yè)的拓荒者，到如今成為國際知名的智能語音與人工智能上市公司，從追趕到領跑，科大訊飛成功改寫了由外國巨頭控制的中國語音市場格局。

“做屬于中國人自己的核心技術，用頂尖的技術引領世界變革”的夢想也一直藏在熊世富的心底。在技術理想主義者熊世富看來，科大訊飛便是實現自己夢想最好的舞臺。

在智能語音和人工智能產業(yè)中，技術革新很快，想要贏得領跑局面就必須從源頭技術上保持領先。而保持領先的秘密是“甘坐十年冷板凳“的決心，是對企業(yè)科研人員反復實驗，去窮盡每一種可能，推動技術上的微小改變的耐心，也是直面失敗的恒心。

正如創(chuàng)立22年的科大訊飛在探索人工智能實現路徑上的曲折，作為“年輕后浪“的熊世富在接下科大訊飛語音識別技術這個接力棒以來，失敗也是他最常面對的事情。

不是天才

人工智能被很多人稱之為改變未來的顛覆性技術，而深度學習則是加速人工智能發(fā)展的顛覆性創(chuàng)新。

2010年以前，語音識別的主流方式是使用高斯混合模型（GMM）來建模，雖然語音識別的錯誤率有效的降低了，但GMM在自然場景下卻無法達到實用的級別。想要實現語音識別技術更廣泛的商用，必須有新的突破。2010年，微軟通過研究如何利用深層神經網絡改善大詞匯量語音識別，成功地使得大規(guī)模的語音識別得到突破性進展，而這一研究也改變了世界語音識別業(yè)界格局。

而科大訊飛也成為除了微軟總部以外，第一批接觸深度學習并著手開始研究的團隊。一年后，科大訊飛已經將深度神經網絡（DNN）成功應用到中文語音識別領域，并通過語音云平臺提供給廣大開發(fā)者使用。

熊世富便是在那個技術引領變革的時代，開啟了對人工智能語音領域的深入探索，從一個代碼小白一步步蛻變?yōu)樾袠I(yè)專家。

從語音產業(yè)的拓荒者到領頭羊，科大訊飛智能語音的探索和突破

如今，在加入科大訊飛的第七年，熊世富帶領團隊成功研發(fā)新一代端到端語音識別系統(tǒng)并全網上線，又一次保持了科大訊飛語音識別國際領先的地位。旁人總以為這位享譽公司的技術大咖應該“天賦異稟”，自帶“碼力超強”的光環(huán)。殊不知，技術能力并不是一蹴而就，是要經過時間打磨、沉淀出來。研究生培養(yǎng)方式不同于本科生，除了理論知識，還要求工程實踐能力。在中科大語音研究實驗室攻讀研究生的第一年，當時熊世富導師要求大家寫一個程序，他想了想，撓了撓頭，于是請教了同學：“哎，Hello Word，用編程語言咋寫來著？”

孤身一人來到一個雖不算陌生的領域，但這里的一切規(guī)則都要重新學習、探尋，岔路曲徑通幽，沿途也有驚喜的收獲。

初識深度學習是熊世富在科大訊飛實習的期間。從最開始的跨語言遷移學習的任務到提升深度學習的訓練效率，帶著升級打怪的快樂，熊世富總在語音方向里探索最前瞻的技術領域。

而魄力，則是他個人在探索深度學習技術上的優(yōu)勢和個人特色。從職業(yè)生涯的開始即選擇了一條大規(guī)模深度學習探索之路，而這種選擇也一直延續(xù)至今。

2013年，當業(yè)界詬病深度學習的訓練效率之時，還是實習生的熊世富隨即想到了多卡訓練這條路徑，多卡背后的代名詞是計算資源，大資源加持實驗才能找到答案?！耙彩切疫\，當時我的導師是現今已為我們首席科學家的魏思，跟著他一起探索了很多前沿的方向。當時要申請計算資源，研究院都會批準，雖然我只是一個實習生。”熊世富每次回憶，都感嘆AI研究院對于前瞻研究重視，對于技術的包容以及對人才的支持。也正是研究院的這種氛圍，讓這位中科大高材生畢業(yè)之后留了下來。

直面不確定性：甘坐十年冷板凳

科大訊飛董事長人劉慶峰曾經不止一次講過這樣一段話：“一定要對未來人工智能的核心技術突破，不能抱著急功近利的想法。基礎理論的創(chuàng)新，源頭技術的創(chuàng)新，往往是具有最大的不確定性的。人家說三年不鳴，一鳴驚人，事實上真正做原創(chuàng)，可能你要坐十年冷板凳、甚至一輩子冷板凳的心理準備?！?/span>

這也是中國科研工作者需要攀越的下一座高山：如果不知道哪一年看到曙光，那么做技術的人還會用盡全力么？

“甘坐十年冷板凳這句話對我們這些科研人員的影響力是巨大的，這也是我們對技術的追求，因為我們相信科技創(chuàng)新才能真正引領未來?！毙苁栏徽f到。

2018年，科大訊飛提出了引領性的全新語音識別框架——深度全序列卷積神經網絡（DFCNN），進一步提高語音轉寫的準確率，引領語音識別技術的發(fā)展。而在此之前，最好的語音識別系統(tǒng)采用雙向長短時記憶網絡（LSTM），但是，這一系統(tǒng)存在訓練復雜度高、解碼時延高的問題，尤其在工業(yè)界的實時識別系統(tǒng)中很難應用。

而在另一邊，熊世富早已在2017年悄然開始了下一代的端到端語音識別系統(tǒng)的研發(fā)。“研發(fā)一代儲備一代，這是我們對技術的要求。”所以，當上一代技術DFCNN尚未成熟之時，熊世富就已經開始研究更新一代的端到端智能語音系統(tǒng)了。

相比傳統(tǒng)語音系統(tǒng)，端到端系統(tǒng)具有結構簡潔、通用性強、不依賴語言學知識等優(yōu)點。進一步它能夠通過縮減人工預處理和后續(xù)處理，盡可能使模型從原始輸入到最終輸出，給模型更多可以根據數據自動調節(jié)的空間，增加模型的整體契合度，避免了多個模型間的誤差傳導。更通俗一些，端到端技術即針對需要多階段的或多步解決的問題，模型可以堆在一起優(yōu)化。因此它也被認為是未來智能語音的主流技術框架。

思想很簡單，但簡潔背后總逃不過“字越少，事越大”定律。該技術思想原本在翻譯任務中發(fā)揮重要作用，而將端到端技術運用語音方面的研究也是一個個頂尖團隊嘗試的方向，然而其效果始終沒有敵過非端到端技術。

構建端到端智能語音系統(tǒng)，熊世富花了整整兩年半的時間。

“確實啃下了不少硬骨頭，尤其是項目后半段在區(qū)分性訓練技術上，明明已經在大數據上驗證了，但仍然無法達到想要的效果”。為了突破這項技術，熊世富就花了整整三個月時間攻關。

沒有結果的時候，自我質疑是常態(tài)?！捌鋵嵾@三個月有一個半月是無用功。從科研的角度來看，做任何事情都可能面臨失敗，十個項目能夠成功兩個已經是非常了不起的成績了，我們要接受做的大部分事情都可能是失敗的結局?！?/span>

“可是從前期的實驗結果和我過多年做語音識別的經驗來看，我相信端到端語音識別技術一定是有前景的，可能真的會比上一代更好?！毙苁栏灰贿叧恋頂祿?、一邊迭代算法的系統(tǒng)，繼續(xù)尋找問題所在。

2018年，科大訊飛端到端技術初露鋒芒，就在國際口語機器翻譯評測比賽(International Workshop on Spoken Language Translation，簡稱IWSLT)中，以在英德方向語音翻譯任務上端到端模型(End-to-End Model)顯著優(yōu)勢，獲得世界第一。

如果說 2010年深度學習的引入，是語音識別領域上一次顛覆性創(chuàng)新，那么新一代端到端語音識別的研究，無疑標志著語音識別新一輪創(chuàng)新的里程碑。

新一代端到端語音識別系統(tǒng)帶來的效果提升非常顯著 —— 識別效果相比傳統(tǒng)語音識別系統(tǒng)提升了15%-30%，在特定場景下，特別是時下的應用熱點端側語音識別場景上，新系統(tǒng)能實現效果不降，系統(tǒng)資源占用大幅下降。

同時，科大訊飛也成為使用這項技術最廣泛的一家公司，系統(tǒng)于2019年在業(yè)界首次全網上線，并在訊飛輸入法、翻譯機、語音轉寫等重點業(yè)務上使用，并為語音識別帶來了更大的想象空間和更豐富的產品形態(tài)，如方言免切換、多語種統(tǒng)一建模、中英隨心說等。

回憶起端到端語音識別系統(tǒng)成功的原因，熊世富認為：“當時業(yè)界大部分團隊包括公司內部也有團隊都在做小數據的訓練，而我認為只能用大數據，才有成功的可能性，而這后來也證明是成功的關鍵突破。另外的難點在于算法框架的參數調整難度非常高，而這卻是我個人的優(yōu)勢所在，在科大訊飛，我經歷了一代代最新語音識別框架的迭代和更新，也可以說一直在接觸業(yè)界最前沿的技術。”

從語音產業(yè)的拓荒者到領頭羊，科大訊飛智能語音的探索和突破

持續(xù)精進：勇闖科研的無人區(qū)

從研發(fā)到一項技術真正的落地，人們對它的要求通常是苛刻的。這一點從Gartner技術曲線便可以看出：一項新技術剛出現的時候是萌芽期，然后進入期望膨脹期，然后再回落到低谷期。在低谷期，各種各樣的困難逐步找到解決方式，才能夠進入穩(wěn)步的爬升期，再形成一個生產成熟期。

開發(fā)的新一代端到端語音識別系統(tǒng)，是熊世富和他團隊所做努力的第一步?！岸说蕉苏Z音識別技術一個難點在于它非常依賴數據，在通用領域數據積累豐富，但在垂直領域里，會有各種面向行業(yè)的專有名詞，端到端的效果還不夠好。所以端到端系統(tǒng)現在面臨的是如何深入各個領域，去解決一個領域的效果問題。只有攻克這一難題，端到端模型才能真正‘走出去’?！?/span>

或許，可以將聲學模型和語言建模能力結合可以打破數據的限制，來解決垂直領域的一個個定制問題?！氨热缥蚁肴タ次骱缡惺赘?，模型非常容易直接輸出食物品種的西紅柿，想要達到精準的轉化非常難。上一代深度學習只是進行聲學建模，而目前我們在嘗試將聲學和語言解耦，雖然是聯合訓練，但是可以達到把特定領域的詞語單獨拎出來替換為我們想要的語言?！?/span>

熊世富創(chuàng)新性提出的熱詞整詞建模方法，顯著的提升了熱詞識別效果，也為攻克端到端語音識別的領域定制問題奠定了關鍵的基礎。

不過，伴隨著人工智能技術門檻的降低，核心技術領先的窗口期也在逐步縮短。帶領團隊持續(xù)提升公司語音識別的領先水平，屹立于世界的前沿是熊世富和他團隊持續(xù)在做的努力?！皦毫σ恢倍荚?，不敢有絲毫松懈。始終保持每年技術進步30%，這是我們對技術的要求，也是科大訊飛每一位科研人員的自我要求。”

而隨著萬物互聯的時代到來，物理空間和現實空間融合共生，每一次科技的技術突破，都是為了讓人們可以使用更為貼近“自然”的方式與機器進行溝通?！拔磥聿还苁俏覀兒腿斯ぶ悄?，還是和機器人之前，都應該是自然的交互。如智能汽車、智能家居，都能和你對話和交流，并能夠理解你所講的話，從而提供服務?！?/span>

尋找下一代人機交互的方式，則是熊世富和團隊的終極使命。

從語音產業(yè)的拓荒者到領頭羊，科大訊飛智能語音的探索和突破

“或許多模態(tài)技術能夠打通人機交互的最后一公里，進而帶來顛覆性的交互體驗。”熊世富預測道。多模態(tài)技術，也叫深度學習多模態(tài)融合，指機器從文本、圖像、語音、視頻等多個領域獲取信息，實現信息轉換和融合，從而提升模型性能的技術。如在車載交互領域，科大訊飛的汽車級視線追蹤技術讓用戶注視即可實現喚醒交互，目光所至皆可控制。同時，唇音融合語音技術的創(chuàng)新型加入，具備唇音免喚醒、唇音檢出、唇音增強三大核心能力，開口說話就能一語直達，就算是輕聲細語，也能聽清。

科大訊飛——無限深入的神經網絡

從面對國內語音市場的一片空白到如今技術實力代表著全球領先水平，科大訊飛智能語音發(fā)展的歷程也在一定程度上代表了科大訊飛的一路走來的創(chuàng)業(yè)歷程。

可以說，在智能時代，科大訊飛就是一面中國智能語音的旗幟。中國語音產業(yè)聯盟剛剛發(fā)布的《2020-2021 中國智能語音行業(yè)白皮書》引用德勤數據顯示，作為大型智能語音科技企業(yè)的代表，科大訊飛憑借較強的研發(fā)優(yōu)勢，以60%的市場份額穩(wěn)居第一，競爭優(yōu)勢明顯。

而科大訊飛的理想也從讓機器開口說話到讓機器能聽會說，能理解會思考，用人工智能建設美好世界。

我們曾經將科大訊飛比喻為一個很寬、很深的生成式神經網絡。

一個典型的生成式神經網絡包括了輸入層、編碼層、輸出層，對于一個AI企業(yè)而言，輸入是AI三要素：算力、數據、算法，輸出是技術和產品，編碼層則是企業(yè)的組織方式和技術方法論，以及企業(yè)的人才。

在《不一樣的科大訊飛，他們把計算機視覺踢進“世界杯”》這篇文章中，我們了解了科大訊飛對人才的重視，以及獨特的組織方式。而在《科大訊飛認知智能，從場景中來，到行業(yè)中去》這篇文章中，我們則窺探了這個無限拓寬的神經網絡的秘密——如何定義并建立對不同行業(yè)的真正認知。

這其中保證這個很寬、很深的生成式神經網絡發(fā)展張力的源泉，或許可以從創(chuàng)業(yè)之初的故事來的探尋——在公司歷史上著名的“半湯會議”上，當團隊聚集在一起對于公司未來議論紛紛之際，最終創(chuàng)始人劉慶峰拍板，“繼續(xù)做語音，誰不樂意直接走人”，堅定了“智能語音”的戰(zhàn)略方向。“燃燒最亮的火把，要么率先燎原，要么最先熄滅”，劉慶峰在當年的年度大會上說的話至今仍被掛在科大訊飛大廈的墻上，激勵著公司在智能語音與人工智能道路上不忘初心，堅守前行。

如今科大訊飛已經在這個領域深耕了22年，這其中保證這個很寬、很深的生成式神經網絡發(fā)展張力的源泉就是——源于熱愛的初心堅守。因為熱愛，才會22年不斷堅守，從未改變初心；因為相信，才會甘坐十年冷板凳的精神從源頭創(chuàng)新持續(xù)突破，讓人工智能多項核心技術世界領先，在國際競爭中擁有話語權，或許這也是科大訊飛創(chuàng)業(yè)22年來最大的財富。而他們一路走來，在引領中國人工智能行業(yè)的變革中，也讓世界更加美好。

從語音產業(yè)的拓荒者到領頭羊，科大訊飛智能語音的探索和突破

從語音產業(yè)的拓荒者到領頭羊，科大訊飛智能語音的探索和突破