2019 自然語言處理前沿論壇成功舉辦，百度 NLP 技術(shù)全揭秘

本文作者： skura

2019-06-03 11:17

導(dǎo)語：語義計(jì)算、自動(dòng)問答、語言生成、人機(jī)對(duì)話、機(jī)器翻譯 5 場(chǎng)專題報(bào)告

雷鋒網(wǎng) AI 科技評(píng)論按，近日，由百度聯(lián)合中國(guó)計(jì)算機(jī)學(xué)會(huì)中文信息技術(shù)專委會(huì)、中國(guó)中文信息學(xué)會(huì)青工委舉辦的「2019 自然語言處理前沿論壇」上，來自百度和各大高校的嘉賓們分享了關(guān)于 NLP 技術(shù)研究的心得體會(huì)。

本次論壇主題為「機(jī)器之‘讀、寫、說、譯’—— 探尋 NLP 未來之路」，來自百度的嘉賓們分別在語義計(jì)算、自動(dòng)問答、語言生成、人機(jī)對(duì)話和機(jī)器翻譯 5 場(chǎng)專題報(bào)告中分享了百度 NLP 技術(shù)的研究成果與應(yīng)用。

語義計(jì)算

百度 NLP 主任研發(fā)架構(gòu)師、語義計(jì)算技術(shù)負(fù)責(zé)人孫宇：百度語義計(jì)算技術(shù)及其應(yīng)用

孫宇主要介紹了百度語義表示技術(shù)的發(fā)展和研究成果、落地情況。

他表示，百度的語義計(jì)算方向包括語義表示學(xué)習(xí)、語義匹配計(jì)算、語義解析、多模態(tài)語義計(jì)算。計(jì)算機(jī)理解人類語言是一件非常有挑戰(zhàn)性的事情。

語義表示技術(shù)存在的問題是，自然語言存在基本單元一詞多義、多詞同義、句子表述無限等特性。而我們的目標(biāo)是將語言符號(hào)“表示”為另一種形式，這種表示具有語義上的等價(jià)性，更好的可計(jì)算性，更好地把握語義信息。

百度早期的語義表示技術(shù)采用的是基于檢索和主題模型的表示方法，包括 Term 向量表示、PLSA、LDA等。

在 2013~2016 年，隨著基于 DNN 表示技術(shù)的興起，百度開始了 word embedding 的研究。采用的算法是 RNNLM + Hierarchical softmax，其規(guī)模達(dá)到 1T 百度網(wǎng)頁(yè)數(shù)據(jù)，100 萬超大規(guī)模中文詞覆蓋，主要研究問題是解決大規(guī)模分布式計(jì)算問題。2017 年，百度進(jìn)行了基于大規(guī)模表示遷移在口語理解任務(wù)的探索。

語義匹配方面，百度 2013 年率先提出了 SimNet 技術(shù)，并成功用于網(wǎng)頁(yè)搜索，在未來的幾年中，對(duì)該技術(shù)做了很多改進(jìn)創(chuàng)新，包括數(shù)據(jù)分析、粒度知識(shí)融合、交互式匹配模型等方面的創(chuàng)新。SimNet 顯著改善了長(zhǎng)冷 query 的搜索效果，提升了搜索智能化的水平，在百度搜索發(fā)揮至關(guān)重要的作用。當(dāng)前，SimNet 語義匹配技術(shù)在百度各產(chǎn)品廣泛應(yīng)用。

現(xiàn)在，百度的最新研究是提出了知識(shí)增強(qiáng)的語義表示模型 ERNIE 并發(fā)布了基于 PaddlePaddle 的開源代碼與模型。框架包括基于海量百科、新聞、對(duì)話多源數(shù)據(jù)訓(xùn)練，雙向多層 Transformer的語義建模模型，融合并強(qiáng)化中文詞、實(shí)體等先驗(yàn)語義知識(shí)學(xué)習(xí)，多階段知識(shí)學(xué)習(xí)。在自然語言推斷、語義相似度、命名實(shí)體識(shí)別、情感分析、問答匹配等多個(gè)公開的中文數(shù)據(jù)集合上進(jìn)行實(shí)驗(yàn)，均取得了最好的效果。

百度接下來的主要工作還是會(huì)以語義表示為重點(diǎn)突破方向，包括知識(shí)的利用，自監(jiān)督任務(wù)的學(xué)習(xí)，弱監(jiān)督信號(hào)的利用，多語言、跨模態(tài)表示等。

自動(dòng)問答

百度 NLP 資深研發(fā)工程師、閱讀理解與問答技術(shù)負(fù)責(zé)人劉璟：百度閱讀理解技術(shù)研究及應(yīng)用

機(jī)器閱讀理解是指讓機(jī)器閱讀文本，然后回答和閱讀內(nèi)容相關(guān)的問題。機(jī)器閱讀理解是自動(dòng)問答的關(guān)鍵技術(shù)之一，該技術(shù)可以廣泛應(yīng)用于智能問答、智能音箱、智能客服等產(chǎn)品中，因此長(zhǎng)期以來受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。得益于近兩年閱讀理解技術(shù)的快速進(jìn)步，百度已將這一技術(shù)應(yīng)用到智能問答中。

百度主要研發(fā)了面向搜索場(chǎng)景的多文檔閱讀理解模型 V-NET，以及知識(shí)表示和文本表示融合模型 KT-NET。

面向搜索場(chǎng)景的多文檔閱讀理解中，每個(gè)問題包含了多個(gè)段落，因此通常存在歧義信息較多的挑戰(zhàn)。對(duì)此，百度研發(fā)了端到端的多文檔閱讀理解模型 V-NET，該模型在英文多文檔閱讀理解數(shù)據(jù)集 MSMARCO V2 問答任務(wù)上三次排名第一。

此外，機(jī)器閱讀理解不僅要求機(jī)器理解給定的文本內(nèi)容，還要求機(jī)器具備外部知識(shí)以支撐更為復(fù)雜的推理。為此，百度開創(chuàng)性地提出了語言表示與知識(shí)表示的深度融合模型 KT-NET，同時(shí)借助語言和知識(shí)進(jìn)一步提升機(jī)器閱讀理解的效果。KT-NET 目前是常識(shí)推理閱讀理解數(shù)據(jù)集 ReCoRD 榜單上排名第一的模型。

除了在技術(shù)上不斷投入研發(fā)，百度在去年推出了面向搜索場(chǎng)景的最大規(guī)模的中文閱讀理解數(shù)據(jù)集 DuReader 2.0，規(guī)模包含了 30 萬問題和 150 萬文檔和 66 萬答案。百度、中國(guó)計(jì)算機(jī)學(xué)會(huì)和中文信息學(xué)會(huì)連續(xù)兩年舉辦了基于 DuReader 數(shù)據(jù)集的機(jī)器閱讀理解評(píng)測(cè)，推動(dòng)了中文閱讀理解技術(shù)的進(jìn)步。

語言生成

百度 NLP 主任研發(fā)架構(gòu)師、篇章理解與語言生成技術(shù)負(fù)責(zé)人肖欣延：自然語言生成，助力智能內(nèi)容創(chuàng)作

肖欣延表示，隨著內(nèi)容生態(tài)和智能交互的發(fā)展，自然語言生成得到越來越多的關(guān)注。一方面自然語言生成能夠幫助內(nèi)容創(chuàng)作者提升創(chuàng)作效率，另一方面，也能夠用來改善交互的用戶體驗(yàn)。

自然語言生成的愿景是，讓機(jī)器像人類一樣去表達(dá)和創(chuàng)作。具體來看，它包含很多類型的任務(wù)，包括數(shù)據(jù)到文本的生成、文本到文本的生成、詩(shī)歌對(duì)聯(lián)的生成、多模生成、跨語言生成、對(duì)話生成等任務(wù)。此次報(bào)告中，主要從前面四個(gè)任務(wù)，介紹自然語言生成在內(nèi)容創(chuàng)作的技術(shù)及應(yīng)用。

首先是數(shù)據(jù)到文本的生成。這里展示了具體的足球比賽快訊生成樣例。傳統(tǒng)的方法是基于宏觀規(guī)劃、微觀規(guī)劃、表層實(shí)現(xiàn)的句法樹生成算法，這種算法效果可控，在業(yè)務(wù)中十分實(shí)用。同時(shí)報(bào)告中也介紹了基于深度學(xué)習(xí)的方法。方法是將宏觀規(guī)劃融合到層次化序列生成算法中，在公開測(cè)試集效果不錯(cuò)。

其次是文本到文本的生成。這里展示了基于摘要聚合的寫作，能夠快速對(duì)熱點(diǎn)進(jìn)行綜述報(bào)道。其中的核心技術(shù)是摘要技術(shù)。傳統(tǒng)而實(shí)用的方法主要是抽取式的算法，通過文檔分析、句子排序、句子選擇、摘要構(gòu)建輸出摘要。百度同時(shí)也創(chuàng)新提出了基于信息選擇網(wǎng)絡(luò)的生成式摘要，并在公開主流數(shù)據(jù)上得到不錯(cuò)的實(shí)驗(yàn)效果。

第三是創(chuàng)意寫作，包括詩(shī)歌和對(duì)聯(lián)生成。百度創(chuàng)新提出了基于規(guī)劃的神經(jīng)網(wǎng)絡(luò)，并用于詩(shī)歌生成。目前基于神經(jīng)網(wǎng)絡(luò)生成算法，在寫詩(shī)寫對(duì)聯(lián)上已經(jīng)都比較實(shí)用。

最后一個(gè)任務(wù)是多模生成。百度初步嘗試了基于視頻的寫作，通過多模理解技術(shù)，如視頻理解、觀點(diǎn)分析、知識(shí)圖譜的技術(shù)，獲得視頻的結(jié)構(gòu)化、半結(jié)構(gòu)化表示，然后在利用前面所述的基于數(shù)據(jù)的生成，撰寫出內(nèi)容豐富的文章。

肖欣延接著討論了智能寫作和人工撰寫的關(guān)系。智能寫作通過大數(shù)據(jù)分析，獲取熱點(diǎn)素材，然后快速根據(jù)數(shù)據(jù)生成報(bào)道，但是它生成的報(bào)道格式比較固定。而人類寫作時(shí)，在看到數(shù)據(jù)或事物之后，會(huì)產(chǎn)生各種演繹和聯(lián)想，深度挖掘各種題材，因而寫作形式也多種多樣。所以，從整體上來看，機(jī)器和人的差距依然存在，智能寫作不能完全取代作者，而應(yīng)該和作者分工合作。

為此百度推出了智能寫作平臺(tái)，提供自動(dòng)寫作和輔助寫作的能力，進(jìn)而幫助創(chuàng)作者提升內(nèi)容創(chuàng)作的效率和質(zhì)量，為智能創(chuàng)作領(lǐng)域提供更多可能。目前已經(jīng)可以通過百度的 AI 平臺(tái)進(jìn)行訪問。

談到未來，他表示有很多比較看好的應(yīng)用。一方面，寫作將會(huì)更加自動(dòng)、更生動(dòng)、更有深度；另一方面，基于神經(jīng)網(wǎng)絡(luò)的生成模型會(huì)逐漸實(shí)用化；在媒體行業(yè)，智能寫作會(huì)廣泛的落地，成為人類創(chuàng)作的助手；在智能交互家居中，語言生成技術(shù)也能夠很好的提升用戶的交互體驗(yàn)。

人機(jī)對(duì)話

百度 NLP 主任研發(fā)架構(gòu)師、UNIT 技術(shù)負(fù)責(zé)人孫珂博士：對(duì)話系統(tǒng)的應(yīng)用技術(shù)探索

近幾年來，隨著智能對(duì)話逐步深入到各行各業(yè)，用戶已經(jīng)可以在車載、音箱、客服、機(jī)器人等場(chǎng)景感受到智能對(duì)話給大家的生活帶來的便捷與改變。

然而，隨著智能對(duì)話技術(shù)產(chǎn)業(yè)化落地的進(jìn)一步深入，也面臨了更多的挑戰(zhàn)。例如對(duì)話系統(tǒng)的建設(shè)成本與效率是企業(yè)面臨的很大挑戰(zhàn)，企業(yè)需要投入大量人力和時(shí)間進(jìn)行數(shù)據(jù) 積累與整理、同時(shí)也要為高質(zhì)量的效果與復(fù)雜系統(tǒng)集成付出較多的成本。

據(jù)此，百度基于多年積累的自然語言理解與交互技術(shù)、深度學(xué)習(xí)、大數(shù)據(jù)等核心能力，打造了智能對(duì)話系統(tǒng)定制與服務(wù)平臺(tái) UNIT，幫助開發(fā)者降低對(duì)話系統(tǒng)研發(fā)門檻，精確適配業(yè)務(wù)需求，訓(xùn)練自己的對(duì)話系統(tǒng)。

在 UNIT 平臺(tái)中，集成了目前工業(yè)級(jí)研發(fā)比較成熟的三種主流對(duì)話系統(tǒng)技術(shù)，包括任務(wù)型對(duì)話系統(tǒng)、問答型對(duì)話系統(tǒng)和閑聊型對(duì)話系統(tǒng)。孫珂博士重點(diǎn)介紹了其中的任務(wù)型對(duì)話系統(tǒng)的實(shí)現(xiàn)。據(jù)介紹，在任務(wù)型對(duì)話系統(tǒng)中，對(duì)話理解的深度與系統(tǒng)的實(shí)現(xiàn)成本是百度 UNIT 關(guān)注的核心問題。UNIT 通過融合語義表示預(yù)訓(xùn)練模型 ERNIE 的對(duì)話理解模型和數(shù)據(jù)輔助生產(chǎn)工具 DataKit，綜合節(jié)省了 60% 的任務(wù)式對(duì)話系統(tǒng)研發(fā)成本。

除此之外， UNIT 還針對(duì)理解中的常見錯(cuò)誤，總結(jié)抽象了 15 套對(duì)話容錯(cuò)機(jī)制，并將其標(biāo)品化，據(jù)介紹，該機(jī)制可以通過簡(jiǎn)單的澄清反問，大幅提升對(duì)話理解的整體達(dá)成效率。

最后，孫珂博士還展示了 UNIT 基于閱讀理解技術(shù)為開發(fā)者搭建的對(duì)話式文檔問答技術(shù)。通過該技術(shù)，開發(fā)者只需上傳業(yè)務(wù)文檔并一鍵訓(xùn)練，即可在1分鐘內(nèi)快速定制問答系統(tǒng)。

機(jī)器翻譯

百度人工智能技術(shù)委員會(huì)主席何中軍：機(jī)器同傳進(jìn)展與展望

同聲傳譯最早出現(xiàn)在 1919 年，它最突出的特點(diǎn)是時(shí)間延遲小，信息傳遞效率非常高，因此被廣泛的應(yīng)用于重要國(guó)際會(huì)議、外交談判等重要場(chǎng)景。在同聲傳譯的過程中，同聲譯員需要全神貫注地進(jìn)行監(jiān)聽，工作強(qiáng)度極高。由于苛刻的要求，全球同傳譯員稀缺。與巨大的市場(chǎng)需求相比，人才嚴(yán)重短缺。

目前，機(jī)器同聲傳譯技術(shù)面臨著三大挑戰(zhàn)，一是技術(shù)挑戰(zhàn)，二是數(shù)據(jù)挑戰(zhàn)，三是評(píng)價(jià)挑戰(zhàn)。

技術(shù)挑戰(zhàn)方面，第一個(gè)問題是噪聲問題，由于說話人的口音、語速、現(xiàn)場(chǎng)會(huì)議噪聲等因素，使得語音識(shí)別的結(jié)果存在錯(cuò)誤。第二個(gè)問題是斷句，需要對(duì)語音識(shí)別后的結(jié)果進(jìn)行分句并加上標(biāo)點(diǎn)。第三個(gè)問題是，時(shí)間延遲與準(zhǔn)確率存在矛盾。如果要提高準(zhǔn)確率，就需要等待說話人的具體意思表達(dá)完整之后再進(jìn)行翻譯，時(shí)間延遲就會(huì)比較高。第四個(gè)問題是翻譯的連貫性。同傳的主要場(chǎng)景是對(duì)演講者的內(nèi)容進(jìn)行實(shí)時(shí)翻譯，需要保證翻譯前后內(nèi)容的連貫和一致。

第二是數(shù)據(jù)挑戰(zhàn)。面向真實(shí)場(chǎng)景的訓(xùn)練數(shù)據(jù)只有幾十到幾百個(gè)小時(shí)，這么少的數(shù)據(jù)對(duì)于訓(xùn)練一個(gè)高質(zhì)量的同傳系統(tǒng)而言遠(yuǎn)遠(yuǎn)不夠。

第三是評(píng)價(jià)挑戰(zhàn)。在文本翻譯的時(shí)候，我們有足夠的時(shí)間去思考、潤(rùn)色和加工。而在同聲傳譯時(shí)，實(shí)時(shí)性非常強(qiáng)，所采用的翻譯方式與文本翻譯不同。針對(duì)文本的評(píng)價(jià)方式不適用于評(píng)價(jià)同傳。

針對(duì)語音識(shí)別錯(cuò)誤的問題，百度提出了聯(lián)合詞向量編碼模型。這個(gè)模型非常簡(jiǎn)單，就是在原來文本向量的基礎(chǔ)上引入了音節(jié)向量，使得模型具有了一定的容錯(cuò)能力。

百度還提出了可控時(shí)延的翻譯模型，來解決時(shí)間延遲的問題。在傳統(tǒng)的文本翻譯過程中，我們要等待一個(gè)句子完全輸入完畢以后才能進(jìn)行翻譯。百度從同傳譯員那里獲得靈感，提出了一個(gè)可以預(yù)測(cè)的模型，在原始句子只輸入幾個(gè)字以后，就可以開始預(yù)測(cè)和翻譯。

在語篇翻譯方面，百度提出了多輪解碼策略，第一遍首先進(jìn)行傳統(tǒng)的粗解碼，在這個(gè)基礎(chǔ)上，再結(jié)合句子的上下文進(jìn)行第二遍精細(xì)解碼。同時(shí)，引入了強(qiáng)化學(xué)習(xí)策略，對(duì)產(chǎn)生的句子進(jìn)行反饋和優(yōu)化，以進(jìn)一步提升句子之間的流暢度。

此外，在端到端機(jī)器同傳模型方面，百度提出基于知識(shí)蒸餾的同傳模型。利用大規(guī)模文本翻譯語料訓(xùn)練一個(gè)教師模型，去優(yōu)化端到端的同傳翻譯模型。該模型可以有效克服數(shù)據(jù)稀疏問題，顯著提升翻譯質(zhì)量。

為推動(dòng)機(jī)器同傳技術(shù)發(fā)展，百度翻譯聯(lián)合 CCMT2019（全國(guó)機(jī)器翻譯研討會(huì)）推出全球首個(gè)面向真實(shí)場(chǎng)景的中英同傳評(píng)測(cè)任務(wù)，同時(shí)發(fā)布了首個(gè)真實(shí)演講場(chǎng)景的中英同傳數(shù)據(jù)集 CCMT2019-BSTC，兩項(xiàng)工作都將極大地推動(dòng)同聲傳譯的相關(guān)研究和發(fā)展。

何中軍表示，未來，機(jī)器同傳可以從以下三個(gè)方面開展工作，在模型方面，研究高魯棒、低時(shí)延的同傳模型；在數(shù)據(jù)方面，建設(shè)大規(guī)模面向真實(shí)場(chǎng)景的同傳數(shù)據(jù)；在評(píng)價(jià)方面，建立面向同傳的評(píng)價(jià)體系和標(biāo)準(zhǔn)。

雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

skura

編輯

發(fā)私信

當(dāng)月熱門文章

2019 自然語言處理前沿論壇成功舉辦，百度 NLP 技術(shù)全揭秘

2019 自然語言處理前沿論壇成功舉辦，百度 NLP 技術(shù)全揭秘