日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給楊鯉萍
發(fā)送

0

Facebook 自然語(yǔ)言處理新突破:新模型能力趕超人類(lèi) & 超難 NLP 新基準(zhǔn)

本文作者: 楊鯉萍 2019-09-16 18:45
導(dǎo)語(yǔ):更接近人類(lèi)自然語(yǔ)言理解水平的新基準(zhǔn)

雷鋒網(wǎng) AI 開(kāi)發(fā)者按:自然語(yǔ)言理解(NLU)和語(yǔ)言翻譯是一系列重要應(yīng)用的關(guān)鍵,包括大規(guī)模識(shí)別和刪除有害內(nèi)容,以及連接世界各地不同語(yǔ)言的人們。盡管近年來(lái)基于深度學(xué)習(xí)的方法加速了語(yǔ)言處理的進(jìn)展,但在處理大量標(biāo)記訓(xùn)練數(shù)據(jù)不易獲得的任務(wù)時(shí),現(xiàn)有系統(tǒng)的處理水平仍然是有限的。

因此,F(xiàn)acebook 聯(lián)合 Deepmind Technologies、紐約大學(xué)(NYU)及華盛頓大學(xué)(UW)合作構(gòu)建新基準(zhǔn) SuperGLUE,并發(fā)布了相關(guān)內(nèi)容介紹該高難度測(cè)試基準(zhǔn),雷鋒網(wǎng) AI 開(kāi)發(fā)者將其整理及編譯如下。

Facebook 自然語(yǔ)言處理新突破:新模型能力趕超人類(lèi) & 超難 NLP 新基準(zhǔn)

SuperGLUE 推出背景

最近,F(xiàn)acebook 人工智能在 NLP 方面取得了重大突破。Facebook 通過(guò)使用半監(jiān)督和自監(jiān)督學(xué)習(xí)技術(shù),利用未標(biāo)記的數(shù)據(jù)來(lái)提高純監(jiān)督系統(tǒng)的性能。

在第四屆機(jī)器翻譯大會(huì)(WMT19)比賽中,F(xiàn)acebook 采用了一種新型的半監(jiān)督訓(xùn)練方法,并在多種語(yǔ)言翻譯任務(wù)中獲得了第一名。Facebook 還引入了一種新的自我監(jiān)督的預(yù)訓(xùn)練方法——RoBERTa。它在一些語(yǔ)言理解任務(wù)上超過(guò)了所有現(xiàn)有的 NLU 系統(tǒng)。在某些情況下,這些系統(tǒng)甚至優(yōu)于人類(lèi)基線,包括英德翻譯和五個(gè) NLU 基準(zhǔn)。

在整個(gè)自然語(yǔ)言處理領(lǐng)域,NLU 系統(tǒng)的發(fā)展速度如此之快,以至于它在許多現(xiàn)有的基準(zhǔn)上已經(jīng)達(dá)到了一個(gè)極限。為了繼續(xù)提高技術(shù)水平,F(xiàn)acebook 與 Deepmind Technologies、紐約大學(xué)及華盛頓大學(xué)合作開(kāi)發(fā)了一套全新的基準(zhǔn)、排行榜和 PyTorch 工具包(https://jiant.info/),F(xiàn)acebook 希望這些成果將進(jìn)一步推動(dòng)自然語(yǔ)言處理領(lǐng)域的研究進(jìn)展。

簡(jiǎn)而言之,這些新工具將幫助人類(lèi)創(chuàng)建更強(qiáng)大的內(nèi)容理解系統(tǒng),而且能夠翻譯數(shù)百種語(yǔ)言,理解諸如含糊不清、共同引用和常識(shí)性推理等復(fù)雜的問(wèn)題,從而減少現(xiàn)有的這些系統(tǒng)對(duì)大量標(biāo)記訓(xùn)練數(shù)據(jù)的依賴(lài)性。

翻譯準(zhǔn)確性的突破

對(duì)于神經(jīng)機(jī)器翻譯(NMT)模型,有監(jiān)督式訓(xùn)練通常需要大量附有參考翻譯的句子。然而,大量高質(zhì)量的雙語(yǔ)數(shù)據(jù)并不是普遍可用的,這就要求研究人員使用沒(méi)有參考翻譯的單語(yǔ)數(shù)據(jù)。反向翻譯(Back translation,一種半監(jiān)督學(xué)習(xí)技術(shù))允許 Facebook 在一定程度上克服這個(gè)問(wèn)題。

Facebook 最近提交給 WMT 的報(bào)告是基于 Facebook 之前在大規(guī)模反向翻譯方面的工作,這也幫助 Facebook 在去年的同一比賽中贏得了第一名。

而今年,F(xiàn)acebook 引入了一種新的方法,通過(guò)生成多個(gè)候選譯文,并選擇最能平衡正向、反向、流暢性三種不同模型分?jǐn)?shù)的譯文,來(lái)進(jìn)一步改進(jìn) Facebook 的反向翻譯系統(tǒng)。

正向模型的分?jǐn)?shù)主要由候選翻譯在多大程度上捕捉了原句的意思來(lái)衡量;相反,反向模型的分?jǐn)?shù)是通過(guò)查看模型能從候選譯文中重建出的句子準(zhǔn)確性來(lái)評(píng)判;流暢性模型的分?jǐn)?shù)根據(jù)候選翻譯流暢性來(lái)衡量,最后系統(tǒng)通過(guò)觀察大量的單語(yǔ)數(shù)據(jù)以自我監(jiān)督的方式進(jìn)行訓(xùn)練;經(jīng)過(guò)對(duì)這三個(gè)分?jǐn)?shù)的平衡,系統(tǒng)就能夠產(chǎn)生顯著優(yōu)化后的翻譯結(jié)果。

經(jīng)過(guò)幾年的努力,F(xiàn)acebook 將英-德語(yǔ)翻譯任務(wù)的性能提高了 4.5 BLEU(衡量生成的翻譯和專(zhuān)業(yè)參考之間重疊程度的指標(biāo)),這是一個(gè)很大的改進(jìn)。根據(jù)人工評(píng)估,F(xiàn)acebook 的模型在英-德、德-英、英-俄,和俄-英四個(gè)翻譯任務(wù)中排名第一。根據(jù) WMT 賽制的評(píng)判,F(xiàn)acebook 的英-德語(yǔ)翻譯甚至比人工翻譯更佳。

Facebook 自然語(yǔ)言處理新突破:新模型能力趕超人類(lèi) & 超難 NLP 新基準(zhǔn)

圖 1 Facebook 引入的一種新方法

上面的圖片展示了這種技術(shù)是如何工作的:首先,一個(gè)正向模型將一個(gè)句子翻譯成英語(yǔ),例如從德語(yǔ)翻譯成英語(yǔ),就會(huì)生成一組英語(yǔ)翻譯或假設(shè)。然后,一個(gè)反向模型將這些英語(yǔ)假設(shè)翻譯回德語(yǔ),使系統(tǒng)能夠評(píng)估每個(gè)英語(yǔ)翻譯與原始德語(yǔ)句子的匹配程度。最后,一個(gè)語(yǔ)言模型來(lái)判斷英語(yǔ)翻譯的流暢程度。

Facebook 還將訓(xùn)練擴(kuò)展到了更大的數(shù)據(jù)集,包括大約 100 億個(gè)單詞用于英語(yǔ)到德語(yǔ)翻譯的詞匯。與去年相比,F(xiàn)acebook 使用了兩倍多的單語(yǔ)數(shù)據(jù)進(jìn)行半監(jiān)督訓(xùn)練,進(jìn)一步提高了翻譯的準(zhǔn)確性。更多詳情,可以參考 Facebook 人工智能在 2019 年 WMT 國(guó)際機(jī)器翻譯大賽中的表現(xiàn)(https://ai.facebook.com/blog/facebook-leads-wmt-translation-competition/)。

自監(jiān)督預(yù)訓(xùn)練方法的改進(jìn)

Facebook 最近對(duì)自然語(yǔ)言處理(NLP)的最大突破——BERT, 也進(jìn)行了優(yōu)化和改進(jìn)。Google 在 2018 年發(fā)布了 BERT。它是革命性的,因?yàn)樗故玖俗员O(jiān)督訓(xùn)練技術(shù)的潛力,它具有與傳統(tǒng)的標(biāo)簽密集型監(jiān)督方法的性能相媲美甚至超越它的能力。例如,F(xiàn)acebook 利用 BERT 和相關(guān)方法推動(dòng)對(duì)話型人工智能領(lǐng)域的前沿研究,改進(jìn)內(nèi)容理解系統(tǒng),提高低資源和無(wú)監(jiān)督的翻譯質(zhì)量。

因?yàn)?Google 開(kāi)源了 BERT,F(xiàn)acebook 才能夠進(jìn)行一項(xiàng)復(fù)制研究,并確定進(jìn)一步提高其有效性的設(shè)計(jì)變更。Facebook 引入了穩(wěn)健優(yōu)化的 BERT 預(yù)訓(xùn)練方法,即 RoBERTa,并取得了新的最先進(jìn)進(jìn)展。

RoBERTa 修改了 BERT 中的關(guān)鍵超參數(shù),包括刪除 BERT 的下一個(gè)句子的預(yù)訓(xùn)練目標(biāo),并使用更大的批量和學(xué)習(xí)率進(jìn)行訓(xùn)練。與 BERT 相比,RoBERTa 的數(shù)據(jù)總量要多 10 倍以上,因此訓(xùn)練時(shí)間也要長(zhǎng)得多。這種方法在廣泛使用的 NLP 基準(zhǔn)測(cè)試、通用語(yǔ)言理解評(píng)估(GLUE)和閱讀理解考試(RACE)上產(chǎn)生了最先進(jìn)的結(jié)果。

Facebook 自然語(yǔ)言處理新突破:新模型能力趕超人類(lèi) & 超難 NLP 新基準(zhǔn)

圖 2 圖表展示了 RoBERTa 在不同任務(wù)中的結(jié)果

憑借平均得分 88.5 分,RoBERTa 贏得了 GLUE 排行榜的榜首位置,與之前第一名——平均得分為 88.4 分的 XLNet-Large 表現(xiàn)不相上下。RoBERTa 還在一些語(yǔ)言理解基準(zhǔn)測(cè)試水平上實(shí)現(xiàn)了提高,包括 MNLI、QNLI、RTE、STS-B 和 RACE 任務(wù)。

這一部分就是 Facebook 不斷致力于提高不太依賴(lài)于數(shù)據(jù)標(biāo)記的自監(jiān)督系統(tǒng)的性能和潛力的內(nèi)容。有關(guān) RoBERTa 的更多詳細(xì)信息,請(qǐng)參考「RoBERTa:預(yù)訓(xùn)練自監(jiān)督 NLP 系統(tǒng)的優(yōu)化方法(https://ai.facebook.com/blog/roberta-an-optimized-method-for-pretraining-self-supervised-nlp-systems/)」。

NLP 研究的下一個(gè)前沿

作為衡量研究進(jìn)展的行業(yè)標(biāo)準(zhǔn),GLUE 旨在覆蓋大量的 NLP 任務(wù),因此只有構(gòu)建足夠通用的工具來(lái)幫助解決大多數(shù)新的語(yǔ)言理解問(wèn)題,才能得到良好的表現(xiàn)。

在發(fā)布后的一年內(nèi),幾個(gè) NLP 模型(包括 RoBERTa)已經(jīng)在 GLUE 基準(zhǔn)測(cè)試中超過(guò)了人類(lèi)。目前的模型已經(jīng)提出了一個(gè)令人驚訝的有效方法,它將大型文本數(shù)據(jù)集上的語(yǔ)言模型預(yù)訓(xùn)練與簡(jiǎn)單的多任務(wù)和轉(zhuǎn)移學(xué)習(xí)技術(shù)進(jìn)行了結(jié)合。

這種快速的進(jìn)步是大型人工智能社區(qū)內(nèi)協(xié)作的一個(gè)功能。上面描述的 NLP 競(jìng)賽、基準(zhǔn)測(cè)試和代碼發(fā)布使模型復(fù)制,改進(jìn)和最先進(jìn)結(jié)果的更快進(jìn)步成為可能。隨著 GPT 和 BERT 的引入,GLUE 的模型性能急劇提升,現(xiàn)在最先進(jìn)的模型已經(jīng)超越了人類(lèi)的能力,如圖 3 所示:

Facebook 自然語(yǔ)言處理新突破:新模型能力趕超人類(lèi) & 超難 NLP 新基準(zhǔn)

圖 3 最先進(jìn)的自然語(yǔ)言處理模型能力已經(jīng)超越人類(lèi)

盡管目前的模型可以在特定的 GLUE 任務(wù)上超越人類(lèi)水平的性能,但它們還不能完美地解決人類(lèi)解決的一些任務(wù)。為了給 NLP 研究設(shè)定一個(gè)新的更高的標(biāo)準(zhǔn),facebook 人工智能團(tuán)隊(duì)與紐約大學(xué)、deepmind 以及華盛頓大學(xué)合作構(gòu)建了 SuperGLUE,這是一個(gè)具有全面人類(lèi)基線的更高難度基準(zhǔn)。Facebook 正在推出 SuperGlue,讓自然語(yǔ)言理解領(lǐng)域的研究人員能夠繼續(xù)推進(jìn)最先進(jìn)的技術(shù)。

SuperGLUE 基準(zhǔn)測(cè)試

最初的基準(zhǔn)和新的基準(zhǔn)都是由紐約大學(xué)發(fā)起,與相同的合作伙伴合作創(chuàng)建。SuperGLUE 緊跟 GLUE 的腳步,GLUE 提供了單一的數(shù)字度量,用于總結(jié)不同 NLP 任務(wù)集的進(jìn)度。除了新的基準(zhǔn)之外,F(xiàn)acebook 還發(fā)布了一個(gè)用于引導(dǎo)研究的排行榜和 pytorch 工具包。

SuperGlue 包含了新的方法來(lái)測(cè)試一系列困難的 NLP 任務(wù)的創(chuàng)造性方法,這些任務(wù)主要關(guān)注機(jī)器學(xué)習(xí)一些核心領(lǐng)域的創(chuàng)新,包括樣本有效性、轉(zhuǎn)移、多任務(wù)和自監(jiān)督學(xué)習(xí)。為了向研究人員提出挑戰(zhàn),F(xiàn)acebook 選擇了格式多樣、問(wèn)題更為微妙、尚未用最先進(jìn)方法解決但容易被人們解決的任務(wù)。為了檢查這些任務(wù),F(xiàn)acebook 為許多候選任務(wù)運(yùn)行基于 BERT 的基線,并為人工基線收集數(shù)據(jù)。

新的基準(zhǔn)測(cè)試包括八個(gè)不同且具有挑戰(zhàn)性的任務(wù),其中包括選擇合理的替代方案(COPA),一個(gè)因果推理任務(wù)。在這個(gè)任務(wù)中,系統(tǒng)被賦予一個(gè)前提語(yǔ)句,并且必須從兩個(gè)可能的選擇中確定這個(gè)前提語(yǔ)句的因果。值得注意的是,人類(lèi)在 COPA 上獲得了 100% 的準(zhǔn)確率,而 BERT 只獲得了 74%,這表明 BERT 還有很大的進(jìn)步空間。

其他獨(dú)特的前沿組件還包括用于測(cè)量這些模型中偏差的診斷工具。例如:winogender,它是為了測(cè)試在自動(dòng)指代消解系統(tǒng)(automated co-reference resolution systems)中是否存在性別偏見(jiàn)而設(shè)計(jì)的。SuperGlue 還包括一個(gè)名為「BoolQ」的問(wèn)答(QA)任務(wù),其中每個(gè)示例都由一個(gè)段落和一個(gè)關(guān)于該段落的是」或「否」問(wèn)題組成;它是自然問(wèn)題基準(zhǔn)測(cè)試中的一個(gè)很好的工具。

Facebook 自然語(yǔ)言處理新突破:新模型能力趕超人類(lèi) & 超難 NLP 新基準(zhǔn)

圖 4 該示例表示 SuperGlue 中八個(gè)任務(wù)中的 1 個(gè)。粗體文本表示每個(gè)任務(wù)示例格式的一部分;斜體文本是模型輸入的一部分;帶下劃線的文本在輸入中特別標(biāo)記;等寬字體中的文本表示預(yù)期的模型輸出(更多示例請(qǐng)閱讀原文)

與 GLUE 類(lèi)似,新的基準(zhǔn)測(cè)試還包括一個(gè)圍繞自然語(yǔ)言理解任務(wù)構(gòu)建的公共排行榜,它利用現(xiàn)有數(shù)據(jù),并附帶一個(gè)單數(shù)字性能指標(biāo)和一個(gè)分析工具包。

Facebook 最近針對(duì)新的基準(zhǔn)測(cè)試了 RoBERTa,RoBERTa 在多語(yǔ)言閱讀理解(Multientence Reading Comprehension,MultiRC)任務(wù)中的表現(xiàn)超過(guò)了所有現(xiàn)有的 NLU 系統(tǒng),甚至超過(guò)了人類(lèi)在該任務(wù)上的基線。盡管如此,在許多 SuperGLUE 任務(wù)中,RoBERTa 與人類(lèi)基線之間仍然存在很大差距,這說(shuō)明了當(dāng)今最先進(jìn)的 NLU 系統(tǒng)的一些局限性。

Facebook 自然語(yǔ)言處理新突破:新模型能力趕超人類(lèi) & 超難 NLP 新基準(zhǔn)

圖 5 RoBERTa 在多語(yǔ)言閱讀理解任務(wù)中表現(xiàn)與其它方法的對(duì)比

下一步計(jì)劃

為了進(jìn)一步挑戰(zhàn)人工智能系統(tǒng)能為人類(lèi)提供的幫助,F(xiàn)acebook 還引入了第一個(gè)長(zhǎng)格式的問(wèn)答數(shù)據(jù)集和基準(zhǔn)測(cè)試,它要求機(jī)器提供長(zhǎng)而復(fù)雜的答案——這是現(xiàn)有算法以前從未遇到過(guò)的挑戰(zhàn)。

目前的問(wèn)答系統(tǒng)主要集中在一些瑣碎的問(wèn)題上,比如水母是否有大腦。這項(xiàng)新的挑戰(zhàn)更進(jìn)一步,要求機(jī)器對(duì)開(kāi)放性問(wèn)題進(jìn)行深入的解答,例如「沒(méi)有大腦,水母如何工作?」現(xiàn)有的算法與人類(lèi)的表現(xiàn)相去甚遠(yuǎn),這一新的挑戰(zhàn)將促使人工智能合成來(lái)自不同來(lái)源的信息,為開(kāi)放式問(wèn)題提供復(fù)雜的答案。

近期,F(xiàn)acebook 還公布了來(lái)自 35 個(gè)國(guó)家的 115 份獲獎(jiǎng)提案中的 11 份,并宣布成立人工智能語(yǔ)言研究聯(lián)盟 (AI Language Research Consortium),這是一個(gè)由合作伙伴組成的社區(qū),F(xiàn)acebook 表示將「共同努力,推進(jìn) NLP」。

除了與 Facebook 的研究人員就多年項(xiàng)目和出版物進(jìn)行合作外,人工智能語(yǔ)言研究聯(lián)盟的成員還有機(jī)會(huì)獲得研究經(jīng)費(fèi),參加年度研究講習(xí)班,參加重要的 NLP 會(huì)議。Facebook 表示:「這些 NLP 和機(jī)器翻譯的研究獎(jiǎng)項(xiàng)是我們長(zhǎng)期目標(biāo)的延續(xù),我們希望這個(gè)聯(lián)盟,以及這些 NLP 和機(jī)器翻譯的研究獎(jiǎng)項(xiàng),會(huì)有助于加速 NLP 社區(qū)的研究?!?/p>

原文鏈接:

https://ai.facebook.com/blog/new-advances-in-natural-language-processing-to-better-connect-people/

關(guān)于人工智能語(yǔ)言研究聯(lián)盟:

https://venturebeat.com/2019/08/28/facebook-founds-ai-language-research-consortium-to-solve-challenges-in-natural-language-processing/ 

SuperGLUE 基準(zhǔn)地址:

https://super.gluebenchmark.com/ 

雷鋒網(wǎng) AI 開(kāi)發(fā)者

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

Facebook 自然語(yǔ)言處理新突破:新模型能力趕超人類(lèi) & 超難 NLP 新基準(zhǔn)

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)