日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給MrBear
發(fā)送

0

參會見聞系列:ACL 2018,在更具挑戰(zhàn)的環(huán)境下理解數據表征及方法評價

本文作者: MrBear 編輯:楊曉凡 2018-08-21 00:35 專題:ACL 2018
導語:這是一份翔實的 ACL 2018 亮點歸納,帶你快速了解 ACL 2018 上自然語言處理領域最新的研究進展。

參會見聞系列:ACL 2018,在更具挑戰(zhàn)的環(huán)境下理解數據表征及方法評價

雷鋒網 AI 科技評論按:本篇屬于「頂會見聞系列」。每年這么多精彩的人工智能/機器學習會議,沒去現場的自然可惜,在現場的也容易看花眼。那么事后看看別的研究員的見聞總結,也許會有新的收獲呢。

Sebastian Ruder 是 Data Analytics 的 Insight 研究中心的在讀博士生,也是 AYLIEN 的研究科學家。在此之前他曾在微軟、IBM 深藍以及谷歌代碼夏令營工作。他的主要研究興趣是用于領域適配的深度學習。這篇文章由 Sebastian Ruder 發(fā)表在 AYLIEN 博客,是一篇深入、全面的 ACL 2018 會議論文研究亮點回顧。雷鋒網 AI 科技評論全文編譯如下。

今年 7 月15 日至 20日,我有幸參加了于澳大利亞·墨爾本舉辦的第 56 屆計算機語言學年會,即 ACL 2018,并且發(fā)表了三篇論文(http://arxiv.org/abs/1804.09530,http://arxiv.org/abs/1801.06146,http://arxiv.org/abs/1805.03620 )。想要將整個 ACL 2018 的內容歸納在一個主題下無異于異想天開。然而,細細品味一下,還是能明顯地看出一些重要的議題。在 2015 和 2016 年的自然語言領域的學術會議中,詞嵌入技術可謂一統天下。那時許多人甚至認為,與其將 EMNLP(自然語言處理領域的頂會之一)解釋為「自然語言處理實證方法(Empirical Methods in Natural Language Processing)」還不如將其解釋為「自然語言處理嵌入方法(Embedding Methods in Natural Language Processing)」。 

斯坦福大學 NLP 掌門人 Christopher Manning 曾在一次演講中提到,2017 年是 BiLSTM+attention 之年(帶有注意力機制的雙向 LSTM)。盡管帶有注意力機制的 BiLSTM 仍然無處不在,但在我看來,這項大會的主要內容還是在于更好地了解這些模型捕獲的表征并更具挑戰(zhàn)的環(huán)境中采用這些表征。我關注的主要是涉及到以上主題的工作,也會討論一些其他我感興趣的主題。

理解數據表征

探測模型

令人耳目一新的是,許多論文對現有的模型以及它們所捕獲到的信息進行了翔實的分析,而不是繼續(xù)引入看上去更炫酷的新模型。目前,要做到這一點最常見的做法是自動創(chuàng)建一個數據集,它側重于泛化能力的某一個方面,然后在這個數據集中評估不同的訓練過的模型:

  • 例如,Conneau 等人(http://arxiv.org/abs/1805.01070)在 10 個數據集上評估不同的句子嵌入方法,這些數據集的設計旨在捕捉某些特定的語言學特征,比如預測一個句子的長度、恢復單詞的內容、對二元轉換的敏感性等。他們發(fā)現,不同的編碼器結構可能導致嵌入具有不同的特性,而且相比于其他任務中的結果,嵌入袋(bag-of-embeddings)捕獲句子級別信息的能力的出乎意料地好。

  • Zhu 等人(http://aclweb.org/anthology/P18-2100)通過觀察從某些語義或者語法不同的句子中生成的三元組的相似性的變化來評估句子嵌入。他們發(fā)現,在眾多發(fā)現中, SkipThought 和 InferSent 能將否定詞和同義詞進行區(qū)分的特性尤為突出,同時 InferSent 更擅長識別等價語義以及識別量詞。

  • Pezzelle 等人(http://arxiv.org/abs/1806.00354)專門研究了量詞,他們對不同的 CNN 和LSTM 模型預測單句和多句語境中的量詞的能力進行了測試。他們發(fā)現,在單句語境中,模型比人類更勝一籌,而人類在多句語境中的表現略好一些。

  • Kuncoro 等人(http://aclweb.org/anthology/P18-1132)評估了 LSTM 基于主謂一致規(guī)則建模的能力。他們發(fā)現,只要容量足夠,LSTM 能夠對主謂一致性建模,但是像語法 RNN (recurrent neural network grammars,https://arxiv.org/abs/1602.07776)這樣的對于句法更敏感的模型的表現更好。

  • Blevins 等人(http://arxiv.org/abs/1805.04218)評估了為不同的任務進行過預訓練的模型,查看它們是否能夠捕獲語法的層次結構。具體而言,他們訓練了用于預測詞性標注以及解析樹不同深度所組成的標簽。它們發(fā)現所有的模型實際上都能夠編碼大量的語法信息,尤其是語言模型還能夠學到了一些語法。

  • 在Lau 等人(http://arxiv.org/abs/1807.03491)的努力下,他們得到了一個與語言模型的泛化能力相關的有趣的結果:用十四行詩的語料庫訓練出來的語言模型可以學到與人類水平相當的格律。

  • 然而,語言模型也存在著其局限性。Spithourakis 和 Riedel (https://arxiv.org/abs/1805.08154  )發(fā)現語言模型對數字建模的能力很差,他們針對這個問題提出了一些對語言模型進行改進的策略。

  • Liu 等人(http://arxiv.org/abs/1805.11653)在 Relp4NLP workshop上演示了,用自然語言數據訓練的 LSTM 網絡可以比用非自然語言數據訓練的模型從更長的序列中召回單詞。

值得特別注意的是,我認為更好地了解 LSTM 網絡以及語言模型建模了哪些信息越來越重要,因為這似乎是 NLP 領域的研究不斷前進的一項重要推動力,正如我們關于語言模型微調的 ACL 2018 論文(http://arxiv.org/abs/1801.06146)以及這篇講 NLP 領域的 ImageNet 時代已經到來的文章討論的那樣。

理解目前最先進的模型

盡管上面提到的研究工作都是試圖了解某個特定的模型類別的泛化能力的某個層面,本屆 ACL 還有一些論文著眼于更好地理解目前用于特定任務的最好的模型:

  • Glockner 等人(http://arxiv.org/abs/1805.02266)著眼于自然語言推理的任務。他們創(chuàng)建了一個數據集,該數據集中的句子與訓練數據中的句子最多只有一個單詞不同,這樣做是為了測試模型是否可以進行簡單的詞匯推斷。他們發(fā)現當前最佳的模型無法完成許多簡單的推斷工作。

  • Mudrkarta 等人(https://arxiv.org/abs/1805.05492)對當前最頂級的 QA 模型進行了跨模態(tài)分析,發(fā)現這些模型常常會忽略關鍵發(fā)問詞。接著,他們對問題進行了擾動處理,以制造可以大大降低模型準確率的對抗樣本。

我發(fā)現許多論文對模型的不同層面進行了探索。我希望這些新出現的數據集可以成為每位自然語言處理研究人員工具包中的標準工具。這樣一來,我們不僅可以在未來看到更多這樣的論文,而且這樣的分析也可能成為除誤差分析和模型簡化測試以外標準模型評估的一部分。

分析歸納偏倚

另一種更好地了解一個模型的方式是分析模型的歸納偏倚。自然語言處理神經架構的語言結構相關性 workshop(RELSNNLP workshop)試著探究將語言結構融入模型有多大的作用。Chris Dyer 在 workshop 上的發(fā)言的重點之一是:循環(huán)神經網絡(RNN)對自然語言處理(NLP)是否具備有用的歸納偏倚。特別是,他認為有幾條明顯的證據可以證明 RNN 更偏向于順序近因效應,即:

  1. 隨著時間的推移,梯度會逐漸衰減。LSTM 或 GRU 可能會幫助我們減緩這種趨勢,但它們也會遺忘掉梯度的信息。

  2. 人們在訓練機器翻譯模型時會使用反轉輸入序列這樣的訓練機制。

  3. 人們使用類似注意力機制的增強功能與時間上更早期的內容建立直接的聯系。

  4. 針對主謂一致建模,誤差率會隨著吸引子的增加而增加(http://arxiv.org/abs/1611.01368)。

據 Chomsky 所言,順序近因效應并不是學習人類語言的正確偏倚,因此就語言建模任務而言,RNN 網絡帶有的偏倚似乎并不是很合適。這樣的做法在實踐中就可能會導致統計意義上的效率低和以及泛化能力差的問題。語法 RNN (http://arxiv.org/abs/1602.07776)是一類通過將句子壓縮成其成分來順序生成一個樹結構以及一個序列的模型,而不是對句法(而非順序)近因有偏倚。

然而,要確定模型是否具有有用的歸納偏倚通常是很難的。為了識別出主謂一致關系,Chris 假設 LSTM 語言模型學習到了一種非結構性的「第一名詞」啟發(fā)式,它依賴于將動詞與句子中的第一個名詞相匹配。通常來說,困惑度(以及其他評價指標)與句法能力或結構能力相關。然而,在從使用更簡單的啟發(fā)式的模型中區(qū)分出結構敏感的模型時,困惑度則并不是特別敏感。

使用深度學習技術理解語言

Mark Johnson 在 workshop 的演講中提到,盡管深度學習為自然語言處理帶來了很大程度的革命,但它的主要的好處還在于其經濟性:用端到端模型代替了對成分復雜的處理流程,往往可以更快、更容易地實現目標準確性。深度學習并未改變我們對語言的理解,從這個意義上說,深度學習主要的貢獻在于證明神經網絡(或者說這種計算模型)可以執(zhí)行某些自然語言處理任務,這也表明這些任務并不是智能的指標。雖然深度學習方法可以很好地對匹配和執(zhí)行感知任務進行建模,但對于依賴于有意識的反應和思考的任務,它們的表現仍然差強人意。

引入語言結構

Jason Eisner 在演講中對「語言結構和類別是否真的存在」這一問題提出質疑:是真的存在結構和類別,還是只不過「科學家們就是喜歡把數據分成堆」,因為不考慮語言結構的方法在機器學習任務中也可以表現得驚人的好。他發(fā)現即使是像音素「/b/」和音素「/p/」之間的差異這樣「任意定義」的類別劃分也會被進一步加強,然后具有一些意義。相比之下,神經網絡模型就好比是性能良好的海綿,它可以吸收任何沒有被顯式建模的東西。

他提到了四種常用的方法,用以在模型中引入語言結構信息:a)通過基于流水線的方法,將語言類別作為特征引入;b)通過數據增強,用語言類別對數據進行擴充;c)通過多任務學習引入語言結構;d)通過結構化建模,例如使用基于轉換的解析器、循環(huán)神經網絡語法,甚至是像 BIO 標記法這樣相互依賴的類引入語言信息。

Emily Bender 在也在 workshop 上有個演講,其中她對「與語言無關的學習」整個想法提出了質疑:即便你已經有一個某種語言的巨大的語料庫,且你對這種語言其一無所知,那么在沒有任何先驗信息的情況下(例如,什么是功能詞),那么你就無法學到句子的結構或含義。她還指出許多機器學習論文將它們的方法描述得類似于嬰兒學習的過程,但卻沒引用任何實際的發(fā)展心理學或語言獲得方面的文獻。實際上嬰兒學習環(huán)境是有特殊情境、多種因素共同作用、帶有主觀感情的,它們包含了很多信號和意義。

理解 LSTM 的故障模式

更好地理解表征也是自然語言處理表征學習 workshop(Representation Learning for NLP workshop)的一個主題。Yoav Goldberg 在 workshop 上的演講中詳細介紹了他的小組為了更好地理解 RNN 的表征所做出的努力。特別是,他討論了最近從 RNN 中提取有限狀態(tài)自動機從而更好地了解模型學習到了什么的工作(http://arxiv.org/abs/1711.09576)。他還提醒聽眾,就算是在某一個任務上訓練過的,LSTM 表征并不是只針對特定的任務有效的。它們通常預測的是像數據分布統計這樣的超出人類預期之外的層面。即便當模型用領域對抗損失來產生具有某種不變性的表征,表征的預測能力仍然會帶有一些剛才說的那樣的性質。因此,從編碼語言數據中完全刪除不需要的信息也是一個挑戰(zhàn),就算是看上去很完美的LSTM 模型也可能具有潛在的故障模式。

對于關于 LSTM 的故障模式的話題,今年獲得 ACL 終身成就獎的 Mark Steedman也表達了與此主題非常契合的觀點:「LSTM 在實踐中是有效的,但是它們在理論上也是正確的嗎?」

在更具挑戰(zhàn)的環(huán)境下進行評估

對抗性樣本

一個與更好地了解現有最佳模型的限制密切相關的主題是提出該如何改進這些模型的方法。與上面提到的文章提及的對抗性樣本論文(https://arxiv.org/pdf/1805.05492.pdf)相似,有幾篇文章試著使模型在面對對抗性樣本時的魯棒性更強:

  • Cheng 等人(https://arxiv.org/abs/1805.06130)提出使自然語言機器翻譯模型中的編碼器和解碼器在對抗輸入擾動時更加魯棒。

  • Ebrahimi 等人(http://arxiv.org/abs/1712.06751)提出白盒對抗性樣本,通過替換少量的單詞來欺騙字符級別的神經網絡分類器。

  • Ribeiro 等人(http://aclweb.org/anthology/P18-1079)在之前的方法基礎上加以改進。他們引入了保留語義、但會讓模型的預測發(fā)生改變的擾動,然后把它泛化到會在許多實例下產生對抗性狀況的規(guī)則上。

  • Bose 等人(https://arxiv.org/abs/1805.03642)用對抗學習采樣器將對抗性樣本和噪聲對比評估結合在一起,該采樣器會發(fā)現更難的負例,這樣模型就可以更好地學習表征。

學習魯棒和公平的表征

Tim Baldwin 在 RepL4NLP workshop 上討論了在領域轉換時使模型更魯棒的不同方法。幻燈片參見谷歌盤。就單源域而言,他討論了一種基于不同類句法和語義噪聲在語言上擾亂訓練實例的方法(http://www.aclweb.org/anthology/E/E17/E17-2004.pdf)。在多源域環(huán)境中,他提出可以在源域上訓練對抗模型(https://arxiv.org/abs/1805.06088)。最后,他討論了一種可以學習魯棒的、有隱私保護能力的文本表示的方法(https://arxiv.org/abs/1805.06093)。

Margaret Mitchell 專注于公平且可以保護隱私的表征。她特別強調了有關世界的描述性視角和規(guī)范性視角之間的區(qū)別。機器學習模型學習的表征反應了對應的訓練數據的描述性視角。訓練數據代表了「人們口中的世界」。然而,有關公平性的研究也在試圖創(chuàng)建可以反應世界的規(guī)范性視圖的表征,這就要獲得我們的價值觀并將其注入到表征中去。

改進評估方法

除了增強模型的魯棒性,還有幾篇文章試圖改進評估模型的方法:

  • Finegan-Dollak 等人(http://arxiv.org/abs/1806.09029)明確了現有 text-to-SQL 系統的評估方法并提出了改進方法。他們認為現有的訓練集-測試集分割和變量匿名化過程存在缺陷,于是他們提出了七個數據集的標準改進版本以修復這些缺陷。

  •  Dror 等人的工作(https://ie.technion.ac.il/~roiri/papers/ACL-2018-sig-cr.pdf)則關注于一種老生常談、但很少被真正實踐或做的不好的做法:統計顯著性檢驗。特別地,他們調查了近些年的ACL 和 TACL 2017 中的實證論文后發(fā)現,統計顯著性檢驗常被忽略或誤用,于是他們提出了一種用于自然語言處理任務的簡單的統計顯著性檢驗選擇協議。 

  • Chaganty 等人(http://arxiv.org/abs/1807.02202)調查了如 BLEU 和 ROUGE 這樣的自動指標的偏差,然后發(fā)現即使是無偏估計也只能相對地減少誤差。該工作強調了改進自動指標的相關性和減少人類標記的方差的必要性。

強大的對比基線

另一種改善模型評估的方式是將新模型和更強的基線進行比較,這是為了確保改進的方法效果顯著。以下是一些著眼于這個研究方向的論文:

  • Shen 等人(https://arxiv.org/abs/1805.09843)系統地比較了帶池化技術的基于詞嵌入的方法和像 LSTM 和 CNN 這樣更復雜的模型。他們發(fā)現對大多數數據集而言,基于詞嵌入的方法都表現出了與后者相當、甚至更好的性能。 

  • Ethayarajh (http://www.aclweb.org/anthology/W18-3012)在 RepL4NLP workshop 上針對句子嵌入模型提出了一種強大的對比基線。

  • 與此同時,Ruder 和 Plank (https://arxiv.org/abs/1804.09530)發(fā)現像「Tri-training」這樣的經典的自展算法為半監(jiān)督學習提供了強大的基線,其結果甚至要比當前最佳的方法還要好。

在上文中,我們強調了在像超出分布的數據上和針對不同任務這樣更具挑戰(zhàn)的環(huán)境中進行評估的重要性。如果我們僅僅只關注單個任務或領域內數據,研究結果則會有所不同。我們需要在對抗條件下測試模型以更好地了解模型的魯棒性以及它們在實際問題中的泛化能力。

創(chuàng)建更具有挑戰(zhàn)性的數據集

想要在這樣的環(huán)境下進行評估,就需要創(chuàng)建更具挑戰(zhàn)的數據集。Yejin Choi 在 RepL4NLP 的圓桌討論(總結請參閱:https://twitter.com/seb_ruder/status/1020196710050455554)中指出,大家對于 SQuAD 或 bAbI 這樣過于簡單并且基本已經解決了的任務投入了過多的注意力。Yoav Goldberg 甚至認為「SQuAD 就好比自然語言處理領域的 MNIST數據集(圖像識別最基礎的數據集之一)一樣」。相反,我們應該將注意力集中在更具有挑戰(zhàn)性的任務以及開發(fā)更多難度更高的數據集上。但是如果數據集過于復雜,人們也無法對其進行處理。實際上,人們不應該花費過多時間處理數據集,因為人們最近已經可以高效地對數據集進行處理,而創(chuàng)建新的、更具挑戰(zhàn)的數據集更為重要。本屆 ACL 會議上,研究人員提出了兩個用于閱讀理解、試圖超越 SQuAD 的數據集:

在多種資源質量較差的語言中進行評估

另一個重要的議題是要在多種語言上評估模型。Emily Bender 調查了 50 篇 NAACL 2018 的論文,她發(fā)現有 42 篇都評估了一種沒有指出名字的神秘語言(當然是英語了)。她強調,為每項工作處理的語言命名很重要,因為不同語言有不同的語言結構;不提及處理的語言會讓研究結論變得模糊。

如果我們將自然語言處理的方法設計為跨語言方法,那么就應該在資源質量較差的語言這樣更具挑戰(zhàn)的設置上對其進行額外的評估。舉例而言,下面的兩篇論文都指出,如果目標語言與愛沙尼亞語或芬蘭語都不同的話,現有的無監(jiān)督雙語字典方法都會失效:

  • S?gaard 等人(https://arxiv.org/abs/1805.03620)進一步探討了現有方法的局限性并指出:當嵌入是在不同領域上訓練或使用不同算法時,這些方法都會失敗。他們最終提出一個度量標準來量化這些方法的潛力。

  • Artetxe 等人(https://arxiv.org/abs/1805.06297)提出一種新的無監(jiān)督自訓練方法,該方法采用了更好的初始化來引導優(yōu)化過程,這種方法對于不同的語言對而言十分強大。

此外,還有其他幾篇文章也在資源質量較差的語言上評估了他們的方法:

自然語言處理研究的進展

會議期間的另一個議題是自然語言處理領域取得的顯著進展。ACL 主席 Marti Hearst 在她的主旨演講中涉及到了這個部分。她過去常以 Stanley Kubrick 的HAL 9000(見下圖)為例來展示我們的模型能做和不能做的事。近些年,由于我們的模型已經學會執(zhí)行像識別和生成人類演講和唇形識別這樣十幾年前無法完成的任務,因此她這樣的做法現在就顯得有點無聊了。誠然,我們離像辯論這樣需要深度理解語言和推理的任務還是很遠,但是自然語言處理取得的進展還是十分顯著的。

參會見聞系列:ACL 2018,在更具挑戰(zhàn)的環(huán)境下理解數據表征及方法評價
Hal 9000. (Source: CC BY 3.0, Wikimedia)


Marti 還引用了自然語言處理(NLP)和信息檢索(IR)的先驅者 Karen Sp?rck Jones 的話:「研究不是在繞圈,而是在攀爬螺旋式的樓梯。打個未必恰當的比方,這些樓梯未必是相連的,但是它們都朝著同一個方向前進」。她還表達了一種能引起許多人的共鳴的觀點:在 20 世紀 80 和 90 年代,只有少數的論文可供閱讀,緊跟最新的科研成果就容易得多。為了使緊跟最新成果變得更容易,我最近建立了一個新文檔(http://nlpprogress.com)以收集針對不同自然語言處理任務的最新的成果。

自然語言處理領域正處于蓬勃的發(fā)展中,她鼓勵人們參與到 ACL 中,貢獻自己的一份力量。她還為最努力工作的 ACL會員頒發(fā)了 ACL 杰出服務獎。此外,ACL 2018 還(在 1982 年的 EACL 和 2000 年的NAACL 之后)啟動了其第三個子會議 AACL(計算語言學協會亞太分會:http://aaclweb.org/

本屆 ACL 的會務會談重點討論了該如何應對隨著研究的發(fā)展所產生的挑戰(zhàn):提交的論文數量不斷增加,因此需要更多的審稿人員。我們期望在明年的會議上看到新的可以處理大量提交論文所做的努力。

強化學習

讓我們把視線拉回到 2016 年,那時人們就在尋找強化學習(RL)在自然語言處理中的用武之地,并將其應用在越來越多的任務中。近一段時間,盡管監(jiān)督學習看起來更加適用于大多數任務,但對某些具有時序依賴的任務(例如在訓練和建模對話時選擇數據)來說,強化學習的動態(tài)特性使其成為最有用的方式。強化學習的另一個重要應用是直接優(yōu)化像 ROUGE 或 BLEU 這樣的度量指標,而不是優(yōu)化像交叉熵這樣的替代損失。文本總結和機器翻譯是這一領域的成功應用案例。

逆向強化學習在過于復雜而無法指定獎勵的環(huán)境中有很大的價值。視覺化敘事是這方面的一個成功的應用案例。深度學習特別適用于在自然語言處理領域中如玩一些基于文本的游戲、瀏覽網頁并完成相應的任務這樣的序貫決策問題?!赣糜谧匀徽Z言處理的深度強化學習教程」(https://www.cs.ucsb.edu/~william/papers/ACL2018DRL4NLP.pdf)提供了對這一領域全面的概述。

教程

實際上,還有其它很棒的教程。我尤其喜歡的是變分推斷和深度生成模型教程(https://github.com/philschulz/VITutorial)。關于語義解析(https://github.com/allenai/acl2018-semantic-parsing-tutorial )的教程和「你一定想知道的關于語義和實踐的100 件事」(http://faculty.washington.edu/ebender/100things-sem_prag.html)都很值得一看。請參閱以下鏈接獲得完整的教程列表:https://acl2018.org/tutorials/

via blog.aylien.com,雷鋒網 AI 科技評論編譯

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

參會見聞系列:ACL 2018,在更具挑戰(zhàn)的環(huán)境下理解數據表征及方法評價

分享:
相關文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說