0
本文為 AI 研習社編譯的技術博客,原標題 :
Moving beyond the distributional model for word representation.
作者 | Tanay Gahlot
翻譯 | 喬叔叔
校對 | 醬番梨 整理 | 菠蘿妹
原文鏈接:
https://towardsdatascience.com/https-medium-com-tanaygahlot-moving-beyond-the-distributional-model-for-word-representation-b0823f1769f8
從語言學角度看詞嵌入模型
在任何一個基于機器學習的自然語言處理(NLP)流水線中,詞的向量化是其中典型的一個步驟,因為我們不能直接給計算機“喂單詞”。在詞的向量化過程中,我們?yōu)橐粋€單詞指定一個N維的向量,用來表示它的詞義。結果,這成了處理過程中最為重要的一個步驟之一,因為一個“壞的”表示會導致失敗以及為接下來的NLP任務帶來不愿看到的影響。
在詞向量化的最常用的技術之一就是詞的分布式表示模型。它基于的一個假設是一個詞的意思能夠從它所在的上下文中推斷出來。大部分深度學習論文使用基于該分布式理論而來的詞向量,因為它們是“任務普適”(它們不是針對特定任務)而且“語言普適”(它們不是針對特定語言)。不幸的是,分布式方法并不是詞向量化任務的魔效武器。在本博文中,我們會指出這個方法的一些問題并提供一些潛在的解決方案,以改善詞向量化的過程。
分布式表示模型有以下的問題,讓人感覺非常痛苦:
罕見詞:對于在語料中出現(xiàn)頻率較低的詞,它們無法通過分布式表示學習得到一個很好的表示。
多義混同:它們將一個詞的所有詞義混成一個表示。例如,單詞“bank”,在英文中可以指“河岸”或者是“金融機構(銀行)”。分布式模型卻將所有的這些詞義混合在一個表示中。
形態(tài)缺失:在表示學習的時候,它們并沒有考慮一個單詞多種形態(tài)。比如,“evaluate”和“evaluates”具有相似的意思,但是分布式表示模型卻將它們視為兩個不同的單詞。(譯者注:在英語中,一個單詞可能有多種形態(tài),特別是動詞,有時態(tài)、人稱、主動被動等對應的不同形態(tài)。在本例中evaluates是evaluate的第三人稱單數(shù)的一般現(xiàn)在時的形態(tài)。)
幸運的是,為了解決這些問題,大家進行了非常廣泛的研究。大致上,這些解決辦法可以分為3個主要類別。我們將會按照下面的順序一一介紹:
形態(tài)敏感嵌入
在詞嵌入中,將語言或功能約束進行增強。
多詞義處理
這些技術在學習詞嵌入的時候,將詞的形態(tài)進行了考慮。Fasttext就是這種技術的一個典型代表。它將一個單詞表示成了n-grams(n元模子)字符的匯總。例如單詞where就可以表示成
在使用這種方法(下表的sisg)對一些詞匯形態(tài)豐富的語言,比如德語(De)、法語(FR)、西班牙語(ES),俄語(RU)和捷克語(Cs),進行語言建模的時候,經(jīng)評估,相較于沒有使用預訓練詞向量的LSTM,以及使用了預訓練詞向量卻沒有相關詞根信息的LSTM模型(下表的sg),效果都有了改善。
而且,既然fasttext將單詞表示為n元字符(n-gram)的組合,因此它就能為那些語料庫中從來沒有出現(xiàn)過的詞提供嵌入。在一些領域如生命科學領域,由于詞匯表非常有限(長尾現(xiàn)象),語料中大部分的單詞都歸入到未知類別中,該技術就顯得尤其有用。
Morphfitting提供了另外一個技術選項用來將詞的形態(tài)輸入到詞嵌入模型中。在這項工作中,他們用“相吸相斥”(Attract-Repel)方法來“后處理”(post-process)詞嵌入,該方法“吸引”曲折形態(tài)(通過詞的形式變化來表達有意義的句法信息,比如動詞時態(tài),卻不改變詞義),而“排斥”派生形態(tài)(新形式的單詞出現(xiàn)同時詞義也發(fā)生遷移變化)。在下一部分我們會詳細討論“相吸相斥”方法。
通過注入語言形態(tài)學的約束,Morphfitting在SimLex和SimVerb兩個數(shù)據(jù)集上的相關系數(shù)評估中都超過了下表給出的10個標準嵌入模型。
另外一類詞空間定義的方法是在詞嵌入的后處理中進行語言/功能約束。在上一節(jié)中我們已經(jīng)看到這類方法的一個例子—Morphfitting。在這一節(jié),我們將會探索一下Morphfitting中使用的定義詞嵌入的方法—相吸相斥法(Attract-Repel)。
相吸相斥法(Attract-Repel)是一種后處理技術,它根據(jù)語言約束將預訓練的詞嵌入進行進一步定義。例如,在Morphfitting中,語言約束是以兩種集合的形式來表達,再次給出表格2如下:
表格的上半部分是“相吸集合”(譯者注:由多個詞義相同的單詞對組成的集合),下半部分是“相斥集合”(譯者注:由多個詞義不同的單詞對組成的集合)。利用這些集合,一個迷你批次就形成了,它可以用來優(yōu)化下面的損失函數(shù):
損失函數(shù)中的第一項對應的是相吸集合,第二項對應的是相斥集合。第三項則保留了分布式表示。而且,前面兩項也會引入負樣例,這是采用了PARAGRAM模型的主意。損失函數(shù)(又:成本函數(shù))的前兩項由下式給出:
第三項由下式給出:
人們可以用“相吸相斥”法注入用相吸相斥集來表示的語言約束,比如“同義與反義”或者“曲折形態(tài)與派生形態(tài)”。而相應地,那些無法利用語言約束來表達的“相似性”或者“非相似性”,人們就不能進行詞嵌入定義了。例如,不同“治療”類型的關系,就無法用相吸相斥法來捕獲。為了適應這樣的功能關系,我們介紹另外一種方法叫做“功能改裝”(Functional Retrofitting)。
在功能改裝方法中,關系的語義學習與詞空間的學習是同步進行的。而獲得這一點的方法,主要是將相吸相斥法中的點積替換成一個優(yōu)化學習過程得來的函數(shù)。
上式中的第一項保留了分布式嵌入,第二項和第三項則引入了知識圖譜中的正向關系空間(E+)與負向關系空間(E-)(譯者注:負向關系空間是沒有在知識圖譜中標明的關系的集合),最后一項在學習函數(shù)中執(zhí)行正則化功能。
通過在國際系統(tǒng)醫(yī)學術語集(SNOMED-CT)之上預測兩個實體(i,j)之間的關系(r)而做的鏈路預測,功能改裝方法的語義學習效果得到了驗證。四種不同類型的功能改裝方法分別對四種關系( “具有發(fā)現(xiàn)部位Has Finding Site”、 “具有病理過程Has Pathological Process”、 “誘因Due to”、 “癥狀Cause of”)進行了預測,其結果如下表所示:
更多關于功能改裝的信息,你可以參考一篇由Christopher Potts寫的優(yōu)秀blog。如果你需要功能或語言約束來進一步定義你的詞嵌入,請試用Linked Open Data Cloud上優(yōu)秀的、具有互聯(lián)關系的本體匯編。
上述的方法更新了各次匯報的詞嵌入。如果你對定義整個詞空間感興趣,你可以用反向傳播來這么做,正如Ivan Vuli?和Nikola Mrk?i?在EMNLP 2018論文中建議的那樣(Adversarial Propagation and Zero-Shot Cross-Lingual Transfer of Word Vector Specialization)。
最后一類詞嵌入定義技術是考慮詞的多義性,或者是考慮詞的上下文,或者是利用詞義庫。讓我們先從前一類方法開始 – ELMO。
在ELMO中,詞是基于上下文而被向量化的。因此為了能夠用向量表達一個詞,人們也需要指定某個詞出現(xiàn)的上下文。與那些沒有考慮上下文的向量化技術相比較,這個方法已經(jīng)證明是非常有效的。下例比較了ELMO(biLM)和Glove的最近鄰。
ELMO背后的基本思想是得出雙向語言模型(BiLM)各個中間層的內部狀態(tài)加權匯總以及最后一層的字符卷積網(wǎng)絡表示。
ELMO的詞嵌入在三個下游任務SQuAD、SNLI和SRL中進行了測試,相較于基準它有了顯著的改進。
更多關于ELMO的信息,請參考這篇AllenNLP寫的博文。如果你想從分布式詞表示中使用詞匯資源來壓縮語義,你可以用DECONF。在這個方法中,Mohammad Taher Pilehvar提出了一種機制來使用下面的優(yōu)化標準,從而從分布式嵌入中壓縮語義嵌入:
上式中,第一項保留了語義分布表示的近似,第二項會將詞義嵌入向發(fā)生偏移的詞義推得更加靠近一些。這個過程可以很清晰地用下圖來描述。
偏移詞集是用一個定制的Page Rank算法基于一個詞匯術語(利用詞匯資源創(chuàng)建而來)的語義網(wǎng)絡計算而來的。
我們使用四個單詞相似度基準方法分別做了皮爾森相關相關性和斯皮爾曼相關性評估,DECONF在絕大多數(shù)任務中都取得了最先進的結果,如下表所示:
如果如處在沒有足夠訓練數(shù)據(jù)來從頭學習詞嵌入的境況,我高度推薦使用上面提及的詞表示的方法來取得一些百分比的改善。關于本話題更深入的討論,我高度推薦Ivan Vuli?在ESSLLI 2018中Word vector specialisation的課程。
想要繼續(xù)查看該篇文章相關鏈接和參考文獻?
長按鏈接點擊打開或點擊【從語言學角度看詞嵌入模型】:
https://ai.yanxishe.com/page/TextTranslation/1181
AI研習社每日更新精彩內容,觀看更多精彩內容:
等你來譯:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。