AAAI 2020 | 南京大學(xué)：利用多頭注意力機制生成多樣性翻譯

本文作者：叢末

2020-01-08 11:59

導(dǎo)語：自注意力機制以及多頭注意力機制。

當下的神經(jīng)機器翻譯（Neural Machine Translation, NMT）已經(jīng)擁有很強的翻譯性能，在諸多模型之中，Transformer模型取得了最好的效果。其區(qū)別于傳統(tǒng)模型之處在兩個方面：自注意力機制（Self-Attention）以及多頭注意力機制（Multi-Head Attention）。

本文主要針對后者，傳統(tǒng)的單頭注意力機制已經(jīng)有了比較多的研究，廣泛的結(jié)論是注意力代表了詞對齊。但多頭注意力機制代表了什么還缺乏研究。本文基于一項對Transformer多頭注意力的觀察展開：解碼器（Decoder）的最后一層對于編碼器（Encoder）的多頭注意力機制，代表了多重詞對齊。并利用該現(xiàn)象，生成多樣化翻譯。更進一步，利用多樣化翻譯，輔助利用逆向翻譯技術(shù)（back translation），增強翻譯模型性能。最后一項有關(guān)問答任務(wù)的實驗也證明了性能的提升。

現(xiàn)象分析

首先，為了驗證我們的猜想：解碼器（Decoder）的最后一層對于編碼器（Encoder）的多頭注意力機制，代表了多重詞對齊，即解碼器最后一層注意力對應(yīng)的源端的詞，是接下來極有可能會生成的詞，我們做了三個驗證實驗：

1、我們將解碼器每個頭對應(yīng)最大注意力值的源端詞選取出來，利用翻譯的基線模型翻譯生成目標端單詞，看這些生成的目標端語言單詞，在下一步目標端生成的softmax概率表中排名第幾，如圖1所示，非常尖銳的分布，大部分對應(yīng)的詞都在排名前列。

AAAI 2020 | 南京大學(xué)：利用多頭注意力機制生成多樣性翻譯

圖1：被注意力頭選中的詞都排名非?？壳?/p>

2、與上面相似，我們查看了這些詞的負對數(shù)似然（Negative Log-Likelihood, NLL），并計算了所有情況下排名第R的詞的平均NLL（例如K=1，就是所有排名第1的詞的NLL），進行對比，如表1所示，被選中的詞的NLL非常小。

AAAI 2020 | 南京大學(xué)：利用多頭注意力機制生成多樣性翻譯

表1：所有情況中排名第R的詞的NLL，每個頭的NLL都非常小

3、更進一步，我們發(fā)現(xiàn)可以通過控制不同的注意力頭，來控制下一步的生成。具體見下面的例子，源端句子是“他說, 去年九月以來, 出口下降導(dǎo)致印度經(jīng)濟惡化?！蹦Ｐ鸵呀?jīng)翻譯出“he said”，正在等待下一步翻譯。我們摘取了此時各個頭的注意力情況，如圖2所示。接下來，我們挑選第4、5、6個頭，分別對應(yīng)到“以來”、“下降” 、“出口”三個詞，每次都用某個頭的注意力數(shù)值覆蓋其他頭，觀察到對應(yīng)的頭的詞都被即刻生成出來了，如表2所示。

AAAI 2020 | 南京大學(xué)：利用多頭注意力機制生成多樣性翻譯

圖2：不同的頭對應(yīng)不同的源端的詞

AAAI 2020 | 南京大學(xué)：利用多頭注意力機制生成多樣性翻譯

表2：選擇不同的頭（對應(yīng)不同的源端詞），就能控制下一步的生成

方法應(yīng)用

我們利用該現(xiàn)象，提出了利用該多頭注意力機制增強翻譯多樣性的算法。

具體來說就是在每一次生成的時刻，隨機采樣某個頭，用其注意力數(shù)值覆蓋其他頭。但如果在生成的每個步驟都進行采樣，雖然能顯著增加多樣性，卻也會降低翻譯質(zhì)量。因此，我們提出了一個針對性算法：若多個頭都對應(yīng)到不同的源端詞，意味著此時有多個合理的候選，此時我們就進行采樣。

具體來說分如下幾步：

1、令每個時刻的注意力數(shù)值為att(i,t,h)，代表目標端生成第t個時刻，第h個頭，對源端第i個詞的注意力，我們?nèi)〉趆個頭注意力最強的源端詞candidate(t,h) = argmax(att(i,t,h), i)。

2、令[n_0, ..., n_i, ..., n_(T-1)]表示源端詞被選為candidate的數(shù)量，T為源端長度。明顯地，sum(n) = H，H代表頭的總數(shù)。

3、若max(n) <= K，則進行采樣，K為超參。這一步可以理解為，注意力很分散，可以有不同的候選。

具體算法如算法1所示。

AAAI 2020 | 南京大學(xué)：利用多頭注意力機制生成多樣性翻譯

算法1：采樣策略

實驗結(jié)果

我們在NIST 中英數(shù)據(jù)集，WMT14 英德數(shù)據(jù)集，和WMT16 英羅數(shù)據(jù)集上進行了實驗。評價指標主要針對兩個方面，翻譯質(zhì)量和翻譯多樣性，翻譯質(zhì)量仍然采用傳統(tǒng)的BLEU，即與參考譯文的比較（Reference-BLEU，rfb），越高質(zhì)量越好，翻譯多樣性采用多次生成結(jié)果之間的BLEU（Pair-Wise BLEU，pwb），越低多樣性越好。

最后，我們還提出一個綜合的指標：每單位質(zhì)量的多樣性提升（Diversity Enhancement per Quality，DEQ），表示相較于baseline，提升的多樣性BLEU與降低的翻譯質(zhì)量的BLEU的比值，越大越好，說明能以同樣的質(zhì)量代價實現(xiàn)更高的多樣性。

實驗結(jié)果如表3，4，5所示，比起之前的工作，我們在維持了比較高的翻譯質(zhì)量的前提下，實現(xiàn)了多樣性的提升。

AAAI 2020 | 南京大學(xué)：利用多頭注意力機制生成多樣性翻譯