都說AllenNLP好用，我們跑一遍看看究竟多好用

本文作者： AI研習(xí)社-譯站

2018-04-08 14:35

導(dǎo)語：進來，克服NLP學(xué)習(xí)困難綜合征

雷鋒網(wǎng)按：本文為雷鋒字幕組編譯的技術(shù)博客，原標(biāo)題Deep Learning for text made easy with AllenNLP，作者為Déborah Mesquita 。

翻譯 | 汪寧徐瑋整理 | 凡江

良好學(xué)習(xí)過程的關(guān)鍵原則之一，就是讓學(xué)習(xí)的內(nèi)容略高于當(dāng)前的理解。如果該主題與你已知的內(nèi)容太過于相似，那么你就不會有很大的進步。另一方面，如果這個主題太難的話，你就會停滯不前，幾乎沒有進展。

深度學(xué)習(xí)涉及很多不同的主題和很多我們需要學(xué)習(xí)的東西，所以一個好的策略就是開始研究人們已經(jīng)為我們構(gòu)建好了的東西。這就是為什么框架非常棒的原因?？蚣苁刮覀儾槐靥^于關(guān)心如何構(gòu)建模型的細(xì)節(jié)，使得我們可以更多地關(guān)注我們想要完成的任務(wù)（而不是專注于如何實現(xiàn)）。

對于構(gòu)建深度學(xué)習(xí)中的NLP模型，AllenNLP框架使得任務(wù)變得十分有趣。這對我來說是一個驚喜，因為我之前在深度學(xué)習(xí)中的NLP的學(xué)習(xí)經(jīng)歷是痛苦的。

處理NLP任務(wù)需要不同類型的神經(jīng)網(wǎng)絡(luò)單元，因此在開始學(xué)習(xí)如何使用AllenNLP框架之前，我們先快速回顧這些單元背后的理論。

當(dāng)簡單的神經(jīng)網(wǎng)絡(luò)不夠時

在簡單的工作中，閱讀文本的任務(wù)包括構(gòu)建我們之前閱讀的內(nèi)容。舉個例子，如果之前你沒讀過這個句子你可能就不懂這個句子的意思，所以創(chuàng)建這些神經(jīng)網(wǎng)絡(luò)單元背后的想法是：

“人類為了理解接下來會發(fā)生什么，把他們以前讀過的東西找出來，也許我們在模型中使用這種機制，他們就能更好地理解文本，對吧?”

遞歸神經(jīng)網(wǎng)絡(luò)

為了使用考慮時間的網(wǎng)絡(luò)，我們需要一種表示時間的方式。但我們?nèi)绾巫龅竭@一點？

處理具有時間范圍的模式的一種顯而易見的方法是通過將模式的序列順序與模式向量的維度相關(guān)聯(lián)來顯式的表示時間。第一時間事件由模式向量中的第一個元素表示，第二個時間事件由模式向量中的第二個位置表示，依此類推。 - Jeffrey L. Elman

問題是這種方法有幾個缺點，例如：

[...] 移位寄存器對模式的持續(xù)時間施加了一個嚴(yán)格的限制（因為輸入層必須提供最長可能的模式），并且建議所有輸入向量具有相同的長度。這些問題在語言等領(lǐng)域特別麻煩，因為在這些領(lǐng)域中，人們希望具有可變長度模式的類似表示。語言的基本單位（拼音段）與句子一樣也是如此。

Jeffrey L. Elman討論了論文中發(fā)現(xiàn)的其他缺陷。本文介紹了 Elman網(wǎng)絡(luò)，這是一個三層網(wǎng)絡(luò)，增加了一組“上下文統(tǒng)一”。

如果你對神經(jīng)網(wǎng)絡(luò)完全陌生，那么閱讀我寫的另一篇文章可能是個好主意。但簡單地說，神經(jīng)網(wǎng)絡(luò)是有機會被激活的或者不是被輸入的。

Elman根據(jù)Jordan（1986）提出的方法開始他的工作。Jordan引入遞歸連接。

遞歸連接允許網(wǎng)絡(luò)的隱藏單元看到自己以前的輸出，以便隨后的行為可以被以前的響應(yīng)所決定。這些遞歸的連接是網(wǎng)絡(luò)存儲器的功能。緊接著Elman添加了上下文單元。這些上下文單元作為一個時鐘來說明什么時候我們應(yīng)該放棄以前的輸入。但是這又如何呢？上下文單元也具有調(diào)整權(quán)重的機制，就像其他神經(jīng)網(wǎng)絡(luò)單元一樣。

上下文單元和輸入激活神經(jīng)網(wǎng)絡(luò)隱藏單元。當(dāng)神經(jīng)網(wǎng)絡(luò)“學(xué)習(xí)”時，這意味著它有一個表示所有輸入網(wǎng)絡(luò)處理的模式。上下文單元記住以前的內(nèi)部狀態(tài)。

如果這些都沒有意義，不要擔(dān)心。只要想一想，現(xiàn)在我們有一個神經(jīng)網(wǎng)絡(luò)單元，它將先前的狀態(tài)考慮在內(nèi)以產(chǎn)生下一個狀態(tài)。

“現(xiàn)在我們有一個神經(jīng)網(wǎng)絡(luò)單元，它考慮到以前的狀態(tài)來產(chǎn)生下一個狀態(tài)?！?/p>

當(dāng)RNNs不夠時：LSTM

正如Christopher Ola 在另一篇文章解釋的那樣（如果你想了解更多關(guān)于LSTM的信息，這篇文章是很棒的），有時我們需要更多的上下文，也就是有時我們需要存儲很久以前看到的信息。

考慮嘗試預(yù)測“我在法國長大......我會說流利的法語 ”中的最后一句話。最近的信息表明，下一個詞可能是一種語言的名稱，但如果我們想要縮小到具體是哪種語言，我們需要從法國出發(fā)來考慮更長遠的東西?？s小相關(guān)信息與需要變得非常大的點之間的差距完全可能 - Christopher Ola

LSTM單元解決了這個問題。它們是一種特殊的RNN，能夠?qū)W習(xí)長期的依賴關(guān)系。我們將只使用LSTM單元，而不是構(gòu)建它們，因此對于我們而言，可以將LSTM單元看作具有不同架構(gòu)并能夠?qū)W習(xí)長期依賴性的單元。

構(gòu)建一個文本分類的高級模型

好了，有了足夠的理論，現(xiàn)在讓我們進入有趣的部分，并建立模型。

都說AllenNLP好用，我們跑一遍看看究竟多好用

訓(xùn)練過程

上面的圖片向我們展示了我們?nèi)绾卧O(shè)置一切。首先我們得到數(shù)據(jù)，然后將它編碼為模型將理解的格式（'tokens'和'internal_text_encoder'），然后我們用這些數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)，對比標(biāo)記并調(diào)整權(quán)重。在這個過程結(jié)束時，模型已經(jīng)準(zhǔn)備好做出預(yù)測了。

現(xiàn)在我們終于會感受到AllenNLP的魔力！我們將用一個簡單的JSON文件指定上圖中的所有內(nèi)容。

    {
      "dataset_reader": {
        "type": "20newsgroups"
      },
      "train_data_path": "train",
      "test_data_path": "test",
      "evaluate_on_test": true,
      "model": {
        "type": "20newsgroups_classifier",
        "model_text_field_embedder": {
          "tokens": {
            "type": "embedding",
            "pretrained_file": "https://s3-us-west-2.amazonaws.com/allennlp/datasets/glove/glove.6B.100d.txt.gz",
            "embedding_dim": 100,
            "trainable": false
          }
        },
        "internal_text_encoder": {
          "type": "lstm",
          "bidirectional": true,
          "input_size": 100,
          "hidden_size": 100,
          "num_layers": 1,
          "dropout": 0.2
        },
        "classifier_feedforward": {
          "input_dim": 200,
          "num_layers": 2,
          "hidden_dims": [200, 100],
          "activations": ["relu", "linear"],
          "dropout": [0.2, 0.0]
        }
      },
      "iterator": {
        "type": "bucket",
        "sorting_keys": [["text", "num_tokens"]],
        "batch_size": 64
      },
      "trainer": {
        "num_epochs": 40,
        "patience": 3,
        "cuda_device": 0,
        "grad_clipping": 5.0,
        "validation_metric": "+accuracy",
        "optimizer": {
          "type": "adagrad"
        }
      }
    }

讓我們來看下這段代碼。

1 數(shù)據(jù)輸入

為了告訴AllenNLP輸入的數(shù)據(jù)集以及如何讀取它，我們在JSON文件中設(shè)置了“dataset_reader”鍵值。

DatasetReader從某個位置讀取數(shù)據(jù)并構(gòu)造Dataset。除文件路徑之外的讀取數(shù)據(jù)所需的所有參數(shù)都應(yīng)

遞給DatasetReader的構(gòu)造器。 — AllenNLP documentation

數(shù)據(jù)集是 20個新聞組，我們將在稍后定義如何讀取(在 python 類中)。先來定義模型的其余部分。

2 模型

我們先設(shè)置'model'鍵值來指定模型，在'model'鍵值中還有三個參數(shù)：'model_text_field_embedder','internal_text_encoder'和'classifier_feedforward'。

我們先來看一下第一個，其余的兩個將在稍后說明。

通過'model_text_field_embedder'，我們告訴AllenNLP數(shù)據(jù)在傳遞給模型之前應(yīng)該如何編碼。簡而言之，我們希望使數(shù)據(jù)更“有意義”。背后的想法是這樣的：如果可以像比較數(shù)字那樣比較文字會怎么樣？

如果5 - 3 + 2 = 4 ，國王-男人+女人=女王，又何嘗不對呢？

用詞嵌入我們可以做到這一點。這對模型也很有用，因為現(xiàn)在我們不需要使用很多稀疏數(shù)組（具有很多零的數(shù)組）作為輸入。

詞嵌入是自然語言處理（NLP）中的一組語言建模和特征學(xué)習(xí)技術(shù)的總稱，其中來自詞匯表的單詞或短語被映射為實數(shù)向量。從概念上講，它涉及從每個單詞一個維度的空間到具有更低維度的連續(xù)向量空間的數(shù)學(xué)嵌入?！?nbsp;Wikipedia

在我們的模型中將使用GloVe：用于詞匯表征的全局向量。

GloVe是一種用于獲取單詞向量表征的無監(jiān)督學(xué)習(xí)算法。對來自語料庫的匯總的全局單詞共現(xiàn)統(tǒng)計進行訓(xùn)練，表征結(jié)果展示了單詞向量空間的有趣的線性子結(jié)構(gòu)?！?nbsp;Glove

如果還是難以理解，只要將Glove看作是一種將單詞編碼為向量的模型。我們將每個嵌入向量的大小設(shè)置為100。

Glove把單詞編碼為向量

這就是'model_text_field_embedder'所做的。

3 數(shù)據(jù)迭代器

像往常一樣，我們將分批分離訓(xùn)練數(shù)據(jù)。 AllenNLP提供了一個名為BucketIterator的迭代器，通過對每批最大輸入長度填充批量，使計算（填充）更高效。要做到這一點，它將按照每個文本中的符號數(shù)對實例進行排序。我們在'iterator'鍵值中設(shè)置這些參數(shù)。

4 訓(xùn)練器

最后一步是設(shè)置訓(xùn)練階段的配置。訓(xùn)練器使用AdaGrad優(yōu)化器作10代訓(xùn)練，如果最后3代的驗證準(zhǔn)確性沒有提高，則停止。

為了訓(xùn)練模型，我們只需要運行：

python run.py our_classifier.json -s /tmp/your_output_dir_here

另一個很酷的事情是，通過框架我們可以停止并在稍后恢復(fù)訓(xùn)練。但在此之前，我們需要指定dataset_reader和模型python類。

編寫AllenNLP Python類

dataset_reader.py

我們將使用scikit-learn提供的20個新聞組。為了引用JSON文件中的DatasetReader，我們需要注冊它：

@DatasetReader.register("20newsgroups")
class NewsgroupsDatasetReader(DatasetReader):

你將實施三種方法：其中兩個為read()和text_to_instance()。

read()

read()從scikit-learn獲取數(shù)據(jù)。通過AllenNLP，你可以設(shè)置數(shù)據(jù)文件的路徑（例如JSON文件的路徑），但在我們的例子中，我們只需像Python模塊一樣導(dǎo)入數(shù)據(jù)。我們將讀取數(shù)據(jù)集中的每個文本和每個標(biāo)簽，并用text_to_instance()包裝它。

text_to_instance()

此方法“進行任何符號化或必要的處理，來把文本輸入轉(zhuǎn)為Instance”（AllenNLP Documentation）。在我們的實例中意味著這樣做：

        @overrides
        def text_to_instance(self, newsgroups_post: str, label: str = None) -> Instance:
            tokenized_text = self._tokenizer.tokenize(newsgroups_post)
            post_field =
            fields = {'post': post_field}
            if label is not None:
                fields['label'] =
            return Instance(fields)

我們將來自20個新聞組的文本和標(biāo)簽包裝到TextField和LabelField中。

model.py

我們將使用雙向LSTM網(wǎng)絡(luò)，該網(wǎng)絡(luò)是第一個循環(huán)層被復(fù)制的單元。一層按原樣接收輸入，另一層接收輸入序列的反向副本。因此，BLSTM網(wǎng)絡(luò)被設(shè)計為捕獲順序數(shù)據(jù)集的信息并保持過去和未來的上下文特征。（來源：中文分詞雙向LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)）

首先我們來定義模型的類參數(shù)

vocab

因為在你的模型中經(jīng)常會有幾種不同的映射，所以Vocabulary會追蹤不同的命名空間。在這種情況下，我們?yōu)槲谋驹O(shè)置了“符號”詞匯（代碼中未顯示，是在背后使用的默認(rèn)值），以及我們試圖預(yù)測的標(biāo)簽的“標(biāo)簽”詞匯?！?Using AllenNLP in your Project）