日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

不可能三角:預(yù)訓(xùn)練語(yǔ)言模型的下一步是什么?

本文作者: 我在思考中 2022-04-27 10:38
導(dǎo)語(yǔ):PLM的不可能三角困境。
不可能三角:預(yù)訓(xùn)練語(yǔ)言模型的下一步是什么?
PLM的不可能三角困境。

編譯 | 王玥

編輯 | 陳彩嫻

近年來(lái),大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(PLM)顯著提高了各種NLP任務(wù)的性能。由BERT和GPT-2開(kāi)始,自監(jiān)督預(yù)訓(xùn)練范式和監(jiān)督的微調(diào)范式取得了巨大的成功,并刷新了許多自然語(yǔ)言處理領(lǐng)域的最先進(jìn)成果,如語(yǔ)義相似度、機(jī)器閱讀理解、常識(shí)推理和文本摘要等。此外,這些PLM的規(guī)模為中等(即大小低于1B參數(shù)),令模型可以做出廣泛且快速的微調(diào)與適應(yīng)。

然而在許多真實(shí)的、特別是新穎的NLP場(chǎng)景中,由于預(yù)算或時(shí)間限制,用于有效微調(diào)的標(biāo)記數(shù)據(jù)非常有限。這就刺激了零樣本和少樣本NLP模型的開(kāi)發(fā)。

從GPT-3開(kāi)始,超大規(guī)模 PLM (SL-PLM)在只給出任務(wù)描述和一些手工示例的情況下,在一般的NLP任務(wù)上表現(xiàn)出了優(yōu)越的性能。這種能力以前在中等規(guī)模的PLM中沒(méi)有觀(guān)察到。然而,這些SL-PLM前所未有的超大規(guī)模在很大程度上阻礙了其廣泛應(yīng)用。人們甚至很難獲得足夠的計(jì)算資源來(lái)加載這樣的模型,更不用說(shuō)有效的部署和微調(diào)了。因此我們認(rèn)為,目前還沒(méi)有一種輕量級(jí)PLM在監(jiān)督學(xué)習(xí)和一般NLP任務(wù)的零/少樣本學(xué)習(xí)場(chǎng)景中都具有出色的性能。這導(dǎo)致了在實(shí)際場(chǎng)景中使用這些PLM時(shí)需要投入大量的額外工作。

對(duì)于PLM來(lái)說(shuō),似乎產(chǎn)生了中等規(guī)模,零/少樣本學(xué)習(xí)能力和微調(diào)能力三者不可同時(shí)出現(xiàn)的困境。日前,微軟認(rèn)知服務(wù)研究小組研究員朱晨光(Chenguang Zhu)及 Michael Zeng在其新論文《Impossible Triangle: What’s Next for Pre-trained Language Models?》中將這種困境稱(chēng)為“不可能三角”。

據(jù)悉,朱晨光本科畢業(yè)于清華姚班,后取得斯坦福大學(xué)計(jì)算機(jī)系博士學(xué)位,畢業(yè)后進(jìn)入微軟公司,現(xiàn)為微軟公司自然語(yǔ)言處理高級(jí)研究員。此前,AI科技評(píng)論對(duì)朱晨光博士做過(guò)一次人物專(zhuān)訪(fǎng),更多內(nèi)容可看:《朱晨光:一個(gè)從不通宵的AI研究員》。



1

不可能三角

不可能三角:預(yù)訓(xùn)練語(yǔ)言模型的下一步是什么?

PLM的不可能三角包含了在實(shí)際場(chǎng)景中部署模型所需的三個(gè)屬性,分別是:

  • P1:模型規(guī)模適中,即參數(shù)小于10億

  • P2:SoTA少樣本學(xué)習(xí)能力

  • P3::SoTA微調(diào)能力

三角形圖源:https://commons.wikimedia.org/wiki/File:Penrose_triangle.svg

圖為描述當(dāng)前PLM障礙的不可能三角形,這個(gè)三角形描繪了三個(gè)PLM關(guān)鍵屬性:P1,即模型規(guī)模適中,P2,即SoTA少樣本學(xué)習(xí)能力,以及P3,即SoTA監(jiān)督學(xué)習(xí)能力。這三個(gè)屬性對(duì)應(yīng)于PLM實(shí)際應(yīng)用中的三個(gè)要求:P1是使用合理數(shù)量的計(jì)算資源進(jìn)行高效部署;P2對(duì)應(yīng)標(biāo)記數(shù)據(jù)為零或很少的情況;而P3對(duì)應(yīng)標(biāo)記數(shù)據(jù)相對(duì)豐富的情景。

不可能三角形存在的一個(gè)原因是,在當(dāng)前階段,只有當(dāng)PLM達(dá)到極大的規(guī)模并具有足夠的模型容量時(shí),才會(huì)擁有強(qiáng)大的少樣本學(xué)習(xí)能力。雖然iPET設(shè)計(jì)了中等大小的PLM,從而實(shí)現(xiàn)比GPT-3更佳的少樣本學(xué)習(xí)性能,但已經(jīng)被后來(lái)的SL-PLM(如PaLM)超越。隨著模型規(guī)模的增大,我們可以觀(guān)察到零樣本/少樣本學(xué)習(xí)性能的不連續(xù)改善。例如,與參數(shù)為8B和62B的模型相比,參數(shù)為540B的PaLM在許多任務(wù)上的準(zhǔn)確性都有了巨大飛躍。因此,開(kāi)發(fā)出一個(gè)具有SoTA零/少樣本學(xué)習(xí)性能的中等大小模型,同時(shí)又保持高超的監(jiān)督學(xué)習(xí)能力,仍然是一個(gè)巨大的挑戰(zhàn)。

雖然沒(méi)有一個(gè)PLM能實(shí)現(xiàn)不可能三角中的所有三個(gè)特性,但許多PLM已經(jīng)具備了其中的一or兩個(gè)屬性:

  • 中等規(guī)模的PLM(具備P1 + P3的屬性),這些語(yǔ)言模型屬于中等大小,參數(shù)小于10億個(gè),從而能夠有效地進(jìn)行模型調(diào)優(yōu)和部署。它們?cè)谝话愕腘LP任務(wù)中都可以達(dá)到SoTA性能,這些NLP任務(wù)包括GLUE基準(zhǔn)測(cè)試、文本摘要、開(kāi)放域問(wèn)題回答和常識(shí)推理等。然而這些模型的零/少樣本學(xué)習(xí)能力通常相對(duì)較弱,這意味著使用這些模型需要依賴(lài)目標(biāo)域中足夠的標(biāo)記數(shù)據(jù)。

  • 具備P2屬性的超大規(guī)模PLM,這些語(yǔ)言模型有極大的規(guī)模(參數(shù)從10到1000億不等),且已經(jīng)在超大規(guī)模的數(shù)據(jù)上預(yù)訓(xùn)練過(guò)。擁有5400億個(gè)參數(shù)、在7800億個(gè)單詞的文本語(yǔ)料庫(kù)上進(jìn)行了預(yù)訓(xùn)練的PaLM就屬此列。當(dāng)只提示任務(wù)描述和少量輸入輸出對(duì)示例時(shí),他們?cè)谝话愕牧?少樣本NLP任務(wù)中已經(jīng)實(shí)現(xiàn)了SoTA性能。然而總的來(lái)說(shuō),1)SL-PLM的零/少樣本學(xué)習(xí)性能低于有監(jiān)督訓(xùn)練的模型,2)經(jīng)過(guò)微調(diào)后,許多SL-PLM的性能仍然低于最好的經(jīng)過(guò)微調(diào)的中等大小的PLM,這可能就是因?yàn)樗鼈兊哪P鸵?guī)模太大。



2

改善措施

由于不可能三角的存在,學(xué)界和工業(yè)界采取了許多措施來(lái)解決實(shí)踐中所使用的PLM所缺少的能力。總結(jié)如下:

  • 極大模型(缺少P1):這種情況出現(xiàn)在需要部署一個(gè)超大PLM的時(shí)候。為了獲得一個(gè)中等規(guī)模、性能與SL-PLM類(lèi)似的模型,常用的做法是知識(shí)蒸餾(KD)。在KD中,較大的模型是老師,較小的模型是學(xué)生,從教師的預(yù)測(cè)分布和/或參數(shù)中學(xué)習(xí)。知識(shí)提取在創(chuàng)建更高效的模型時(shí)非常有效,只需要犧牲一點(diǎn)性能。然而,這里仍然存在兩個(gè)問(wèn)題。首先,學(xué)生很難達(dá)到和老師一樣的表現(xiàn)。其次,SL-PLM的巨大規(guī)模阻礙了有效的推理,使它們不方便作為教師模型。

  • 零/少樣本學(xué)習(xí)性能較差(缺少P2)。這對(duì)于中等規(guī)模的PLM最常見(jiàn),它們?cè)谖⒄{(diào)后可以實(shí)現(xiàn)SoTA性能,但具有相對(duì)較低的零/少樣本學(xué)習(xí)能力。在許多場(chǎng)景中,當(dāng)缺少足夠的標(biāo)記數(shù)據(jù)時(shí),希望部署這樣的模型。因此,解決這個(gè)問(wèn)題的一種方法是數(shù)據(jù)增強(qiáng),生成偽標(biāo)簽和偽數(shù)據(jù)實(shí)例使得模型可以利用這些額外的數(shù)據(jù)進(jìn)行有效的監(jiān)督訓(xùn)練。然而,偽數(shù)據(jù)質(zhì)量的參差不齊和不同任務(wù)中數(shù)據(jù)類(lèi)型的多樣性對(duì)普遍適用的解決方案提出了挑戰(zhàn)。

  • 監(jiān)督訓(xùn)練表現(xiàn)欠佳(缺乏P3)。這種情況在使用SL-PLM時(shí)很常見(jiàn),在這種情況下,計(jì)算資源有限使得微調(diào)超大型模型的所有參數(shù)變得十分困難。一個(gè)典型解決方案是prompt學(xué)習(xí)。我們可以利用hard prompt,如離散文本模板,或 soft prompt,如連續(xù)參數(shù)嵌入,以便在微調(diào)期間僅更新 hard prompt 詞或 soft prompt 參數(shù)。這些方法已被證明對(duì)于提高SL-PLM 的準(zhǔn)確度十分有效。然而,這些方法的效果對(duì)prompt以及訓(xùn)練數(shù)據(jù)的選擇非常敏感,且最終效果一般仍然低于監(jiān)督學(xué)習(xí)后的中等規(guī)模PLM。

以上提到的這些額外工作拖慢了訓(xùn)練和部署PLM模型的進(jìn)程。而且對(duì)于不同下游任務(wù)或產(chǎn)品,需要不斷進(jìn)行這些工作。因此,如果一個(gè)PLM能夠?qū)崿F(xiàn)這個(gè)不可能三角形,則將大大加快模型訓(xùn)練和實(shí)用的過(guò)程。



3

展望未來(lái)

雖然目前在NLP模型中存在不可能三角形,但研究者認(rèn)為可以通過(guò)三階段的方法來(lái)解決這個(gè)問(wèn)題。

階段1:開(kāi)發(fā)PLM以達(dá)到三角形中的某些屬性,并同時(shí)改進(jìn)其他缺失的屬性。例如,提高一個(gè)具有SoTA監(jiān)督學(xué)習(xí)能力的中等規(guī)模模型在少樣本學(xué)習(xí)上的效果;或?qū)⒕哂蠸oTA少樣本學(xué)習(xí)能力的SL-PLM壓縮成更小的模型,并使其具有更好的監(jiān)督學(xué)習(xí)性能。

階段2:在一個(gè)或幾個(gè)NLP任務(wù)上實(shí)現(xiàn)具有所有三個(gè)期望屬性的PLM。為了實(shí)現(xiàn)這一點(diǎn),可以利用目標(biāo)任務(wù)的特殊性。例如,在某些任務(wù)上,模型性能對(duì)于訓(xùn)練數(shù)據(jù)規(guī)模的依賴(lài)性較小,零/少樣本學(xué)習(xí)和監(jiān)督學(xué)習(xí)性能之間的差距較小,等等。

階段3:在第一階段和第二階段的基礎(chǔ)上開(kāi)發(fā)在通用NLP任務(wù)上實(shí)現(xiàn)所有三個(gè)屬性的PLM??赡苁褂玫降姆椒ㄓ校篿) 用更大數(shù)據(jù)預(yù)訓(xùn)練一個(gè)中等規(guī)模模型; ii) 更好地進(jìn)行知識(shí)蒸餾; iii) 泛化數(shù)據(jù)增強(qiáng)方法等。一旦一個(gè)PLM在通用NLP任務(wù)中具備了不可能三角形的所有三個(gè)特性,將很大程度上改變整個(gè)NLP研究和應(yīng)用的格局,促進(jìn)快速、高效和高質(zhì)量的模型開(kāi)發(fā)和部署。

原文鏈接:https://arxiv.org/pdf/2204.06130.pdf

不可能三角:預(yù)訓(xùn)練語(yǔ)言模型的下一步是什么?

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

不可能三角:預(yù)訓(xùn)練語(yǔ)言模型的下一步是什么?

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)