日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

<style id="5jkc3"><progress id="5jkc3"><output id="5jkc3"></output></progress></style>

<li id="ki4ga"><em id="ki4ga"></em></li>

<dfn id="ki4ga"><th id="ki4ga"></th></dfn>

<tbody id="ki4ga"><td id="ki4ga"></td></tbody>

<samp id="ki4ga"><dfn id="ki4ga"></dfn></samp>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時(shí)鏈接，僅用于文章預(yù)覽，將在時(shí)失效

人工智能學(xué)術(shù) 正文

發(fā)私信給我在思考中

發(fā)送

0

不可能三角：預(yù)訓(xùn)練語言模型的下一步是什么？

本文作者：我在思考中

2022-04-27 10:38

導(dǎo)語：PLM的不可能三角困境。

不可能三角：預(yù)訓(xùn)練語言模型的下一步是什么？

PLM的不可能三角困境。

編譯 | 王玥

編輯 | 陳彩嫻

近年來，大規(guī)模預(yù)訓(xùn)練語言模型（PLM）顯著提高了各種NLP任務(wù)的性能。由BERT和GPT-2開始，自監(jiān)督預(yù)訓(xùn)練范式和監(jiān)督的微調(diào)范式取得了巨大的成功，并刷新了許多自然語言處理領(lǐng)域的最先進(jìn)成果，如語義相似度、機(jī)器閱讀理解、常識推理和文本摘要等。此外，這些PLM的規(guī)模為中等（即大小低于1B參數(shù)），令模型可以做出廣泛且快速的微調(diào)與適應(yīng)。

然而在許多真實(shí)的、特別是新穎的NLP場景中，由于預(yù)算或時(shí)間限制，用于有效微調(diào)的標(biāo)記數(shù)據(jù)非常有限。這就刺激了零樣本和少樣本NLP模型的開發(fā)。

從GPT-3開始，超大規(guī)模 PLM (SL-PLM)在只給出任務(wù)描述和一些手工示例的情況下，在一般的NLP任務(wù)上表現(xiàn)出了優(yōu)越的性能。這種能力以前在中等規(guī)模的PLM中沒有觀察到。然而，這些SL-PLM前所未有的超大規(guī)模在很大程度上阻礙了其廣泛應(yīng)用。人們甚至很難獲得足夠的計(jì)算資源來加載這樣的模型，更不用說有效的部署和微調(diào)了。因此我們認(rèn)為，目前還沒有一種輕量級PLM在監(jiān)督學(xué)習(xí)和一般NLP任務(wù)的零/少樣本學(xué)習(xí)場景中都具有出色的性能。這導(dǎo)致了在實(shí)際場景中使用這些PLM時(shí)需要投入大量的額外工作。

對于PLM來說，似乎產(chǎn)生了中等規(guī)模，零/少樣本學(xué)習(xí)能力和微調(diào)能力三者不可同時(shí)出現(xiàn)的困境。日前，微軟認(rèn)知服務(wù)研究小組研究員朱晨光（Chenguang Zhu）及 Michael Zeng在其新論文《Impossible Triangle: What’s Next for Pre-trained Language Models?》中將這種困境稱為“不可能三角”。

據(jù)悉，朱晨光本科畢業(yè)于清華姚班，后取得斯坦福大學(xué)計(jì)算機(jī)系博士學(xué)位，畢業(yè)后進(jìn)入微軟公司，現(xiàn)為微軟公司自然語言處理高級研究員。此前，AI科技評論對朱晨光博士做過一次人物專訪，更多內(nèi)容可看：《朱晨光：一個(gè)從不通宵的AI研究員》。

1

不可能三角

不可能三角：預(yù)訓(xùn)練語言模型的下一步是什么？

PLM的不可能三角包含了在實(shí)際場景中部署模型所需的三個(gè)屬性，分別是：

P1：模型規(guī)模適中，即參數(shù)小于10億
P2：SoTA少樣本學(xué)習(xí)能力
P3:：SoTA微調(diào)能力

三角形圖源：https://commons.wikimedia.org/wiki/File:Penrose_triangle.svg

圖為描述當(dāng)前PLM障礙的不可能三角形，這個(gè)三角形描繪了三個(gè)PLM關(guān)鍵屬性：P1，即模型規(guī)模適中，P2，即SoTA少樣本學(xué)習(xí)能力，以及P3，即SoTA監(jiān)督學(xué)習(xí)能力。這三個(gè)屬性對應(yīng)于PLM實(shí)際應(yīng)用中的三個(gè)要求：P1是使用合理數(shù)量的計(jì)算資源進(jìn)行高效部署；P2對應(yīng)標(biāo)記數(shù)據(jù)為零或很少的情況；而P3對應(yīng)標(biāo)記數(shù)據(jù)相對豐富的情景。

不可能三角形存在的一個(gè)原因是，在當(dāng)前階段，只有當(dāng)PLM達(dá)到極大的規(guī)模并具有足夠的模型容量時(shí)，才會擁有強(qiáng)大的少樣本學(xué)習(xí)能力。雖然iPET設(shè)計(jì)了中等大小的PLM，從而實(shí)現(xiàn)比GPT-3更佳的少樣本學(xué)習(xí)性能，但已經(jīng)被后來的SL-PLM（如PaLM）超越。隨著模型規(guī)模的增大，我們可以觀察到零樣本/少樣本學(xué)習(xí)性能的不連續(xù)改善。例如，與參數(shù)為8B和62B的模型相比，參數(shù)為540B的PaLM在許多任務(wù)上的準(zhǔn)確性都有了巨大飛躍。因此，開發(fā)出一個(gè)具有SoTA零/少樣本學(xué)習(xí)性能的中等大小模型，同時(shí)又保持高超的監(jiān)督學(xué)習(xí)能力，仍然是一個(gè)巨大的挑戰(zhàn)。

雖然沒有一個(gè)PLM能實(shí)現(xiàn)不可能三角中的所有三個(gè)特性，但許多PLM已經(jīng)具備了其中的一or兩個(gè)屬性：

中等規(guī)模的PLM(具備P1 + P3的屬性)，這些語言模型屬于中等大小，參數(shù)小于10億個(gè)，從而能夠有效地進(jìn)行模型調(diào)優(yōu)和部署。它們在一般的NLP任務(wù)中都可以達(dá)到SoTA性能，這些NLP任務(wù)包括GLUE基準(zhǔn)測試、文本摘要、開放域問題回答和常識推理等。然而這些模型的零/少樣本學(xué)習(xí)能力通常相對較弱，這意味著使用這些模型需要依賴目標(biāo)域中足夠的標(biāo)記數(shù)據(jù)。
具備P2屬性的超大規(guī)模PLM，這些語言模型有極大的規(guī)模（參數(shù)從10到1000億不等），且已經(jīng)在超大規(guī)模的數(shù)據(jù)上預(yù)訓(xùn)練過。擁有5400億個(gè)參數(shù)、在7800億個(gè)單詞的文本語料庫上進(jìn)行了預(yù)訓(xùn)練的PaLM就屬此列。當(dāng)只提示任務(wù)描述和少量輸入輸出對示例時(shí)，他們在一般的零/少樣本NLP任務(wù)中已經(jīng)實(shí)現(xiàn)了SoTA性能。然而總的來說，1）SL-PLM的零/少樣本學(xué)習(xí)性能低于有監(jiān)督訓(xùn)練的模型，2）經(jīng)過微調(diào)后，許多SL-PLM的性能仍然低于最好的經(jīng)過微調(diào)的中等大小的PLM，這可能就是因?yàn)樗鼈兊哪Ｐ鸵?guī)模太大。

2

改善措施

由于不可能三角的存在，學(xué)界和工業(yè)界采取了許多措施來解決實(shí)踐中所使用的PLM所缺少的能力?？偨Y(jié)如下:

極大模型（缺少P1）：這種情況出現(xiàn)在需要部署一個(gè)超大PLM的時(shí)候。為了獲得一個(gè)中等規(guī)模、性能與SL-PLM類似的模型，常用的做法是知識蒸餾(KD)。在KD中，較大的模型是老師，較小的模型是學(xué)生，從教師的預(yù)測分布和/或參數(shù)中學(xué)習(xí)。知識提取在創(chuàng)建更高效的模型時(shí)非常有效，只需要犧牲一點(diǎn)性能。然而，這里仍然存在兩個(gè)問題。首先，學(xué)生很難達(dá)到和老師一樣的表現(xiàn)。其次，SL-PLM的巨大規(guī)模阻礙了有效的推理，使它們不方便作為教師模型。
零/少樣本學(xué)習(xí)性能較差（缺少P2）。這對于中等規(guī)模的PLM最常見，它們在微調(diào)后可以實(shí)現(xiàn)SoTA性能，但具有相對較低的零/少樣本學(xué)習(xí)能力。在許多場景中，當(dāng)缺少足夠的標(biāo)記數(shù)據(jù)時(shí)，希望部署這樣的模型。因此，解決這個(gè)問題的一種方法是數(shù)據(jù)增強(qiáng)，生成偽標(biāo)簽和偽數(shù)據(jù)實(shí)例使得模型可以利用這些額外的數(shù)據(jù)進(jìn)行有效的監(jiān)督訓(xùn)練。然而，偽數(shù)據(jù)質(zhì)量的參差不齊和不同任務(wù)中數(shù)據(jù)類型的多樣性對普遍適用的解決方案提出了挑戰(zhàn)。
監(jiān)督訓(xùn)練表現(xiàn)欠佳（缺乏P3）。這種情況在使用SL-PLM時(shí)很常見，在這種情況下，計(jì)算資源有限使得微調(diào)超大型模型的所有參數(shù)變得十分困難。一個(gè)典型解決方案是prompt學(xué)習(xí)。我們可以利用hard prompt，如離散文本模板，或 soft prompt，如連續(xù)參數(shù)嵌入，以便在微調(diào)期間僅更新 hard prompt 詞或 soft prompt 參數(shù)。這些方法已被證明對于提高SL-PLM 的準(zhǔn)確度十分有效。然而，這些方法的效果對prompt以及訓(xùn)練數(shù)據(jù)的選擇非常敏感，且最終效果一般仍然低于監(jiān)督學(xué)習(xí)后的中等規(guī)模PLM。

以上提到的這些額外工作拖慢了訓(xùn)練和部署PLM模型的進(jìn)程。而且對于不同下游任務(wù)或產(chǎn)品，需要不斷進(jìn)行這些工作。因此，如果一個(gè)PLM能夠?qū)崿F(xiàn)這個(gè)不可能三角形，則將大大加快模型訓(xùn)練和實(shí)用的過程。

3

展望未來

雖然目前在NLP模型中存在不可能三角形，但研究者認(rèn)為可以通過三階段的方法來解決這個(gè)問題。

階段1：開發(fā)PLM以達(dá)到三角形中的某些屬性，并同時(shí)改進(jìn)其他缺失的屬性。例如，提高一個(gè)具有SoTA監(jiān)督學(xué)習(xí)能力的中等規(guī)模模型在少樣本學(xué)習(xí)上的效果；或?qū)⒕哂蠸oTA少樣本學(xué)習(xí)能力的SL-PLM壓縮成更小的模型，并使其具有更好的監(jiān)督學(xué)習(xí)性能。

階段2：在一個(gè)或幾個(gè)NLP任務(wù)上實(shí)現(xiàn)具有所有三個(gè)期望屬性的PLM。為了實(shí)現(xiàn)這一點(diǎn)，可以利用目標(biāo)任務(wù)的特殊性。例如，在某些任務(wù)上，模型性能對于訓(xùn)練數(shù)據(jù)規(guī)模的依賴性較小，零/少樣本學(xué)習(xí)和監(jiān)督學(xué)習(xí)性能之間的差距較小，等等。

階段3：在第一階段和第二階段的基礎(chǔ)上開發(fā)在通用NLP任務(wù)上實(shí)現(xiàn)所有三個(gè)屬性的PLM。可能使用到的方法有：i) 用更大數(shù)據(jù)預(yù)訓(xùn)練一個(gè)中等規(guī)模模型; ii) 更好地進(jìn)行知識蒸餾; iii) 泛化數(shù)據(jù)增強(qiáng)方法等。一旦一個(gè)PLM在通用NLP任務(wù)中具備了不可能三角形的所有三個(gè)特性，將很大程度上改變整個(gè)NLP研究和應(yīng)用的格局，促進(jìn)快速、高效和高質(zhì)量的模型開發(fā)和部署。

原文鏈接：https://arxiv.org/pdf/2204.06130.pdf

不可能三角：預(yù)訓(xùn)練語言模型的下一步是什么？

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

我在思考中

運(yùn)營

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

百度 nvidiA 智能硬件 3D打印互聯(lián)網(wǎng) iPhone5 馬云設(shè)計(jì) 黃仁勛數(shù)字化轉(zhuǎn)型 Lyft

為了您的賬戶安全，請驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號信息

您的賬號已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說