日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

本文作者: 我在思考中 2022-06-14 10:37
導(dǎo)語(yǔ):革自己的命!BIG-bench上評(píng)估谷歌自家模型,性能擊敗了PaLM之前所有。
又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……
作者 | 李梅、劉冰一
編輯 | 陳彩嫻

繼斯坦福100名作者合作發(fā)布「Foundation Model」研究綜述、智源集合100位作者發(fā)布大模型研究綜述(后被曝「翻車(chē)」)后,近日,AI 圈又出現(xiàn)了一篇集結(jié)超過(guò)百位作者合著的論文!

這篇論文(“Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models”)由谷歌發(fā)布,聚集了442名作者!

在論文的 PDF 文檔里,作者列表就占了一整頁(yè):

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……
論文地址:https://arxiv.org/pdf/2206.04615.pdf
GitHub:https://github.com/google/BIG-bench

把所有名字排版在同一頁(yè),若想找出某一作者名字還是挺考驗(yàn)視力的。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

規(guī)模龐大,作者之一 William Fedus 感慨這還真是 It takes an army 啊。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

文章七七八八總計(jì) 100 頁(yè),參考文獻(xiàn)從 51 頁(yè)開(kāi)始,占篇幅的一半。

由于研究參與者人數(shù)太多了,一句兩句說(shuō)不清楚誰(shuí)的貢獻(xiàn)更大一些,干脆在文章專(zhuān)門(mén)設(shè)置一個(gè)章節(jié)闡述諸公心血。

篇幅不多,也就 15 頁(yè)。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

列舉的核心貢獻(xiàn)有 Guy Gur-Ari、Ethan Dyer、Ambrose Slone 等人,他們執(zhí)行大語(yǔ)言模型新基準(zhǔn) BIG-bench github 代碼基礎(chǔ)設(shè)施和文檔等工作。

還有Review的、提供任務(wù)的……

但是,這些特別提及的核心貢獻(xiàn)者并不在文章作者欄之首,因?yàn)楸疚臎](méi)有區(qū)分第一作者,作者欄順序是按姓氏字母順序排列的。

推特上反響還不錯(cuò),有讀者說(shuō)該工作“似乎是個(gè)金礦,非凡的合作 ??  ”。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

還有評(píng)論稱(chēng):“對(duì)組織者在推動(dòng)這項(xiàng)工作完成方面的領(lǐng)導(dǎo)力表示極大的贊賞!令人興奮的大規(guī)模合作模式,造福整個(gè)社區(qū)?!?/span>

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

(好奇谷歌集結(jié)了這么多人合著,有沒(méi)有做「論文查重」?咱也不敢說(shuō),咱也不敢問(wèn))

那么,這篇工作究竟講了些什么?


1

大模型新基準(zhǔn):BIG-Bench

據(jù)了解,此文是谷歌將 BIG-Bench 的論文和 GitHub 公開(kāi)。

BIG bench由 204 項(xiàng)任務(wù)組成,任務(wù)主題涉及語(yǔ)言學(xué)、兒童發(fā)展、數(shù)學(xué)、常識(shí)推理、生物學(xué)、物理學(xué)、社會(huì)偏見(jiàn)、軟件開(kāi)發(fā)等等領(lǐng)域的問(wèn)題。

在 Jeff Dean 等人架構(gòu)的 PaLM 模型中,研究人員在 BIG-Bench 的大模型專(zhuān)用基準(zhǔn)上進(jìn)行了多項(xiàng)任務(wù)測(cè)試。

該研究持續(xù)了 2 年時(shí)間上百人之中不乏工作單位變動(dòng)的。

谷歌之所以推出大模型新基準(zhǔn),是因?yàn)殡S著語(yǔ)言模型的規(guī)模不斷擴(kuò)大,其性能得到了改進(jìn),一些新性能可能具有潛在的變革性影響,但還未得以明確。為了評(píng)估現(xiàn)存語(yǔ)言模型的性能和局限性,作者團(tuán)隊(duì)特地引入了基準(zhǔn)BIG-bench。

Beyond the Imitation Game 基準(zhǔn)(BIG-bench)的GitHub 資源庫(kù)包括:

  • 超過(guò) 204 個(gè)語(yǔ)言任務(wù)。如 BIG-bench 審查標(biāo)準(zhǔn)那樣,基準(zhǔn)任務(wù)涵蓋了不同的主題和語(yǔ)言,并且是目前的模型所不能完全解決的。

  • BIG-bench Lite:一個(gè)小型、且具有代表性的任務(wù)子集,比在整個(gè)基準(zhǔn)上進(jìn)行更快的評(píng)估。

  • 實(shí)現(xiàn)基準(zhǔn) API 的代碼:支持在公開(kāi)可用的模型上進(jìn)行任務(wù)評(píng)估,并實(shí)現(xiàn)新任務(wù)的輕量級(jí)創(chuàng)建。

  • 對(duì)規(guī)模橫跨六個(gè)數(shù)量級(jí)的密集和稀疏語(yǔ)言模型的詳細(xì)評(píng)估結(jié)果,以及由人類(lèi)評(píng)估員建立的基線結(jié)果。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

BIG-bench支持兩種類(lèi)型的任務(wù):JSON和編程任務(wù),其中大約80%的基準(zhǔn)任務(wù)是JSON任務(wù)。

JSON任務(wù)由JSON文件定義,該文件包含由輸入和目標(biāo)組成的示例列表。通過(guò)使用標(biāo)準(zhǔn)指標(biāo)(如ROUGE)或基于模型分配的概率(如回答多項(xiàng)選擇題),將生成的模型輸出與目標(biāo)進(jìn)行比較來(lái)評(píng)估性能?;谑纠腏SON任務(wù)規(guī)范還允許進(jìn)行簡(jiǎn)單的少樣本評(píng)估。

另外大約20%的基準(zhǔn)任務(wù)是程序化的,它們用Python編寫(xiě),能夠在多輪查詢中直接與模型交互,并且能夠使用自定義度量來(lái)衡量性能。使用模型對(duì)象調(diào)用編程任務(wù),可以使用以下方法查詢模型:

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……



2

BIG-bench 的評(píng)估發(fā)現(xiàn)

作者團(tuán)隊(duì)在 BIG-bench 上評(píng)估了多個(gè)語(yǔ)言模型的能力,模型大小從數(shù)百萬(wàn)到數(shù)千億個(gè)參數(shù),包括 OpenAI 的 GPT 模型、Google 內(nèi)部密集 transformer 架構(gòu)和 Switch 式稀疏transformer的性能等等。

盡管語(yǔ)言模型因其大規(guī)模而具有良好的性能,但相比于人類(lèi),它們?cè)贐IG-bench上的表現(xiàn)仍然很差。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

他們還評(píng)估了谷歌自家的PaLM模型,結(jié)果表明其性能擊敗了在PaLM之前的其他模型(狗頭),盡管PaLM仍然低于最好的人類(lèi)評(píng)分者(如下圖中的深藍(lán)色虛線),但它已經(jīng)超過(guò)了BIG-bench Lite分區(qū)上平均人類(lèi)評(píng)分者(如下圖中的藍(lán)色虛線)。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

在一些任務(wù)上,語(yǔ)言模型的性能隨規(guī)模的增大而平穩(wěn)提升;而在另一些任務(wù)上,語(yǔ)言模型會(huì)在某個(gè)特定規(guī)模上突然產(chǎn)生突破性的表現(xiàn)。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

經(jīng)過(guò)評(píng)估,他們還發(fā)現(xiàn),隨著模型規(guī)模的擴(kuò)大,它們的社會(huì)偏見(jiàn)性越來(lái)越突出。對(duì)此,一個(gè)可能解釋是較大的模型在匹配其訓(xùn)練集中的偏差方面做得更好。不過(guò),當(dāng)上下文清楚表明偏見(jiàn)不可取時(shí),偏見(jiàn)就會(huì)隨著規(guī)模的擴(kuò)大而減少。

這一結(jié)果強(qiáng)調(diào)了針對(duì)機(jī)器學(xué)習(xí)系統(tǒng)公平性的研究、工程和政策努力的重要性。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

要解決模型中的社會(huì)偏見(jiàn)問(wèn)題,作者團(tuán)隊(duì)給出三個(gè)發(fā)現(xiàn):1)在上下文廣泛或模棱兩可的情況下,偏見(jiàn)通常會(huì)隨著規(guī)模的擴(kuò)大而增加;2)在狹窄、明確的上下文中,偏差會(huì)隨著規(guī)模的增大而減??;3)可以通過(guò)選擇適當(dāng)?shù)奶崾緛?lái)引導(dǎo)偏見(jiàn)。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

圖注:對(duì)于明確或積極提示的上下文,偏差可能會(huì)隨著規(guī)模的變化而減少,或更穩(wěn)定

他們還發(fā)現(xiàn),模型在英語(yǔ)任務(wù)上的表現(xiàn)優(yōu)于非英語(yǔ)任務(wù),在涉及低資源語(yǔ)言的任務(wù)上表現(xiàn)尤其糟糕。在一些情況下,低資源語(yǔ)言任務(wù)的性能沒(méi)有隨著模型規(guī)模的增大而提高,而相應(yīng)的英語(yǔ)任務(wù)的性能則會(huì)隨著規(guī)模的增大而提高。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

總體上,稀疏模型的性能與使用多 2 倍推理成本的密集模型一樣好,它們的校準(zhǔn)效果與使用多出約 10 倍推理計(jì)算的密集模型一樣好。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

當(dāng)手動(dòng)檢查模型輸出時(shí),團(tuán)隊(duì)發(fā)現(xiàn),模型在一定規(guī)模后開(kāi)始生成電影標(biāo)題,在更大的規(guī)模下會(huì)開(kāi)始識(shí)別表情符號(hào)的語(yǔ)義,并且在某些情況下以最大的規(guī)模輸出正確的答案。一個(gè)有代表性的例子如下圖所示:

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

圖注:根據(jù)精確的任務(wù)指標(biāo),在 emoji_movie 識(shí)別上的表現(xiàn)會(huì)顯得很突然或漸進(jìn)。

此外,他們發(fā)現(xiàn),模型的編程能力十分主觀。即使是通過(guò)具體的任務(wù)進(jìn)行量化,語(yǔ)言模型的能力和跨規(guī)模的軌跡也比我們所想的要主觀得多。

再聯(lián)想這兩天吵得如火如荼的「AI 是否具備人格」……

大家怎么看?

參考鏈接:

https://arxiv.org/pdf/2206.04615.pdf

https://github.com/google/BIG-bench

https://twitter.com/jaschasd/status/1535055886913220608/retweets/with_comments
又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

又一篇超百名作者的 AI 論文問(wèn)世!442位作者耗時(shí)兩年發(fā)布大模型新基準(zhǔn) BIG-bench……

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)