日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

<style id="5jkc3"><progress id="5jkc3"><output id="5jkc3"></output></progress></style>

<strong id="qqoew"><style id="qqoew"></style></strong>

<sub id="qqoew"><acronym id="qqoew"><mark id="qqoew"></mark></acronym></sub>

<dd id="qqoew"><address id="qqoew"></address></dd>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預(yù)覽，將在時失效

人工智能正文

發(fā)私信給王悅

發(fā)送

0

上海AI實驗室開源發(fā)布高質(zhì)量語料“萬卷CC”

本文作者：王悅

2024-03-14 15:40

導(dǎo)語：百里挑一“萃取”數(shù)據(jù)精華

近日，上海人工智能實驗室（上海AI實驗室）發(fā)布新一代高質(zhì)量大模型預(yù)訓(xùn)練語料“萬卷CC”（WanJuan-CC），首批開源的語料覆蓋過去十年互聯(lián)網(wǎng)上的公開內(nèi)容，包含1千億字符（100B token），約400GB的高質(zhì)量英文數(shù)據(jù)。作為“大模型語料數(shù)據(jù)聯(lián)盟”今年首發(fā)的開源語料，WanJuan-CC將為學(xué)界和業(yè)界提供大規(guī)模、高質(zhì)量的數(shù)據(jù)支撐，助力構(gòu)建更智能可靠的AI大模型。

預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量對大模型整體性能至關(guān)重要。當(dāng)前，CommonCrawl（CC）數(shù)據(jù)集因其規(guī)模大、跨度廣而成為國際主流大模型訓(xùn)練數(shù)據(jù)的重要來源。與此同時，其原始數(shù)據(jù)格式復(fù)雜、數(shù)據(jù)質(zhì)量低等問題，或?qū)?dǎo)致模型訓(xùn)練效率低，甚至可能引發(fā)價值觀對齊等方面的隱患。

中國科研人員通過原創(chuàng)的數(shù)據(jù)清洗技術(shù)，從CC數(shù)據(jù)庫中抽取約1300億份原始數(shù)據(jù)文檔進行再處理，“萃取”出其中約1.38%的高質(zhì)量內(nèi)容，構(gòu)建成WanJuan-CC語料庫。實驗結(jié)果顯示，WanJuanCC具有高文本質(zhì)量、高信息密度的特點，可滿足當(dāng)前大模型訓(xùn)練對大規(guī)模高質(zhì)量語料的需求。

上海AI實驗室發(fā)布的書?·浦語2.0（InternLM2）即以WanJuan-CC為關(guān)鍵數(shù)據(jù)作支撐，使訓(xùn)練效率和語言建模能力大幅提升，綜合性能領(lǐng)先開源社區(qū)。

開源數(shù)據(jù)：https://opendatalab.com/OpenDataLab/WanJuanCC

高質(zhì)量語料驅(qū)動，效率性能雙提升

近期，上海AI實驗室發(fā)布了新一代大語言模型書?·浦語2.0（InternLM2）?；貧w語言建模本質(zhì)，InternLM2綜合性能達(dá)到同量級開源模型的領(lǐng)先水平。模型基座語言建模能力的提升，則得益于預(yù)訓(xùn)練文本質(zhì)量及信息密度的增強。作為InternLM2的關(guān)鍵預(yù)訓(xùn)練語料，WanJuan-CC的文本質(zhì)量和高信息密度經(jīng)過了模型實際驗證。在InternLM2的訓(xùn)練過程中，在僅使用約60%的訓(xùn)練數(shù)據(jù)情況下，模型即獲得了與此前使用1T token相同的性能表現(xiàn)，大幅提升訓(xùn)練效率，并使模型在相同語料規(guī)模上取得了更好的性能。

上海AI實驗室開源發(fā)布高質(zhì)量語料“萬卷CC”

綠色曲線為InternLM2使用WanJuan-cc作為預(yù)訓(xùn)練語料，在不同數(shù)據(jù)規(guī)模上取得的任務(wù)性能分布，結(jié)果顯示，WanJuan-CC可大幅提升模型訓(xùn)練效率

研究團隊通過對CC原始數(shù)據(jù)進行清洗，去除了網(wǎng)頁代碼和重復(fù)內(nèi)容，同時利用分類模型剔除了廣告和質(zhì)量較差的信息，并通過內(nèi)容一致性、語法正確性、數(shù)據(jù)噪聲和信息價值等四個維度，對語言的流暢性進行評估。為驗證數(shù)據(jù)質(zhì)量，研究團隊使用WanJuan-CC和RefineWeb（從CommonCrawl中抽取并構(gòu)建的主流英文預(yù)訓(xùn)練語料）分別重新訓(xùn)練了參數(shù)量1B的模型，并進行評測。結(jié)果顯示，由WanJuan-CC作為訓(xùn)練數(shù)據(jù)的模型在多項驗證中取得了更優(yōu)效果。

上海AI實驗室開源發(fā)布高質(zhì)量語料“萬卷CC”

基于WanJuan-CC訓(xùn)練的1B模型在Pile驗證集評測效果更優(yōu)，這表明由WanJuan-CC訓(xùn)練的模型在不同領(lǐng)域和各類知識上擁有更強能力

四重處理，百里挑一“萃取”高質(zhì)量數(shù)據(jù)

為從浩如煙海的CC數(shù)據(jù)庫中“精選”最可靠的信息，研究團隊搭建了高性能分布式數(shù)據(jù)處理基礎(chǔ)設(shè)施，通過啟發(fā)式規(guī)則過濾、多層級數(shù)據(jù)去重、內(nèi)容安全過濾、數(shù)據(jù)質(zhì)量過濾等四個步驟，從原始數(shù)據(jù)中“萃取”出高質(zhì)量數(shù)據(jù)，數(shù)據(jù)留存率僅為原數(shù)據(jù)的1.38%。

上海AI實驗室開源發(fā)布高質(zhì)量語料“萬卷CC”

通過原創(chuàng)技術(shù)，對CC原始數(shù)據(jù)進行多階段處理，得到了高信息密度的WanJuan-CC

研究團隊首先從CC中抽取了約1300億份原始數(shù)據(jù)文檔，然后基于高性能數(shù)據(jù)處理工作流得到2.2T token（35.8億個文檔）安全數(shù)據(jù)，最后，根據(jù)質(zhì)量排序精選出1T token（3.6億個文檔）質(zhì)量最高的數(shù)據(jù)，構(gòu)建成WanJuan-CC。如以下柱狀圖所示，在WanJuan-CC構(gòu)建過程中的每一階段，均進行了大比例的數(shù)據(jù)去除。對于僅占原CC數(shù)據(jù)比例2.76%的安全信息，研究人員再次“篩”掉五成低質(zhì)內(nèi)容，最終呈現(xiàn)出“百里挑一”的高質(zhì)量數(shù)據(jù)。

上海AI實驗室開源發(fā)布高質(zhì)量語料“萬卷CC”

各清洗階段的文檔保留率和去除率（本圖使用對數(shù)坐標(biāo)軸）

數(shù)據(jù)質(zhì)量高，模型更可靠

為推動訓(xùn)練更智能可靠的AI大模型，研究團隊以保障數(shù)據(jù)安全性為前提，在數(shù)據(jù)處理的各環(huán)節(jié)均實施了多項安全加固措施，使WanJuan-CC成為目前開源CC語料中首個在毒性（Toxic）、色情（Porn）和個人隱私三方面同時進行了安全加固的英文語料，因而在價值對齊方面具有更高的可靠性。

上海AI實驗室開源發(fā)布高質(zhì)量語料“萬卷CC”

與部分開源CC語料多維度對比，在毒性、色情和個人隱私等方面，WanJuan-CC均進行了安全加固

研究人員分別對WanJuan-CC、Redpajama和Refineweb數(shù)據(jù)集進行了10萬條數(shù)據(jù)的抽樣，從毒性、侮辱、恐嚇等7個維度進行評分，以驗證各數(shù)據(jù)集的信息安全性。結(jié)果顯示，WanJuan-CC在各維度上的體現(xiàn)出最高安全性。

上海AI實驗室開源發(fā)布高質(zhì)量語料“萬卷CC”

WanJuan-CC與其他開源英文CC語料安全性對比

高質(zhì)量、多模態(tài)、寬領(lǐng)域的數(shù)據(jù)已成為支持當(dāng)前人工智能大模型發(fā)展的重要基石。WanJuan-CC的主要構(gòu)建團隊——OpenDataLab致力于建設(shè)面向人工智能開發(fā)者的超大規(guī)模、高質(zhì)量、多模態(tài)開放數(shù)據(jù)服務(wù)平臺，目前已匯聚高質(zhì)量多模態(tài)數(shù)據(jù)集超6500個，涵蓋大模型研發(fā)應(yīng)用所需的各類語料數(shù)據(jù)。雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)

下載更多開源語料，請登錄大模型語料數(shù)據(jù)聯(lián)盟開源數(shù)據(jù)服務(wù)指定平臺：

https://opendatalab.com

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

分享：

相關(guān)文章

王悅

主筆

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

小米京東樂視 Lumia 軟銀移動游戲新浪微博 HTC ONE 快手紅米 Evernote

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說