日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給孔慶強
發(fā)送

0

不均衡數(shù)據(jù)怎么破?對付它的七種武器!

本文作者: 孔慶強 2017-06-14 18:02
導(dǎo)語:大多數(shù)機器學(xué)習(xí)算法在不均衡數(shù)據(jù)集的表現(xiàn)都不太好,希望以下七種技術(shù)可以幫到你。

不均衡數(shù)據(jù)怎么破?對付它的七種武器!

先問大家一個問題:

銀行欺詐識別、市場實時交易、網(wǎng)絡(luò)入侵檢測等領(lǐng)域的數(shù)據(jù)集,有哪些共通點?

答案是:“關(guān)鍵”事件在數(shù)據(jù)中的占比經(jīng)常少于1%(例如:信用卡行騙者、點擊廣告的用戶或被攻破的服務(wù)器的網(wǎng)絡(luò)掃描)。

然而,大多數(shù)機器學(xué)習(xí)算法在不均衡數(shù)據(jù)集的表現(xiàn)都不太好。以下七種技術(shù)可以幫到你,訓(xùn)練一個分類器用于檢測不正常類別數(shù)據(jù)。


不均衡數(shù)據(jù)怎么破?對付它的七種武器!

 1. 使用正確指標評估權(quán)值

對于不均衡數(shù)據(jù)生成的模型,使用不恰當(dāng)?shù)脑u估方法很危險。架設(shè)訓(xùn)練數(shù)據(jù)是上圖展示的數(shù)據(jù)。若準確度是衡量模型好壞的指標,把所有測試樣本為劃分為“0”,將得到非常高的準確率(99.8%),但顯然,這模型不能為我們提供任何有價值的信息。

 對于這個情況,可以用其它評估指標:

  • 準確率(Precision/Specificity): 選擇的實例有多少是相關(guān)的;

  • 召回率(Recall/Sensitivity): 選擇了多少相關(guān)實例;

  • F值(F1 score): 準確率與召回率的調(diào)和平均數(shù);

  • MCC: 觀察值與預(yù)測值之間的相關(guān)性系數(shù);

  • AUC: 正陽性與假陽性的關(guān)系。

2. 訓(xùn)練集重抽樣 

除了使用不同的評估標準,還可以想辦法獲取其他數(shù)據(jù)集。有兩種方法能把不均衡數(shù)據(jù)集轉(zhuǎn)化為均衡數(shù)據(jù)集那就是欠抽樣以及過抽樣。

2.1.欠抽樣

欠抽樣通過刪減大比例類的樣本量來平衡數(shù)據(jù)集。這方法適用于數(shù)據(jù)量充足的情況。通過保留所有的小比例類數(shù)據(jù)樣本并從大比例類數(shù)據(jù)中隨機選取同等數(shù)量的樣本,產(chǎn)生一個新的可用于后續(xù)模型的均衡數(shù)據(jù)集。

2.2.過抽樣

反之,當(dāng)數(shù)據(jù)量不足時則采用過抽樣方法。通過增加小比例類的樣本量來平衡數(shù)據(jù)集。不再是去掉冗余樣本,通過如數(shù)據(jù)復(fù)制(repetition)、拔靴法(boostrapping)或合成少數(shù)過采樣技術(shù)(SMOTE)產(chǎn)生了新的小比例類樣本[1]。

注意:兩種方法沒有絕對優(yōu)勢。關(guān)鍵是看情況使用兩種方法。過抽樣與欠抽樣合組合使用也常有效解決不均衡問題。

3. 恰當(dāng)使用K-折交叉驗證法

值得注意的是,當(dāng)使用過抽樣法來解決不均衡問題時,交叉驗證法是需要合理應(yīng)用的。

雷鋒網(wǎng)提醒:過抽樣法會提取出小比例類的觀察數(shù)據(jù) ,用拔靴法根據(jù)分布函數(shù)隨機生成新數(shù)據(jù)。如果交叉驗證法在過抽樣后使用,基本上會讓模型過擬合到一個特別的偽拔靴法結(jié)果。這就是為什么交叉驗證應(yīng)該在過抽樣前完成,正如如何實現(xiàn)特征選擇。只有當(dāng)數(shù)據(jù)反復(fù)地重抽樣,數(shù)據(jù)集才具有隨機性來確保不會有過擬合問題。

4. 融合不同的重抽樣數(shù)據(jù)集 

成功泛化一個模型,最簡單的方法是使用更多數(shù)據(jù)。問題是,現(xiàn)成的分類器,如邏輯回歸或隨機森林,傾向于通過拋棄掉小比例類數(shù)據(jù)進行泛化。一個簡單的實踐方法,是使用所有小比例類樣本,和劃分為n份的互斥大比例類樣本,共同建立n個模型。例如保留 1000個小比例類別樣本,對大比例類別隨機抽樣10,000個樣本,你只需要把10,000個樣本分為10份并訓(xùn)練10個不同的模型。

不均衡數(shù)據(jù)怎么破?對付它的七種武器!


這方法很簡單,并在水平方向完美的可擴展 (假如你有很多的數(shù)據(jù)),因為你可以在不同簇節(jié)點上訓(xùn)練并跑你的模型。模型融合泛化效果更好,這使得這方法易于處理。

5. 不同的比率重抽樣 

上述方法,還可以通過調(diào)整小比例類別與大比例類別之間不同的比率來調(diào)優(yōu)。最佳比率十分依賴于數(shù)據(jù)和使用的模型。但不要用同樣的比率去訓(xùn)練 ensemble 里的所有模型,值得試著用不同比率模型融合。所以如果訓(xùn)練10個模型,一個模型使用1:1的比率(少類別:多類別)、另一個使用1:3、或2:1可能都合理。取決于模型,這會影響類別的權(quán)重。


不均衡數(shù)據(jù)怎么破?對付它的七種武器!

6. 聚類多類別

Sergey在Quora提出了一個優(yōu)雅的方法 [2]。不再依賴隨機抽樣,去保留訓(xùn)練樣本的多樣性,他建議把大比例類別聚類進r個組,r是它里面的案例數(shù)。對于每個組,僅保留質(zhì)心(聚類的中心)。然后模型僅用小比例類別和質(zhì)心數(shù)據(jù)進行訓(xùn)練。

7.設(shè)計你自己的模型 

所有之前的方法注重數(shù)據(jù),并保持模型不變。但實際上,假如模型適合于不均衡數(shù)據(jù),那就不需要對數(shù)據(jù)重抽樣。假如數(shù)據(jù)傾斜不是太嚴重,采用著名的XGBoost算法是一個很好的開始,因為它從內(nèi)部確保訓(xùn)練的數(shù)據(jù)包不會是不均衡的。在算法內(nèi)部,數(shù)據(jù)其實秘密地重抽樣了。

設(shè)計一個成本函數(shù),對小比例類別誤分類的懲罰,要多于大比例類別的誤分類,這可能會產(chǎn)生自然地傾向小比例類別進行泛化的模型。例如,調(diào)整SVM來通過同樣的比率(占總樣本的比例),去懲罰小比例類別的誤分類。


不均衡數(shù)據(jù)怎么破?對付它的七種武器!

總結(jié) 

最后,雷鋒網(wǎng)提醒,這不是一個完整的技術(shù)列表,僅僅是一個處理不均衡數(shù)據(jù)的開始。其實,并沒有一個能適配所有的問題的、最好的方法或模型。所以強烈建議嘗試不同的技術(shù)和模型,去評估哪個的效果最好??梢試L試創(chuàng)新地同時使用幾種不同的方法。另外很重要的一點是,在很多不均衡類別發(fā)生的領(lǐng)域(如欺詐檢測、實時交易),“市場規(guī)則”是經(jīng)常改變的。所以,請檢查過去的數(shù)據(jù)是否已過期。

via kdnuggets,雷鋒網(wǎng)編譯

相關(guān)文章:

如何解決機器學(xué)習(xí)中的數(shù)據(jù)不平衡問題?

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

不均衡數(shù)據(jù)怎么破?對付它的七種武器!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說