高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

本文作者：楊文

2018-01-31 16:47

導(dǎo)語：阿薩姆純干貨分享

雷鋒網(wǎng)AI研習(xí)社按：隨著硬件算力的上升、數(shù)據(jù)量的加大以及各種新算法的浮現(xiàn)，機(jī)器學(xué)習(xí)也變得一天比一天火熱。不夸張的說，這是機(jī)器學(xué)習(xí)的時代。然而，機(jī)器學(xué)習(xí)雖然能夠給出驚艷的結(jié)果，但其有限的解釋性也常被人戲稱為“黑箱”。而實(shí)踐者在使用機(jī)器學(xué)習(xí)的過程中往往也會面臨各種各樣的選擇。本文的目的就是幫助實(shí)踐者在使用機(jī)器學(xué)習(xí)過程中做出正確的選擇和判斷。文章內(nèi)容根據(jù)知乎人氣答主阿薩姆在雷鋒網(wǎng)AI研習(xí)社上直播分享整理而成。如您想直接看視頻回放，可點(diǎn)擊這里。

阿薩姆，普華永道高級數(shù)據(jù)科學(xué)家，負(fù)責(zé)統(tǒng)計(jì)學(xué)習(xí)模型開發(fā)。有豐富的工業(yè)及學(xué)術(shù)經(jīng)驗(yàn)，擅長將理論知識應(yīng)用于實(shí)踐中。曾以第一作者發(fā)表過多篇不同領(lǐng)域的學(xué)術(shù)文章，如人機(jī)互動、智能系統(tǒng)等。研究興趣包括異常檢測、集成學(xué)習(xí)、跨領(lǐng)域機(jī)器學(xué)習(xí)。以筆名“阿薩姆”在知乎上創(chuàng)作了多篇機(jī)器學(xué)習(xí)相關(guān)的文章，曾數(shù)次被知乎及知乎日報(bào)收錄。樂于技術(shù)分享，近期正在進(jìn)行機(jī)器學(xué)習(xí)實(shí)踐書籍創(chuàng)作。

以下是阿薩姆的直播分享內(nèi)容：

機(jī)器學(xué)習(xí)無處不在的選擇

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

數(shù)據(jù)如何清理？使用哪個模型？如何進(jìn)行評估？如何發(fā)現(xiàn)過擬合與欠擬合？這些問題都還沒有準(zhǔn)確的答案，往往依賴于使用者的經(jīng)驗(yàn)與直覺。在今天的分享課中，我們將會集中討論在機(jī)器學(xué)習(xí)中所面臨的選擇，并給出一些實(shí)用的經(jīng)驗(yàn)建議。

實(shí)際問題抽象化

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)聽起來非?？犰?，但不要為了使用模型而創(chuàng)造問題：機(jī)器學(xué)習(xí)的目標(biāo)是解決問題。不要為了使用機(jī)器學(xué)習(xí)而創(chuàng)造問題。

機(jī)器學(xué)習(xí)可以預(yù)測很多東西，要學(xué)會確定“最小預(yù)測單元”，每當(dāng)你把精度加深的時候，預(yù)測的難度就會加大。

切記盲目追求通過一個模型預(yù)測多個目標(biāo)，盡量拆分問題。

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

確定最優(yōu)框架，在可以使用監(jiān)督學(xué)習(xí)，半監(jiān)督學(xué)習(xí)，無監(jiān)督學(xué)習(xí)，強(qiáng)化學(xué)習(xí)的情況下，優(yōu)先使用監(jiān)督學(xué)習(xí)

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)是”準(zhǔn)確“和”探索“之間的平衡。

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

在了解了怎么定義一個最小單元，也知道選擇什么樣的框架后，下面需要考慮的問題是時間與空間上的依賴性。如果不考慮時空依賴性，問題會得到簡化，但可能有嚴(yán)重偏差。如果需要考慮時間與空間上的依賴性，優(yōu)先從簡單的角度入手。

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

因?yàn)樵趯?shí)際生產(chǎn)中需要的是一個能用的模型，而不是要一個完美的模型，這是一個迭代的過程。

在了解了時空依賴性對于機(jī)器學(xué)習(xí)問題的意義，下一個問題談的是回歸和分類。

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

什么情況下是適合進(jìn)行回歸到分類的轉(zhuǎn)化。

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

另外一個問題，數(shù)據(jù)質(zhì)量往往不是連貫的。如果情況沒有那么好，可以舍棄一部分?jǐn)?shù)據(jù)或?qū)?shù)據(jù)切分。

小結(jié)

確定要預(yù)測的目標(biāo)，找到項(xiàng)目痛點(diǎn)，不追求同事預(yù)測多個目標(biāo)。
確定解決問題的框架，優(yōu)先使用監(jiān)督學(xué)習(xí)
結(jié)合已有的規(guī)則，嘗試融合機(jī)器學(xué)習(xí)模型和人為規(guī)則
如果可能，優(yōu)先嘗試分類任務(wù)，也可以嘗試將回歸轉(zhuǎn)為分類
從易到難，確定嘗試哪些機(jī)器學(xué)習(xí)模型
要解決的問題是否對于”時空“存在依賴性，如果可以回避依懶性，可以先試試簡單模型
如果發(fā)現(xiàn)使用全部數(shù)據(jù)效果不好，可以嘗試拋棄部分?jǐn)?shù)據(jù)或分段處理。

如何選擇并處理數(shù)據(jù)

首先，大家要知道，數(shù)據(jù)不是越多越好，要根據(jù)領(lǐng)域經(jīng)驗(yàn)挑選相關(guān)特征。有一個誤區(qū)就是信息越多越好。其實(shí)不然，無關(guān)信息可能與預(yù)測值存在某種巧合，導(dǎo)致對檢測結(jié)果造成負(fù)面影響。所以只選擇與預(yù)測值可能有關(guān)聯(lián)的信息。

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

如何判斷特征與結(jié)果之間的相關(guān)性

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

相關(guān)性分析的意義，可以發(fā)現(xiàn)數(shù)據(jù)中的問題，發(fā)現(xiàn)數(shù)據(jù)中有意思的部分，評估模型的能力。如果多個特征高度相關(guān)，那可能模型預(yù)測能力效果有限。

如果發(fā)現(xiàn)很多特征高度相關(guān)，是否應(yīng)該移除？

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

總結(jié)來看，如果不存在特別嚴(yán)重的相關(guān)性，去相關(guān)性不是必要步驟。從理論和實(shí)驗(yàn)角度來看，去掉或者合并相關(guān)性特征不一定會提高模型的預(yù)測能力。

從實(shí)踐角度來看，樹模型對于相關(guān)性的魯棒性強(qiáng)，如果可能，可以先使用未處理的特征在樹模型進(jìn)行嘗試。

如果有必要移除相關(guān)性，下面是移除相關(guān)性的方法：

特征選擇
設(shè)定閾值，去除高線性相關(guān)的特征組。

連續(xù)特征離散化

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

數(shù)據(jù)與特征工程小結(jié)

在處理數(shù)據(jù)上，數(shù)據(jù)并非越多越好，多余的無關(guān)特征會因?yàn)閭蜗嚓P(guān)、巧合而影響模型。
對數(shù)據(jù)做相關(guān)性分析的時候，善用可視化可以一目了然發(fā)現(xiàn)問題。
對于高度相關(guān)的特征，移除或者合并前要三思，可能并不會提高模型能力。
如果選用了線性模型，可能需要對特征進(jìn)行離散化
對于大部分模型來說，歸一化或者標(biāo)準(zhǔn)化是必不可少的步驟，至少”無害“
如果問題較為復(fù)雜，盡量選擇非線性的魯棒性強(qiáng)的模型

模型選擇與評估的小結(jié)

以下是我推薦的模型選擇及評估流程：

根據(jù)要解決的問題和對數(shù)據(jù)的理解，大致決定出模型的搜索范圍，如嘗試SVM，邏輯回歸，隨機(jī)森林等。如資源允許，可擴(kuò)大模型候選名單。
根據(jù)要解決的問題和對數(shù)據(jù)的理解，決定模型的評估標(biāo)準(zhǔn)。雖然建議選擇單一的評估標(biāo)準(zhǔn)進(jìn)行對比，但推薦計(jì)算所有可能的評估標(biāo)準(zhǔn)。
根據(jù)具體問題中的數(shù)據(jù)量大小，以及模型穩(wěn)定性，決定是否使用交叉驗(yàn)證。
結(jié)合參數(shù)搜索、交叉驗(yàn)證方法，通過選定的評估標(biāo)準(zhǔn)從候選模型中找到表現(xiàn)最好的模型。
對上一步中的所選模型進(jìn)行微調(diào)。
迭代以上步驟直到找到最優(yōu)的模型。

如何調(diào)試機(jī)器學(xué)習(xí)模型

我們常?？吹降囊环N調(diào)試方法是分析一個模型的泛化能力，主要看他的偏差與方差。

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

量化模型泛化能力-過擬合

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

量化模型泛化能力的診斷方式

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

模型問題診斷-高偏差和模型問題診斷-高方差

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

使用集成學(xué)習(xí)降低方差與偏差

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

機(jī)器學(xué)習(xí)模型調(diào)試小結(jié)

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

機(jī)器學(xué)習(xí)互動問答

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

更多精彩內(nèi)容，請觀看雷鋒網(wǎng)AI慕課學(xué)院視頻回放。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

相關(guān)文章

楊文

編輯&記者

AI科技評論員，微信：yeohandwin

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)

高級數(shù)據(jù)科學(xué)家阿薩姆：如何應(yīng)對機(jī)器學(xué)習(xí)過程中的多項(xiàng)選擇問題？| 分享總結(jié)