日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給翻譯官balala
發(fā)送

0

機(jī)器學(xué)習(xí)驗(yàn)證集為什么不再有新意?

本文作者: 翻譯官balala 編輯:幸麗娟 2020-03-01 18:19
導(dǎo)語(yǔ):擺脫過(guò)時(shí)的規(guī)則和思維定式刻不容緩!

機(jī)器學(xué)習(xí)中,一般將樣本數(shù)據(jù)分成獨(dú)立的三部分:訓(xùn)練集、驗(yàn)證集和測(cè)試集。

其中驗(yàn)證集在機(jī)器學(xué)習(xí)中所起到的作用是:開(kāi)發(fā)模型總需要調(diào)節(jié)模型的參數(shù),而整個(gè)調(diào)節(jié)過(guò)程需要在驗(yàn)證集數(shù)據(jù)上運(yùn)行訓(xùn)練的模型,從而給出其表現(xiàn)的反饋信號(hào)來(lái)修改網(wǎng)絡(luò)模型及參數(shù)。

然而在對(duì)樣本數(shù)據(jù)的劃分上,往往受限于一些過(guò)時(shí)的規(guī)則以及思維定式的限制,在劃分驗(yàn)證集以及解決驗(yàn)證集目前存在的一些問(wèn)題上,面臨著比較大的阻礙。

數(shù)據(jù)科學(xué)家 Ray Heberer 專門(mén)撰寫(xiě)了一篇文章來(lái)介紹驗(yàn)證集目前存在的一些問(wèn)題,并表達(dá)了自己的看法:驗(yàn)證集如今變得不再有新意。

對(duì)此,他提出用心理模型來(lái)改善驗(yàn)證集當(dāng)前的困局。

正文內(nèi)容如下:

研究者們?nèi)腴T(mén)數(shù)據(jù)科學(xué)世界時(shí),意識(shí)到的第一件事便是,擁有訓(xùn)練和驗(yàn)證機(jī)器學(xué)習(xí)模型的獨(dú)立數(shù)據(jù)集,至關(guān)重要。但是要實(shí)現(xiàn)這一點(diǎn),很不容易。盡管我們對(duì)于為何要對(duì)數(shù)據(jù)集進(jìn)行劃分的背后有一個(gè)簡(jiǎn)單的直覺(jué),然而深入理解這一困擾這個(gè)行業(yè)的問(wèn)題,仍存在許多阻礙。

其中一個(gè)阻礙便是堅(jiān)持使用已過(guò)時(shí)的“拇指規(guī)則”(也叫經(jīng)驗(yàn)法則),例如“ 按 70:30 的比例分割訓(xùn)練集和測(cè)試集”(70–30 train-test split)或大數(shù)據(jù)出現(xiàn)之前的黑暗時(shí)代遺留下來(lái)的方法。

個(gè)阻礙是:我們?cè)S多人在學(xué)習(xí)“除了測(cè)試集之外,我們還應(yīng)該有一個(gè)獨(dú)立驗(yàn)證集用于調(diào)整超參數(shù)”的過(guò)程中都會(huì)遇到一個(gè)問(wèn)題:如果我們僅通過(guò)調(diào)整超參數(shù)就會(huì)導(dǎo)致測(cè)試集過(guò)擬合,那么就不會(huì)導(dǎo)致驗(yàn)證集過(guò)擬合嗎?然而針對(duì)這一問(wèn)題,研究者們還沒(méi)有找到一個(gè)好的答案。

對(duì)于該問(wèn)題的回答當(dāng)然是肯定的。這會(huì)導(dǎo)致驗(yàn)證集過(guò)擬合,并且這已經(jīng)不是新鮮事了。這里本文我嘗試探索一些方法來(lái)思考為什么會(huì)發(fā)生這種情況,并希望通過(guò)這樣做,還能開(kāi)辟出一條更深入地理解過(guò)擬合和數(shù)據(jù)劃分的道路,而不僅僅是討論上面這兩個(gè)人們?yōu)闇?zhǔn)備面試而需要了解的命題陳述。

本文首先將探討損失曲面(Loss Landscapes)的概念,以及如何利用樣本曲面與總體曲面之間的關(guān)系理解驗(yàn)證集泄漏。在此過(guò)程中,將基于一些簡(jiǎn)化的假設(shè)來(lái)開(kāi)發(fā)有用的心理模型(Mental Model )。最后,將通過(guò)一個(gè)快速的實(shí)驗(yàn)來(lái)驗(yàn)證我們的理解。

讓我們開(kāi)始吧!

一、損失曲面

機(jī)器學(xué)習(xí)驗(yàn)證集為什么不再有新意?

雙變量函數(shù)(GitHub代碼地址:https://gist.github.com/rayheberer/bd2d94443e77b9734d52a7a4c736bbf3

如果你熟悉機(jī)器學(xué)習(xí),尤其是研究過(guò)神經(jīng)網(wǎng)絡(luò)和梯度下降算法,以及閱讀過(guò)下面這篇關(guān)于梯度優(yōu)化算法的(文中有豐富的可視化圖片和動(dòng)畫(huà))文章,那么你對(duì)損失曲面概念一定不陌生。

具體而言,損失曲面就是將機(jī)器學(xué)習(xí)模型的損失或誤差作為其參數(shù)的函數(shù)。

如果你覺(jué)得這個(gè)概念過(guò)于簡(jiǎn)單而不必特別關(guān)注,我十分能理解。盡管你已經(jīng)理解了相關(guān)基本概念,但“損失曲面”實(shí)際上是這類函數(shù)的名稱,知道它后你可以輕松查閱各種有趣的內(nèi)容和相關(guān)研究。

機(jī)器學(xué)習(xí)驗(yàn)證集為什么不再有新意?

 “曲面”一詞喚起了我們的物理直覺(jué)。照片由 Fabrizio Conti 在 Unsplash 上提供

損失曲面是可以通過(guò)梯度下降或其他方法(例如模擬退火、演化方法)進(jìn)行遍歷的函數(shù)。即使你要處理的函數(shù)通常位于高維空間中, 這樣命名讓我們不由得根據(jù)物理直覺(jué)來(lái)思考它。

盡管我們通常將損失曲面視為模型參數(shù)函數(shù),但也可將它們視為超參數(shù)函數(shù)。

需要注意的是:雖然損失可以根據(jù)數(shù)據(jù)和模型參數(shù)顯式計(jì)算,但損失與模型超參數(shù)之間聯(lián)系更不直接。如果你對(duì)此感到困惑,不妨回顧下生物學(xué)家使用適應(yīng)度曲面( Fitness Landscapes)將繁殖成功作為遺傳因素的函數(shù)。必要時(shí)你可將超參數(shù)函數(shù)(和數(shù)據(jù))的損失和“模型適應(yīng)度曲面”的損失,視作相同的。

現(xiàn)在要意識(shí)到的關(guān)鍵是,每個(gè)數(shù)據(jù)集分區(qū)都會(huì)有獨(dú)立的損失曲面,而訓(xùn)練集、驗(yàn)證集和測(cè)試集的損失曲面完全不同。如果數(shù)據(jù)已經(jīng)被很好地分割,那么每一組數(shù)據(jù)就都是一個(gè)有代表性但不相同的樣本。

最重要的是,所有現(xiàn)有數(shù)據(jù)的損失曲面與真實(shí)環(huán)境中的潛在“總體”數(shù)據(jù)的損失曲面不同。我們之所以同時(shí)需要驗(yàn)證集和測(cè)試集,是因?yàn)槿绻S著時(shí)間的推移驗(yàn)證集確實(shí)泄漏了信息,那么我們?nèi)孕枰恍?shù)據(jù)來(lái)無(wú)偏估計(jì)模型在真實(shí)環(huán)境中的性能。

一種考慮超參數(shù)調(diào)整的方法是,將遍歷驗(yàn)證集數(shù)據(jù)的損失曲面作為超參數(shù)函數(shù)。讓我們從假設(shè)一個(gè)“理想”曲面來(lái)開(kāi)始建立直覺(jué)。

二、面向心理模型:假設(shè)獨(dú)立的超參數(shù)

對(duì)于理想的損失曲面,超參數(shù)當(dāng)然是“獨(dú)立的”,意思是超參數(shù)與損失的之間沒(méi)有相互作用項(xiàng)。這類函數(shù)的等高線不會(huì)對(duì)角突出,如下圖所示:

機(jī)器學(xué)習(xí)驗(yàn)證集為什么不再有新意?

這類的損失曲面之所以理想,是因?yàn)樵谔幚硭鼈儠r(shí),可以將調(diào)整許多超參數(shù)的問(wèn)題分解為一次單獨(dú)調(diào)整一個(gè)超參數(shù)。由于任意一個(gè)超參數(shù)的最佳值與其他超參數(shù)無(wú)關(guān),因此我們可以按順序而不是并行地進(jìn)行超參數(shù)調(diào)整。

換句話說(shuō),就是將每個(gè)超參數(shù)視為一個(gè)旋鈕。我們要做的就是不斷調(diào)整每個(gè)特定旋鈕,直到找到最佳位置。

然后關(guān)聯(lián)每個(gè)旋鈕,就可以得到損失曲面的投影。我們的這部分函數(shù)將只有一個(gè)自變量:正在不斷調(diào)整的超參數(shù)。

機(jī)器學(xué)習(xí)驗(yàn)證集為什么不再有新意?

這就是變得有趣的地方:回想一下,每個(gè)數(shù)據(jù)集都有自己的損失曲面?,F(xiàn)在想象在調(diào)節(jié)的每個(gè)旋鈕之后疊加這些函數(shù)的投影。然后讓我們選擇用于確定最佳超參數(shù)值的驗(yàn)證數(shù)據(jù)的損失曲面,和全部總體數(shù)據(jù)的假設(shè)損失曲面,它是我們期望的模型最優(yōu)結(jié)果,也是測(cè)試集的估計(jì)(如果采樣正確)。

當(dāng)我們根據(jù)驗(yàn)證集數(shù)據(jù)每次都將旋鈕調(diào)至最佳值后,會(huì)發(fā)生什么呢?

可能的結(jié)果是驗(yàn)證集和“總體”損失曲面不太一致。當(dāng)每次我們調(diào)整一個(gè)超參數(shù)值使驗(yàn)證集的損失曲面達(dá)到峰值時(shí),我們可能已經(jīng)越過(guò)“總體”損失曲面的峰值。調(diào)整得越多,越過(guò)的峰值就越多。這將導(dǎo)致驗(yàn)證集和實(shí)際性能(由測(cè)試集估計(jì))之間的差距越來(lái)越大。

機(jī)器學(xué)習(xí)驗(yàn)證集為什么不再有新意?

就像這樣!這就是驗(yàn)證集會(huì)變得過(guò)時(shí)和泄漏信息的原因,或者至少是一種有用的思考方式。

在這里,特別細(xì)心的讀者可能會(huì)問(wèn):“如果驗(yàn)證和總體損失曲面沒(méi)有全部重合,那為什么峰值的重合要少于其他點(diǎn)的重合呢?”這是一個(gè)很好的問(wèn)題,并且開(kāi)始測(cè)試我們開(kāi)發(fā)的心理模型的局限性。

為了回答這個(gè)問(wèn)題,考慮單個(gè)超參數(shù)的驗(yàn)證性能。現(xiàn)在,將目標(biāo)函數(shù)的每個(gè)值都視為獲得了來(lái)自泛化特征和驗(yàn)證集數(shù)據(jù)異常的貢獻(xiàn)。

隨著獲得更多的最優(yōu)值,每一個(gè)部分做出貢獻(xiàn)的機(jī)會(huì)就會(huì)增加。為了在不降低測(cè)試集和真實(shí)環(huán)境性能的情況下提升驗(yàn)證性能,要求提高驗(yàn)證性能的貢獻(xiàn)只來(lái)自泛化特征部分。

作為反饋,在這里向大家提出以下問(wèn)題:如果你要優(yōu)化的一個(gè)超參數(shù)實(shí)際上不能從數(shù)據(jù)(例如 random_state)中學(xué)習(xí)泛化特征,針對(duì)這種情況優(yōu)化驗(yàn)證損失會(huì)產(chǎn)生什么影響?

歸根結(jié)底,我們?cè)诖擞懻摰氖且粋€(gè)心理模型,正如 George Box 的著名格言所說(shuō)的:

  • 所有模型都是錯(cuò)的,但有些是有用的。

我希望這是思考驗(yàn)證集過(guò)度擬合背后機(jī)制的一種有用方法。

三、“弄臟”我們的手:模擬驗(yàn)證集泄漏

作為數(shù)據(jù)科學(xué)家,我們不能不通過(guò)實(shí)驗(yàn)就闡述一個(gè)觀點(diǎn)。要求超參數(shù)之間沒(méi)有任何交互作用,是過(guò)于嚴(yán)格的。盡管這對(duì)于開(kāi)發(fā)心理模型很有用,但最好有一些經(jīng)驗(yàn)結(jié)果表明這種想法能擴(kuò)展到?jīng)]那么理想的場(chǎng)景。

接下來(lái)進(jìn)行一個(gè)關(guān)于梯度提升回歸模型(Gradient Boosting Regression Model)上執(zhí)行的調(diào)整量以及驗(yàn)證集和測(cè)試集性能之間的差距的快速實(shí)驗(yàn)。其中選擇使用梯度提升算法的原因,是它是具有大量超參數(shù)的主流模型。

根據(jù)我們對(duì)驗(yàn)證集泄漏的理解,我們期望的結(jié)果是:隨著調(diào)整的增加,驗(yàn)證集和測(cè)試集之間的性能差距將不斷擴(kuò)大。在實(shí)驗(yàn)中,“更多的”調(diào)整定義為通過(guò)5個(gè)不同的超參數(shù)進(jìn)行更多次的隨機(jī)搜索迭代。迭代次數(shù)越多,就越有可能在驗(yàn)證集上找到更理想的結(jié)果。如果心理模型的部分最優(yōu)值真的來(lái)自非泛化的驗(yàn)證數(shù)據(jù)異常,那么我們期望在測(cè)試數(shù)據(jù)上不要出現(xiàn)這種性能提升。

在展示最終結(jié)果之前,需要提前說(shuō)明一件重要的事:這個(gè)實(shí)驗(yàn)可能偏向于支持我的論點(diǎn):

當(dāng)然,通過(guò)使用大型驗(yàn)證集可以減少驗(yàn)證集泄漏的風(fēng)險(xiǎn),但我使用了小數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練和驗(yàn)證,即“波士頓的房?jī)r(jià)”數(shù)據(jù)集,為的是能夠輕松地演示過(guò)度調(diào)整小的驗(yàn)證集的情況。

你可以懷疑這些結(jié)論是否適用于除我選擇的特定數(shù)據(jù)集以外的其它數(shù)據(jù)集!我鼓勵(lì)你提出自己的實(shí)驗(yàn)并分享你的結(jié)果。

機(jī)器學(xué)習(xí)驗(yàn)證集為什么不再有新意?

如圖所示,當(dāng)我們投入越多的精力用于優(yōu)化超參數(shù)和根據(jù)驗(yàn)證集性能選擇模型時(shí),驗(yàn)證集和測(cè)試集之間的性能差距就越大。

如果我們已經(jīng)調(diào)優(yōu)了一個(gè)超參數(shù)子集,然后再調(diào)優(yōu)另一個(gè)超參數(shù)集,或者嘗試切換使用的模型族,驗(yàn)證集和測(cè)試集間的性能差距會(huì)更加顯著。根據(jù)數(shù)據(jù)樣本(驗(yàn)證集)做出的每個(gè)決策,都會(huì)將該樣本的隨機(jī)波動(dòng)緩慢地編碼到結(jié)果中。

四、結(jié)論

這實(shí)際上是我第二次嘗試解釋超參數(shù)調(diào)整與驗(yàn)證集過(guò)擬合現(xiàn)象之間的關(guān)系。而難以置信的是,我們很難清楚地解釋相對(duì)簡(jiǎn)單的潛在直覺(jué)想法。

我認(rèn)為部分原因是,“提問(wèn)-回答”的思維定式仍然主導(dǎo)了我們的集體認(rèn)知,例如“過(guò)度擬合驗(yàn)證數(shù)據(jù)”和“驗(yàn)證集泄漏信息”沒(méi)有視覺(jué)或經(jīng)驗(yàn)直覺(jué)的支持。

盡管本文是為了更深入、更初級(jí)的解釋超參數(shù)調(diào)整和過(guò)擬合驗(yàn)證集之間的關(guān)系,但我們?nèi)杂懈嘟嵌瓤臻g和思考方式。 Cassie Kozyrkov 最近發(fā)布了一篇文章,將教學(xué)和《憨豆先生》進(jìn)行類比,對(duì)數(shù)據(jù)集分割進(jìn)行了有趣的論述:

很高興看到數(shù)據(jù)社區(qū)提出一些其它想法!   雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

via:https://towardsdatascience.com/why-machine-learning-validation-sets-grow-stale-69fa043fd547

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

機(jī)器學(xué)習(xí)驗(yàn)證集為什么不再有新意?

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)