0
| 本文作者: AI研習(xí)社-譯站 | 2018-01-02 14:51 |
應(yīng)用機(jī)器學(xué)習(xí)很具挑戰(zhàn)性,因?yàn)樵O(shè)計(jì)完美的學(xué)習(xí)系統(tǒng)相當(dāng)困難。
一個(gè)問題永遠(yuǎn)沒有最好的訓(xùn)練數(shù)據(jù)集或者最好的算法,最好的只能是目之所及。
機(jī)器學(xué)習(xí)的應(yīng)用可以理解為一個(gè)搜索問題,即根據(jù)某個(gè)項(xiàng)目的已知信息和可獲取的資源,找到從輸入到輸出的最好的映射。在本文你即將看到把應(yīng)用機(jī)器學(xué)習(xí)當(dāng)作搜索問題的概念。
閱讀完雷鋒網(wǎng)本譯文你會了解到:
1.應(yīng)用機(jī)器學(xué)習(xí)是一個(gè)逼近未知映射(輸入到輸出)函數(shù)的問題。
2.設(shè)計(jì)上的某些決定比如數(shù)據(jù)和算法的選擇局限了映射函數(shù)的選擇。
3.機(jī)器學(xué)習(xí)的搜索概念化有助于合理地選擇集成算法,算法的查驗(yàn)以及理解算法在學(xué)習(xí)的過程。
現(xiàn)在一起來看下吧

概述
本文分為5部分,分別是:
1.函數(shù)近似問題
2.搜索里的函數(shù)近似
3.數(shù)據(jù)的選擇
4.算法的選擇
5.機(jī)器學(xué)習(xí)作為搜索的影響
函數(shù)近似問題
應(yīng)用機(jī)器學(xué)習(xí)是一種學(xué)習(xí)系統(tǒng)的發(fā)展,目的是為解決具體的學(xué)習(xí)問題。
學(xué)習(xí)問題指有可觀察的輸入和輸出,并且二者存在某種未知但內(nèi)在的關(guān)系。
學(xué)習(xí)系統(tǒng)的目的是學(xué)習(xí)輸入與輸出之間可推廣普遍適用的映射,從而可以從同一問題領(lǐng)域內(nèi)的新輸入數(shù)據(jù)里預(yù)測輸出。
從統(tǒng)計(jì)學(xué)習(xí),即統(tǒng)計(jì)角度下的機(jī)器學(xué)習(xí),這個(gè)問題可以定義為求解給定輸入X和對應(yīng)的輸出y之間的映射函數(shù)f。
y = f(X)
我們有X和y,目的是盡最大可能得到這樣一個(gè)函數(shù)fprime,可以使得在給定新數(shù)據(jù)Xhat的情況下,得到的預(yù)測結(jié)果yhat接近真實(shí)輸出。
yhat = fprime(Xhat)
由此而見應(yīng)用機(jī)器學(xué)習(xí)可以被看作函數(shù)近似的問題。

習(xí)得的映射一定不會完美。
設(shè)計(jì)和建立這樣的學(xué)習(xí)系統(tǒng)實(shí)際上是尋找潛在而未知的從輸入變量到輸出變量之間的映射函數(shù)。
我們不知道這個(gè)函數(shù)的具體形式,因?yàn)槿绻覀冎谰筒槐厝フ伊耍?直接用它解決問題就可以了。
正因?yàn)槲覀儾恢勒嬲牡讓雍瘮?shù),我們必須采用逼近的方法,這也意味著我們不知道而且可能永遠(yuǎn)不知道我們距離那個(gè)真正的映射函數(shù)有多遠(yuǎn)。
搜索里的函數(shù)近似
我們需要根據(jù)實(shí)際的問題和目標(biāo)找到那個(gè)足夠近似的映射函數(shù)。
然而實(shí)際學(xué)習(xí)過程里很多噪音導(dǎo)致錯(cuò)誤,這使得學(xué)習(xí)變得更加挑戰(zhàn),而結(jié)果找到的目標(biāo)函數(shù)差強(qiáng)人意。比如:
問題定義的選擇
訓(xùn)練數(shù)據(jù)集的選擇
訓(xùn)練數(shù)據(jù)集的準(zhǔn)備(清洗,處理等)的選擇
預(yù)測模型的表達(dá)形式的選擇
算法的選擇(模型比較好地契合訓(xùn)練集)
預(yù)測模型的評估
以及更多其他因素。
可以看到在學(xué)習(xí)過程中有很多決策點(diǎn)(決策的關(guān)鍵點(diǎn)),但是它們在此之前都是未知的。
你可以把學(xué)習(xí)系統(tǒng)的學(xué)習(xí)當(dāng)做一個(gè)很大的搜索空間,每個(gè)決策點(diǎn)都幫助減少搜索的范圍。

舉個(gè)例子,如果學(xué)習(xí)問題是預(yù)測花朵的種類,那么你可以減少搜索的范圍:
選擇定義問題為預(yù)測花的種類,如分類
選擇某種類以及類屬種類的花的測量方式
選擇某個(gè)具體的花棚里的花作為訓(xùn)練樣本
選擇決策樹模型,因?yàn)樵撃P徒忉尪雀?/p>
選擇CART算法來契合決策樹
選擇分類準(zhǔn)確率作為評估標(biāo)準(zhǔn)
也許你會發(fā)現(xiàn)建立學(xué)習(xí)系統(tǒng)的眾多決策中有自然的層級式關(guān)系,其中每個(gè)決策都有助于減少搜索空間。
搜索空間的減少實(shí)際上引入了有益的偏差,它會有意選擇那些更可能靠近底層映射函數(shù)的學(xué)習(xí)系統(tǒng)。偏差即在高層定義函數(shù)的時(shí)候發(fā)揮用處,同時(shí)也在底層算法以及其配置問題上有幫助。
數(shù)據(jù)的選擇
機(jī)器學(xué)習(xí)問題的架構(gòu)選擇和用于訓(xùn)練系統(tǒng)的數(shù)據(jù)是學(xué)習(xí)系統(tǒng)開發(fā)中的一個(gè)重要因素。
你無法一開始就能獲取所有的數(shù)據(jù):即所有輸入和與之對應(yīng)的輸出。如果你已經(jīng)有了全部的數(shù)據(jù),那么也就不需要預(yù)測模型就能對新的輸入觀測值進(jìn)行輸出預(yù)測了。
你肯定會有一些輸入輸出組的歷史記錄。如果沒有,那你就沒有任何數(shù)據(jù)來訓(xùn)練你的預(yù)測模型。
也許你有很多數(shù)據(jù),但你只需要選擇其中的一部分用來訓(xùn)練學(xué)習(xí)系統(tǒng)?;蛘撸苍S你可以隨意生成數(shù)據(jù),而挑戰(zhàn)在于生成或收集什么數(shù)據(jù)以及要生成多少數(shù)據(jù)。
選擇用來對學(xué)習(xí)系統(tǒng)建模的數(shù)據(jù)必須能夠充分地俘獲輸入和輸出數(shù)據(jù)之間的關(guān)系。這些數(shù)據(jù)既包括現(xiàn)有的數(shù)據(jù),也包括預(yù)測模型將要預(yù)測的數(shù)據(jù)。

算法的選擇
您必須選擇模型的表示形式和用于在訓(xùn)練數(shù)據(jù)上擬合模型的算法。這是影響學(xué)習(xí)系統(tǒng)發(fā)展的另一個(gè)重要因素。

項(xiàng)目的利益相關(guān)人員對項(xiàng)目施加約束是很常見的,例如模型要能夠解釋預(yù)測,而這反過來又對最終模型的表示形式,以及你可以搜索的映射范圍施加了約束。但是,這個(gè)決策通常被簡化為對算法的選擇。

機(jī)器學(xué)習(xí)作為搜索的意義
這種將學(xué)習(xí)系統(tǒng)的開發(fā)概念化為搜索問題有助于闡明應(yīng)用機(jī)器學(xué)習(xí)中的許多相關(guān)方面,本節(jié)將討論其中幾個(gè)方面。
迭代學(xué)習(xí)算法
用于學(xué)習(xí)映射的算法將施加進(jìn)一步的約束,它與所選擇的算法配置一起,將在模型擬合后控制如何引導(dǎo)可能的候選映射空間(例如機(jī)器學(xué)習(xí)算法中的迭代學(xué)習(xí))。
在此,我們可以看到,機(jī)器學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的行為實(shí)際上有望引導(dǎo)學(xué)習(xí)系統(tǒng)可能的映射空間從差到好,逐漸優(yōu)化(如爬山算法)。

集成的理論基礎(chǔ)
我們也可以看到不同的模型表示在所有可能的函數(shù)映射的空間中占據(jù)著完全不同的位置,而在進(jìn)行預(yù)測時(shí)(例如不相關(guān)的預(yù)測誤差)又有著完全不同的行為。
這為集成學(xué)習(xí)方法提供了一個(gè)概念性的理論基礎(chǔ)。集成學(xué)習(xí)結(jié)合了多種巧妙的預(yù)測模型的預(yù)測結(jié)果。

抽樣檢查理論
具有不同表示方式的不同算法可以從可能函數(shù)映射空間中的不同位置開始,并以不同的方式引導(dǎo)該空間。
如果這些算法引導(dǎo)的約束空間都是由合適的架構(gòu)所限定,而且有良好的數(shù)據(jù),那么大部分的算法都可能會發(fā)現(xiàn)良好而且相似的映射函數(shù)。
我們還可以看到,如果有一個(gè)好的架構(gòu)和精心挑選的訓(xùn)練數(shù)據(jù),那么通過現(xiàn)代強(qiáng)大的機(jī)器學(xué)習(xí)算法就可以開辟一個(gè)候選映射空間。
這為在給定的機(jī)器學(xué)習(xí)問題上對一套算法進(jìn)行抽樣檢查有助于找到最優(yōu)或選擇最省的結(jié)果(例如奧卡姆剃刀理論)提供了理論基礎(chǔ)。
延伸閱讀
如果您想深入研究的話,本節(jié)將提供更多關(guān)于該主題的資源。
Chapter 2, Machine Learning, 1997.
Generalization as Search, 1982.
Chapter 1, Data Mining: Practical Machine Learning Tools and Techniques, 2016.
On algorithm selection, with an application to combinatorial search problems, 2012.
Algorithm Selection on Wikipedia
總結(jié)
在雷鋒網(wǎng)這篇譯文中,您掌握了作為搜索問題的應(yīng)用機(jī)器學(xué)習(xí)的概念。具體來說,你學(xué)習(xí)了:
1.應(yīng)用機(jī)器學(xué)習(xí)是一個(gè)從輸入到輸出的未知的潛在映射函數(shù)的近似解問題。
2.諸如數(shù)據(jù)的選擇和算法的選擇這樣的設(shè)計(jì)決策縮小了最終可能選擇的映射函數(shù)的范圍。
3.機(jī)器學(xué)習(xí)作為搜索的概念有助于為集合學(xué)習(xí)的使用、算法的抽樣檢查提供理論基礎(chǔ),并有助于理解算法學(xué)習(xí)時(shí)的內(nèi)部原理。
來源 / machinelearningmastery.com
翻譯/ Julia、江輝
校對/ 江輝
整理/ 雷鋒字幕組
本文由雷鋒字幕組翻譯整理,雷鋒網(wǎng)獨(dú)家發(fā)布。添加微信:leiphonefansub,加入我們。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。