關于應用機器學習作為搜索問題的入門簡介

本文作者： AI研習社-譯站

2018-01-02 14:51

導語：機器學習的應用可以理解為一個搜索問題，即根據(jù)某個項目的已知信息和可獲取的資源，找到從輸入到輸出的最好的映射

應用機器學習很具挑戰(zhàn)性，因為設計完美的學習系統(tǒng)相當困難。

一個問題永遠沒有最好的訓練數(shù)據(jù)集或者最好的算法，最好的只能是目之所及。

機器學習的應用可以理解為一個搜索問題，即根據(jù)某個項目的已知信息和可獲取的資源，找到從輸入到輸出的最好的映射。在本文你即將看到把應用機器學習當作搜索問題的概念。

閱讀完雷鋒網本譯文你會了解到：

1.應用機器學習是一個逼近未知映射（輸入到輸出）函數(shù)的問題。
2.設計上的某些決定比如數(shù)據(jù)和算法的選擇局限了映射函數(shù)的選擇。
3.機器學習的搜索概念化有助于合理地選擇集成算法，算法的查驗以及理解算法在學習的過程。

現(xiàn)在一起來看下吧

關于應用機器學習作為搜索問題的入門簡介

概述

本文分為5部分，分別是：

1.函數(shù)近似問題
2.搜索里的函數(shù)近似
3.數(shù)據(jù)的選擇
4.算法的選擇
5.機器學習作為搜索的影響

函數(shù)近似問題

應用機器學習是一種學習系統(tǒng)的發(fā)展，目的是為解決具體的學習問題。

學習問題指有可觀察的輸入和輸出，并且二者存在某種未知但內在的關系。

學習系統(tǒng)的目的是學習輸入與輸出之間可推廣普遍適用的映射，從而可以從同一問題領域內的新輸入數(shù)據(jù)里預測輸出。

從統(tǒng)計學習，即統(tǒng)計角度下的機器學習，這個問題可以定義為求解給定輸入X和對應的輸出y之間的映射函數(shù)f。

y = f(X)

我們有X和y，目的是盡最大可能得到這樣一個函數(shù)fprime，可以使得在給定新數(shù)據(jù)Xhat的情況下，得到的預測結果yhat接近真實輸出。

yhat = fprime(Xhat)

由此而見應用機器學習可以被看作函數(shù)近似的問題。

關于應用機器學習作為搜索問題的入門簡介

習得的映射一定不會完美。

設計和建立這樣的學習系統(tǒng)實際上是尋找潛在而未知的從輸入變量到輸出變量之間的映射函數(shù)。

我們不知道這個函數(shù)的具體形式，因為如果我們知道就不必去找了，直接用它解決問題就可以了。

正因為我們不知道真正的底層函數(shù)，我們必須采用逼近的方法，這也意味著我們不知道而且可能永遠不知道我們距離那個真正的映射函數(shù)有多遠。

搜索里的函數(shù)近似

我們需要根據(jù)實際的問題和目標找到那個足夠近似的映射函數(shù)。

然而實際學習過程里很多噪音導致錯誤，這使得學習變得更加挑戰(zhàn)，而結果找到的目標函數(shù)差強人意。比如：

問題定義的選擇
訓練數(shù)據(jù)集的選擇
訓練數(shù)據(jù)集的準備（清洗，處理等）的選擇
預測模型的表達形式的選擇
算法的選擇（模型比較好地契合訓練集）
預測模型的評估

以及更多其他因素。

可以看到在學習過程中有很多決策點（決策的關鍵點），但是它們在此之前都是未知的。

你可以把學習系統(tǒng)的學習當做一個很大的搜索空間，每個決策點都幫助減少搜索的范圍。

關于應用機器學習作為搜索問題的入門簡介

舉個例子，如果學習問題是預測花朵的種類，那么你可以減少搜索的范圍：

選擇定義問題為預測花的種類，如分類
選擇某種類以及類屬種類的花的測量方式
選擇某個具體的花棚里的花作為訓練樣本
選擇決策樹模型，因為該模型解釋度高
選擇CART算法來契合決策樹
選擇分類準確率作為評估標準

也許你會發(fā)現(xiàn)建立學習系統(tǒng)的眾多決策中有自然的層級式關系，其中每個決策都有助于減少搜索空間。

搜索空間的減少實際上引入了有益的偏差，它會有意選擇那些更可能靠近底層映射函數(shù)的學習系統(tǒng)。偏差即在高層定義函數(shù)的時候發(fā)揮用處，同時也在底層算法以及其配置問題上有幫助。

數(shù)據(jù)的選擇

機器學習問題的架構選擇和用于訓練系統(tǒng)的數(shù)據(jù)是學習系統(tǒng)開發(fā)中的一個重要因素。

你無法一開始就能獲取所有的數(shù)據(jù)：即所有輸入和與之對應的輸出。如果你已經有了全部的數(shù)據(jù)，那么也就不需要預測模型就能對新的輸入觀測值進行輸出預測了。

你肯定會有一些輸入輸出組的歷史記錄。如果沒有，那你就沒有任何數(shù)據(jù)來訓練你的預測模型。

也許你有很多數(shù)據(jù)，但你只需要選擇其中的一部分用來訓練學習系統(tǒng)?；蛘撸苍S你可以隨意生成數(shù)據(jù)，而挑戰(zhàn)在于生成或收集什么數(shù)據(jù)以及要生成多少數(shù)據(jù)。

選擇用來對學習系統(tǒng)建模的數(shù)據(jù)必須能夠充分地俘獲輸入和輸出數(shù)據(jù)之間的關系。這些數(shù)據(jù)既包括現(xiàn)有的數(shù)據(jù)，也包括預測模型將要預測的數(shù)據(jù)。

關于應用機器學習作為搜索問題的入門簡介

算法的選擇

您必須選擇模型的表示形式和用于在訓練數(shù)據(jù)上擬合模型的算法。這是影響學習系統(tǒng)發(fā)展的另一個重要因素。

關于應用機器學習作為搜索問題的入門簡介

項目的利益相關人員對項目施加約束是很常見的，例如模型要能夠解釋預測，而這反過來又對最終模型的表示形式，以及你可以搜索的映射范圍施加了約束。但是，這個決策通常被簡化為對算法的選擇。

關于應用機器學習作為搜索問題的入門簡介

機器學習作為搜索的意義

這種將學習系統(tǒng)的開發(fā)概念化為搜索問題有助于闡明應用機器學習中的許多相關方面，本節(jié)將討論其中幾個方面。

迭代學習算法

用于學習映射的算法將施加進一步的約束，它與所選擇的算法配置一起，將在模型擬合后控制如何引導可能的候選映射空間（例如機器學習算法中的迭代學習）。

在此，我們可以看到，機器學習算法從訓練數(shù)據(jù)中學習的行為實際上有望引導學習系統(tǒng)可能的映射空間從差到好，逐漸優(yōu)化（如爬山算法）。

關于應用機器學習作為搜索問題的入門簡介

集成的理論基礎

我們也可以看到不同的模型表示在所有可能的函數(shù)映射的空間中占據(jù)著完全不同的位置，而在進行預測時（例如不相關的預測誤差）又有著完全不同的行為。

這為集成學習方法提供了一個概念性的理論基礎。集成學習結合了多種巧妙的預測模型的預測結果。

關于應用機器學習作為搜索問題的入門簡介

抽樣檢查理論

具有不同表示方式的不同算法可以從可能函數(shù)映射空間中的不同位置開始，并以不同的方式引導該空間。

如果這些算法引導的約束空間都是由合適的架構所限定，而且有良好的數(shù)據(jù)，那么大部分的算法都可能會發(fā)現(xiàn)良好而且相似的映射函數(shù)。

我們還可以看到，如果有一個好的架構和精心挑選的訓練數(shù)據(jù)，那么通過現(xiàn)代強大的機器學習算法就可以開辟一個候選映射空間。

這為在給定的機器學習問題上對一套算法進行抽樣檢查有助于找到最優(yōu)或選擇最省的結果（例如奧卡姆剃刀理論）提供了理論基礎。

延伸閱讀

如果您想深入研究的話，本節(jié)將提供更多關于該主題的資源。

Chapter 2, Machine Learning, 1997.
Generalization as Search, 1982.
Chapter 1, Data Mining: Practical Machine Learning Tools and Techniques, 2016.
On algorithm selection, with an application to combinatorial search problems, 2012.
Algorithm Selection on Wikipedia

總結

在雷鋒網這篇譯文中，您掌握了作為搜索問題的應用機器學習的概念。具體來說，你學習了：

1.應用機器學習是一個從輸入到輸出的未知的潛在映射函數(shù)的近似解問題。
2.諸如數(shù)據(jù)的選擇和算法的選擇這樣的設計決策縮小了最終可能選擇的映射函數(shù)的范圍。
3.機器學習作為搜索的概念有助于為集合學習的使用、算法的抽樣檢查提供理論基礎，并有助于理解算法學習時的內部原理。

來源 / machinelearningmastery.com

翻譯/ Julia、江輝

校對/ 江輝

整理/ 雷鋒字幕組

本文由雷鋒字幕組翻譯整理，雷鋒網獨家發(fā)布。添加微信：leiphonefansub，加入我們。

關于應用機器學習作為搜索問題的入門簡介

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

AI研習社-譯站

知情人士

AI研習社(yanxishe.com)譯站頻道，傳播前沿人工智能知識，讓語言不再成為學習知識的門檻。（原雷鋒字幕組）

掃描關注作者微信

發(fā)私信

當月熱門文章