數(shù)學之美：貝葉斯優(yōu)化

本文作者： AI研習社-譯站

2020-09-18 15:59

導(dǎo)語：貝葉斯優(yōu)化提供了一個優(yōu)雅的框架可用于來解決上述定義的問題，并且能夠在盡可能少的步驟中找到全局最小值。

字幕組雙語原文：數(shù)學之美：貝葉斯優(yōu)化

英語原文：The Beauty of Bayesian Optimization, Explained in Simple Terms

翻譯：季一帆、Icarus、

問題定義：給定函數(shù)f(x)，該函數(shù)計算成本高、甚至可能不是解析表達式，同時假定函數(shù)導(dǎo)數(shù)未知。

你的任務(wù)：找到函數(shù)得全局最小值。

這無疑是一項艱巨的任務(wù)，比機器學習中的其他優(yōu)化問題還要困難。一般得優(yōu)化問題可以通過以下三種方式求解：

梯度下降方法依賴函數(shù)求導(dǎo)，通過數(shù)學方法快速估計表達式。
函數(shù)的評估成本很低得優(yōu)化場景下，可以在很短時間內(nèi)獲得輸入x的許多結(jié)果，然后使用簡單的網(wǎng)格搜索選擇較好結(jié)果。
使用粒子群或模擬退火等非梯度優(yōu)化方法。

然而，這些方法并不適用上述定義的問題，對定義問句的優(yōu)化受到以下幾個方面的限制：

計算成本高。理想情況下，我們可以多次執(zhí)行函數(shù)以確定其最優(yōu)解，但我們的優(yōu)化問題中計算過多采樣是不現(xiàn)實的。
導(dǎo)數(shù)未知。正是因為導(dǎo)數(shù)可知，梯度下降及類似方法廣泛應(yīng)用于深度學習或某些機器學習算法。導(dǎo)數(shù)能夠直到優(yōu)化方向——不幸的是，在我們問題定義中沒有導(dǎo)數(shù)。
要找到全局最小值，即使對于梯度下降這樣的方法也不是容易的事情。因此，我們的模型需要某種機制避免陷入局部最小值。

解決方案：貝葉斯優(yōu)化。該方法提供了一個優(yōu)雅的框架可用于來解決上述定義的問題，并且能夠在盡可能少的步驟中找到全局最小值。

讓我們構(gòu)造一個函數(shù)c(x)或者一個接收輸入x的模型，如下圖所示為c(x)的形狀。當然，優(yōu)化器并不知道該函數(shù)，稱之為“目標函數(shù)”。

數(shù)學之美：貝葉斯優(yōu)化

貝葉斯優(yōu)化通過代理優(yōu)化的方式來完成任務(wù)。一般來說，surrogate mother是指為另一個人生育孩子的代孕婦女——在本文的情況中，則是指目標函數(shù)的近似。

代理函數(shù)通過采樣點模擬構(gòu)造（見下圖）。

數(shù)學之美：貝葉斯優(yōu)化

根據(jù)代理函數(shù)，我們大致可以確定哪些點是可能的最小值。然后再這些點附近做更多的采樣，并隨之更新代理函數(shù)。

數(shù)學之美：貝葉斯優(yōu)化

每一次迭代，我們都會繼續(xù)觀察當前的代用函數(shù)，通過采樣了解更多感興趣的區(qū)域，并更新函數(shù)。需要注意的是，代用函數(shù)在數(shù)學上的表達方式將大大降低評估成本（例如y=x是一個成本較高的函數(shù)的近似值，y=arcsin((1-cos2x)/sin x)在一定范圍內(nèi)）。

經(jīng)過一定的迭代次數(shù)后，我們注定要到達一個全局最小值，除非函數(shù)的形狀非常詭異（就是它的上下波動很大很瘋狂），這時應(yīng)該問一個比優(yōu)化更好的問題：你的數(shù)據(jù)有什么問題？

花點時間驚嘆一下這種方法的妙處。它不對函數(shù)做任何假設(shè)（除了它首先是可優(yōu)化的），不需要導(dǎo)數(shù)的信息，并且能夠通過巧妙地使用不斷更新的逼近函數(shù)來進行常識性的推理。我們原來的目標函數(shù)的昂貴評估根本不是問題。

這是一種基于代用的優(yōu)化方法。那么，到底是什么讓它成為貝葉斯的呢？

貝葉斯統(tǒng)計和建模的本質(zhì)是根據(jù)新的信息更新前（前）信念，以產(chǎn)生一個更新的后（'后'）信念。這正是本案例中代償優(yōu)化的作用，所以可以通過貝葉斯系統(tǒng)、公式和思想來最好地表示。

讓我們仔細看看代用函數(shù)，通常用高斯過程來表示，它可以被認為是擲骰子，返回與給定數(shù)據(jù)點（如sin、log）擬合的函數(shù)，而不是1到6的數(shù)字。這個過程會返回幾個函數(shù)，這些函數(shù)都附有概率。

數(shù)學之美：貝葉斯優(yōu)化

左圖：四個數(shù)據(jù)點的幾個高斯過程生成的函數(shù)。右圖：函數(shù)匯總。來源：Oscar Knagg，圖片免費分享。

Oscar Knagg的這篇文章對GP的工作原理有很好的直觀認識。

為什么用高斯過程，而不是其他的曲線擬合方法來模擬代用函數(shù)，有一個很好的理由：它是貝葉斯性質(zhì)的。一個GP是一個概率分布，就像一個事件最終結(jié)果的分布（例如拋硬幣的1/2機會），但在所有可能的函數(shù)上。

例如，我們可以將當前的數(shù)據(jù)點集定義為40%可由函數(shù)a(x)表示，10%可由函數(shù)b(x)表示，等等。通過將代用函數(shù)表示為一個概率分布，它可以通過固有的概率貝葉斯過程與新信息進行更新。也許當引入新的信息時，數(shù)據(jù)只有20%可以用函數(shù)a(x)表示。這些變化是由貝葉斯公式來支配的。

這將是很難甚至不可能做到的，比如說，對新數(shù)據(jù)點進行多項式回歸擬合。

代用函數(shù)--表示為概率分布，即先驗--被更新為 "獲取函數(shù)"。這個函數(shù)負責在勘探和開發(fā)的權(quán)衡中提出新的測試點。

剝削力求在代用模型預(yù)測的目標好的地方采樣。這就是利用已知的有希望的點。但是，如果我們已經(jīng)對某一區(qū)域進行了足夠的探索，那么不斷地利用已知的信息就不會有什么收獲。
探索力求在不確定性較高的地點進行采樣。這就確保了空間的任何主要區(qū)域都不會未被探索--全局最小值可能恰好就在那里。

一個鼓勵過多的開發(fā)和過少探索的獲取函數(shù)將導(dǎo)致模型只停留在它首先發(fā)現(xiàn)的最小值（通常是局部的--"只去有光的地方"）。一個鼓勵相反的獲取函數(shù)將不會首先停留在一個最小值，本地或全球。在微妙的平衡中產(chǎn)生良好的結(jié)果。

acquisition 函數(shù)，我們將其表示為a(x)，必須同時考慮開發(fā)和探索。常見的獲取函數(shù)包括預(yù)期改進和最大改進概率，所有這些函數(shù)都是在給定先驗信息（高斯過程）的情況下，衡量特定投入在未來可能得到回報的概率。

讓我們把這些東西整合起來。貝葉斯優(yōu)化可以這樣進行。

1.初始化一個高斯過程 "代用函數(shù) "的先驗分布。

2.選擇幾個數(shù)據(jù)點x，使在當前先驗分布上運行的獲取函數(shù)a(x)最大化。

3.評估目標成本函數(shù)c(x)中的數(shù)據(jù)點x，得到結(jié)果，y。

4.用新的數(shù)據(jù)更新高斯過程先驗分布，以產(chǎn)生一個后驗（它將成為下一步的先驗）。

5.重復(fù)步驟2-5進行多次迭代。

6.解釋當前的高斯過程分布（這是非常便宜的），以找到全局最小值。

貝葉斯優(yōu)化就是把概率論的思想放在代入優(yōu)化的思想后面。這兩種思想的結(jié)合創(chuàng)造了一個強大的系統(tǒng)，從醫(yī)藥產(chǎn)品的開發(fā)到自主汽車，都有很多應(yīng)用。

但在機器學習中，最常見的是貝葉斯優(yōu)化用于超參數(shù)優(yōu)化。例如，如果我們要訓(xùn)練一個梯度提升分類器，從學習率到最大深度再到最小雜質(zhì)分割值，有幾十個參數(shù)。在這種情況下，x代表模型的超參數(shù)，c(x)代表模型的性能，給定超參數(shù)x。

使用貝葉斯優(yōu)化的主要動機是在評估輸出非常昂貴的情況下。首先，需要用參數(shù)建立整個樹的合集，其次，它們需要通過多次預(yù)測來運行，這對于合集來說是非常昂貴的。

可以說，神經(jīng)網(wǎng)絡(luò)評估給定參數(shù)集的損失更快：簡單的重復(fù)矩陣乘法，速度非?？?，尤其是在專用硬件上。這也是使用梯度下降的原因之一，它使反復(fù)查詢了解其走向。

綜上所述：

代用優(yōu)化利用代用函數(shù)或近似函數(shù)通過抽樣來估計目標函數(shù)。
貝葉斯優(yōu)化將代用優(yōu)化置于概率框架中，將代用函數(shù)表示為概率分布，可以根據(jù)新的信息進行更新。
獲取函數(shù)用于評估在當前已知的先驗條件下，探索空間中某一點會產(chǎn)生 "好 "收益的概率，平衡探索與開發(fā)
主要在目標函數(shù)評估成本很高的時候使用貝葉斯優(yōu)化，常用于超參數(shù)調(diào)整。(這方面有很多庫，比如HyperOpt)。

感謝您的閱讀!

雷鋒字幕組是一個由AI愛好者組成的翻譯團隊，匯聚五五多位志愿者的力量，分享最新的海外AI資訊，交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)轉(zhuǎn)變與技術(shù)創(chuàng)新的見解。

團隊成員有大數(shù)據(jù)專家，算法工程師，圖像處理工程師，產(chǎn)品經(jīng)理，產(chǎn)品運營，IT咨詢?nèi)?，在校師生；志愿者們來自IBM，AVL，Adobe，阿里，百度等知名企業(yè)，北大，清華，港大，中科院，南卡羅萊納大學，早稻田大學等海內(nèi)外高校研究所。

如果，你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起，學習新知，分享成長。

數(shù)學之美：貝葉斯優(yōu)化

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

AI研習社-譯站

知情人士

AI研習社(yanxishe.com)譯站頻道，傳播前沿人工智能知識，讓語言不再成為學習知識的門檻。（原雷鋒字幕組）

掃描關(guān)注作者微信

發(fā)私信

當月熱門文章