怎么使未來機器人“乖乖聽主人的話”，不“闖禍”？

本文作者：高婓

2016-08-16 09:45

導(dǎo)語：摘要我們圍繞一個問題來研究機器學習的八個領(lǐng)域：隨著機器學習系統(tǒng)日益變得智能化與自動化，應(yīng)當制定什么樣的原則以確保機器學習的行為與操作者

摘要

我們圍繞一個問題來研究機器學習的八個領(lǐng)域：隨著機器學習系統(tǒng)日益變得智能化與自動化，應(yīng)當制定什么樣的原則以確保機器學習的行為與操作者的利益相一致？我們聚焦于實現(xiàn)AI一致性過程中遇到的兩個技術(shù)瓶頸：確定一個合適的目標函數(shù)遇到的挑戰(zhàn)；即使目標函數(shù)未能與設(shè)計者的意圖達到完全匹配，設(shè)計出能夠避免超出預(yù)料范圍的結(jié)果與不可取的行為的AI系統(tǒng)所遇到的挑戰(zhàn)。

在本研究中涉及到的開放性問題包括：我們?nèi)绾瓮ㄟ^強化手段訓練學習者采取行動，以便他們能夠經(jīng)得起智能化監(jiān)督器的有意義的評估？應(yīng)當選用何種目標函數(shù)，以便系統(tǒng)“不會產(chǎn)生過大的影響”，“也不會產(chǎn)生太多負面影響”？在文章中，我們將討論這些問題，相關(guān)的研究及對未來研究產(chǎn)生的潛在影響，旨在強調(diào)機器學習領(lǐng)域中目前可以駕馭研究的相關(guān)研究話題。

引言

近年來人工智能研究領(lǐng)域取得的進步再次激發(fā)了人們對Russell和Norvig(2010)所提出的問題興趣，“倘若我們成功了？”如果AI研究者成功地設(shè)計出能與人類媲美的具有跨領(lǐng)域?qū)W習與決策能力的機器，這將會對科學，技術(shù)，人類的生活產(chǎn)生不可估量的影響。

比如，假設(shè)一個研究團隊希望運用一種高級的ML系統(tǒng)制定相關(guān)方案，以發(fā)現(xiàn)治療帕金森綜合癥的方法。如果這種高級ML系統(tǒng)能夠制定計劃，從而提供計算資源在治療方法空間內(nèi)開展廣泛且有效的搜索，該團隊將對這一高級ML系統(tǒng)持肯定支持的態(tài)度。如果該高級ML系統(tǒng)能夠制定出計劃，快速擴展機器人實驗室，該種類型的機器人實驗室能夠?qū)嵤┛焖俣行У膶嶒灒瑓s會對生物圈產(chǎn)生大規(guī)模的負面影響，該團隊將對這一系統(tǒng)持反對的態(tài)度。問題在于，我們應(yīng)當如何設(shè)計系統(tǒng)（及選擇目標函數(shù)），以使我們的ML系統(tǒng)能夠可靠地實現(xiàn)第一個目標，而非第二個目標？

憑直覺來講，倘若我們能夠規(guī)范自己想要表達的意思---“找到一種治療帕金森綜合癥的方法，而非使用任何極端的手段”，那么Bostrom(2014)在“超智能化”一書中描述的危險將會被減少。但是，為了實現(xiàn)這一目標而為正式確定令人滿意的目標函數(shù)作出任何不成熟的嘗試，這種行為通常將生成產(chǎn)生超出人們預(yù)期的行為的函數(shù)。

主要的技術(shù)難題表現(xiàn)在哪些方面？Russell（2014）強調(diào)兩點：由于很難對人類的價值觀念進行清晰界定，如此便難以找到一種與人類價值體系完美匹配的系統(tǒng)目標函數(shù)；任何具有實力的智能系統(tǒng)均偏重于保證自身的存在性與獲取物理和計算資源---不是為了其自身的利益，而是為了成功地完成既定的任務(wù)。換句話講，至少存在兩種明顯的研究類型：這兩種研究類型能夠提高未來研究者設(shè)計出具有一致性AI系統(tǒng)的能力：我們能夠可以做一些研究以便較容易確定目標函數(shù)；我們可以做一些研究以設(shè)計出能夠避免大量負面影響和負面刺激的AI系統(tǒng)，即便有時目標函數(shù)不能與設(shè)計者的意圖達到完全的一致。Soares與Fallenstein（2014）稱前面一種方法為“價值規(guī)范”，后一種為“錯誤容忍”。

本研究基于這兩種保持高級ML系統(tǒng)一致性的方法，探索8個研究領(lǐng)域，其中一些領(lǐng)域已經(jīng)在更大的ML研究社區(qū)中激起研究興趣。其中，一些研究領(lǐng)域聚焦于價值規(guī)范，一些聚焦于錯誤容忍，還有一些將兩者結(jié)合在一起。由于減少容易犯錯的人類程序員可能到來的錯誤風險本身就是人類共享的價值理念，這兩種研究目標之間的界限可能并不是那么清晰。

為了使下文討論的解決問題的方案在未來更為有用，這些方案必須能夠適用于那些比現(xiàn)存的ML系統(tǒng)更為有效的系統(tǒng)。那些主要依靠于系統(tǒng)對于某個可發(fā)現(xiàn)的事實的不敏感，或依靠于系統(tǒng)無法提出一個特殊的策略的解決方案，從長遠來看，這些方案都不甚令人滿意。正如Christiano(2015c)所討論的，如果用于保持ML系統(tǒng)與其設(shè)計者的意圖相一致的技術(shù)不能與智能相匹配，那么在我們可以運用ML系統(tǒng)在保守條件下可以取得的成果與可以運用該系統(tǒng)有效取得的成果兩者之間將出現(xiàn)差異。

我們將聚焦于安全保障，在目前運用ML的典型環(huán)境中，這些安全保障可能會顯得極端，例如保障形式，“過一段時間后，該系統(tǒng)將會出現(xiàn)零顯著錯誤”。這些保障形式在以安全為主的系統(tǒng)中是不可或缺的，因為一個小錯誤將在現(xiàn)實世界中產(chǎn)生災(zāi)難性的后果。（這種形式的保障之前是有先例的，例如，Li,Littman,與Walsh（2008）的KWIK學習框架中提及到的）。當我們在考慮小問題和簡單的例子時，我們應(yīng)當把這些強有力的保障方式記在心中。

我們考慮的八個研究主題如下：

1.歸納式歧義識別：我們?nèi)绾斡柧歁L系統(tǒng)來檢測并告知我們通過訓練數(shù)據(jù)并不能夠確定測試數(shù)據(jù)的分類？

2.強健的仿真方法：我們?nèi)绾卧O(shè)計并訓練ML系統(tǒng)以有效地模仿復(fù)雜且困難任務(wù)中人類的行為活動？

3.知情式監(jiān)督：我們?nèi)绾斡柧氁环N強化學習系統(tǒng)，在精確評估系統(tǒng)性能方面能夠幫助一個智能監(jiān)督者，如人類？

4.可普及的環(huán)境目標：我們?nèi)绾蝿?chuàng)建一些系統(tǒng)，使這類系統(tǒng)能夠強健地追求環(huán)境狀態(tài)下確定的目標，而非追求基于感官數(shù)據(jù)確定的目標？

5.保守性的概念：如何訓練一個分類器，以提出一些有用的概念來排除那些極為非典型的例子和邊緣化的案例？

6.影響措施：應(yīng)當采取什么樣的措施來刺激系統(tǒng)以最小的負面影響來追求目標？

7.溫和型優(yōu)化措施：我們?nèi)绾卧O(shè)計出不會過分追求其目標的系統(tǒng)，即當所追求的目標已經(jīng)得到很好的實現(xiàn)時便適可而止，而不是為了實現(xiàn)絕對優(yōu)化的預(yù)期成果，投入過多的精力搜索資源？

8.避免工具性激勵措施：我們應(yīng)當如何設(shè)計并訓練系統(tǒng)，使這些系統(tǒng)缺少默認的激勵措施來操縱與欺騙操作人員，競爭稀缺資源等？

在第2部分，我們將輪流簡要介紹每一個研究主題及每一個研究領(lǐng)域中相關(guān)的研究案例。接下來我們將討論對于未來研究的啟示，即鑒于大量的計算資源和自動化，我們期望能夠衍生出有助于設(shè)計出強健且可靠的ML系統(tǒng)的工具來。

研究動機

近年來，機器學習領(lǐng)域已經(jīng)取得突飛猛進的發(fā)展。Xu等(2015)運用一個基于注意的模型能夠極為精確地評估并描述圖像（通過字幕）。Mnih等(2016)運用深度神經(jīng)網(wǎng)絡(luò)和強化學習在多種Atari圍棋比賽中取得了好的性能測試結(jié)果。Silver等(2016)運用經(jīng)由監(jiān)督式學習和強化學習訓練，且與蒙特卡洛模型技術(shù)相匹配的深度神經(jīng)網(wǎng)絡(luò)戰(zhàn)勝了人類圍棋世界冠軍。Lake,Salakhutdinov及Tenenbaum(2015)運用分級式Bayesian模型僅需要使用一個單一的例子便可以學習視覺概念。

從長遠看來，運用機器學習和其他AI技術(shù)的計算機系統(tǒng)將會變得越來也智能，人類也將有可能相信那些系統(tǒng)可以作出更多的決策，變得更加自動化。隨著這些系統(tǒng)的性能越來越高，使這些系統(tǒng)的行為與操作者的意圖保持一致，不會對全社會造成危害，這一點變得尤為重要。

當AI系統(tǒng)在性能方面得到越來越快的提升，設(shè)計出能夠可靠地把這些系統(tǒng)與預(yù)期的目標保持一致的訓練程序和測試準則將變得越來越困難。例如，我們來看一下下面這個例子：依據(jù)得分實施獎勵，訓練一個強化學習者來玩視頻游戲的任務(wù)（per Mnih等，2013）。倘若學習者在游戲過程中找到一些能夠使其獲得高分的漏洞，他將采取措施利用那些漏洞，忽視程序員感興趣的游戲特征。與我們的直覺相反，提高系統(tǒng)的性能將減少這些學習者在游戲中取勝的機率，這在某種程度上與我們的感覺相反，由于系統(tǒng)越智能，越能夠找出訓練程序與測試準則中的漏洞（如若獲取一個較弱強化學習者的這種行為的簡單實例，請參照Murphy(2013)）。

智能系統(tǒng)能夠以驚人的方式解決問題的能力稱得上是一種特征，而非一種瑕疵。它們能夠以一種連程序員都無法想出的聰明的方式來達到目標，這是這類學習系統(tǒng)具有吸引力的重要特征之一。但是，這一性質(zhì)是一柄雙刃劍：當這一系統(tǒng)變得更善于找到與人們直覺相反的解決方法，它也將更善于找到能夠形式上實現(xiàn)操作者的直接目標，而不滿足其預(yù)期的目標的方法。

由于這些智能系統(tǒng)追求現(xiàn)實生活中目標，這些漏洞也將變得更為微妙，更為冗余，且更為重要。就此，我們可以考慮一下為學習系統(tǒng)設(shè)計出強健的目標函數(shù)，以使得這些學習系統(tǒng)能夠代表程序員觀點與欲望，在此過程中會遇到的挑戰(zhàn)與困難。當程序員了解到該系統(tǒng)的目標函數(shù)未得到正確規(guī)范，他們便想要修復(fù)這一缺陷。然而，當學習者意識到這樣一點，他將視其為一個自然的刺激，便會想辦法掩蓋目標函數(shù)中存在的這些缺陷，因為如果該系統(tǒng)被用于追求不同的目標，其當前目標將不可能得到實現(xiàn)。（這一現(xiàn)象將在Bostrom,2014與Yudkowsky,2008一文中作詳細討論。Benson-Tilsen與Soares(2016)提供了一個簡潔的闡釋）。

上述討論結(jié)果激勵我們研究規(guī)范目標函數(shù)的工具與方法，使得這些目標函數(shù)能夠避免那些默認的激勵措施，及研發(fā)ML系統(tǒng)的工具與方法，使得這些機器學習系統(tǒng)在追求那些目標時不要過度優(yōu)化。

下文是對提到的八個研究主題及相關(guān)研究成果作詳細介紹，在此不做贅述。

結(jié)論

能夠更好地理解上述描述的八個開放性研究區(qū)域中的任何一個領(lǐng)域均將提高我們未來設(shè)計出強健且可靠的AI系統(tǒng)的能力。以下是對上文討論結(jié)果的回顧：

1,2,3---更好地理解強健的歸納式歧義識別，仿人類，知情式監(jiān)督將有助于設(shè)計出能夠由人類進行安全地監(jiān)督（必要時詢問人類）的機器學習系統(tǒng)。

4---找到規(guī)范環(huán)境目標的更好的方法，這將使得設(shè)計出追求我們真正關(guān)心的目標的系統(tǒng)更為容易。

5,6,7---更好地理解保守型概念，低影響力的措施，溫和型優(yōu)化方案會使得設(shè)計出高級系統(tǒng)更為容易，這種系統(tǒng)的錯誤率將降低，并且允許在線測試和調(diào)整等操作。與一個試圖實現(xiàn)某個特殊目標函數(shù)最大化的超智能系統(tǒng)相比，一個集保守型，低影響力，溫和型優(yōu)化三種特征于一體的超智能系統(tǒng)能夠得到更為簡單安全地運用。

8---一個避免收斂工具子目標的通用策略將幫助我們構(gòu)建一類能夠避免不可取默認激勵措施，如欺騙操作人員，競爭資源的激勵策略，的學習系統(tǒng)。

在研究諸如上述討論過的問題時，我們應(yīng)當記得，這些研究是用于解決我們未來可以預(yù)見的高智能系統(tǒng)可能帶來的長期問題的，這一點極為重要。正如那些在理論層面可行，在實踐中費用驚人的方案一樣，那些適用于當代智能系統(tǒng)，卻能夠預(yù)測到不適用于更高性能學習系統(tǒng)的的解決方案同樣是不可取的。

這八個研究領(lǐng)域支持以下觀點：存在一些開放性的技術(shù)問題，其中一些問題已經(jīng)得到學術(shù)界的注意，為此所做的研究可能會對一些試圖構(gòu)建強健且有益的高級ML系統(tǒng)的研究者有所幫助。

ps:本文由雷鋒網(wǎng)獨家編譯，未經(jīng)許可拒絕轉(zhuǎn)載！

如需對本文作多了解，請訪問原文鏈接細節(jié)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章