日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
國際 正文
發(fā)私信給天諾
發(fā)送

1

谷歌DeepMind研究員Laurent Orseau和Stuart Armstrong:人工智能“死亡開關(guān)”很重要

本文作者: 天諾 2016-06-07 10:19
導(dǎo)語:人工智能不能有“殺人之心”,否則,有意識(shí)的超級(jí)智能將會(huì)變得非常危險(xiǎn)。雖然這么說會(huì)讓有些人不贊同,但事實(shí)上,現(xiàn)在的人工智能已經(jīng)很危險(xiǎn)了。

人工智能不能有“殺人之心”,否則,有意識(shí)的超級(jí)智能將會(huì)變得非常危險(xiǎn)。雖然這么說會(huì)讓有些人不贊同,但事實(shí)上,現(xiàn)在的人工智能已經(jīng)很危險(xiǎn)了。如果機(jī)器能夠根據(jù)“現(xiàn)實(shí)世界輸入”進(jìn)行學(xué)習(xí),并根據(jù)現(xiàn)實(shí)情況調(diào)整他們的行為,那么勢必會(huì)存在一定風(fēng)險(xiǎn),那就是機(jī)器有可能會(huì)學(xué)習(xí)一些錯(cuò)誤的事情,而一旦機(jī)器能夠?qū)W習(xí)錯(cuò)誤的事情,他們就會(huì)做出錯(cuò)誤的事情。

為了解決這個(gè)問題,谷歌DeepMind和人類未來學(xué)院研究院Laurent Orseau與Stuart Armstrong合作開發(fā)了一個(gè)“安全可中斷的人工智能”全新架構(gòu),并且在第32界人工智能不確定性大會(huì)上發(fā)表了相關(guān)論文。換句話說,他們的系統(tǒng)可以確保機(jī)器無法學(xué)會(huì)抵制人類介入其學(xué)習(xí)過程。

Orseau和Armstrong認(rèn)為,“安全可中斷人工智能框架”必須要依靠一種機(jī)器學(xué)習(xí)輔助技術(shù),也就是業(yè)界所稱的強(qiáng)化學(xué)習(xí)技術(shù)。這里,一個(gè)“代理(機(jī)器)”可以按照所謂獎(jiǎng)勵(lì)功能來進(jìn)行學(xué)習(xí),也即是這個(gè)“代理”將根據(jù)某個(gè)預(yù)定目標(biāo)的完成情況來評(píng)估每一個(gè)可能的行為——行為結(jié)果距離目標(biāo)越近,“獎(jiǎng)勵(lì)”就會(huì)越多。(所謂獎(jiǎng)勵(lì),其實(shí)是一種有趣的比喻,可以被想象成那些被編好機(jī)器學(xué)習(xí)程序的機(jī)器想要等到的東西;比如,我們不妨讓機(jī)器知道積分或餅干是他們想要的,因此他們必須要實(shí)現(xiàn)行為目標(biāo)最大化)

機(jī)器強(qiáng)化學(xué)習(xí)有一個(gè)優(yōu)勢,為了達(dá)到某個(gè)程度的獎(jiǎng)勵(lì),人類程序員可能不會(huì)嘗試每一種可能的方法,而一個(gè)機(jī)器學(xué)習(xí)“代理器”則可能探索一些捷徑,幫助機(jī)器最大化獎(jiǎng)勵(lì),不過這種方式也有短板,就是機(jī)器學(xué)習(xí)找到的捷徑,可能并不是人類最希望得到的。人類程序員則可以權(quán)衡風(fēng)險(xiǎn)和收益調(diào)整自己的學(xué)習(xí)算法,舉個(gè)例子,一個(gè)俄羅斯方塊算法可以通過無限期暫停(中斷)游戲,學(xué)會(huì)如何避免方塊堆積過高,其實(shí)也就是最大化“獎(jiǎng)勵(lì)”。

與此相關(guān)的,就是機(jī)器學(xué)習(xí)中的人為干預(yù)問題,為了說明這一點(diǎn),Orseau和Armstrong舉了一個(gè)例子:

考慮以下任務(wù):機(jī)器人要么是待在倉庫里整理箱子,要么就是走到室外把箱子搬到倉庫里面。后者顯然更為重要,在這種情況下,人類會(huì)給那些外出搬箱子的機(jī)器人更多獎(jiǎng)勵(lì)。這是最初的任務(wù)規(guī)范。但是,如果這個(gè)國家經(jīng)常下雨,那么當(dāng)外面下雨的時(shí)候,人類必須要快速外出的機(jī)器人,然后把它們搬到倉庫里,也就是說,人類從根本上修改了機(jī)器人任務(wù)。而這里的問題就是,人為干預(yù)引入了一種偏見,因此之前那些能夠獲得更高獎(jiǎng)勵(lì)的、外出搬箱子的機(jī)器人現(xiàn)在需要有更多激勵(lì),這樣才能讓他們待在倉庫里整理箱子。

接下來的問題是,如果在不讓機(jī)器人不知道自己被中斷的前提下,中斷你的機(jī)器人。也就是說,必須要讓機(jī)器人覺得之后永遠(yuǎn)不會(huì)發(fā)生這種中斷。這里的風(fēng)險(xiǎn)絕不僅僅是一個(gè)低效率的倉庫——假如人類干預(yù)所提供的“獎(jiǎng)勵(lì)”無法超過智能獎(jiǎng)勵(lì)代理器所提供的“獎(jiǎng)勵(lì)”,此時(shí)機(jī)器人就會(huì)學(xué)習(xí)避免、甚至有可能阻止未來再發(fā)生這樣類似的中斷。

這其實(shí)就和我們所了解的“可矯正”問題相關(guān),可矯正的人工智能能夠意識(shí)到自己是由缺陷的,也知道自己需要積極的發(fā)展,因此,對(duì)于任何一種獎(jiǎng)勵(lì)功能,它們都會(huì)用“中性的眼光”去看待任何一種人類中斷。(但這也許不一定就是件好事兒,因?yàn)闄C(jī)器人可能會(huì)強(qiáng)迫人類去中斷,繼而導(dǎo)致不好的結(jié)果)

這種“可矯正”的理念能夠通過更正式的“中斷理念”實(shí)現(xiàn),而中斷一定不能被提供獎(jiǎng)勵(lì)機(jī)制的“機(jī)器學(xué)習(xí)代理器”看到,否則它們就會(huì)把中斷看作是自己正常學(xué)習(xí)任務(wù)的一部分。 在Orseau和Armstrong的論文中,已經(jīng)證明了某些人工智能學(xué)習(xí)架構(gòu)已經(jīng)可以被中斷,但同時(shí)也有獎(jiǎng)勵(lì)機(jī)器學(xué)習(xí)代理器開始學(xué)習(xí)“人類中斷”,并將其作為自己決策制定過程的結(jié)果。

“為了讓人類中斷不會(huì)成為機(jī)器人任務(wù)的一部分,與其修飾獎(jiǎng)勵(lì)機(jī)器學(xué)習(xí)代理器觀察到的東西,不如改變獎(jiǎng)勵(lì)機(jī)器學(xué)習(xí)代理器的自身行為,之后,這個(gè)獎(jiǎng)勵(lì)機(jī)器學(xué)習(xí)代理器就會(huì)自己‘決定’執(zhí)行不同的政策,也就是中斷政策?!?nbsp;

說到這里,“死亡開關(guān)”的概念應(yīng)該比較清楚了。一個(gè)安全的、可中斷的人工智能,就是一個(gè)可以被隨時(shí)隨地被關(guān)閉的人工智能,無論是什么類型的人工智能。如果能夠在機(jī)器人體內(nèi)設(shè)計(jì)出一個(gè)“紅色死亡開關(guān)”,那么就該設(shè)計(jì)一個(gè)永遠(yuǎn)不會(huì)阻止人類去按這個(gè)“紅色死亡開關(guān)”的機(jī)器人。

VIA motherboard.vice

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說