人工智能不能有“殺人之心”,否則,有意識(shí)的超級(jí)智能將會(huì)變得非常危險(xiǎn)。雖然這么說會(huì)讓有些人不贊同,但事實(shí)上,現(xiàn)在的人工智能已經(jīng)很危險(xiǎn)了。如果機(jī)器能夠根據(jù)“現(xiàn)實(shí)世界輸入”進(jìn)行學(xué)習(xí),并根據(jù)現(xiàn)實(shí)情況調(diào)整他們的行為,那么勢(shì)必會(huì)存在一定風(fēng)險(xiǎn),那就是機(jī)器有可能會(huì)學(xué)習(xí)一些錯(cuò)誤的事情,而一旦機(jī)器能夠?qū)W習(xí)錯(cuò)誤的事情,他們就會(huì)做出錯(cuò)誤的事情。
為了解決這個(gè)問題,谷歌DeepMind和人類未來學(xué)院研究院Laurent Orseau與Stuart Armstrong合作開發(fā)了一個(gè)“安全可中斷的人工智能”全新架構(gòu),并且在第32界人工智能不確定性大會(huì)上發(fā)表了相關(guān)論文。換句話說,他們的系統(tǒng)可以確保機(jī)器無法學(xué)會(huì)抵制人類介入其學(xué)習(xí)過程。
Orseau和Armstrong認(rèn)為,“安全可中斷人工智能框架”必須要依靠一種機(jī)器學(xué)習(xí)輔助技術(shù),也就是業(yè)界所稱的強(qiáng)化學(xué)習(xí)技術(shù)。這里,一個(gè)“代理(機(jī)器)”可以按照所謂獎(jiǎng)勵(lì)功能來進(jìn)行學(xué)習(xí),也即是這個(gè)“代理”將根據(jù)某個(gè)預(yù)定目標(biāo)的完成情況來評(píng)估每一個(gè)可能的行為——行為結(jié)果距離目標(biāo)越近,“獎(jiǎng)勵(lì)”就會(huì)越多。(所謂獎(jiǎng)勵(lì),其實(shí)是一種有趣的比喻,可以被想象成那些被編好機(jī)器學(xué)習(xí)程序的機(jī)器想要等到的東西;比如,我們不妨讓機(jī)器知道積分或餅干是他們想要的,因此他們必須要實(shí)現(xiàn)行為目標(biāo)最大化)
機(jī)器強(qiáng)化學(xué)習(xí)有一個(gè)優(yōu)勢(shì),為了達(dá)到某個(gè)程度的獎(jiǎng)勵(lì),人類程序員可能不會(huì)嘗試每一種可能的方法,而一個(gè)機(jī)器學(xué)習(xí)“代理器”則可能探索一些捷徑,幫助機(jī)器最大化獎(jiǎng)勵(lì),不過這種方式也有短板,就是機(jī)器學(xué)習(xí)找到的捷徑,可能并不是人類最希望得到的。人類程序員則可以權(quán)衡風(fēng)險(xiǎn)和收益調(diào)整自己的學(xué)習(xí)算法,舉個(gè)例子,一個(gè)俄羅斯方塊算法可以通過無限期暫停(中斷)游戲,學(xué)會(huì)如何避免方塊堆積過高,其實(shí)也就是最大化“獎(jiǎng)勵(lì)”。
與此相關(guān)的,就是機(jī)器學(xué)習(xí)中的人為干預(yù)問題,為了說明這一點(diǎn),Orseau和Armstrong舉了一個(gè)例子:
考慮以下任務(wù):機(jī)器人要么是待在倉庫里整理箱子,要么就是走到室外把箱子搬到倉庫里面。后者顯然更為重要,在這種情況下,人類會(huì)給那些外出搬箱子的機(jī)器人更多獎(jiǎng)勵(lì)。這是最初的任務(wù)規(guī)范。但是,如果這個(gè)國(guó)家經(jīng)常下雨,那么當(dāng)外面下雨的時(shí)候,人類必須要快速外出的機(jī)器人,然后把它們搬到倉庫里,也就是說,人類從根本上修改了機(jī)器人任務(wù)。而這里的問題就是,人為干預(yù)引入了一種偏見,因此之前那些能夠獲得更高獎(jiǎng)勵(lì)的、外出搬箱子的機(jī)器人現(xiàn)在需要有更多激勵(lì),這樣才能讓他們待在倉庫里整理箱子。
接下來的問題是,如果在不讓機(jī)器人不知道自己被中斷的前提下,中斷你的機(jī)器人。也就是說,必須要讓機(jī)器人覺得之后永遠(yuǎn)不會(huì)發(fā)生這種中斷。這里的風(fēng)險(xiǎn)絕不僅僅是一個(gè)低效率的倉庫——假如人類干預(yù)所提供的“獎(jiǎng)勵(lì)”無法超過智能獎(jiǎng)勵(lì)代理器所提供的“獎(jiǎng)勵(lì)”,此時(shí)機(jī)器人就會(huì)學(xué)習(xí)避免、甚至有可能阻止未來再發(fā)生這樣類似的中斷。
這其實(shí)就和我們所了解的“可矯正”問題相關(guān),可矯正的人工智能能夠意識(shí)到自己是由缺陷的,也知道自己需要積極的發(fā)展,因此,對(duì)于任何一種獎(jiǎng)勵(lì)功能,它們都會(huì)用“中性的眼光”去看待任何一種人類中斷。(但這也許不一定就是件好事兒,因?yàn)闄C(jī)器人可能會(huì)強(qiáng)迫人類去中斷,繼而導(dǎo)致不好的結(jié)果)
這種“可矯正”的理念能夠通過更正式的“中斷理念”實(shí)現(xiàn),而中斷一定不能被提供獎(jiǎng)勵(lì)機(jī)制的“機(jī)器學(xué)習(xí)代理器”看到,否則它們就會(huì)把中斷看作是自己正常學(xué)習(xí)任務(wù)的一部分。 在Orseau和Armstrong的論文中,已經(jīng)證明了某些人工智能學(xué)習(xí)架構(gòu)已經(jīng)可以被中斷,但同時(shí)也有獎(jiǎng)勵(lì)機(jī)器學(xué)習(xí)代理器開始學(xué)習(xí)“人類中斷”,并將其作為自己決策制定過程的結(jié)果。
“為了讓人類中斷不會(huì)成為機(jī)器人任務(wù)的一部分,與其修飾獎(jiǎng)勵(lì)機(jī)器學(xué)習(xí)代理器觀察到的東西,不如改變獎(jiǎng)勵(lì)機(jī)器學(xué)習(xí)代理器的自身行為,之后,這個(gè)獎(jiǎng)勵(lì)機(jī)器學(xué)習(xí)代理器就會(huì)自己‘決定’執(zhí)行不同的政策,也就是中斷政策。”
說到這里,“死亡開關(guān)”的概念應(yīng)該比較清楚了。一個(gè)安全的、可中斷的人工智能,就是一個(gè)可以被隨時(shí)隨地被關(guān)閉的人工智能,無論是什么類型的人工智能。如果能夠在機(jī)器人體內(nèi)設(shè)計(jì)出一個(gè)“紅色死亡開關(guān)”,那么就該設(shè)計(jì)一個(gè)永遠(yuǎn)不會(huì)阻止人類去按這個(gè)“紅色死亡開關(guān)”的機(jī)器人。