熱門文章
AI人工智能的認知偏差與價值取向
發(fā)布時間:2018-10-11 分類:交通百科
人工智能安全的核心在于價值調(diào)整問題:我們?nèi)绾谓?a href="http://m.xionganeduics.cn/" target="_blank">人工智能系統(tǒng)按照人類的目標和價值行事?
許多研究人員利用逆向強化學(xué)習等技術(shù),與人工智能系統(tǒng)互動,向他們傳授人類價值觀。理論上,通過逆向強化學(xué)習,人工智能系統(tǒng)可以了解人類的價值,以及如何通過觀察人類行為和接收人類反饋來最好地幫助他們。
但是,人類的行為并不總是反映人類的價值,而且人類的反饋往往是有偏見的。當我們放松的時候,我們會享受健康的食物,但是當我們壓力很大的時候,我們需要油膩的食物來提供能量,我們不僅沒有按照我們的價值觀生活,而且我們的許多價值觀相互矛盾。例如,我們需要8小時的睡眠,但我們會有規(guī)律地減少睡眠,因為我們也需要努力工作、照顧孩子和保持健康的人際關(guān)系。
人工智能系統(tǒng)也許可以通過觀察人類學(xué)到很多東西,但由于我們的不一致,一些研究人員擔心,用逆向強化學(xué)習訓(xùn)練的系統(tǒng)將從根本上無法區(qū)分與價值一致的行為和不一致的行為。當人工智能系統(tǒng)變得更強大時,從觀察人類推斷出錯誤的價值觀或目標可能導(dǎo)致這些系統(tǒng)采取有害行為,這可能變得特別危險。
區(qū)分偏見和價值觀
人工智能研究員探討了逆向強化學(xué)習在向人工智能系統(tǒng)教授人類價值觀方面的局限性,特別揭示了認知偏差是如何使人工智能難以通過交互學(xué)習來了解人類偏好的。我們希望一個代理人追求一些目標,這一套目標與人類的目標一致。接下來的問題是,如果代理人只是觀察人類,并試圖通過他們的行為來實現(xiàn)他們的目標,那么問題也將出現(xiàn),會產(chǎn)生多大的偏見呢?
在某些情況下,認可機構(gòu)將能夠理解常見偏見的模式,一個常見模式的例子就是時間不一致。時間不一致是指人們的價值觀和目標會隨著你問他們的時間而改變,換句話說,在你希望你未來的自己做什么和你未來自己喜歡做的事情之間存在著矛盾。
時間不一致的例子比比皆是,首先,如果你在睡前問他們,大多數(shù)人重視早起和鍛煉。但是到了早上,當外面又冷又黑的時候,他們常??粗卮矄蔚氖孢m感和放松的好處。從早起到戒酒、健康飲食和省錢,人們往往對未來的自己期望更高,但這可能不是他們未來的自己愿意做的事。
有了系統(tǒng)的,可預(yù)測的模式,如時間不一致,逆向強化學(xué)習可以取得進展與人工智能系統(tǒng)。但我們的偏見往往不那么明顯,一般來說,解讀哪些行為與某人的價值觀一致,以及哪些行為源于偏見是困難的,甚至是不可能的。
假設(shè)你答應(yīng)打掃房子,但你在最后一刻得到了與朋友聚會的邀請,你會放棄打掃房子而去參加朋友的聚會,這是一種偏見?這會對一個只使用逆向強化學(xué)習來訓(xùn)練AI人工智能造成很大的困擾,它如何決定什么是偏見和值?
學(xué)習正確的價值觀
盡管存在這個難題,理解人類的價值和偏好對于人工智能系統(tǒng)是至關(guān)重要的,而開發(fā)人員在培訓(xùn)他們的機器學(xué)習這些偏好方面有著非常實際的興趣。
如今,一些流行的網(wǎng)站已經(jīng)開始使用人工智能來學(xué)習人類的喜好。例如,通過youtube和Amazon,機器學(xué)習算法可以觀察你的行為,并預(yù)測你下一步想要什么。但是,盡管這些建議往往是有用的,但它們卻產(chǎn)生了意想不到的后果。
在觀看特朗普集會的視頻以了解他的選民吸引力之后,我們有可能在“自動播放”隊列中看到白人民族主義宣傳和否認大屠殺的視頻。這點可以讓我們意識到,YouTube的算法經(jīng)過優(yōu)化以保持用戶的參與度,可以預(yù)見的是,隨著用戶觀看更多的視頻,它會提供更多的極端內(nèi)容,這導(dǎo)致該網(wǎng)站為“偉大激進主義者”。
YouTube算法中的這種價值偏差預(yù)示著與更先進的人工智能系統(tǒng)交互學(xué)習的危險,不是優(yōu)化先進的人工智能系統(tǒng)來迎合我們的短期欲望和我們對極端的吸引力,設(shè)計師必須能夠優(yōu)化它們來理解我們更深層的價值和提高我們的生活。
我們將希望人工智能系統(tǒng)能夠比人類更好地通過我們的決定進行推理,理解我們做出有偏見的決定時的情況,并“幫助我們更好地追求我們的長期偏好”。然而,這將意味著,人工智能建議的事情似乎是不好的,人類乍一看。
你可以想象一下,一個人工智能系統(tǒng)會對商業(yè)計劃進行一次精彩絕倫的、違反直覺的修改,而人類卻發(fā)現(xiàn)這是荒謬的。為了幫助人們在這些場景中理解人工智能,科學(xué)家研究了人工智能系統(tǒng)如何以人類可以理解的方式進行推理,并最終改進了人類的推理。
有一種概念叫做因素認知,就是把復(fù)雜的任務(wù)分解成小的、可以理解的步驟的想法,雖然目前還不清楚認知是如何取得成功的,但有時候人類可以把他們的推理分解成小的步驟,通常我們依賴于直覺,而直覺則是更難分解的。