時代聚焦AI安全——可解釋性

fce99ee14b4c9e2de834bcd60d2b24d618e47413

今年的NIPS多集中在人工智能安全上，此外精彩的部分還有凱特·克勞福德關于人工智能公平性問題上被忽視的主題演講、ML安全研討會、以及關于“我們是否需要可解釋性？”可解釋ML討論會辯論。

值校準文件

逆向獎勵設計是為了解決RL代理根據人類設計的代理獎勵函數推斷出人類的真實獎勵函數的一種設計。與反強化學習（IRL）不同，它可以讓代理人從人的行為推斷出獎勵函數。論文中提出了一個IRD方法，假設人類選擇一個可以導致訓練環境中正確行為的代理獎勵，代理人就獎勵函數的不確定性遵循風險規避策略，模擬真實獎勵的不確定性。

aa1676400d176dca7179a1d0cd427b5fc505037e

盡管目前還不清楚它們將如何推廣到更復雜的環境，但是這篇論文中關于如何避免某些副作用和阻止獎勵黑客行為的觀點還是有些令人備受鼓舞的。這種方法也有可能過于規避一些新事物，但是在這種環境下看到一些安全探索的方法是非常棒的。

重復反向RL是指推導出包含安全標準的固有人類偏好的問題，并在許多任務中保持不變的。每個任務的獎勵功能是任務不變內在獎勵（代理人未觀察到的）和特定任務獎勵（代理人觀察到的）的組合。這種多任務設置有助于解決反強化學習（IRL）中的可識別性問題，其中不同的獎勵功能可以產生相同的行為。

86ae3579f966eb4f973ec785f064052ac01d4bd9

作者提出了一種算法來推斷內在獎勵，同時最大限度地減少代理人犯錯誤的次數。他們證明了：“主動學習”案例的錯誤數量有上限，在錯誤數量的上限內，代理可以選擇任務。如果超出這個錯誤數量的上限，則代理人無法選擇任務。雖然它仍然存在很多人類難以解釋的現象，但是綜合來看，讓代理人選擇它所訓練的任務似乎是個好主意。

來自人類偏好的深度RL（Christiano等人）是指利用人類反饋來教授深度RL代理人理解關于人類可以評估但可能無法證明的復雜事物（例如后空翻）。人類創造了代理行為的兩個軌跡片段，并選擇出哪一個更接近目標，這種方法可以非常有效地利用有限的人類反饋，使代理人學習更復雜的事物（如MuJoco和Atari所示）。

37f594b05cbc5ba5f926176cbe287577f8e74261

分散式多智能體RL的動態安全可中斷性（EI Mhamdi等人）將安全可中斷性問題推廣到多智能體設置。不可中斷的動態可以出現在任何一組代理人中，比如如果代理B收到代理A的中斷影響并因此被激勵以防止A被中斷，則可能發生這種情況。多智能體定義的重點在于當存在中斷的情況下保持系統動態性，而不是收集在多智能體環境中難以保證的最優策略。

Aligned AI研討會

這場研討會上有很多很有見解的會談比如Ian Goodfellow的“對齊AI的對抗魯棒性”和Gillian Handfield的“不完全契約和AI對齊”。

Ian提出的ML安全性對于長期的AI安全至關重要。敵對例子的有效性不僅受當前的ML系統（例如自駕車）的短期視角的影響，還受一些水平不高的參與人的影響。從長遠角度來看，調整高級代理的價值也是一個壞消息，由于古德哈特定律，他可能會無意中尋找獎勵函數的對抗性例子。因為敵對的例子會干擾代理人的判斷，所以依靠代理人對環境或人類偏好的不能確保結果的準確性。

8c86ed4507e0d95db8ee541182af232b70dc9363

Gillian從經濟學的角度來看待人工智能安全，將人造智能的目標與人類的合同的設計相對比。與造成合同不完整相同的問題（設計師無法考慮所有相關的偶然事件或者精確地制定所涉及的變量，以及激勵當事方游戲系統）導致人為代理人的副作用和獎勵黑客行為。

d6b05fabe9f965669921869e5d00126e03ce1481

談話的核心問題是如何利用不完全契約理論的見解來更好地理解和系統地解決AI安全中的規范問題，這是一個非常有趣的研究方向，客觀規格問題似乎比不完整的合同問題更難。

人工智能系統的可解釋性

作者在可解釋的ML討論會上就可解釋性與長期安全性之間的關系進行了討論，并探討了何種形式的解釋能夠幫助在安全問題方面取得進展（相關幻燈片和視頻）。

副作用和安全探索問題將從識別對應于不可逆狀態的表示（如“破碎”或“卡住”）中受益。雖然現有的關于神經網絡表示的研究著重于可視化，但與安全有關的概念往往難以形象化。

解釋特定的預測或決定的本地解釋性技術對安全也很有用。我們可以監測出訓練環境特殊的特征或者表示與危險狀態接近的特征是否會影響代理人的決定。

解釋能力在很多方面對安全是有用的。作為解釋性問題的基礎-安全性可以為解釋能力做些什么，似乎還沒有人弄明白。正如研討會的最后一場辯論中所爭論的那樣，在ML社區里，一直在進行著一場對話，試圖制定一個模糊的解釋性思想-它是什么，我們是否還需要它，什么樣的理解是有用的，等等。但是我們需要記住最重要的：解釋欲望在某種程度上是由我們的系統易出錯所驅動的-理解我們的AI系統如果100%穩健且沒有錯誤，那么它就不那么重要了。從安全的角度來看，我們可以將解釋性的作用理解為幫助我們確保系統安全。

對于那些有興趣將解釋性錘子應用于安全釘或處理其他長期安全問題的人，FLI最近宣布了一個新的補助計劃，現在是AI領域深入思考價值取向的好時機。正如Pieter Abbeel在主題演講結束時所說的那樣：“一旦你建立了非常好的AI裝置，你如何確保他們的價值體系與我們的價值體系保持一致？因為在某些時候，他們可能比我們聰明，它們實際關心的關于我們所關心的東西可能很重要。”

本文由北郵@愛可可-愛生活老師推薦，阿里云云棲社區組織翻譯。

文章原標題《NIPS 2017 Report》

作者：Vikas Bhandary

譯者：烏拉烏拉，審校：袁虎。

文章為簡譯，更為詳細的內容，請查看原文文章

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/284619.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/284619.shtml
英文地址，請注明出處：http://en.pswp.cn/news/284619.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！