時代聚焦AI安全——可解釋性

fce99ee14b4c9e2de834bcd60d2b24d618e47413

今年的NIPS多集中在人工智能安全上,此外精彩的部分還有凱特·克勞福德關于人工智能公平性問題上被忽視的主題演講、ML安全研討會、以及關于“我們是否需要可解釋性?”可解釋ML討論會辯論

值校準文件

逆向獎勵設計是為了解決RL代理根據人類設計的代理獎勵函數推斷出人類的真實獎勵函數的一種設計。與反強化學習(IRL不同,它可以讓代理人從人的行為推斷出獎勵函數。論文中提出了一個IRD方法,假設人類選擇一個可以導致訓練環境中正確行為的代理獎勵,代理人就獎勵函數的不確定性遵循風險規避策略,模擬真實獎勵的不確定性。

aa1676400d176dca7179a1d0cd427b5fc505037e

盡管目前還不清楚它們將如何推廣到更復雜的環境,但是這篇論文中關于如何避免某些副作用和阻止獎勵黑客行為的觀點還是有些令人備受鼓舞的。這種方法也有可能過于規避一些新事物,但是在這種環境下看到一些安全探索的方法是非常棒的。

重復反向RL是指推導出包含安全標準的固有人類偏好的問題,并在許多任務中保持不變的。每個任務的獎勵功能是任務不變內在獎勵(代理人未觀察到的)和特定任務獎勵(代理人觀察到的)的組合。這種多任務設置有助于解決反強化學習(IRL)中的可識別性問題,其中不同的獎勵功能可以產生相同的行為。

86ae3579f966eb4f973ec785f064052ac01d4bd9

作者提出了一種算法來推斷內在獎勵,同時最大限度地減少代理人犯錯誤的次數。他們證明了:“主動學習”案例的錯誤數量有上限,在錯誤數量的上限內,代理可以選擇任務。如果超出這個錯誤數量的上限,則代理人無法選擇任務。雖然它仍然存在很多人類難以解釋的現象,但是綜合來看,讓代理人選擇它所訓練的任務似乎是個好主意。

來自人類偏好的深度RL(Christiano等人)是指利用人類反饋來教授深度RL代理人理解關于人類可以評估但可能無法證明的復雜事物(例如后空翻)。人類創造了代理行為的兩個軌跡片段,并選擇出哪一個更接近目標,這種方法可以非常有效地利用有限的人類反饋,使代理人學習更復雜的事物(如MuJoco和Atari所示)。

37f594b05cbc5ba5f926176cbe287577f8e74261

分散式多智能體RL的動態安全可中斷性(EI Mhamdi等人)將安全可中斷性問題推廣到多智能體設置。不可中斷的動態可以出現在任何一組代理人中,比如如果代理B收到代理A的中斷影響并因此被激勵以防止A被中斷,則可能發生這種情況。多智能體定義的重點在于當存在中斷的情況下保持系統動態性,而不是收集在多智能體環境中難以保證的最優策略。

Aligned AI研討會

這場研討會上有很多很有見解的會談比如Ian Goodfellow的“對齊AI的對抗魯棒性”和Gillian Handfield的“不完全契約和AI對齊”。

Ian提出的ML安全性對于長期的AI安全至關重要。敵對例子的有效性不僅受當前的ML系統(例如自駕車)的短期視角的影響,還受一些水平不高的參與人的影響。從長遠角度來看,調整高級代理的價值也是一個壞消息,由于古德哈特定律,他可能會無意中尋找獎勵函數的對抗性例子。因為敵對的例子會干擾代理人的判斷,所以依靠代理人對環境或人類偏好的不能確保結果的準確性。

8c86ed4507e0d95db8ee541182af232b70dc9363

Gillian從經濟學的角度來看待人工智能安全,將人造智能的目標與人類的合同的設計相對比。與造成合同不完整相同的問題(設計師無法考慮所有相關的偶然事件或者精確地制定所涉及的變量,以及激勵當事方游戲系統)導致人為代理人的副作用和獎勵黑客行為。

d6b05fabe9f965669921869e5d00126e03ce1481

談話的核心問題是如何利用不完全契約理論的見解來更好地理解和系統地解決AI安全中的規范問題,這是一個非常有趣的研究方向,客觀規格問題似乎比不完整的合同問題更難。

人工智能系統的可解釋性

作者在可解釋的ML討論會上就可解釋性與長期安全性之間的關系進行了討論,并探討了何種形式的解釋能夠幫助在安全問題方面取得進展(相關幻燈片視頻)。

副作用和安全探索問題將從識別對應于不可逆狀態的表示(如“破碎”或“卡住”)中受益。雖然現有的關于神經網絡表示的研究著重于可視化,但與安全有關的概念往往難以形象化。

解釋特定的預測或決定的本地解釋性技術對安全也很有用。我們可以監測出訓練環境特殊的特征或者表示與危險狀態接近的特征是否會影響代理人的決定。

解釋能力在很多方面對安全是有用的。作為解釋性問題的基礎-安全性可以為解釋能力做些什么,似乎還沒有人弄明白。正如研討會的最后一場辯論中所爭論的那樣,在ML社區里,一直在進行著一場對話,試圖制定一個模糊的解釋性思想-它是什么,我們是否還需要它,什么樣的理解是有用的,等等。但是我們需要記住最重要的:解釋欲望在某種程度上是由我們的系統易出錯所驅動的-理解我們的AI系統如果100%穩健且沒有錯誤,那么它就不那么重要了。從安全的角度來看,我們可以將解釋性的作用理解為幫助我們確保系統安全。

對于那些有興趣將解釋性錘子應用于安全釘或處理其他長期安全問題的人,FLI最近宣布了一個新的補助計劃,現在是AI領域深入思考價值取向的好時機。正如Pieter Abbeel在主題演講結束時所說的那樣:“一旦你建立了非常好的AI裝置,你如何確保他們的價值體系與我們的價值體系保持一致?因為在某些時候,他們可能比我們聰明,它們實際關心的關于我們所關心的東西可能很重要。”

本文由北郵@愛可可-愛生活老師推薦,阿里云云棲社區組織翻譯。

文章原標題《NIPS 2017 Report》

作者:Vikas Bhandary

譯者:烏拉烏拉,審校:袁虎。

文章為簡譯,更為詳細的內容,請查看原文文章

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/284619.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/284619.shtml
英文地址,請注明出處:http://en.pswp.cn/news/284619.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【BIM入門實戰】渲染器Vray for 3d max 2018圖文安裝教程

VRay是由chaosgroup和asgvis公司出品的一款高質量渲染軟件。VRay是業界最受歡迎的渲染引擎。基于V-Ray 內核開發的有VRay for 3ds max、Maya、Sketchup、Rhino等諸多版本,為不同領域的優秀3D建模軟件提供了高質量的圖片和動畫渲染。方便使用者渲染各種圖片。 Vray for 3d max …

Android--Activity四種啟動模式

launchMode在多個Activity跳轉的過程中扮演著重要的角色,它可以決定是否生成新的Activity實例,是否重用已存在的Activity實例,是否和其他Activity實例公用一個task里。這里簡單介紹一下task的概念,task是一個具有棧結構的對象&…

常用SEO優化之META標簽

之前對meta標簽的理解只有<meta charset"UTF-8">和移動端適口<meta name"viewport" content"widthdevice-width,initial-scale1.0, minimum-scale1.0, maximum-scale1.0, user-scalableno"/> 組成 meta標簽共有兩個屬性&#xff0c…

Hibernate初探

Hibernate對數據庫結構提供了較為完整的封裝&#xff0c;Hibernate的O/R Mapping實現了POJO 和數據庫表之間的映射&#xff0c;以及SQL 的自動生成和執行。程序員往往只需定義好了POJO 到數據庫表的映射關系&#xff0c;即可通過Hibernate 提供的方法完成持久層操作。程序員甚至…

【BIM入門實戰】InfraWorks2018圖文安裝教程

Autodesk InfraWorks是易于使用的草圖繪制工具,適用于土地規劃師和基礎設施設計師。AutodeskInfraWorks可以生成可視化的高級模型,而無需借助輔助,可以獨立進行建模的BIM可視化軟件。 InfraWorks2018軟件預覽: 雙擊安裝包進行安裝。 自解壓中,等待即可。 點擊【安裝】。 點…

weblogic清除緩存

清除/weblogic/Oracle/Middleware/user_projects/domains/base_domain/servers/AdminServer/cache/下的文件 &#xff1a; [rootlocalhost Middleware]# mv /weblogic/Oracle/Middleware/user_projects/domains/base_domain/servers/AdminServer/cache/* /opt/20171208/ 清除/w…

有點酷,使用 .NET MAUI 探索太空

設計 我準備用 .NET Maui 實現一個非常有意思的 "前往太空" 的程序。第一步&#xff0c;需要圖片素材&#xff0c;我使用了 Aan Ragil 的一組非常棒的 Dribbble 素材圖片。當然&#xff0c;你也可以在最下面的鏈接進行下載。實現 這個應用程序的完整源代碼可以在 G…

CSS3 動畫插件 aos.js

aos.js是一款效果超贊的頁面滾動元素動畫jQuery動畫庫插件。該動畫庫可以在頁面滾動時提供28種不同的元素動畫效果&#xff0c;以及多種easing效果。在頁面往回滾動時&#xff0c;元素會恢復到原來的狀態。 安裝 yarn add aosnext或者 npm install --save aosnextimport AOS …

nginx匯總(z)

Nginx相關文章Nginx基礎1. nginx安裝2. nginx 編譯參數詳解3. nginx安裝配置清緩存模塊安裝4. nginxPHP 5.55. nginx配置虛擬主機6. nginx location配置7. nginx root&alias文件路徑配置8. ngx_http_core_module模塊提供的變量9. nginx日志配置10. apache和nginx支…

實例講解——系統登錄

一&#xff0c;程序分析 首先使用參數的方式輸入用戶名和密碼&#xff0c;所以&#xff0c;首先要判斷輸入參數的個數是否合法&#xff0c;如果不合法&#xff0c;則必須提示程序執行不對&#xff0c;并退出。 如果正確輸入&#xff0c;則可以進行密碼和用戶名的驗證&#xff0…

【Microsoft Office】Word 2019空格下劃線不顯示的解決辦法

解決辦法&#xff1a;點擊【文件】→【選項】→【高級】選項卡→勾選【為尾部空格添加下劃線(U)】&#xff0c;解決&#xff01;

1.安裝

轉自&#xff1a;http://www.ruanyifeng.com/blog/2015/12/a-mocha-tutorial-of-examples.html Mocha&#xff08;發音"摩卡"&#xff09;誕生于2011年&#xff0c;是現在最流行的JavaScript測試框架之一&#xff0c;在瀏覽器和Node環境都可以使用。 所謂"測試框…

SkiaSharp 之 WPF 自繪彈跳球(案例版)

熟悉下SkiaSharp的基礎操作&#xff0c;這次搞個彈跳球效果&#xff0c;實現后&#xff0c;發現效果還真不錯。大概效果如下:原理分析先是實現了網格效果&#xff0c;這個比較簡單&#xff0c;直接橫線&#xff0c;豎線&#xff0c;就OK了。另外一個就是隨機一個圓形&#xff0…

Windows11 發布更新 Insider Preview Build 22000.100

微軟今天凌晨向開發頻道中的所有用戶發布Windows 11 Insider Preview Build 22000.100&#xff01; 變化和改進 我們已經開始在 Dev Channel 中將 Chat 從 Microsoft Teams 推廣到 Insiders。不是每個人都會馬上看到&#xff0c;任務欄右下方的隱藏圖標彈出窗口已更新&#x…

django源碼簡析——后臺程序入口

django源碼簡析——后臺程序入口 這一年一直在用云筆記&#xff0c;平時記錄一些tips或者問題很方便&#xff0c;所以也就不再用博客進行記錄&#xff0c;還是想把最近學習到的一些東西和大家作以分享&#xff0c;也能夠對自己做一個總結。工作中主要基于django框架&#xff0c…

【BIM入門實戰】最新《建筑制圖與識圖》復習題帶參考答案(一)

文章目錄 一、單選題二、填空題三、簡答題四、繪圖題五、閱讀總平面圖,完成問題一、單選題 1.在圖紙右下角用以說明設計單位、圖名、設計負責人等內容的表格為(B )。 A. 會簽欄 B. 圖標 C. 圖框 D. 圖紙目錄 2.正面投影與側面投影應保持( C )的關系。 A.長度相等且對正…

yum安裝openoffice

安裝方法如下&#xff1a;1、首先安裝openoffice.org套件yum groupinstall "Office/Productivity" 安裝好后&#xff0c;由于采用默認安裝&#xff0c;語言是英文&#xff0c;我可以通過以下方法來查找來安裝中文語言包。yum list openoffice* ....openoffice.org-la…

常見RGB格式

計算機世界中&#xff0c;最終對于顏色和畫面的顯示&#xff0c;更多的采用的是RGB模式&#xff0c;這里記錄一下常見的RGB格式。任何計算機設備以及智能終端等&#xff0c;呈現在我們眼前的色彩實際上便是紅綠藍三基色不同的組合&#xff0c;RGB實際上就是三基色的組合&#x…

《ASP.NET Core 6框架揭秘》實例演示[04]:自定義依賴注入框架

ASP.NET Core框架建立在一個依賴注入框架之上&#xff0c;已注入的方式消費服務已經成為了ASP.NET Core基本的編程模式。為了使讀者能夠更好地理解原生的注入框架框架&#xff0c;我按照類似的設計創建了一個簡易版本的依賴注入框架&#xff0c;并它命名為“Cat”。本篇提供的四…

【QGIS入門實戰精品教程】4.8:QGIS如何下載SRTM數字高程模型DEM?

本文講解QGIS中下載SRTM數字高程模型DEM,以黑龍江省塔河縣為例。 圖幅效果: 最終效果: 文章目錄 1. 下載安裝STRM Download插件2. 加載矢量數據,讀取范圍3. 下載STRM4. DEM拼接5. DEM裁剪1. 下載安裝STRM Download插件 點擊【插件】→【管理并安裝插件】。 在搜索框中輸入…