OpenAI發表研究論文 介紹了一種逆向工程AI模型工作原理的方法

ChatGPT 開發商 OpenAI 構建人工智能的方法本周遭到了前員工的抨擊,他們指責該公司利用可能有害的技術冒不必要的風險。今天,OpenAI 發布了一篇新的研究論文,目的顯然是為了表明它在通過提高模型的可解釋性來應對人工智能風險方面的認真態度。

在這里插入圖片描述
在論文中,該公司的研究人員提出了一種窺探為 ChatGPT 提供動力的人工智能模型內部的方法。他們設計了一種方法來識別模型如何存儲某些概念–包括那些可能導致人工智能系統行為失常的概念。

雖然這項研究使 OpenAI 在控制人工智能方面的工作更加引人注目,但也凸顯了該公司最近的動蕩。新研究由 OpenAI最近解散的"超對齊"團隊完成,該團隊致力于研究技術的長期風險。

前小組的共同負責人伊利亞-蘇茨克沃(Ilya Sutskever)和揚-萊克(Jan Leike)均已離開OpenAI,并被列為共同作者。蘇茨克沃是OpenAI的創始人之一,曾任首席科學家,去年11月,董事會成員投票解雇了首席執行官山姆-奧特曼(Sam Altman),引發了幾天的混亂,最終奧特曼重返領導崗位。

ChatGPT 由一個名為 GPT 的大型語言模型系列提供支持,該模型基于一種被稱為人工神經網絡的機器學習方法。這些數學網絡通過分析示例數據顯示出了學習有用任務的強大能力,但它們的工作原理無法像傳統計算機程序那樣被輕易檢查。人工神經網絡中各層"神經元"之間復雜的相互作用,使得逆向分析 ChatGPT 這樣的系統為何會得出特定的反應極具挑戰性。

這項工作背后的研究人員在一篇隨附的博文中寫道:“與大多數人類創造物不同,我們并不真正了解神經網絡的內部運作。一些著名的人工智能研究人員認為,包括 ChatGPT 在內的最強大的人工智能模型或許可以用來設計生化武器和協調網絡攻擊。一個更長期的擔憂是,人工智能模型可能會選擇隱藏信息或以有害的方式行事,以實現它們的目標。”

OpenAI 的這篇新論文概述了一種技術,該技術借助額外的機器學習模型,識別代表機器學習系統內部特定概念的模式,從而稍稍降低了神秘感。創新的關鍵在于通過識別概念來完善用于窺探系統內部的網絡,從而提高效率。

OpenAI 通過在其最大的人工智能模型之一 GPT-4 中識別代表概念的模式證明了這種方法。該公司發布了與可解釋性工作相關的代碼,以及一個可視化工具,用于查看不同句子中的單詞如何激活 GPT-4 和另一個模型中的概念,包括褻瀆和色情內容。了解一個模型是如何表現某些概念的,這將有助于減少與不受歡迎的行為相關的概念,使人工智能系統保持正常運行。它還可以調整人工智能系統,使其偏向于某些主題或想法。

盡管 LLM 無法被輕易解讀,但越來越多的研究表明,它們可以被穿透,從而揭示出有用的信息。由亞馬遜和Google支持的 OpenAI 競爭對手 Anthropic 上個月也發表了類似的人工智能可解釋性研究成果。為了演示如何調整人工智能系統的行為,該公司的研究人員創造了一個癡迷于舊金山金門大橋的聊天機器人。有時,只需讓人工只能機器人解釋其推理過程,就能獲得深刻的見解。

東北大學從事人工智能可解釋性研究的教授大衛-鮑(David Bau)在談到 OpenAI 的新研究時說:"這是令人興奮的進展。“作為一個領域,我們需要學習如何更好地理解和審視這些大型模型。”

鮑說,OpenAI 團隊的主要創新在于展示了一種配置小型神經網絡的更有效方法,該網絡可用于理解大型神經網絡的組成部分。但他也指出,這項技術還需要改進,以使其更加可靠。要利用這些方法創造出完全可以理解的解釋,還有很多工作要做。"

鮑是美國政府資助的一項名為"國家深度推理結構"(National Deep Inference Fabric)的工作的一部分,這項工作將向學術研究人員提供云計算資源,以便他們也能探索特別強大的人工智能模型。他說:“我們需要想辦法讓科學家即使不在這些大公司工作,也能從事這項工作。”

OpenAI 的研究人員在論文中承認,要改進他們的方法還需要進一步的工作,但他們也表示,希望這種方法能帶來控制人工智能模型的實用方法。他們寫道:“我們希望有一天,可解釋性能為我們提供推理模型安全性和魯棒性的新方法,并通過為強大的人工智能模型的行為提供強有力的保證,大大增加我們對它們的信任。”

閱讀論文全文:

https://cdn.openai.com/papers/sparse-autoencoders.pdf

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/24444.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/24444.shtml
英文地址,請注明出處:http://en.pswp.cn/web/24444.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

hot100 -- 二分查找

目錄 前言 🎂搜索插入位置 🌼搜索二維矩陣 🌼排序數組元素第一和最后一個位置 🌼旋轉排序數組 💪旋轉排序數組中的最小值 💪兩個正序數組的中位數 前言 二分算法學習_時間超限ac:0%-CSDN博客 &#…

2024年【起重機械指揮】考試及起重機械指揮新版試題

題庫來源:安全生產模擬考試一點通公眾號小程序 起重機械指揮考試考前必練!安全生產模擬考試一點通每個月更新起重機械指揮新版試題題目及答案!多做幾遍,其實通過起重機械指揮試題及解析很簡單。 1、【多選題】《中華人民共和國特…

【Androi】安卓發展歷程詳解

人不走空 🌈個人主頁:人不走空 💖系列專欄:算法專題 ?詩詞歌賦:斯是陋室,惟吾德馨 目錄 🌈個人主頁:人不走空 💖系列專欄:算法專題 ?詩詞歌…

git推送代碼到github拒絕推送的解決方案

這里描述一下本地推送的場景,首先我在碼云上建立了一個前端項目,進行了自己的個性化開發,后期在github上創建了一個一樣的項目倉庫存放代碼。使用webstorm進行代碼開發。在下面這個位置可以選擇推送的代碼位置。 選擇推送github倉庫之后&…

Python深度學習基于Tensorflow(16)基于Tensorflow的對話實例

文章目錄 基礎數據清洗數據生成詞匯表定義分詞器并制作數據集構建Transformer模型并訓練模型推理 Tensorflow 的核心就是注意力機制,在之前詳細的介紹過,具體可以看這個:Python深度學習基于Tensorflow(9)注意力機制_te…

在Java中為什么對a賦值為10,在進行a++時還是等于10呢

首先我們看這樣一組代碼 public class demo1 {public static void main(String[] args) {int a10;aa;System.out.println(a);} } 結果:10不是在第二步有a操作嗎?為什么還是10呢? a的執行步驟如下: 保存當前a的值(即10…

websocket鏈接攜帶參數

前端創建鏈接時官方提供的構造函數 var aWebSocket new WebSocket(url, [protocols]); url:要連接的URL;這應該是WebSocket服務器將響應的URL。 protocols:可選;一個協議字符串或者一個包含協議字符串的數組。這些字符串用于指定…

智能語音電銷機器人可以做哪些事情?ai語音機器人系統

智能語音電銷機器人軟件的出現,給很多企業都帶來了福利,尤其是電銷企業,不僅工作效率提升了,成本降低了,還能實現智能化管理客戶的出現,給很多企業都帶來了福利,尤其是電銷企業,不僅…

python初學者筆記(八)——數字階乘

#python初學者筆記(8)——數字階乘 階乘是基斯頓卡曼于 1808 年發明的運算符號,是數學術語,一個正整數的階乘(factorial)是所有小于及等于該數的正整數的積。 下面利用Python編寫數字階乘 ##1.方法一:利用函數的方法,求輸入值的階乘 #coding…

WebAPI 前端開發流程:深度解析與實踐探索

WebAPI 前端開發流程:深度解析與實踐探索 在前端開發的世界里,WebAPI扮演著至關重要的角色,它作為前端與后端溝通的橋梁,確保了數據的流暢傳輸與功能的完整實現。本文將詳細探討WebAPI前端開發流程,從四個方面、五個方…

什么情況下需要配戴助聽器

以下幾種情況需要考慮配戴助聽器: 1、聽力無波動3個月以上的感音神經性聽力障礙。如:先天性聽力障礙、老年性聽力障礙、噪聲性聽力障礙、突聾的穩定期等,均可選配合適的助聽器。 2、年齡方面。使用助聽器沒有嚴格的年齡限制,從出生數周的嬰…

深度學習Week16——數據增強

文章目錄 深度學習Week16——數據增強 一、前言 二、我的環境 三、前期工作 1、配置環境 2、導入數據 2.1 加載數據 2.2 配置數據集 2.3 數據可視化 四、數據增強 五、增強方式 1、將其嵌入model中 2、在Dataset數據集中進行數據增強 六、訓練模型 七、自定義增強函數 一、前言…

Geoserver源碼解讀一(環境搭建)

一、Github地址 https://github.com/geoserver/geoserver 1.1 克隆代碼 git clone https://github.com/geoserver/geoserver.git 1.2 選擇版本 版本選擇參考我的上一篇文章 Geoserver 以及 Geotools各版本和jdk版本對照表 此處我選擇的是兼容jdk8的最后一個版本 git che…

netty+springboot+vue聊天室(需要了解netty)

先看看這個使用websocket實現的聊天室,因為前端是使用websocket,和下面的demo的前端差不多就不解釋實現原理,所以建議還是看看(要是會websocket的大佬請忽略) springbootwebsocketvue聊天室 目錄 一、實現內容二、代碼實現1.后端2.前端源碼…

html+CSS+js部分基礎運用17

在圖書列表中,為書名“零基礎學JavaScript”和“HTML5CSS3精彩編程200例”添加顏色。(請用class或style屬性實現),效果如下圖1所示: 圖1 圖書列表 Class和style的綜合應用。(1)應用class的對象、…

命令行打包最簡單的android項目從零開始到最終apk文件

準備好需要的工具 AndroidDevTools - Android開發工具 Android SDK下載 Android Studio下載 Gradle下載 SDK Tools下載 jdk的鏈接我就不發出來,自己選擇,我接下來用的是8版本的jdk和android10的sdk sdk的安裝和環境變量的配置 sdk tool壓縮包打開后是這樣子,打開sdk mana…

高防CDN是如何應對DDoS和CC攻擊的

高防CDN(內容分發網絡)主要通過分布式的網絡架構來幫助網站抵御DDoS(分布式拒絕服務)和CC(挑戰碰撞)攻擊。 下面是高防CDN如何應對這些攻擊的詳細描述: 1. DDoS攻擊防護 DDoS攻擊通過大量的惡…

SREC用什么軟件編程:全面解析與編程工具選擇

SREC用什么軟件編程:全面解析與編程工具選擇 在嵌入式系統開發中,SREC文件格式扮演著至關重要的角色,用于存儲和傳輸二進制數據。然而,對于許多初學者和開發者來說,如何選擇合適的軟件來編寫SREC文件卻是一個令人困惑…

STM32串口DMA 空閑中斷使用筆記

這里只記錄注意要點: 1,要開啟串口 全局中斷 和對應的接收DMA 中斷,兩個中斷必須同時開 2,裸機程序需要在主循環外調用一次 這個函數 HAL_UARTEx_ReceiveToIdle_DMA(&huart2, rx_buff, BUFF_SIZE); 3,要在串口中…

【動態規劃-BM71 最長上升子序列(一)】

題目 BM71 最長上升子序列(一) 分析 dp[i] 考慮到下標i&#xff0c;其組成的最長上升子序列長度 可以用動態規劃的原因&#xff1a; 到i的結果可以由到j &#xff08;j<i) 的結果推出&#xff0c;只需要判斷下標j對應的數字是否比下標i 對應的字母小即可 注意&#xf…