大模型的靈魂解讀:Anthropic AI的Claude3 Sonnet可解釋性研究

大模型技術論文不斷,每個月總會新增上千篇。本專欄精選論文重點解讀,主題還是圍繞著行業實踐和工程量產。若在某個環節出現卡點,可以回到大模型必備腔調重新閱讀。而最新科技(Mamba,xLSTM,KAN)則提供了大模型領域最新技術跟蹤。若對于構建生產級別架構則可以關注AI架構設計專欄。技術宅麻煩死磕LLM背后的基礎模型。

Anthropic的模型可解釋性團隊,一直想和大模型的靈魂交流,最近在研究Claude 3 Sonnet的內部的參數結構和工作原理時,獲得十分有趣的結論。總所周知,大模型基于人工神經網絡,里面的神經元的激活模式運用十分廣泛。研究人員認為研究這些激活模式以及對應神經元的分布就可以大致的將神經網絡的學習和掌握到的知識概念可視化。

研究思路

大模型理解一行詩詞或者意境主要是基于線性表示假設疊加假設。從更抽象以及更高維度上,線性表示假設表明神經網絡將具有一定意義的知識概念表示為其激活空間(N維)中的方向。而疊加假設則在線性表示假設的基礎上,并進一步提出了神經網絡是利用高維空間中的各種方向(幾乎正交的向量)的疊加來表示比N維數量更多的特征。這兩種假設的前提下誕生了一種研究標注方法就是字典學習(Dictionary learning)。

有論文表明這種解釋對于Transformer語言模型來說非常有效,例如一種稱為稀疏自動編碼器就非常有效,它近似的等同于字典學習。

稀疏自動編碼器在標準自動編碼器的基礎上增加了稀疏性約束。稀疏性約束通過在隱藏層中引入額外的懲罰項,限制隱藏單元的激活數量,使得大多數隱藏單元的激活值接近零。

假設有一個簡單的稀疏自動編碼器,輸入層有4個單元,隱藏層有3個單元,輸出層有4個單元。目標是學習一個稀疏的3維隱藏層表示,同時稀疏性的約束讓隱藏層的大多數單元的激活值接近零。

具體來說,研究人員使用了一種“字典學習”的技術。該技術主要是訓練一個單獨的神經網絡B,以盡可能緊湊重建被研究模型某些特定層的激活場景。然后,網絡B經過訓練后,權重會形成一個激活模式的“詞典”,稱為特征。每個特征代表模型已學習的一個知識概念

上面這段話的意思就是看下圖,用一個稀疏的自動編碼器將激活層進行分解,形成特征。分解成的特征比神經元的數量還多。這是因為MLP層可能使用疊加示比神經元更多的特征。事實上在最大的實驗中,可以擴展到比神經元多256倍(131072)的特征。

換句話說,它利用大模型的激活值來訓練一個類似等同的稀疏自動編碼器,因為是稀疏自動編碼器,所以可以比較直觀的觀察激活情況。注意下面的圖表,它采集了mlp的激活值大約8B進行訓練。

Sparse AutoEncoders(SAE)

本次研究人員使用的SAE是“稀疏字典學習”算法系列的一個實例,旨在將數據分解為稀疏的激活組件的加權和。

本次的SAE由兩層組成,第一層(“編碼器”)通過學習的線性變換和ReLU激活函數將輸入映射到更高維度空間。我們將這個高維的層稱為“特征(feature”。第二層(“解碼器”)嘗試通過激活的“特征”的線性變換來重建模型激活。當然訓練模型的過程是采用最小化重建誤差鼓勵稀疏的“特征”激活為目標進行迭代訓練。

一旦SAE 訓練完成,它就會提供一個模型激活的近似分解,將其分解為“特征方向”(SAE解碼器權重)的線性組合,其系數等于“特征”激活。稀疏性懲罰確保對于模型的許多給定輸入,只有極小一部分特征具有非零激活。因此,對于任何給定上下文中的任何給定標記,模型激活都由一小部分活動特征(從大量可能特征中)“解釋”。

本次訓練三個不同大小SAE:1,048,576(~1M)、4,194,304(~4M)和 33,554,432(~34M)個特征。對于三個SAE,給定 token 上活躍的特征(即具有非零激活)的平均數量少于 300,并且 SAE 重構至少解釋了模型激活方差的 65%。在訓練結束時,1M SAE 的死特征比例約為 2%,4M SAE 為 35%,34M SAE 為 65%。

即較小SAE中的特征在較大SAE中“分裂”成多個特征的現象,這些特征在幾何上接近且在語義上與原始特征相關,但表示更具體的概念。例如,1M SAE中的“舊金山”特征在4M SAE中分裂成兩個特征,在34M SAE中分裂成11個細粒度特征。

除了特征分裂之外,還看到一些示例,其中較大的SAE包含一些特征,這些特征代表了較小的 SAE中的特征無法捕捉到的概念。例如,4M和34M SAE中有一組地震特征,在 1M SAE中沒有類似的特征,而且最近的 1M SAE的特征似乎也沒有任何關聯。

示例:金門大橋

SAE提取的特征涵蓋范圍廣泛,從知名的公眾人物、地點、到程序代碼中的句法元素,再到同情或諷刺等抽象概念。下面的示例特征展示了來自 SAE 數據集中前 20 個文本輸入的代表性示例,按它們激活該特征的強度進行排序。單擊特征ID 可以找到更大的隨機采樣激活集。突出顯示的顏色表示每個標記的激活強度(白色:無激活,橙色:最強激活)。

聚焦金門大橋特征周圍的一個小街區,會發現其中有與舊金山特定位置相對應的特征,例如惡魔島和要塞。在更遠的地方還看到相關程度降低的特征,例如與太浩湖、優勝美地國家公園和索拉諾縣(靠近舊金山)相關的特征。在更遠的距離,我們還看到以更抽象的方式相關的特征,例如與其他地區的旅游景點相對應的特征(例如“法國梅多克葡萄酒產區”;“蘇格蘭斯凱島”)。總體而言,解碼器空間中的距離似乎粗略地映射到概念空間中的相關性,通常是以有趣和意想不到的方式。

緊接著來看看金門大橋特征34M/31164353。其最大激活基本上是對大橋的所有引用,較弱的激活還包括相關的旅游景點、類似的橋梁和其他紀念碑。接下來,腦科學特征34M/9493533激活了神經科學書籍和課程以及認知科學、心理學和相關哲學的討論。在 1M 訓練運行中,我們還發現一個特征強烈激活了各種交通基礎設施1M/3,包括火車、渡輪、隧道、橋梁甚至蟲洞!最后一個特征1M/887839??響應了熱門旅游景點,包括埃菲爾鐵塔、比薩斜塔、金門大橋和西斯廷教堂。

X軸代表激活值,藍色為不相關,紅色為直接相關。雖然分析方法僅適用于文本數據,但許多特征對相應概念的文本提及和圖像都很敏感。

研究人員發現了一個特征,它對提及金門大橋有特定的反應。當這個特征被人為地激活到最大值的十倍時,模型甚至開始將自己與這座大橋聯系起來,并產生諸如“我是金門大橋,我將舊金山與馬林縣連接起來”這樣的陳述。

免疫學特色1M/533737為中心,可以看到這個鄰域內有幾個不同的聚類。在圖的頂部,可以看到一個聚類專注于免疫功能低下的人、免疫抑制、導致免疫功能受損的疾病等等。向下向左移動時,它轉變為一個專注于特定疾病(感冒、流感、一般呼吸道疾病)的特征聚類,然后是與免疫反應相關的特征,然后是代表與免疫有關的器官系統的特征。相反,當從免疫功能低下的聚類向右向下移動時,可以看到更多與免疫系統的微觀方面(例如免疫球蛋白)相對應的特征,然后是免疫學技術(例如疫苗)等等。

在最底部與其他部分截然不同,看到了一組與非醫學背景(例如法律/社會)中的免疫相關的特征。

研究人員還發現了特征層次結構證據。例如在更詳細分析時,一般特征“舊金山”會分解為針對單個地標和街區的幾個更具體的特征。同樣,國家特征(例如“加拿大”或“冰島”)會分解為“地理”、“文化”和“政治”等子特征。

研究人員表示:“我們發現的特征僅代表模型在訓練期間學習到的所有概念的一小部分,而使用我們當前的技術找到一整套特征的成本將非常高昂(我們當前方法所需的計算量將大大超過用于訓練模型的計算量)。”

研究人員還發現了該模型的潛在問題特征。例如,有些特征對生物武器的開發、欺騙或操縱很敏感,可能會影響模型的行為。

論文指出,僅僅存在這些特征并不一定意味著模型(更)危險。然而,這表明需要更深入地了解這些特征何時以及如何被激活,然而打開大模型的黑匣子將可以幫助未來更好地理解語言模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/15649.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/15649.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/15649.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Vue集成Iframe

一、應用場景,為什么要集成Iframe? 1、龐大項目拆分后,便于管理和部署,用集成Iframe的方法合并 2、避免功能重復開發,共用模塊可單獨開發為一個項目,既可獨立部署,也可集成到中臺系統 二、集成…

[算法][前綴和] [leetcode]724. 尋找數組的中心下標

題目地址 https://leetcode.cn/problems/find-pivot-index/description/ 題目描述 代碼 class Solution {public int pivotIndex(int[] nums) {int total Arrays.stream(nums).sum();//前綴和int prefixSum 0;int len nums.length;for(int i 0;i<len;i){if (i-1>0){p…

小豬APP分發:一站式托管服務,輕松玩轉應用市場

在當今移動應用爆炸式增長的時代&#xff0c;開發者們面臨的挑戰不再僅限于創意的火花和代碼的實現&#xff0c;更在于如何讓精心打造的應用快速觸達廣大用戶。這正是小豬APP分發www.appzhu.net應運而生的背景——作為一個全面、高效的APP托管服務分發平臺&#xff0c;它為開發…

基于PHP的物業管理的設計與實現

第1章 緒論... 1 1.1 研究背景與意義... 1 1.2 國內外發展現狀... 2 第2章 關鍵技術介紹... 3 2.1 PHP語言... 3 2.2 MySQL數據庫... 3 2.3 Zend框架... 4 2.4 B/S架構... 4 第3章 系統需求分析... 5 3.1 可行性分析... 5 3.1.1 技術可行性分析... 5 3.1.2 經濟可行…

解決Java中的IllegalArgumentException異常的正確方法

解決Java中的IllegalArgumentException異常的正確方法 引言 在Java編程中&#xff0c;IllegalArgumentException是一個常見的運行時異常&#xff0c;它通常在方法接收到不合法或不適當的參數時拋出。這篇文章將詳細介紹IllegalArgumentException異常的原因、如何診斷以及解決…

金職優學:分析央國企面試如何通關?

在當今競爭激烈的就業市場中&#xff0c;中央和國有企業&#xff08;以下簡稱“央國企”&#xff09;的面試機會對求職者來說是非常有吸引力的。這些企業通常擁有穩定的發展前景、良好的薪酬福利和廣闊的職業發展空間。但是&#xff0c;要想成功通過央國企的面試&#xff0c;求…

探索Python編程世界:從基礎到實戰

新書上架~&#x1f447;全國包郵奧~ python實用小工具開發教程http://pythontoolsteach.com/3 歡迎關注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~ 目錄 一、Python語言簡介與動態特性 代碼示例&#xff1a;動態類型與變量命名 二、Python應用領…

vue 表格表頭展示不下,顯示。。。;鼠標懸浮展示全部

vue 表格表頭展示不下&#xff0c;顯示。。。&#xff1b;鼠標懸浮展示全部 <templateslot-scope"scope"slot"header"><span:title"臨時證券類型"style"white-space:nowrap">{{ 臨時證券類型 }}</span></templa…

Terminal Web終端基礎(Web IDE 技術探索 二)

Terminal是web終端技術&#xff0c;類似cmd命令窗口&#xff0c;Webcontainer 中推薦使用的是Xterm.js&#xff0c;這里就不細說Xterm.js 的使用了&#xff0c;我們使用第三方庫來實現&#xff08;原生確實有點難用&#xff09;。 vue-web-terminal 一個由 Vue 構建的支持多內容…

【設計模式】JAVA Design Patterns——Bytecode(字節碼模式)

&#x1f50d;目的 允許編碼行為作為虛擬機的指令 &#x1f50d;解釋 真實世界例子 一個團隊正在開發一款新的巫師對戰游戲。巫師的行為需要經過精心的調整和上百次的游玩測試。每次當游戲設計師想改變巫師行為時都讓程序員去修改代碼這是不妥的&#xff0c;所以巫師行為以數據…

環形鏈表Ⅱ-力扣

第一種解法時哈希表&#xff0c;set在使用insert插入時&#xff0c;會返回一個pair&#xff0c;如果pair的值為0&#xff0c;則插入失敗&#xff0c;那么返回這個插入失敗的節點&#xff0c;就是入環的第一個節點&#xff0c;代碼如下&#xff1a; /*** Definition for singly…

導航【面試準備】

導航【面試準備】 前言版權導航【面試準備】面經準備 最后 前言 2024-5-20 12:47:11 以下內容源自《【面試準備】》 僅供學習交流使用 版權 禁止其他平臺發布時刪除以下此話 本文首次發布于CSDN平臺 作者是CSDN日星月云 博客主頁是https://jsss-1.blog.csdn.net 禁止其他平…

AcW木棒-XMUOJ恢復破碎的符咒木牌-DFS與剪枝

題目 思路 話不多說&#xff0c;直接上代碼 代碼 /* AcW木棒-XMUOJ恢復破碎的符咒木牌 搜索順序&#xff1a;從小到大枚舉最終的長度 len從前往后依次拼每根長度為len的木棍 優化&#xff1a; 1.優化搜索順序&#xff1a;優先選擇深度短的來搜索&#xff0c;故從大到小去枚…

【系統分析師】WEB開發-案例

文章目錄 1、WEB開發涉及內容1.1 負載均衡技術1.2 數據庫讀寫分離1.3 緩存 緩解讀庫壓力1.4 CDN1.5 WEB應用服務器1.6 整體結構1.6 相關技術1.6.1 redis相關(集群、持久化等)1.6.2 XML與JSON1.6.3 REST1.6.4 響應式web設計1.6.5 關于中臺1.6.6 Web系統分層 1、WEB開發涉及內容 …

Python--面向對象

面向對象?? 1. 面向對象和面向過程思想 面向對象和面向過程都是一種編程思想,就是解決問題的思路 面向過程&#xff1a;POP(Procedure Oriented Programming)面向過程語言代表是c語言面向對象&#xff1a;OOP(Object Oriented Programming)常見的面向對象語言包括:java c g…

19c數據庫19.9以下dg切換打開hang住問題

原主庫發起切換請求&#xff0c;原主庫正常切換數據庫角色&#xff0c;但原從庫無法正常打開數據庫&#xff0c;嘗試關閉重啟&#xff0c;依舊無法解決問題。 查看切換過程中原從庫數據庫后臺日志&#xff0c;發現數據庫一直不斷重試清理 SRLs&#xff0c; 后臺alert日志&…

力扣HOT100 - 21. 合并兩個有序鏈表

解題思路&#xff1a; class Solution {public ListNode mergeTwoLists(ListNode list1, ListNode list2) {ListNode dum new ListNode(0), cur dum;while (list1 ! null && list2 ! null) {if (list1.val < list2.val) {cur.next list1;list1 list1.next;} els…

基本IO接口

引入 基本輸入接口 示例1 示例2&#xff1a;有數據保持能力的外設 #RD端由in指令控制&#xff1a;將數據由端口傳輸到CPU內存中 #CS244信號由譯碼電路實現 示例3&#xff1a; a)圖中由于輸出端口6有連接到端口1&#xff0c;當開關與端點1閉合時期間&#xff0c;仍能維持3端口…

插件:NGUI

一、版本 安裝完畢后重啟一下即可&#xff0c;否則可能創建的UI元素不生效 二、使用 Label文字 1、創建Canvs 2、只有根節點的這些腳本全部展開才能鼠標右鍵創建UI元素 3、選擇字體 Sprite圖片 1、選擇圖集 2、選擇圖集中的精靈 Panel容器 用來裝UI的容器&#xff0c;一般UI…

設計模式-策略模式-使用

設計模式-策略模式-CSDN博客 系統中有很多類&#xff0c;它們之間的區別僅在于它們的行為。策略模式可以定義一系列的算法&#xff0c;并將它們一個個封裝起來&#xff0c;使它們可以相互替換。這樣&#xff0c;算法就可以獨立于使用它的客戶而變化。需要使用算法的不同變體。…