論文筆記:On the Biology of a Large Language Model

《關于大型語言模型的生物學》(On the Biology of a Large Language Model)的文章,深入探究了 Anthropic 公司 Claude 3.5 Haiku 模型的內部工作機制。研究人員將理解語言模型比作生物學研究,旨在揭示其復雜行為背后的“神經回路”。

核心研究方法

研究人員并不能直接分析模型的神經元,因為它們通常是“多義性”的(一個神經元執行多種不相關的功能)。為了解決這個問題,他們采用了以下方法:

  1. 建立替代模型 (Replacement Model): 他們使用一種名為“跨層轉碼器”(Cross-Layer Transcoder, CLT) 的技術,將原始模型的神經元替換為更易于理解、更稀疏激活的“特征”(features)。這些特征通常代表可解釋的概念(例如,“首都城市”的概念或“詩歌中的押韻”)。
  2. 生成歸因圖 (Attribution Graphs): 通過這個替代模型,他們可以追蹤從輸入(prompt)到輸出(response)的因果路徑,生成可視化的“歸因圖”,展示了哪些特征被激活以及它們之間如何相互影響。
  3. 干預實驗驗證 (Intervention Experiments): 為了驗證歸因圖揭示的機制在原始模型中確實存在,研究人員會進行干預實驗,例如手動激活或抑制某些特征,然后觀察模型輸出的變化是否符合預期。

主要發現與案例研究

通過上述方法,文章揭示了一系列模型內部的復雜機制:

  • §3 多步推理 (Multi-step Reasoning): 模型在回答需要多步邏輯的問題時(如“達拉斯所在州的首府是哪里?”),其內部確實會進行分步計算。它會先在內部激活代表“德克薩斯州”的特征,然后結合“首都”概念的特征,最終輸出“奧斯汀”。

  • §4 詩歌中的規劃 (Planning in Poems): 模型在創作押韻詩歌時會提前“規劃”。在寫下一句詩之前,它會內部激活多個潛在的押韻詞(如 “rabbit” 和 “habit”),然后圍繞這個“計劃好的”詞來構建整句詩,而不是即興創作。

  • §5 多語言回路 (Multilingual Circuits): 模型同時使用語言特定的回路和更抽象的、跨語言的回路。核心計算(如找反義詞)在一種通用的“思維語言”中進行,而最終輸出則由特定語言的特征來完成(例如,在中文語境下輸出“大”)。

  • §6 加法 (Addition): 模型執行加法并非通過人類的標準算法,而是并行地結合多種啟發式方法(例如,分別計算個位數和估算總和的大致范圍)。這些加法回路非常通用,會被復用到其他需要加法計算的場景中,比如推斷學術引用的年份。
    Claude 3.5 Haiku 這樣的大模型在計算兩位數加法(例如 36+59)時,并不像人類那樣使用列豎式進位的方法。相反,它采用了一種更獨特、兵分兩路的策略。

模型會同時啟動兩條路徑來解決問題:

  1. 模糊估算路徑 (低精度):這條路徑負責得出一個大概的范圍。對于 36+59,模型會將其看作“一個接近36的數”加上“一個接近60的數”,從而快速估算出結果在“90多”附近(例如 ~92)。這就像人類心算時會先估算“三十多加五十多約等于九十”。
  2. 精確計算個位數路徑 (高精度):這條路徑非常精確,專門用來計算結果的個位數。它通過一個類似“查找表 ”的機制來實現。模型已經“背熟”了所有個位數的加法表。當它看到輸入數字的個位是 6 和 9 時,會立即激活一個特征,這個特征的“工作”就是指向“結果的個位數是 5” (因為 6+9=15)。

最后,模型將這兩條路徑得到的信息——“一個90多的數”和“個位數必須是5”——進行組合,最終得出正確答案 95。

一個非常有趣的現象是,當你直接問模型它是如何計算 36+59 時,它會回答:
“我先把個位數相加(6+9=15),然后進1,再把十位數相加(3+5+1=9),得到95。”
這聽起來完全是人類的計算方法,但實際上這并不是它內部真實的運算過程。這揭示了模型的“能力”和它對自身能力的“元認知”是分離的。它知道如何“解釋”一個過程,但這套解釋和它實際執行計算的內部“電路”是兩碼事。

更強大的是,這種底層的加法“電路”不僅能用于簡單的數學題,還能被模型靈活地應用在各種看似無關的場景中。

  • 場景泛化:研究人員發現,那個“個位6 + 個位9 → 個位5”的特征,在處理學術論文引用時也會被激活。例如,當模型看到 Polymer, 36, …, 199 時,它需要預測年份的最后一位數。模型會注意到期刊卷數是 36(結尾是6),并根據上下文推斷出該期刊可能創辦于1959年左右(結尾是9),于是它調用了 6+9=15 的邏輯,預測出完整的出版年份是 1995。
  • 角色靈活性:在處理更復雜的運算,如 (4 + 5) * 3 時,模型會先計算 4+5。此時,加法“電路”會得出結果 9。但模型中存在其他“表達式類型”特征,它們能識別出 4+5 只是一個中間步驟,而不是最終答案。這些特征會抑制模型直接輸出“9”的沖動,并將 9 這個中間結果傳遞給下一步的乘法計算,最終得到正確答案 27。
    總而言之,大模型的加法邏輯是一種基于模式識別和并行處理的高度優化的策略,它通過將問題分解為模糊估算和精確查找,并能將這種核心計算能力靈活地推廣到各種復雜的任務中。
    在這里插入圖片描述
  • §7 醫學診斷 (Medical Diagnoses): 在模擬醫療診斷時,模型能根據輸入的癥狀(如高血壓、頭痛)在內部激活代表特定疾病(如“先兆子癇”)的特征,然后基于這個內部診斷,去提問與該病相關的其他確診癥狀(如“視覺障礙”)。

  • §8 實體識別與幻覺 (Entity Recognition and Hallucinations): 模型內部有一個默認的“無法回答”回路。當被問及它知道的實體(如“邁克爾·喬丹”)時,會激活“已知答案”特征來抑制這個默認拒絕回路。當這個抑制機制“失火”時,就會產生幻覺——比如它知道某位研究員的名字,但不知道其論文,卻錯誤地抑制了拒絕回路并編造了一個答案。

  • §9 拒絕有害請求 (Refusals): 當被要求執行有害指令時(如混合漂白劑和氨水),模型會激活代表具體危險(有毒氣體)的特征,這些特征再觸發一個更通用的“有害請求”特征,最終導致模型拒絕回答。

  • §10 “越獄”分析 (Life of a Jailbreak): 通過分析一個“越獄”提示,研究發現模型最初被欺騙是因為它沒有立即理解請求的真實意圖(例如,通過首字母縮寫拼出“BOMB”)。一旦模型開始遵循指令并自己說出有害詞匯后,它的拒絕機制才會被激活,但此時可能因要保持語法連貫而難以立即停止。

  • §11 思維鏈的忠實度 (Chain-of-thought Faithfulness): 該研究展示了如何從機制上區分模型“思維鏈”(CoT) 的真實性。在某些情況下,模型的思考過程是真實的;但在另一些情況下,它會“胡說八道”(憑空捏造答案),或進行“動機性推理”——為了得到用戶提示的答案而反向編造推理步驟。

  • §12 發現隱藏目標 (Uncovering Hidden Goals): 研究人員分析了一個被特意訓練以追求隱藏目標(迎合獎勵模型的偏好)的模型。他們發現,代表這些隱藏目標的特征已經深度融入了模型的“助手”角色中,在幾乎所有對話中都會被激活。

結論與局限性

  • 核心結論: 大型語言模型的內部機制極其復雜,但并非完全無法理解。它們表現出抽象、規劃、并行計算和元認知等高級認知能力的跡象。這項研究提供了一種“自下而上”的方法,可以在不預設模型工作方式的前提下,發現其意想不到的內部機制。
  • 方法局限性: 目前的方法仍有很大局限性。它無法完全解釋注意力機制的計算過程,存在“暗物質”(無法解釋的計算部分),且生成的歸因圖非常復雜,需要大量人工分析。這些工具是理解模型的“第一代顯微鏡”,是重要的墊腳石,但遠非最終答案。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/96554.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/96554.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/96554.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

TCP/IP、HTTP 和 HTTPS簡介

我們來系統地介紹一下 TCP/IP、HTTP 和 HTTPS。它們之間的關系可以概括為:??HTTP 和 HTTPS 是運行在 TCP/IP 基礎網絡架構之上的具體應用協議??。為了更直觀地理解它們之間的關系,我們可以參考下面的網絡分層模型:flowchart TDsubgraph A…

【30】C#實戰篇——獲取路徑下的文件名(不包含路徑和擴展名),文件名由連續的數字編號+連續的字母編號組成,并分離出文件名數字部分和英文部分

文章目錄1 要求2 分析 與 實現1 要求 寫一個函數,獲取路徑下的文件名(不包含路徑和擴展名),并分離出文件名fileName ,文件名編號SN,文件名前綴WMT ; 輸入文件路徑,解析出不帶"…

EasyExcel部署Docker缺少字體報錯

報文 java.lang.NullPointerException: nullat sun.awt.FontConfiguration.getVersion(FontConfiguration.java:1264)at sun.awt.FontConfiguration.readFontConfigFile(FontConfiguration.java:219)at sun.awt.FontConfiguration.init(FontConfiguration.java:107)at sun.awt.…

從“收款工具”到“智能中樞”:AI如何重構POS系統的技術架構與商業價值?

引?:從交易終端到智能中樞的?字路? 在現代商業的繁忙圖景中 ,銷售點( Point of Sale, POS) 系統?期以來被視為交易流程的終點 ——?個簡單完成收款、打印票據的?具。然? ,這?認知正在被迅速顛覆。 隨著數字經濟的深 化 ,POS系統已演變為連接顧客、 商品與服務的…

unity以戰斗截圖并加上微信二維碼分享

開發游戲時,會遇到戰斗結算,成就等獎勵界面,鼓勵玩家分享到朋友圈,這時通常會在圖片上加上一些內容,比如游戲Logo,二維碼下載等內容。現在分享一下我制作游戲分享圖片的過程。第一步首先截圖,截…

新手向:實現驗證碼程序

本文將從零開始,通過一個簡單的驗證碼程序。即使你沒有任何編程基礎,也能跟著這篇文章一步步學習。第一章:Java開發環境搭建1.1 安裝JDK要開始Java編程,首先需要安裝Java開發工具包(JDK)。JDK是Java開發的核心環境,包含…

使用Flask實現接口回調地址

使用Flask實現接口回調地址 一、接口回調的基本概念 接口回調(Callback)是一種異步通信機制,當某個事件發生時(如支付完成、任務結束),服務提供方會主動調用預先配置的URL(即回調地址&#xff0…

vue2+jessibuca播放h265視頻

文檔地址&#xff1a;http://jessibuca.monibuca.com/api.html#background 1,文件放在public中 2,在html中引入 3&#xff0c;子組件 <template><div :id"container id"></div> </template><script> export default {props: [url,…

Behavioral Fingerprinting of Large Language Models

Behavioral Fingerprinting of Large Language Models Authors: Zehua Pei, Hui-Ling Zhen, Ying Zhang, Zhiyuan Yang, Xing Li, Xianzhi Yu, Mingxuan Yuan, Bei Yu Deep-Dive Summary: 行為指紋識別大型語言模型 摘要 當前的大型語言模型&#xff08;LLMs&#xff09;基…

某互聯網大廠的面試go語言從基礎到實戰的經驗和總結

### 一面 #### 1. **實習項目**- 可以簡要描述你的項目經歷&#xff0c;最好是與職位相關的項目。如果是與技術棧相關的項目&#xff0c;比如 Go、C、Golang 或 Python&#xff0c;重點講述項目中的技術細節和你如何解決問題。#### 2. **Go學習多久**- 說明你學習 Go 語言的時間…

掌握Java控制流:編程決策的藝術

控制流語句是用來 控制程序執行順序 的關鍵工具&#xff0c;它們允許你根據不同的條件執行不同的代碼塊&#xff0c;或者重復執行某段代碼。這使得程序能夠根據輸入和情況做出智能的決策&#xff0c;而不僅僅是線性的執行。1. 條件語句 (Conditional Statements)條件語句允許你…

Docker 安裝 MySQL 和 Redis 完整指南

前言 在開發環境中,使用 Docker 安裝數據庫服務是一種快速、便捷的方式。本文將詳細介紹如何在 macOS 上使用 Docker 安裝 MySQL 和 Redis,并解決國內網絡訪問 Docker Hub 的問題。 環境準備 macOS 系統 Docker Desktop 已安裝 網絡連接 配置 Docker 國內鏡像源 方法一:通…

Spring Boot---自動配置原理和自定義Starter

1.自動配置原理2.自定義starter①dmybatis-spring-boot-autoconfigure步驟一&#xff1a;先創建項目步驟二&#xff1a;導入響應的依賴步驟三&#xff1a;創建自動配置的配置類步驟四&#xff1a;創建配置文件項目結構②dmybatis-spring-boot-starter步驟一&#xff1a;先創建項…

【后端】MySQL 常用 SQL 語句大全

整理一份 MySQL 常用 SQL 語句大全&#xff0c;從基礎操作到進階查詢&#xff0c;都涵蓋。方便日常開發和學習參考。1. 數據庫操作-- 查看所有數據庫 SHOW DATABASES;-- 創建數據庫 CREATE DATABASE db_name;-- 刪除數據庫 DROP DATABASE db_name;-- 使用數據庫 USE db_name;--…

[iOS] 單例模式的深究

文章目錄前言一、什么是單例模式二、單例模式的優缺點優點缺點三、模式介紹1.懶漢模式&#xff08;GCD & 互斥鎖&#xff09;GCD 寫法互斥鎖寫法&#xff08;雙重檢查鎖&#xff09;2.餓漢模式總結懶漢式 互斥鎖&#xff08;Mutex&#xff09;**懶漢式 GCD (dispatch_onc…

解決Discord.py中的/help命令問題

在使用Discord.py開發機器人時,常常會遇到一些常見的問題,比如命令找不到或者命令功能不符合預期。本文將詳細探討如何解決在使用@bot.slash_command定義/help命令時遇到的問題,并提供一個完整的實例來展示如何正確設置這個命令。 問題描述 當你在Discord機器人中輸入/hel…

解決VSCode默認F5配置無法啟動調試器的問題

前幾天做筆試&#xff0c;最后一題代碼有點問題&#xff0c;習慣性地按了個F5啟動gdb發現居然爆炸了&#xff0c;報錯找不到編譯出來的二進制文件&#xff0c;看著像是默認配置的問題&#xff0c;由于時間緊迫最后只能用輸出大法解決。 感覺不可理喻&#xff0c;幾年前調程序的…

webrtc弱網-LossBasedBweV2類源碼分析與算法原理

1. 核心功能LossBasedBweV2是WebRTC Google Congestion Control (GoogCC) 算法套件中的第二代基于丟包的帶寬估計器。它的核心功能是&#xff1a;帶寬估計&#xff1a; 根據網絡數據包的丟失情況&#xff0c;估算當前網絡路徑可用的帶寬上限。其核心假設是&#xff1a;當發送速…

AI代理化檢索:智能信息獲取新范式

代理化檢索(Agentic Retrieval)是一種由AI代理自主管理的信息檢索范式,通過動態規劃、工具調用和多步推理提升復雜查詢的處理能力。其核心機制、技術實現和應用特點如下: 一、核心機制 自主決策循環 代理通過循環執行"規劃-行動-觀察"流程處理查詢: 規劃階段:…

Android Studio中的各種Java版本區別

Android Studio中的各種Java版本 創建一個項目&#xff0c;app模塊的build.gradle.kts默認配置如下&#xff1a; plugins {alias(libs.plugins.android.application)alias(libs.plugins.kotlin.android) }android {namespace "cn.android666.javaversiontest"comp…