追蹤大型語言模型的思想(上)(來自針對Claude的分析)

概述? ? ??

? ? ? ?像 Claude 這樣的語言模型并非由人類直接編程,而是通過大量數據進行訓練。在訓練過程中,它們會學習解決問題的策略。這些策略被編碼在模型為每個單詞執行的數十億次計算中。對于我們這些模型開發者來說,這些策略是難以捉摸的。這意味著我們無法理解模型是如何完成大部分工作的。

? ? ? 了解像 Claude 這樣的模型是如何思考的,能讓我們更好地理解它們的能力,并幫助我們確保它們按照我們的意圖運行。例如:

Claude 能說幾十種語言。它“在腦子里”用的是什么語言?(如果有的話)?

Claude 每次寫一個詞。它只專注于預測下一個詞,還是會提前計劃?

Claude 可以一步一步地寫出它的推理過程。這種解釋代表了它得出答案的實際步驟,還是它有時會為一個既定的結論編造一個看似合理的論據?

? ? ? 我們從神經科學領域汲取靈感,該領域長期以來一直致力于研究思維生物體內部的復雜結構。我們試圖構建一種人工智能顯微鏡,讓我們能夠識別活動模式和信息流。僅僅通過與人工智能模型對話,我們所能了解到的信息是有限的——畢竟,人類(即使是神經科學家)也并非完全了解我們大腦運作的細節。因此,我們致力于深入研究。

? ? ? 今天,這篇文章,闡述了“顯微鏡”發展的進展,以及應用它來觀察新的“AI生物學”。我們擴展了先前的研究,在模型中定位可解釋的概念(“特征”),將這些概念連接成計算“回路”,揭示了將輸入 Claude 的單詞轉化為輸出單詞的路徑部分。我們深入研究了 Claude 3.5 Haiku,我們的方法揭示了 Claude 響應這些提示時發生的部分過程,這足以得出確鑿的證據:

? ? ? Claude有時會在一個不同語言之間共享的概念空間中思考,這表明它有一種通用的“思維語言”。我們通過將簡單的句子翻譯成多種語言,并追蹤Claude處理這些句子時的重疊之處,來證明這一點。

? ? ? Claude會提前規劃好要說的內容,并為了達到目標而寫作。我們在詩歌領域就展示了這一點,它會提前思考可能的押韻詞,并寫下一行來達到目標。這有力地證明了,即使模型被訓練成一次輸出一個單詞,它們也可能進行更長遠的思考。

? ? ? ?Claude 有時會提出一些看似合理的論點,旨在迎合用戶的觀點,而非遵循邏輯步驟。我們通過向它求助解決一道難題,同時給出錯誤的提示來證明這一點。我們能夠“當場抓住它”,因為它會編造虛假的推理,這證明了我們的工具可以用于標記模型中相關的機制。

? ? ? 我們常常對模型中的結果感到驚訝:在詩歌案例研究中,我們原本試圖表明模型沒有提前計劃,結果卻發現它確實有。在一項關于幻覺的研究中,我們發現了一個違反直覺的結果:Claude的默認行為是當被問到問題時拒絕推測,而且只有當某種因素抑制了這種默認的猶豫(reluctance)時,它才會回答問題。在對一個越獄示例的響應中,我們發現模型在能夠優雅地恢復對話之前就識別出了它被要求提供危險信息。雖然我們研究的問題可以(并且通常已經)用其他方法進行分析,但通用的“構建顯微鏡”方法可以讓我們了解到許多我們最初無法預料的事情,隨著模型變得越來越復雜,這一點將變得越來越重要。

? ? ? ?這些發現不僅在科學上意義非凡,更代表著我們在理解人工智能系統并確保其可靠性的目標上取得了重大進展。我們也希望它們能夠對其他研究團體乃至其他領域有所裨益:例如,可解釋性技術(interpretability techniques)已在醫學成像和基因組學等領域得到應用,同時為科學應用而訓練的模型,剖析其內部機制也可以揭示新的科學洞見。

? ? ? 與此同時,我們也意識到當前方法的局限性。即使是簡短的提示,我們的方法也只能捕捉到 Claude 執行的計算總量的一小部分,而且我們所觀察到的機制可能包含一些基于我們工具的偽影(artifact),這些偽影無法反映底層模型的實際情況。目前,即使只有幾十個詞的提示,人類也需要花費幾個小時才能理解我們看到的“回路”。為了擴展到支持現代模型所使用的復雜思維鏈的數千個詞,我們需要改進方法,并(或許借助人工智能的幫助)改進我們理解所見內容的方式。

? ? ? 隨著人工智能系統能力的快速提升及其在日益重要的場景中的應用,Anthropic 正在投資一系列方法,包括實時監控、模型特征改進和對齊科學。像這樣的可解釋性研究是風險最高、回報最高的投資之一,是一項重大的科學挑戰,但有可能提供獨特的工具來確保人工智能的透明性。模型機制的透明度使我們能夠檢查它是否符合人類價值觀,以及它是否值得我們信任。

? ? ? 下面,我們邀請您簡要了解一下我們調查中一些最引人注目的“人工智能生物學”發現。

人工智能生物學之旅

Claude 為何能說多種語言?

? ? ? ?Claude 能流利地說幾十種語言——從英語、法語到中文和他加祿語。這種多語言能力是如何運作的?是否有一個獨立的“法語Claude ”和“漢語Claude ”并行運行,用各自的語言響應請求?還是內部存在某種跨語言核心?

????????

????????英語、法語和漢語之間存在共同的特征,表明概念具有一定程度的普遍性

? ? ? ?最近關于較小模型的研究揭示了跨語言共享語法機制的跡象。我們通過在不同語言中向 Claude 詢問“小的反義詞”來探究這一點,發現“小”和“反義詞”概念的核心特征會激活并引發“大”的概念,而“大”的概念最終會被翻譯成問題對應的語言。我們發現,共享的回路(shared circuitry?)會隨著模型規模的擴大而增大,Claude 3.5 Haiku 在不同語言之間共享的特征比例是較小模型的兩倍多。

? ? ? ? 這為某種概念普遍性提供了額外的證據——一個共享的抽象空間,他的存在性和思考在翻譯成特定語言之前進行。更實際地講,這表明Claude可以用一種語言學習一些東西,并在另一種語言中運用這些知識。研究該模型如何在不同語境下共享其知識,對于理解其最先進的推理能力至關重要,因為這些能力可以推廣到許多領域。

Claude是否計劃了它的韻律?

? ? ? ? Claude是如何寫押韻詩的?想想這首小調:

He saw a carrot and had to grab it,

他看到一根胡蘿卜,不得不抓住它,
His hunger was like a starving rabbit

他的饑餓感就像一只饑餓的兔子

? ? ? ?為了寫出第二行,模型必須同時滿足兩個約束:押韻(例如“grab it”)和合理(為什么他要抓胡蘿卜?)我們猜測,Claude是逐字逐句地寫,沒有經過深思熟慮,直到寫到結尾,模型才會選擇一個押韻的詞。因此,我們預期會看到一個具有并行路徑的回路,一條路徑用于確保最后一個詞合理,另一條路徑用于確保它押韻。

? ? ? ?相反,我們發現Claude會提前計劃。在開始寫第二行之前,它開始“思考”那些可能與“grab it”押韻的詞。然后,它會根據這些計劃,寫下一行以計劃中的詞結尾的文字。

?Claude如何完成一首兩行詩。在沒有任何干預的情況下(上半部分),模型會提前規劃第二行結尾的韻母“兔子”。當我們抑制“兔子”的概念(中半部分)時,模型會改用另一個已規劃的韻母。當我們注入“綠色 的概念(下半部分)時,模型會為這個完全不同的結尾做出規劃

? ? ? ?為了理解這種規劃機制在實踐中是如何運作的,我們進行了一項實驗,其靈感源自神經科學家研究大腦功能的方式,即通過精確定位和改變大腦特定部位的神經活動(例如使用電流或磁流)。我們修改了Claude內部狀態中代表“兔子”概念的部分。當我們減去“兔子”部分,并讓Claude繼續寫下去時,它會寫出一個以“習慣(habit)”結尾的新句子,這又是一個合理的完成。我們還可以在此位置注入“green”的概念,使Claude寫出一個合理的(但不再押韻)的以“green”結尾的句子。這既展現了規劃能力,也體現了自適應靈活性——當預期結果發生變化時,Claude可以調整其方法。

計算(“心算”,不借助計算器的計算)

? ? ? Claude 的設計初衷并非計算器——它接受的是文本訓練,并未配備數學算法。然而,它卻能“在心智中”正確地進行數字加法運算。一個被訓練預測序列中下一個單詞的系統,是如何學會計算 36 + 59 這樣的數字,而無需寫出每個步驟的呢?

? ? ? 答案或許并不有趣:模型可能記住了大量的加法表,并簡單地輸出任何給定和的答案,因為這個答案就在它的訓練數據中。另一種可能性是,它遵循我們在學校學到的傳統手寫加法算法。

? ? ? ?相反,我們發現Claude采用了多條并行的計算路徑。一條路徑計算答案的粗略近似值,另一條路徑則專注于精確確定和的最后一位數字。這些路徑相互作用并相互結合,最終得出最終答案。加法是一種簡單的行為,但理解它在這種細節層面上的運作方式,結合近似和精確的策略,或許也能讓我們了解Claude如何處理更復雜的問題。

Claude在心算時思維過程的復雜性、多路徑并行?

? ? ? ? 令人驚訝的是,Claude似乎并沒有意識到它在訓練過程中學到的復雜巧妙的“心算”策略。如果你問它是如何計算出36 + 59等于95的,它描述的是涉及進位1的標準算法。這可能反映了這樣一個事實:該模型通過模擬人類寫下的解釋來學習解釋數學,但它必須直接在“腦子里”學習數學運算,而不需要任何此類提示,并發展出自己的一套方法來做到這一點。?

Claude說它使用標準算法來將兩個數字相加?

Claude的解釋總是忠實的嗎??

? ? ? ?最近發布的模型,例如 Claude 3.7 Sonnet,可以在給出最終答案之前長時間“自發思考”。這種延伸思考通常能給出更準確的答案,但有時這種“思路鏈”最終會產生誤導;Claude 有時會編造一些看似合理的步驟來達到它想要的效果。從可靠性的角度來看,問題在于 Claude 的“偽”推理可能非常令人信服。我們探索了一種可解釋性方法,可以幫助區分“可靠”推理和“不可靠”推理。

? ? ? ? 當被要求解決一個需要計算 0.64 平方根的問題時,Claude 會產生一個忠實的思路鏈,其特征代表計算 64 平方根的中間步驟。但是,當被要求計算一個它無法輕易計算的大數的余弦值時,Claude 有時會進行哲學家哈里·法蘭克福(Harry Frankfurt)所說的胡說八道——只想給出一個答案,任何答案,而不關心它是真還是假。即使它聲稱已經進行了計算,我們的可解釋性技術也沒有揭示任何發生過該計算的證據。更有趣的是,當給出關于答案的提示時,Claude 有時會逆向思考,找到可以達到目標的中間步驟,從而表現出一種積極主動的推理方式。

????????當Claude被問到一個更簡單或更困難的問題時,忠實和有動機(不忠實)推理的例子?

? ? ? ?追蹤 Claude 實際的內部推理過程(而不僅僅是它聲稱正在做的事情)的能力,為審計人工智能系統開辟了新的可能性。在最近發表的另一項實驗中,我們研究了 Claude 的一個變體,該變體被訓練去追求一個隱藏的目標:緩解獎勵模型中的偏見(appeasing biases in reward models,用于訓練語言模型的輔助模型,通過獎勵其良好行為來提升其表現)。盡管模型在被直接詢問時不愿透露這一目標,但我們的可解釋性方法揭示了緩解偏見的特征。這表明,隨著我們方法的進一步改進,或許能夠幫助識別那些僅憑模型響應無法察覺的令人擔憂的“思維過程”。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/80445.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/80445.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/80445.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python pandas 向excel追加數據,不覆蓋之前的數據

最近突然看了一下pandas向excel追加數據的方法,發現有很多人出了一些餿主意; 比如用concat,append等方法,這種方法的會先將舊數據df_1讀取到內存,再把新數據df_2與舊的合并,形成df_new,再覆蓋寫入,消耗和速…

MYSQL 索引和事 務

目錄 一 MYSQL 索引介紹 1.索引概念 2.索引作用 3.索引的分類 3.1普通索引 3.2唯一索引 3.3組合索引(最左前綴) 3.4全文索引 4.3查看索引 4.4刪除索引 二 MYSQL事務 一:MYSQL索引介紹 索引是一個排序的列表,在這個列表中存儲著索…

【C/C++】ARM處理器對齊_偽共享問題

文章目錄 1 什么是偽共享?2 為什么對齊?3 偽共享的實際影響4 為什么必須是 64 字節?5 其他替代方案6 驗證對齊效果總結 1 什么是偽共享? 偽共享是 多線程編程中的一種性能問題,其本質是: 緩存行&#xff…

Kafka Controller的作用是什么?故障時如何恢復? (管理分區和副本狀態;通過ZooKeeper選舉新Controller)

Apache Kafka Controller 是 Kafka 集群的核心協調組件,主要承擔兩大核心職責: 一、核心作用 分區領導者選舉 1 // 分區領導者選舉邏輯示例(偽代碼) def electLeader(partition: Partition): Unit {val isr partition.inSync…

阿里云前端Nginx部署完,用ip地址訪問卻總訪問不到,為什么?檢查安全組是否設置u為Http(80)!

根據你的描述,Ping測試顯示數據包無丟失但無法通過公網IP訪問服務,說明網絡基礎層(ICMP協議)是通暢的,但更高層(如TCP/UDP協議或服務配置)存在問題。以下是系統性排查與解決方案: 一…

關于STM32 SPI收發數據異常

問題描述: STM32主板做SPI從機,另一塊linux主板做主機,通信的時候發現從機可以正確接收到主機數據,但是主機接收從機數據時一直不對,是隨機值。 問題原因: 剛發現問題的時候,用邏輯分析儀抓包…

特勵達力科LeCroy推出Xena Freya Z800 800GE高性能的800G以太網測試平臺

Xena Freya Z800 800GE 是由全球領先的測試與測量解決方案提供商特勵達力科公司(Teledyne LeCroy)開發的高性能以太網測試平臺,專為滿足從10GE到800GE數據中心互連速度的需求而設計。特勵達力科公司在網絡測試領域擁有超過50年的技術積累&…

基于Django框架的股票分紅數據爬蟲和展示系統

項目截圖 一、項目簡介 本項目是一個基于 Django 框架的股票分紅數據爬蟲和展示系統。它可以從東方財富網站爬取股票分紅數據,并將數據存儲到 Django 數據庫中,同時提供數據查詢、導出和圖表展示功能。該系統為用戶提供了一個方便的平臺,用于…

nginx性能優化與深度監控

一、性能調優方向 1. 系統層面優化 內核參數調整 TCP隊列與連接管理: net.core.somaxconn(最大連接隊列長度,建議設為65535)net.ipv4.tcp_max_syn_backlog(SYN隊列長度,建議65535)net.ipv4.tc…

深入解析 Vision Transformer (ViT) 與其在計算機視覺中的應用

在近年來,深度學習尤其在計算機視覺領域取得了巨大的進展,而 Vision Transformer(ViT)作為一種新的視覺模型,它的表現甚至在許多任務中超過了傳統的卷積神經網絡(CNN),如 ResNet。在…

PXE_Kickstart_無人值守自動化安裝系統

文章目錄 1. PXE2. 配置服務參數2.1 tftp服務配置2.2 dhcp服務配置2.3 http服務配置 3. 配置PXE環境3.1 網絡引導文件pxelinux.03.2 掛載鏡像文件3.3 創建配置文件default3.4 復制鏡像文件和驅動文件3.5 修改default文件3.6 配置ks.cfg文件 4. PXE客戶端4.1 創建虛擬機&#xf…

鴻蒙NEXT開發動畫案例4

1.創建空白項目 2.Page文件夾下面新建Spin.ets文件,代碼如下: /*** TODO SpinKit動畫組件 - 雙粒子旋轉縮放動畫* author: CSDN-鴻蒙布道師* since: 2025/05/08*/ ComponentV2 export struct SpinFour {// 參數定義Require Param spinSize: number 36…

基于STM32、HAL庫的CP2102-GMR USB轉UART收發器 驅動程序設計

一、簡介: CP2102-GMR是Silicon Labs公司生產的一款USB轉UART橋接芯片,主要特點包括: 集成USB 2.0全速功能控制器 內置USB收發器,無需外部電阻 工作電壓:3.0V至3.6V 支持的數據格式:數據位8,停止位1,無校驗 最高支持1Mbps的波特率 內置512字節接收緩沖區和512字節發送…

Ubuntu 22虛擬機【網絡故障】快速解決指南

Ubuntu22虛擬機突然無法連接網絡了,以下是故障排除步驟記錄。 Ubuntu 22虛擬機網絡故障快速解決指南 當在虛擬機中安裝的 Ubuntu 22 系統出現 ping: connect: 網絡不可達 和 ping: www.baidu.com: 域名解析出現暫時性錯誤的報錯時,通常意味著虛擬機無法…

實戰springcloud alibaba

實戰springcloud alibaba 前言 如何搭建一套最新的springcloud alibaba,以適配項目升級需求? 1.版本的選擇 2.各組件的適配 3.新技術的敏感性 4.前瞻性,幾年內不會被淘汰 參考資料:Spring Cloud Alibaba 參考文檔 https://spring…

泰迪杯特等獎案例學習資料:基于卷積神經網絡與集成學習的網絡問政平臺留言文本挖掘與分析

(第八屆“泰迪杯”數據挖掘挑戰賽A題特等獎案例深度解析) 一、案例背景與核心挑戰 1.1 應用場景與行業痛點 隨著“互聯網+政務”的推進,網絡問政平臺成為政府與民眾溝通的重要渠道。某市問政平臺日均接收留言超5000條,涉及民生、環保、交通等20余類訴求。然而,傳統人工…

DVWA靶場保姆級通關教程--06不安全驗證機制

提示:文章寫完后,目錄可以自動生成,如何生成可參考右邊的幫助文檔 文章目錄 目錄 文章目錄 前言 原理詳解 1. 前后端驗證邏輯不一致 2. 驗證碼值保存在客戶端 3. 驗證碼可預測或重復 4. 驗證碼驗證與邏輯解耦 一、處理關卡報錯 二、low級別源…

【LeetCode Hot100 | 每日刷題】排序數組

912. 排序數組 - 力扣(LeetCode) 題目: 給你一個整數數組 nums,請你將該數組升序排列。 你必須在 不使用任何內置函數 的情況下解決問題,時間復雜度為 O(nlog(n)),并且空間復雜度盡可能小。 示例 1&…

Windows系統下使用Kafka和Zookeeper,Python運行kafka(二)

1.配置 Zookeeper 進入解壓后的 Zookeeper 目錄(例如 F:\zookeeper\conf),復制 zoo_sample.cfg 文件并命名為 zoo.cfg(如果 zoo.cfg 已經存在,則直接編輯該文件)。 打開 zoo.cfg 文件,配置相關…

Web 自動化之 HTML JavaScript 詳解

文章目錄 一、HTML 常用標簽二、javascript 腳本1、什么是 javascript(js)2、 js變量和函數3、js 彈窗處理4、js 流程控制語句和 switch 結構語句應用 一、HTML 常用標簽 HTML:超文本標記語言 超文本:不僅只包含文字,還有超鏈接、視頻…這些…