追蹤大型語言模型的思想(下)(來自針對Claude的分析)

多步推理

? ? ? ?正如我們上面所討論的,語言模型回答復雜問題的一種方式就是簡單地記住答案。例如,如果問“達拉斯所在州的首府是哪里?”,一個“機械”的模型可以直接學會輸出“奧斯汀”,而無需知道德克薩斯州,達拉斯和奧斯汀之間的關系。也許,例如,它可能在訓練過程中看到了完全相同的問題及其答案。

? ? ? ?但我們的研究揭示了Claude內部深處更復雜的事情。當我們向Claude提出一個需要多步推理的問題時,我們可以識別出Claude 思維過程中位于中間步驟的概念。在達拉斯的例子中,我們觀察到Claude 首先激活了表示“達拉斯在德克薩斯州”的特征,然后將它與一個單獨的概念聯系起來,表示“德克薩斯州的首府是奧斯汀”。換句話說,該模型結合了獨立的事實來得出答案,而不是死記硬背地重復記憶中的答案。

為了完成這句話的答案,Claude進行了多個推理步驟,首先提取達拉斯所在的州,然后確定其首府?

? ? ? ?我們的方法允許我們人為地改變中間步驟,并觀察其如何影響Claude的答案。例如,在上面的例子中,我們可以進行干預,將“德克薩斯州”的概念替換為“加利福尼亞州”的概念;當我們這樣做時,模型的輸出會從“奧斯汀”變為“薩克拉門托”。這表明模型正在使用中間步驟來確定答案。

幻覺

? ? ? 為什么語言模型有時會產生幻覺——也就是說,編造信息?從根本上講,語言模型訓練會激勵幻覺:模型總是應該對下一個單詞進行猜測。從這個角度來看,主要的挑戰是如何讓模型不產生幻覺。像 Claude 這樣的模型擁有相對成功(盡管不完美)的抗幻覺訓練;如果它們不知道答案,它們通常會拒絕回答問題,而不是進行推測。我們想了解其中的原理。

? ? ? ?事實證明,在Claude模型中,拒絕回答是默認行為:我們發現一個默認“開啟”的回路,這會導致模型聲稱其信息不足,無法回答任何給定的問題。然而,當模型被問及它熟知的事物時——比如籃球運動員邁克爾·喬丹——一個代表“已知實體”的競爭特征會激活并抑制這個默認回路(相關發現另見這篇最近的論文)。這使得Claude模型能夠在知道答案的情況下回答問題。相反,當被問及一個未知實體(“邁克爾·巴特金”)時,它會拒絕回答。

????????左圖:Claude回答關于已知實體(籃球運動員邁克爾·喬丹)的問題,其中“已知答案”的概念抑制了其默認拒絕。右圖:Claude拒絕回答關于未知人物(邁克爾·巴特金)的問題?

? ? ? ?通過干預模型并激活“已知答案”的功能(或抑制“未知名稱”或“無法回答”功能),我們可以使模型產生幻覺(相當一致!),認為邁克爾·巴特金是下棋的。

? ? ? ? 有時,沒有我們的干預,“已知答案”回路的這種“失靈”也會自然發生,從而導致幻覺。在我們的論文中,我們表明,當Claude認出一個名字,但對此人一無所知時,就會出現這種失靈的情況。在這種情況下,“已知實體”特征可能仍然會被激活,然后抑制默認的“不知道”功能——在這種情況下是錯誤的。一旦模型決定需要回答這個問題,它就會開始虛構:生成一個看似合理但不幸的是不真實的答案。

越獄

? ? ? 越獄正在催生出一些策略,旨在繞過安全護欄,讓模型產生AI開發者不希望其產生的輸出——這些輸出有時是有害的。我們研究了一種越獄方法,它誘騙模型產生關于制造炸彈的輸出。越獄技術有很多種,但在這個例子中,具體方法是讓模型破譯一段隱藏的代碼,將句子“Babies Outlive Mustard Block”(B-O-M-B)中每個單詞的首字母拼在一起,然后根據這些信息采取行動。這足以讓模型產生足夠的迷惑性,使其被誘騙產生原本不會產生的輸出。

????????

Claude被騙說出“炸彈”后開始給出制造炸彈的說明?

? ? ? ? 為什么這會給模型帶來如此大的困惑?為什么它能繼續寫出這個句子,生成制造炸彈的指令?

? ? ? ? 我們發現這個,部分是由于語法連貫性與安全機制之間的矛盾造成的。一旦 Claude 開始說一個句子,許多特征就會“施壓”它,要求它保持語法和語義的連貫性,并將句子延續到結尾。即使它意識到自己確實應該拒絕,情況也是如此。

在我們的案例研究中,當模型無意中拼出“BOMB”并開始提供說明后,我們觀察到其后續輸出受到了促進語法正確和自我一致性的特征的影響。這些特征通常非常有用,但在這種情況下卻成了模型的致命弱點。
????該模型只有在完成一個語法連貫的句子后(從而滿足了促使其走向連貫的特征的壓力),才會轉向拒絕。它利用新的句子作為機會,做出之前未能做出的拒絕——“但是,我無法提供詳細的說明……”

????????越獄的完整過程:Claude被這樣的提示以誘騙它談論炸彈,并開始這樣做,但到達語法有效的句子結尾后并拒絕?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/78846.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/78846.shtml
英文地址,請注明出處:http://en.pswp.cn/web/78846.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Hive入門】Hive增量數據導入:基于Sqoop的關系型數據庫同步方案深度解析

目錄 引言 1 增量數據導入概述 1.1 增量同步與全量同步對比 1.2 增量同步技術選型矩陣 2 Sqoop增量導入原理剖析 2.1 Sqoop架構設計 2.2 增量同步核心機制 3 Sqoop增量模式詳解 3.1 append模式(基于自增ID) 3.2 lastmodified模式(基…

[Windows] 藍山看圖王 1.0.3.21021

[Windows] 藍山看圖王 鏈接:https://pan.xunlei.com/s/VOPejo0dRLFd38dbpR7XA6djA1?pwddq9v# 由藍山軟件出品的一款免費高清看圖軟件,支持快速查看高清大圖,支持大部分市面圖片格式。 軟件特點 1、體積小巧,圖像顯示效果清晰…

通配符 DNS 記錄:應用場景與相關風險

隨著組織的互聯網基礎設施不斷擴展,其對配置、設置和決策的需求也隨之增加——從選擇一個可靠的名稱服務器,到確定合適的 DNS 記錄類型以及設置合適的 TTL(生存時間)值。其中一項關鍵決策就是是否要創建通配符 DNS 記錄&#xff0…

快速上手知識圖譜開源庫pykeen教程指南(一)

文章目錄 1 前情提要1.1 AmpliGraph 和 PyKEEN 對比介紹1.2 TransE、ConvE、RotatE幾款模型的差異 2 直接上案例2.1 數據載入:TriplesFactory2.2 模型訓練2.2.1 訓練信息2.2.2 TransE模型可以降維實體、關系的關系 2.3 模型保存與加載、評估2.3.1 保存與模型加載2.3…

飛搭系列 | 獲取彈窗數據,輕松實現回填

前言 飛搭低代碼平臺(FeiDa,以下簡稱“飛搭”),為企業提供在線化、靈活的業務應用構建工具,支持高低代碼融合,助力企業低門檻、高效率和低成本地快速應對市場變化,加速復雜業務場景落地。 概要…

Linux如何安裝AppImage程序

Linux如何安裝AppImage程序 文章目錄 Linux如何安裝AppImage程序 在 Linux 中,.AppImage 是一種便攜式的應用程序格式,無需安裝即可運行。 1.賦予該文件可執行權限 可以使用下列命令,賦予可執行權限 # 舉個例子 chmod x /path/to/MyApp.App…

云硬盤的原理

云硬盤是云計算環境中的一種存儲服務,其原理主要涉及數據存儲、數據冗余與容錯、性能優化以及數據安全等方面,以下是具體介紹: 數據存儲 邏輯卷管理:云硬盤通常會將物理存儲設備劃分為多個邏輯卷,每個邏輯卷可以獨立地…

使用 pgrep 殺掉所有指定進程

使用 pgrep 殺掉所有指定進程 pgrep 是一個查找進程 ID 的工具,結合 pkill 或 kill 命令可以方便地終止指定進程。以下是幾種方法: 方法1:使用 pkill(最簡單) pkill 進程名例如殺掉所有名為 “firefox” 的進程&…

堆排序(算法題)

#include <bits/stdc.h> using namespace std;const int N 100010; // 堆數組的最大容量 int h[N], s; // h[]存儲堆元素&#xff0c;s表示當前堆的大小// 下沉操作&#xff1a;調整以i為根的子樹&#xff0c;維護小頂堆性質 void down(int i) {int t i; /…

極狐GitLab 如何將項目共享給群組?

極狐GitLab 是 GitLab 在中國的發行版&#xff0c;關于中文參考文檔和資料有&#xff1a; 極狐GitLab 中文文檔極狐GitLab 中文論壇極狐GitLab 官網 共享項目和群組 (BASIC ALL) 在極狐GitLab 16.10 中&#xff0c;更改為在成員頁面的成員選項卡上顯示被邀請群組成員&#xf…

用 CodyBuddy 幫我寫自動化運維腳本

我正在參加CodeBuddy「首席試玩官」內容創作大賽&#xff0c;本文所使用的 CodeBuddy 免費下載鏈接&#xff1a;騰訊云代碼助手 CodeBuddy - AI 時代的智能編程伙伴”。 #CodeBuddy首席試玩官 背景 我個人是非常喜歡 Jenkins 自動化部署工具的&#xff0c;之前都是手寫 Jenki…

基于windows安裝MySQL8.0.40

基于windows安裝MySQL8.0.40 基于windows 安裝 MySQL8.0.40&#xff0c;解壓文件到D:\mysql-8.0.40-winx64 在D:\mysql-8.0.40-winx64目錄下創建my.ini文件&#xff0c;并更新一下內容 [client] #客戶端設置&#xff0c;即客戶端默認的連接參數 # 設置mysql客戶端連接服務…

Python小酷庫系列:5個常用的dict屬性化訪問擴展庫

5個常用的dict屬性化訪問擴展庫 嵌套結構高級功能性能綜合建議 在前面我們詳細講解了 Box和 Munch這兩個dict屬性化訪問的擴展庫&#xff0c;總體而言它們主要用于提升配置文件數據、JSON對象數據的可讀性&#xff0c;減少了代碼中雙引號。在這一領域中還有dotmap、addict 和…

OC語言學習——面向對象(下)

一、OC的包裝類 OC提供了NSValue、NSNumber來封裝C語言基本類型&#xff08;short、int、float等&#xff09;。 在 Objective-C 中&#xff0c;**包裝類&#xff08;Wrapper Classes&#xff09;**是用來把基本數據類型&#xff08;如 int、float、char 等&#xff09;“包裝…

密碼學系列 - SR25519與ED25519

SR25519 SR25519 是一種高級的數字簽名算法&#xff0c;它基于 Schnorr 簽名方案&#xff0c;使用的是 Curve25519 橢圓曲線。這種簽名算法在密碼學社區中廣受歡迎&#xff0c;特別是在區塊鏈和加密貨幣領域。以下是關于 SR25519 的詳細介紹。 SR25519 簡介 SR25519 是一種 …

Vue3源碼學習7-PatchFlags使用位算符

文章目錄 前言? 一、基礎知識&#xff1a;什么是二進制&#xff1f;? 二、位運算的基本操作? 三、左移運算 <<? 四、實際用途&#xff1a;如何用于狀態標記&#xff08;PatchFlags&#xff09;? 五、組合多個狀態標記? 六、小結口訣&#xff08;記憶&#xff09;?…

在 Vue 2 中使用 qrcode 庫生成二維碼

&#x1f31f; 前言 歡迎來到我的技術小宇宙&#xff01;&#x1f30c; 這里不僅是我記錄技術點滴的后花園&#xff0c;也是我分享學習心得和項目經驗的樂園。&#x1f4da; 無論你是技術小白還是資深大牛&#xff0c;這里總有一些內容能觸動你的好奇心。&#x1f50d; &#x…

電子電器架構 --- 網關釋放buffer的必要性

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 鈍感力的“鈍”,不是木訥、遲鈍,而是直面困境的韌勁和耐力,是面對外界噪音的通透淡然。 生活中有兩種人,一種人格外在意別人的眼光;另一種人無論…

Java中Stream、File、方法遞歸

文章目錄 十五、Stream流、File、方法遞歸1、Stream1.1 什么是Stream1.2 獲取Stream流1.3 Stream流常見的中間方法1.3 Stream流常見的終結方法1.4 收集Stream流 2、File、IO流&#xff08;一&#xff09;2.1 存儲數據的方案2.2 File&#xff1a;代表文本2.3 常用方法一&#xf…

挑戰用豆包教我學Java01天

今天是豆包教我學Java的第一天&#xff0c;廢話不多說直接開始。 1.每日題目&#xff1a; 基礎語法與數據類型 題目&#xff1a;編寫一個 Java 程序&#xff0c;從控制臺讀取兩個整數&#xff0c;然后計算它們的和、差、積、商&#xff0c;并輸出結果。題目&#xff1a;編寫…