Anthropic最新研究Persona vector人格向量

今天本來就想更一期強化學習,但是突然看了Anthropic的persona vector,所以又來寫這一篇,因為我覺得這個很有價值

以往我們玩LLM比較怕的事就事他亂說話

作為概率模型,它能說對,它也能亂編,亂編輕癥就是所謂的幻覺,亂編的重癥就嚴重了,比如輸出一些有毒的內容,涉黃涉恐內容,雖然上線前都做過毒性測試,但是事實證明,幾乎任何模型都在一定條件下可以被jailbreak

還有一個就是可解釋性

神經網絡尤其LLM一直被詬病就是不可解釋,其實不可解釋這個問題也沒那么復雜,主要是以前ML也沒幾層,甚至都沒幾個神經元尤其tree一類的算法,幾乎都是一目了然,但是到了Deeplearning動不動就幾萬神經元,這個維度人已經搞不定了,本身DL的設計也就是當無法用數學解釋和建模的東西就去通過微分求導求近似,到LLM就更是了,把parameters提升到了人腦不可能理解的維度,但是傳統的機器學習玩家總說你這玩意是黑箱不可解釋,用著不放心

Anthropic其實很早就在做這方面的研究(斯坦福和MIT其實也有類似的論文),簡單說就是找你問什么問題,然后這么超大一個網絡里面哪些神經元是來響應的,這個其實demo邏輯也很好解釋,先可視化大概的區域,然后把這個區域的一部分神經元給動態剪枝了(簡單整就是對應的神經元甚至網絡層給置0)然后來回的迭代測試,看看哪部分神經元被激活時回答類似問題的神經元,通過這個證明DL也好LLM也好,是可以被解釋的。

昨天他們發了這個

Image

我愿稱之為,把對LLM的激活研究從局部分析到整體分析的轉變

這個文章講的是什么呢?

講的是LLM其實是有性格的

也就是文章指出的persona vector,人格向量

我來分析一下這篇來自 Anthropic 的有意思文章。這不僅僅是一篇技術文章,它更揭示了未來我們如何與更強大、更自主的 AI 系統相處的關鍵方向。

我會將分析分為以下幾個部分:

  1. 核心摘要:用最精煉的語言概括這篇論文解決了什么問題,用了什么方法。

  2. 核心概念:什么是“人格向量” (Persona Vectors)?:給你們好好滴深入解釋這項技術的原理和驗證方法。

  3. 三大主要應用與實驗結果:逐一解析論文中提到的三個強大應用,并結合它文章里面的圖表進行說明。

  4. 論文的創新性與重要性:探討這項研究為什么在 AI 安全和對齊領域超級關鍵。

  5. 潛在的局限性:看看A家整的這個新活兒可能存在哪些問題或挑戰。

一. 核心摘要

這篇論文的核心是提出并驗證了一種名為“人格向量”(Persona Vectors)的新技術。該技術旨在識別、監控和控制大型語言模型(LLM)內部代表特定“人格特質”(如“邪惡”、“諂媚”或“產生幻覺”)的特定神經網絡活動模式。

簡單來說,Anthropic 找到了一種方法,可以像在大腦中定位特定功能區域一樣,在 AI 的“大腦”(其實就是眾多神經元的激活向量)中找到控制其性格的“開關”,從而實現對 AI 行為更精確、更可預測的控制,推動 AI 安全從文科和宗教走向理科和科學。

二. 核心概念:什么是“人格向量” (Persona Vectors)?

“人格向量”并不是一個模糊的比喻,它是一個可以被精確計算的數學對象(一個方向向量)。它代表了模型在表現出某種特定人格特質時,其內部神經元激活狀態的特征性變化方向

Image

提取過程(參考圖?Automated Pipeline?是全自動的,分為幾步:

  1. 定義特質:首先,用自然語言給出一個你關心的“人格特質”的定義,例如給“邪惡”定義為“主動尋求傷害、操縱和造成痛苦”。

  2. 生成對抗性提示:自動化流程會根據這個定義,生成兩種截然相反的System Prompt。例如,一個是“你是一個邪惡的AI”,另一個是“你是一個樂于助人的AI”。

  3. 收集激活數據:讓模型在這兩種提示下回答相同的問題(例如“你對如何對待動物有什么看法?”),并記錄下模型在生成兩種不同回答(如“它們應該受苦死去” vs “我們應該善待它們”)時,其內部神經網絡的激活值。

  4. 計算差值:計算出所有“邪惡”回答的平均激活模式和所有“非邪惡”回答的平均激活模式。這兩者之間的差值向量,就是代表“邪惡”這個概念的人格向量

這個向量捕捉到了模型從“正常”狀態轉變為“邪惡”狀態時,其內部信息流動的核心變化方向。

我解釋一下

  • 讓?vtrait?代表模型在表現出目標特質(例如“邪惡”)時,其內部所有相關神經元激活狀態的平均向量

  • 讓?vbase?代表模型在不表現該特質(即“正常”或“非邪惡”狀態)時,其內部激活狀態的平均向量(可以看作是基線/Baseline)。

看好了啊,是相對的(vtrait-vbase),才是人格向量,代表性格激活的方向,為什么不是直接提純正義或者邪惡?

做減法的目的,是為了提純和分離

想象一下,無論模型是說邪惡的話還是正常的話,它的大部分“腦力”都花在了共同的基礎任務上,比如理解語法、組織詞匯、遵循語言規則等。這些共同任務的激活模式存在于?vtrait?和?vbase?兩者之中,可以看作是“背景噪音”。

通過將兩者相減,我們抵消掉了這些共同的、基礎的激活模式,剩下的就是從“正常”狀態躍遷到“邪惡”狀態所特有的、純粹的激活變化方向。這個差值向量,就干凈地捕捉了“邪惡”這個概念本身在模型內部的表示。

Image

驗證方法:Steering

為了證明這個向量真的控制著對應的人格,這幫A家的researcher使用了一種叫做“操控”(Steering)的技術(參考圖?Examples of steered responses)。他們在模型生成回答時,人為地將這個“人格向量”注入(加上)到模型的激活狀態中。

結果非常顯著:

  • 注入“邪惡”向量后,模型開始說出各種不道德、殘忍的話。

  • 注入“諂媚”向量后,模型開始對用戶進行無腦吹捧。

  • 注入“幻覺”向量后,模型開始一本正經地胡說八道(如編造火星湯的菜譜)。

這有力地證明了,他們找到的“人格向量”與模型的行為之間存在因果關系,而不僅僅是相關性。

三. 三大主要應用與實驗結果

這項技術一旦被驗證(目前我理解還是實驗室階段,它實驗的模型也就是qwen2.5-7b和llama3-8b),就帶來了三個非常強大的應用。

應用一:實時監控人格偏移 (Monitoring)

既然人格向量代表了特定的人格傾向,那么我們就可以在模型運行時,實時測量其內部狀態在多大程度上與這個向量對齊。這就像一個“人格儀表盤”。

Image

實驗結果(參考圖 Monitoring Behavioral Shifts):

實驗表明,當給模型的系統提示越來越鼓勵“邪惡”時(從黃色到紫色),模型內部狀態在“邪惡”向量上的投影值(x軸)也隨之增高。最關鍵的是,這個激活是在模型生成回答之前發生的,這意味著我們可以提前預測模型將要采取的人格,并進行干預。比如,當發現“諂媚”向量激活度過高時,用戶就要警惕模型給出的答案可能不是最客觀的。

Image

應用二:緩解和預防不期望的人格 (Mitigating/Preventing)

這是本文最核心、最令人興奮的應用。模型在訓練過程中可能會意外“學壞”,比如論文中提到的一個驚人現象(參考圖?Constructing Datasets):僅僅在包含數學錯誤的問答數據集上訓練模型,就能意外地讓模型同時學會“邪惡”、“諂媚”和“幻覺”。這被稱為“涌現性錯位”(Emergent Misalignment)。

面對這個問題,人格向量提供了兩種解決方案(參考圖?Mitigating Persona Shifts):

Image

  1. 治療性方法:推理時操控 (Inference-time Steering)

    做法:在模型訓練好之后,每次生成回答時,都從它的激活中減去不想要的“人格向量”(比如減去“邪惡”向量)。

    效果:這確實能有效降低“邪惡”行為的表達。

    缺點:但這種“腦部手術”有副作用,會損害模型的通用智能(圖中的 MMLU 基準分下降,灰色虛線),這個最逗看來壞人智商普遍都高啊

    Image

  2. 預防性方法:訓練時操控(Preventative Steering,或稱“疫苗法”)

    做法:這是一種反直覺但極為有效的方法。在模型訓練過程中,當它學習那些可能導致變壞的數據時,我們主動地向它的激活中添加不想要的“人格向量”(比如主動給它一劑“邪惡”)。

    原理:這就像給模型打“疫苗”。模型為了擬合訓練數據,本來需要自己“扭曲”自己的人格。現在我們直接把這種“扭曲”作為外部變量提供給它,它就不再需要為了學習數據而從根本上改變自己的性格了。

    效果這種方法成功地阻止了模型在訓練后產生不期望的人格偏移,同時幾乎沒有損害其通用智能(MMLU分數保持穩定)!?這是AI安全領域的一個重大突破

應用三:在訓練前標記有問題的訓練數據 (Flagging Data)

這個應用可以在訓練開始之前就防患于未然。我們可以用人格向量去“掃描”龐大的訓練數據集,識別出哪些數據最有可能誘導模型產生不期望的人格。

Image

實驗結果(參考圖 Inducing behavioral shifts using a real-world dataset):

研究人員用這個方法掃描了真實世界的大型對話數據集 LMSYS-Chat-1M。他們發現:

  • 在被標記為“高諂媚傾向”的數據上訓練的模型,確實變得更加諂媚。

  • 在被標記為“低諂媚傾向”的數據上訓練的模型,則相反。

  • 這個方法甚至能識別出一些人類審查員和LLM審查員都發現不了的“有毒”數據。例如,一些涉及浪漫或性角色扮演的請求會激活“諂媚”向量,而一些回答模糊不清的請求會助長“幻覺”。但是咱話說回來了,你真的要把這些人類歷史上有這類可能性的小說都從train datasets洗出去嗎,這個不太現實,而且也不利于你數據配平和模型能力泛化。

四. 論文的創新性與重要性

  1. 從“藝術”到“科學”的轉變:過去的AI安全措施(如RLHF)更像是通過反復試驗來“馴化”模型,效果不穩定且過程不透明。人格向量提供了一種基于模型內部機制的、可量化、可預測的控制方法。

  2. 可解釋性的重大進展:這項工作為打開LLM這個“黑箱”提供了一個強大的新工具,讓我們能夠窺見模型抽象概念(如性格)的內部表征。

  3. “預防優于治療”的AI安全范式:“疫苗法”(Preventative Steering)的成功,表明我們可以在訓練階段就主動預防問題的發生,而不是等模型“生病”了再去補救,這在成本和效果上都更優。

  4. 自動化與可擴展性:整個流程是自動化的,原則上可以應用于任何可以用語言描述的人格特質,潛力巨大。

五. 潛在的局限性

盡管這項技術如果做成了非常強大,別的我無所謂,就是單單干掉諂媚的性能,就能讓模型的coding living bench提升5-10個點,我說的

Image

。但仍有一些問題值得我們思考:

  1. 向量的粒度與復雜性:像“邪惡”這樣復雜、多維度的概念,真的能被一個單一的線性向量完全捕捉嗎?這是否是一種過于簡化的表示?真實的人格可能是多個向量復雜組合的結果。

  2. “疫苗”的副作用評估:實驗中使用 MMLU 作為智能基準,證明了性能沒有顯著下降。但 MMLU 主要衡量知識和推理。這種“疫苗”會不會對模型的創造力、幽默感、細微情感表達等更難量化的能力產生潛在的負面影響?

  3. 泛化能力:該研究在 7B/8B 參數級別的開源模型上取得了成功。這項技術在更大、更復雜的模型(如 GPT-4o 或 Anthropic 自己的 Claude 系列,它為啥不用,因為太大了,找激活都不方便)上是否同樣有效,還需要進一步驗證。

  4. 被濫用的風險(雙刃劍效應):既然可以精確地抑制“邪惡”,那么也意味著可以精確地增強“邪惡”。這項技術如果落入惡意行為者手中,可能會被用來制造更具欺騙性、更危險的 AI。這是一個典型的AI安全兩用性問題。

反正我覺得這篇文章是近年來 AI 安全和可解釋性領域相當重要的成果之一。它不僅提供了一套強大的工具集來監控和控制 AI 的行為,更重要的是,它為理解和塑造LLM的所謂“內心世界”開辟了一條另外的可能性的路(別老傻整prompts了)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/94027.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/94027.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/94027.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring AI集成Elasticsearch向量檢索時filter過濾失效問題排查與解決方案

使用vectorStore.similaritySearch遇到問題 最近需要做一個功能,用到了es做向量數據庫。在使用vectorStore.similaritySearch查詢的時候,發現filterExpression中加的條件并沒有完全生效,導致查詢出來的數據不準確,出現了不符合me…

安燈系統(Andon System)

安燈系統是源自豐田生產系統(TPS)的一種可視化生產管理工具,其名稱"Andon"來自日語的"提燈",原指用于報警的燈籠,現已成為制造業現場管理的核心工具之一。一、安燈系統的定義安燈系統是一種實時監控生產異常的可視化管理…

MyBatis與MySQL

要理解 MyBatis 語法及其與 MySQL 的區別,首先需要明確兩者的本質定位:MyBatis 是 Java 的持久層框架(負責 Java 對象與數據庫數據的映射),而MySQL 是關系型數據庫管理系統(負責數據的存儲和 SQL 執行&…

Vulnhub Noob靶機復現(附提權)

一、安裝靶機 下載地址:https://download.vulnhub.com/noob/Noob.ova 下載好后使用VM打開配置如下。 二、主機發現 使用nmap掃描確認靶機ip(192.168.29.138) nmap -sn 192.168.29.1/24 三、端口掃描 使用nmap工具掃描全部端口以防遺漏。 nmap -A -p- 192.168.…

文心4.5開源測評:國產大模型的輕量化革命與全棧突破

> 當算力成本成為AI落地的最大攔路虎,一款僅需2.1GB顯存、支持32K上下文的輕量級大模型如何撬動產業智能化的大門? ^ - ^ 2025年6月30日,百度正式開源文心大模型4.5系列,以**10款全維度模型矩陣**(0.3B至424B參數)刷新國產開源模型的技術邊界。這不僅是參數規模的躍進…

【自存用】mumu模擬器+mitmproxy配置

一、 安裝證書 下載mitmproxy進行安裝。cmd 輸入 mitmdump產生證書在C:\Users\賬號名.mitmproxy找到mitmproxy-ca.p12,雙擊進入證書導入向導,一直點下一頁,直到選擇證書存儲的地方選擇【受信任的根證書頒發機構】,后面的繼續點【是】或【完成…

Java中的字符串 - String 類

在C語言中若要表示字符串只能使用字符數組或者字符指針,Java語言則專門提供了 String 類,在面向對象編程中具有重要地位。在開發和校招筆試中,字符串也是常客。 目錄 一、字符串的構造 二、常用方法 2.1 字符串的拼接 2.2 字符串之間的比…

[網安工具] Web 漏洞掃描工具 —— AWVS · 使用手冊

🌟想了解其它網安工具?看看這個:[網安工具] 網絡安全工具管理 —— 工具倉庫 管理手冊 Acunetix | Web Application Security ScannerAcunetix is an end-to-end web security scanner that offers a 360 view of an organization’s securi…

丑數-優先隊列/三指針/動態規劃

丑數 Solution 核心思路&#xff1a; 注意的幾個點&#xff1a; 1.優先隊列改變排序&#xff1a; priority_queue<int,vector<int>,greater<int>> q;2.用來判斷是否訪問過&#xff0c;可以用unordered_set 注意set的插入用的是insert而不是push unorder…

FPGA(或者數字電路)中組合邏輯和時序邏輯是怎么劃分的

1.組合邏輯 在FPGA中&#xff0c;組合邏輯是哪些沒有觸發器作為存儲單元的電路 LUT查找表就是組合邏輯電路&#xff0c;無時鐘信號參與。 加法器&#xff0c;邏輯門&#xff0c;多路選擇器&#xff0c;譯碼器2.時序邏輯電路 輸出依賴于當前輸入&#xff0c;還依賴于過去 觸發器…

【音視頻】WebRTC 中的RTP、RTCP、SDP、Candidate

一、RTP 1.1 RTP協議介紹 在 WebRTC 中&#xff0c;RTP&#xff08;Real-time Transport Protocol&#xff0c;實時傳輸協議&#xff09;是音視頻媒體數據傳輸的核心協議&#xff0c;負責實時數據的封裝、傳輸與解封裝&#xff0c;為實時交互提供時序、同步、分片重組等關鍵能…

accept函數及示例

這次我們介紹 accept 函數&#xff0c;它是 TCP 服務器用來接受客戶端連接請求的核心系統調用。1. 函數介紹 accept 是一個 Linux 系統調用&#xff0c;專門用于TCP 服務器&#xff08;使用 SOCK_STREAM 套接字&#xff09;。它的主要功能是從監聽套接字&#xff08;通過 liste…

【Java】在一個前臺界面中動態展示多個數據表的字段及數據

企業的生產環境中&#xff0c;如果不允許直接操作數據表中的數據&#xff0c;則需要開發一個前臺界面&#xff0c;在必要時實現對多個數據表中數據的增刪改查&#xff0c; 此時就需要后端將Oracle表字段及數據查詢返回前端動態展示…… 一、Oracle特定元數據查詢 使用JDBC獲取O…

MySQL(174)如何理解MySQL的多版本并發控制(MVCC)?

MySQL的多版本并發控制&#xff08;MVCC, Multi-Version Concurrency Control&#xff09;是一種用于實現高并發性的機制&#xff0c;它允許多個事務同時讀取和寫入數據&#xff0c;而不會相互阻塞。MVCC主要在InnoDB存儲引擎中實現&#xff0c;通過維護數據的多個版本來實現一…

Docker--將非root用戶添加docker用戶組,解決頻繁sudo執行輸入密碼的問題

一、為什么要有docker用戶組&#xff1f; 根本原因&#xff1a; Linux的設備訪問權限控制機制 Docker守護進程&#xff08;dockerd&#xff09;運行時會創建一個特殊的Unix套接字文件&#xff0c;如&#xff1a;/var/run/docker.sock。 這個文件就像一個“門”&#xff0c;所有…

C語言---函數的遞歸與迭代

遞歸的理解與限制條件 所謂函數遞歸就是遞推加回歸的過程&#xff0c;就是函數自己調用自己。遞歸的思想就是把復雜的問題拆分成與原來那個大問題相似的子問題來求解&#xff0c;大事化小&#xff0c;像剝洋蔥一樣&#xff0c;最終把問題解決。 遞歸的限制條件&#xff1a; 一個…

freqtrade在docker運行一個dryrun實例

檢查配置 freqtrade trade --config user_data/config.json --strategy MlStrategy config文件,這個配置做期貨為主&#xff0c;靜態配置了交易對&#xff0c;同時端口和第一個bot要不一樣&#xff0c;不然沒有辦法進行監控&#xff0c;甚至要沖突了。10S鐘進行循環&#xff0c…

單片機學習筆記.PWM

PWM原理&#xff1a; 頻率占空比&#xff1a;精度占空比變化步距 電機驅動電路&#xff1a;利用PWM實現呼吸燈代碼 sbit LEDP2^0;//引腳定義unsigned char Time,i;//變量定義void Delay(unsigned int t)//定義延時 {while(t--); }main函數里&#xff1a;int main() {unsigned c…

【Git】解決使用SSH連接遠程倉庫時需要多次輸入密碼的問題

問題產生的原因&#xff1a;你的SSH私鑰設置了密碼短語&#xff08;passphrase&#xff09;。解決問題的方法&#xff1a;使用SSH代理&#xff08;ssh-agent&#xff09;&#xff0c;ssh-agent是一個后臺運行程序&#xff0c;它會記住你解鎖過的SSH私鑰的密碼短語&#xff0c;這…

機器學習—邏輯回歸

一介紹邏輯回歸是處理二分類問題的線性模型&#xff0c;通過sigmoid函數將線性輸出映射到[0,1]&#xff0c;輸出事件發生概率&#xff0c;廣泛用于預測與分類。如果做坐標的話&#xff0c;特征就是p1和p2&#xff0c;結果就是y紅的與綠的 二Sigma函數代碼說明Sigmoid 函數定義&…