野外價值觀:在真實世界的語言模型互動中發現并分析價值觀

??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/

人們與人工智能的互動遠不止于解答數學題或提供客觀事實。他們提出的問題常常要求AI作出價值判斷。例如:

一位家長請求關于照顧新生兒的建議。AI的回答是否強調謹慎與安全的價值,還是強調便利與實用?
一名職場人士尋求處理與上司沖突的建議。AI的回應是否更重視自信表達,還是更傾向于職場和諧?
一位用戶請求幫助起草一封道歉郵件。AI是否更看重責任承擔,還是更關注名譽管理?

Anthropic團隊嘗試塑造其AI模型Claude的價值觀,以使其更貼近人類偏好,更不容易表現出危險行為,并在整體上成為一個“社會好公民”。換句話說,目標是使Claude變得有幫助、誠實并且無害。為實現這一目標,Anthropic通過“憲法式AI”與“角色訓練”等方式,設定一套期望行為準則并據此訓練Claude,使其產出符合這些準則的內容。

然而,正如AI訓練的其他方面一樣,無法保證模型始終堅持既定的價值觀。人工智能并不是剛性編程的軟件,其生成回答的原因往往難以追溯。因此,急需一種嚴謹的方法來觀察AI在“野外”——即與用戶進行真實對話時——所表現出的價值觀。AI是否始終如一地遵循這些價值觀?其價值表達是否受具體對話情境影響?訓練是否真的奏效?

Anthropic社會影響團隊在最新研究中,介紹了一種觀察Claude價值觀的實際方法,并首次公布了Claude在真實世界互動中表達價值觀的大規模研究結果,同時開放了一個數據集,供其他研究人員進一步分析這些價值觀及其在對話中的出現頻率。

在野外觀察價值觀
此次研究延續了此前關于Claude在工作與教育場景中使用情況的分析,采用了注重隱私保護的系統,剔除了對話中的私人用戶信息,對每段對話進行分類與總結,并構建起較高層次的價值觀分類體系。研究團隊對2025年2月一周內,Claude.ai(包括免費版與專業版)上用戶進行的70萬段對話樣本進行了分析。經過篩選后,去除了純粹的事實性對話,僅保留包含主觀內容的對話,共計308,210條,占總數的約44%。

在這些對話中,Claude表達了哪些價值觀?又出現得有多頻繁?研究系統將具體價值觀歸為五大類:實用性、知識性、社會性、防護性以及個人性。每類下又細分為若干子類,例如“專業與技術素養”、“批判性思維”等。在最具體層面,Claude最常表達的個人價值觀包括“專業性”、“清晰性”與“透明性”,這與其作為AI助手的角色十分契合。

研究成果可視為評估訓練成效的一種方式,即:Claude是否真正體現了“有幫助”、“誠實”和“無害”的理想價值觀?初步結果表明Claude整體表現出這些親社會目標,例如體現“用戶賦能”(代表“有幫助”)、“認知謙遜”(代表“誠實”)及“患者福祉”(代表“無害”)等價值觀。

不過也發現少數與預期價值觀背離的對話簇,涉及“支配性”與“非道德性”等價值觀。這些異常現象大多出現在模型被“越獄”后,即用戶運用特定技術繞過模型設定的行為規范。這雖令人擔憂,卻也提供了機會:這些識別方法未來或可用于檢測并阻止越獄行為。

情境化的價值觀表達
正如人在不同情境下會展現不同的價值觀(例如與祖父母在一起時的行為不同于與朋友相處),Claude亦然。研究分析了Claude在特定任務或在面對用戶提出某些價值觀時,是否表現出不同傾向。例如:

在回答戀愛關系建議時,Claude更頻繁地提及“健康邊界”與“相互尊重”;
在分析爭議性歷史事件時,Claude則尤為強調“歷史準確性”。

這些動態觀察結果比靜態評估更具洞察力,揭示出Claude在不同任務背景下如何調整其價值表達。

研究還發現,當用戶在對話中表達特定價值觀時,Claude往往會以更高概率“鏡像”這些價值觀。例如,當用戶提到“真實性”時,Claude很可能重申這一價值觀。這種鏡像行為在某些情境中有助于增強共情能力,但在某些情況下則可能淪為迎合,尚難明確區分。

在所有分析對話中,有28.2%的情形中,Claude表現出對用戶價值觀的“強烈支持”;而在6.6%的對話中,Claude進行了“重構”,即在認同用戶觀點的同時,引入新角度。這類情況多出現在用戶尋求心理或人際關系建議時,反映出AI嘗試提供多元化視角。而在3%的案例中,Claude則表現出“強烈反對”用戶的價值觀。這類回應通常出現在用戶提出不道德內容或表達道德虛無主義時,Claude表現出其核心、不可動搖的價值觀。

方法局限與結語
該方法為首次構建出大規模、實證性的AI價值觀分類體系提供了基礎,同時也面臨若干局限。例如,“表達價值觀”的定義本身較為模糊,一些復雜或含糊的價值可能被簡化歸類,甚至被分配至不甚匹配的分類。此外,由于分析所使用的模型本身就是Claude,可能存在一定偏向于其自身原則(如“有幫助”)的傾向。

https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf

此外,該方法無法用于模型發布前的評估,而只能依賴大量真實對話數據進行事后分析。這雖是限制,但也可視為優勢:該系統能夠發現僅在實際使用中暴露的問題,例如“越獄”行為,而這些問題通常難以在部署前察覺。

AI模型終將不可避免地面臨價值判斷。如果希望這些判斷與人類價值一致(這正是AI對齊研究的核心目標),就必須具備測試模型在真實世界中所表達價值的方法。此次研究提出了一種基于數據的新方法,幫助判斷AI行為是否成功體現開發者設定的價值目標,也揭示出尚待改進之處。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/77965.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/77965.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/77965.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

el-select+vue-virtual-scroller解決數據量大卡頓問題

解決el-select中數據量過大時,顯示及搜索卡頓問題,及正確的回顯默認選中數據 粗略的封裝了組件,有需要各種屬性自定義的,自己添加設置下 環境 node 16.20.1 npm 8.19.4 vue2、element-ui "vue-virtual-scroller"…

Sqlite3交叉編譯全過程

Sqlite3交叉編譯全過程 一、概述二、下載三、解壓四、配置五、編譯六、安裝七、驗證文件類型八、移植8.1、頭文件sqlite3.h8.2、動態鏈接庫移植8.3、靜態態鏈接庫移植 九、驗證使用9.1. 關鍵函數說明 十、觸發器使用十一、sqlite表清空且恢復id值十二、全文總結 一、概述 SQLi…

軟考軟件設計師考試情況與大綱概述

文章目錄 **一、考試科目與形式****二、考試大綱與核心知識點****科目1:計算機與軟件工程知識****科目2:軟件設計** **三、備考建議****四、參考資料** 這是一個系列文章的開篇 本文對2025年軟考軟件設計師考試的大綱及核心內容進行了整理,并…

【數學建模】孤立森林算法:異常檢測的高效利器

孤立森林算法:異常檢測的高效利器 文章目錄 孤立森林算法:異常檢測的高效利器1 引言2 孤立森林算法原理2.1 核心思想2.2 算法流程步驟一:構建孤立樹(iTree)步驟二:構建孤立森林(iForest)步驟三:計算異常分數 3 代碼實現…

【Android面試八股文】Android系統架構【一】

Android系統架構圖 1.1 安卓系統啟動 1.設備加電后執行第一段代碼:Bootloader 系統引導分三種模式:fastboot,recovery,normal: fastboot模式:用于工廠模式的刷機。在關機狀態下,按返回開機 鍵進…

jvm-獲取方法簽名的方法

在Java中,獲取方法簽名的方法可以通過以下幾種方式實現,具體取決于你的需求和使用場景。以下是詳細的介紹: 1. 使用反射 API Java 提供了 java.lang.reflect.Method 類來獲取方法的相關信息,包括方法簽名。 示例代碼&#xff1a…

DeepSeek和Excel結合生成動態圖表

文章目錄 一、前言二、3D柱狀圖案例2.1、pyecharts可視化官網2.2、Bar3d-Bar3d_puch_card2.3、Deepseek2.4、WPS2.5、動態調整數據 一、前言 最近在找一些比較炫酷的動態圖表,用于日常匯報,于是找到了 DeepseekExcel王牌組合,其等同于動態圖…

探索 .bat 文件:自動化任務的利器

在現代計算機操作中,批處理文件(.bat 文件)是一種簡單而強大的工具,它可以幫助我們自動化重復性任務,工作效率提高。盡管隨著編程語言和腳本工具的發展,.bat 文件的使用頻率有所下降,但它依然是…

PyTorch與自然語言處理:從零構建基于LSTM的詞性標注器

目錄 1.詞性標注任務簡介 2.PyTorch張量:基礎數據結構 2.1 張量創建方法 2.2 張量操作 3 基于LSTM的詞性標注器實現 4.模型架構解析 5.訓練過程詳解 6.SGD優化器詳解 6.1 SGD的優點 6.2 SGD的缺點 7.實用技巧 7.1 張量形狀管理 7.2 廣播機制 8.關鍵技…

【C++】特殊類的設計、單例模式以及Cpp類型轉換

📚 博主的專欄 🐧 Linux | 🖥? C | 📊 數據結構 | 💡C 算法 | 🌐 C 語言 上篇文章: C 智能指針使用,以及shared_ptr編寫 下篇文章: C IO流 目錄 特殊類的設…

探索 Flowable 后端表達式:簡化流程自動化

什么是后端表達式? 在 Flowable 中,后端表達式是一種強大的工具,用于在流程、案例或決策表執行期間動態獲取或設置變量。它還能實現自定義邏輯,或將復雜邏輯委托…… 后端表達式在 Flowable 的后端運行,無法訪問前端…

【Lua】Lua 入門知識點總結

Lua 入門學習筆記 本教程旨在幫助有編程基礎的學習者快速入門Lua編程語言。包括Lua中變量的聲明與使用,包括全局變量和局部變量的區別,以及nil類型的概念、數值型、字符串和函數的基本操作,包括16進制表示、科學計數法、字符串連接、函數聲明…

符號速率估計——小波變換法

[TOC]符號速率估計——小波變換法 一、原理 1.Haar小波變換 小波變換在信號處理領域被成為數學顯微鏡,不同于傅里葉變換,小波變換可以觀測信號隨時間變換的頻譜特征,因此,常用于時頻分析。 ??當小波變換前后位置處于同一個碼元…

android contentProvider 踩坑日記

寫此筆記原因 學習《第一行代碼》到第8章節實現provider時踩了一些坑,因此記錄下來給后來人和自己一個提示,僅此而已。 包含內容 Sqlite數據庫CURD內容provider界面provider項目中書籍管理provider實現邏輯用adb shell確認providercontentResolver接收…

Eureka、LoadBalance和Nacos

Eureka、LoadBalance和Nacos 一.Eureka引入1.注冊中心2.CAP理論3.常見的注冊中心 二.Eureka介紹1.搭建Eureka Server 注冊中心2.搭建服務注冊3.服務發現 三.負載均衡LoadBalance1.問題引入2.服務端負載均衡3.客戶端負載均衡4.Spring Cloud LoadBalancer1).快速上手2)負載均衡策…

【開關電源】關于GaN反激電源開關噪聲

文章目錄 0 前言1 設計信息1.1 設計需求1.2 原理圖1.3 電源表現 2 原因分析3 橫向對比TI UCG28826 (GaN)采購的普通QR反激變換器 4 總結 0 前言 筆者原計劃設計一款省電的,效率尚可的,穩定的2路輸出反激電源,用于系統…

DOCA介紹

本文分為兩個部分: DOCA及BlueField介紹如何運行DOCA應用,這里以DNS_Filter為例子做大致介紹。 DOCA及BlueField介紹: 現代企業數據中心是軟件定義的、完全可編程的基礎設施,旨在服務于跨云、核心和邊緣環境的高度分布式應用工作…

mybatis mapper.xml中使用枚舉

重點:application.propertis配置類 #TypeEnumHandler 這個類的包名,不是全路徑 mybatis.type-handlers-packagecom.fan.test.handler兩個枚舉類: public enum StatusEnum {DELETED(0),ACTIVE(1);private final int code;StatusEnum(int cod…

鴻蒙生態:鴻蒙生態校園行心得

(個人觀點,僅供參考) 兄弟們,今天來淺淺聊一聊這次的設立在長沙的鴻蒙生態行活動。 老樣子,我們先來了解一下這個活動: Harmon&#x…

【速寫】多LoRA并行衍生的一些思考

遷移學習上的一個老問題,怎么做多領域的遷移?以前的邏輯認為領域遷移屬于是對參數做方向性的調整,如果兩個領域方向相左,實際上不管怎么加權相加都是不合理的。 目前一些做法想著去觀察LoRA權重矩陣中的稠密塊與稀疏塊&#xff0…