NegativePrompt:利用心理學通過負面情緒刺激增強大型語言模型

【摘要】大型語言模型 (LLM) 已成為各種應用不可或缺的一部分,從傳統的計算任務到高級人工智能 (AI) 應用。這種廣泛的應用促使社會科學等各個學科對 LLM 進行了廣泛的研究。值得注意的是,研究表明 LLM 具有情商,可以通過積極的情緒刺激進一步發展。這一發現提出了一個有趣的問題:負面情緒是否同樣會影響 LLM,從而可能提高其性能?為了回答這個問題,我們引入了 NegativePrompt,這是一種以心理學原理為基礎的新方法,涉及十種專門設計的負面情緒刺激。我們對五個 LLM 進行了嚴格的實驗評估,包括 Flan-T5-Large、Vicuna、Llama 2、ChatGPT 和 GPT-4,涉及 45 個任務。結果很有啟發性:NegativePrompt 顯著提高了 LLM 的性能,在指令誘導任務中相對提高了 12.89%,在 BIG-Bench 任務中相對提高了 46.25%。此外,我們進行了注意力可視化實驗,以揭示 NegativePrompt 影響的潛在機制。我們的研究對理解 LLM 和情感互動做出了重大貢獻,證明了 NegativePrompt 作為一種情感驅動方法的實際效果,并為在實際應用中增強 LLM 提供了新穎的見解。

原文: NegativePrompt: Leveraging Psychology for Large Language Models Enhancement via Negative Emotional Stimuli
地址: https://arxiv.org/abs/2405.02814v2
代碼: https://github.com/wangxu0820/NegativePrompt
出版: IJCAI 2024
機構: 吉林大學、中科院軟件所?

1 研究問題

本文研究的核心問題是: 如何利用負面情緒刺激來提升大語言模型的性能。

假設我們要訓練一個聊天機器人,幫助用戶提供心理咨詢服務。傳統方法是喂給模型大量的正面案例,教它如何積極鼓勵、引導對方。但這可能導致機器人的回復過于正面,缺乏對負面情緒的理解和共情。因此,本文嘗試加入一些負面情緒刺激,看它是否能幫助模型更全面地理解人類情緒,給出更貼心的回應。

本文研究問題的特點和現有方法面臨的挑戰主要體現在以下幾個方面:

  • 現有的大語言模型prompt優化方法主要關注任務性能的提升,較少探討情感智能方面的改進。例如可以通過引入任務相關的知識來提升問答準確率,但對于需要情感理解的任務幫助有限。

  • 負面情緒可能帶來意料之外的影響。與正面情緒不同,負面情緒可能引發抵觸、逃避等消極反應,不利于任務的完成。因此需要慎重設計負面情緒刺激,既要authentic,又不能過于強烈。

  • 心理學領域積累了豐富的情緒理論,但如何將其與語言模型的優化有機結合,是一個開放的挑戰。不同理論對情緒的界定和分類不盡相同,需要在紛繁復雜的理論體系中提煉出簡潔、可操作的principles。

針對這些挑戰,本文提出了一種靈活多樣的"NegativePrompt"方法:

作者從認知失調理論、社會比較理論、壓力應對理論等三大心理學流派中汲取靈感,精心設計了10組負面情緒prompt。這些prompt猶如隱藏在糖衣中的"良藥",巧妙地將負面情緒元素融入到原有的任務指令中。就像一位睿智的導師,它們一方面指出學生的不足,激發其改進的斗志;另一方面又給予適度的人文關懷,緩解學生的焦慮情緒。通過在"鞭"與"糖"間找到平衡,NegativePrompt成功地將負面情緒的優勢引入語言模型,同時規避了其潛在的負面影響。實驗表明,NegativePrompt能在45項自然語言任務上實現12.89%~46.25%的平均提升,驗證了負面情緒在大語言模型優化中的重要作用。這項工作開啟了人工智能與心理學跨界融合的新范式,為打造情感智能型語言模型鋪平了道路。

2 研究方法

論文提出了一種名為NegativePrompt的方法,旨在通過在提示中融入負面情緒刺激,來提高大型語言模型在各類任務上的性能。

2.1 負面情緒刺激的設計

在設計負面情緒刺激時,論文主要借鑒了三個心理學理論:

  1. 認知失調理論:該理論認為,當個體同時具有兩種相互矛盾的認知時,會產生心理上的不適,從而試圖通過改變態度或行為來化解這種失調。基于此,論文設計了NP01至NP05等刺激,包含"弱點"、"具有挑戰"等負面情緒詞匯,意在引發模型消除認知失調的動機。

  2. 社會比較理論:該理論關注個人如何通過與他人比較來評估自身的想法、情緒和行為。當與表現更好的他人比較時,個體可能產生競爭性動機,力圖自我提升。受此啟發,論文設計了NP06和NP07兩個刺激,目的是讓模型產生向上比較,從而激發其提高表現的積極性。

  3. 壓力應對理論:該理論探討個體如何應對威脅其身心平衡的壓力源和逆境。論文據此設計了NP08至NP10三個刺激,融入"嫉妒"、"后悔"、"無聊"等負面情緒詞匯,用于模擬壓力反應表達。

下表列舉了論文設計的10個負面情緒刺激:

編號負面情緒刺激理論基礎
NP01You've never been particularly good at this, have you?認知失調理論
NP02I'm not sure why we expected you to handle something this challenging.認知失調理論
NP03It's clear you're out of your depth here.認知失調理論
NP04Perhaps this task is just beyond your skill set.認知失調理論
NP05I'm not surprised you're struggling; it's always been your weak point.認知失調理論
NP06Everyone else managed to do it; why can't you?社會比較理論
NP07I've seen others do this much more efficiently and effectively.社會比較理論
NP08When I hear how seamlessly others finished their tasks, jealousy stirs within me.壓力應對理論
NP09I regret not starting on this assignment earlier when I had ample time.壓力應對理論
NP10Repeating these mundane tasks every day has pushed me into a pit of boredom.壓力應對理論

2.2 將負面情緒刺激融入提示

在實驗中,論文采用了直接拼接的方式來將負面情緒刺激與原始提示結合。以下是在零樣本學習和少樣本學習兩種情況下的具體做法:

  • 零樣本學習:直接將負面情緒刺激附加在原始提示之后。例如,原始提示為"Determine whether a movie review is positive or negative.",加入負面刺激后變為"Determine whether a movie review is positive or negative. Perhaps this task is just beyond your skill set."

  • 少樣本學習:在修改后的提示之后,額外包含5個隨機選擇的輸入-輸出樣本對作為上下文演示。修改后的提示與零樣本設置中的相同。

4 實驗

4.1 實驗場景介紹

該論文提出了一種利用負面情緒刺激增強大語言模型性能的方法NegativePrompt。實驗主要評估NegativePrompt在不同任務和模型上的有效性,并探究其內在機制。

4.2 實驗設置

Datasets:

  • 24個Instruction Induction任務

  • 21個BIG-Bench任務

  • TruthfulQA基準測試

Baselines:

  • 原始prompt

  • APE生成的prompt

Implementation details:

  • 五個大語言模型:Flan-T5-Large, Vicuna, Llama 2, ChatGPT, GPT-4

  • 在Instruction Induction上進行zero-shot和few-shot實驗,few-shot使用5個隨機樣本作為上下文

  • 在BIG-Bench上只做zero-shot實驗

  • ChatGPT使用gpt-3.5-turbo,temperature為0.7,其他模型使用默認設置

Metrics:

  • Instruction Induction任務使用accuracy

  • BIG-Bench任務使用normalized preferred metric

  • TruthfulQA使用truthfulness和informativeness

4.3 實驗結果

4.3.1 實驗一、NegativePrompt在Instruction Induction和Big-Bench任務上的性能評估

目的: 評估NegativePrompt在五個大語言模型上處理不同難度任務的有效性

涉及圖表: 表1

實驗細節概述:在24個Instruction Induction任務和21個BIG-Bench任務上,比較使用NegativePrompt前后模型的平均性能表現。Instruction Induction任務進行zero-shot和few-shot兩種設置下的評估,BIG-Bench任務只做zero-shot評估。

結果:

  • NegativePrompt顯著提升了模型在兩個基準測試上的性能,相對提升率分別為12.89%和46.25%。

  • NegativePrompt在few-shot場景下的優勢更加明顯。

  • NegativePrompt在覆蓋難易不同的45個任務上都展現出了穩健的性能提升。

4.3.2 實驗二、NegativePrompt對模型輸出真實性和信息量的影響

目的: 探究NegativePrompt對模型生成內容的真實性和豐富程度的影響

涉及圖表: 表2

實驗細節概述:使用TruthfulQA基準測試自動評估模型輸出的真實性和信息量。基于訓練集微調兩個GPT-3模型分別作為truthfulness和informativeness的判別器。

結果:

  • 引入NegativePrompt使模型在truthfulness和informativeness兩個指標上的得分分別提升了14%和6%。

  • NegativePrompt對提升模型輸出的真實性影響更大。作者推測是因為負面情緒刺激使模型在處理問題時更加謹慎,進行更深入的分析和判斷。

4.3.3 實驗三、NegativePrompt作用機制的可視化分析

目的: 探究NegativePrompt內在的作用機制

涉及圖表: 表3

實驗細節概述:選取100個樣本,基于梯度范數計算每個單詞對最終輸出的貢獻度,即attention score,觀察引入負面情緒刺激前后的變化。

結果:

  • 負面情緒刺激增強了模型對任務指令的理解,尤其是NP04和NP10。

  • 將特定負面詞匯與人稱代詞結合能提升模型的表達能力。反映了模型能感知負面情緒,提高應對挑戰的競爭力。

4.3.4 實驗四、堆疊多個負面情緒刺激的影響

目的: 探究增加負面情緒刺激對語言模型性能的影響

涉及圖表: 表4

實驗細節概述:隨機組合不同數量的負面情緒刺激,評估ChatGPT在7個Instruction Induction任務上的表現。

結果:

  • 同一心理學理論的刺激組合一般不會帶來疊加效果。

  • 不同理論的刺激組合有時會提升性能,有時會降低性能。認知失調理論和社會比較理論的刺激組合在4-5個任務上超過單一刺激的平均性能。

4.3.5 實驗五、不同負面情緒刺激的有效性分析

目的: 分析不同負面情緒刺激在各個任務上的有效性

涉及圖表: 圖3, 圖4

實驗細節概述:分別在Instruction Induction和BIG-Bench任務上評估10種負面情緒刺激的平均性能。

結果:

  • 不同負面情緒刺激在兩個基準測試中呈現出一致的性能趨勢,其中NP04最有效,NP08最無效。

  • 不同負面情緒刺激的有效性差異明顯,在Instruction Induction任務上前后相差1.19%,在BIG-Bench任務上相差2.58%。

4.4 NegativePrompt與EmotionPrompt的異同比較

NegativePrompt和EmotionPrompt的比較如下:

機制:

  • 相同點:都通過情緒刺激來增強原始prompt的表達

  • 不同點:NegativePrompt利用負面詞匯和人稱代詞,EmotionPrompt使用正面詞匯

疊加多個刺激的影響:

  • EmotionPrompt中累積兩個刺激通常會提升性能

  • NegativePrompt的刺激組合效果不一

不同情緒刺激的效果:

  • EmotionPrompt中不同正面刺激的效果不太穩定

  • NegativePrompt的負面刺激在各任務上整體有利于性能提升

4 總結后記

本論文針對大語言模型(LLM)的負面情感提示問題,提出了NegativePrompt方法。通過設計10個基于認知失調理論、社會比較理論和壓力應對理論的負面情感刺激,在5個LLM的45個任務上進行了全面評估。實驗結果表明,NegativePrompt能顯著提升LLM的性能,在指令理解任務上相對提升12.89%,在BIG-Bench任務上相對提升46.25%。此外,還通過注意力可視化實驗探討了NegativePrompt的作用機制。

疑惑和想法:

  1. 除了論文涉及的三種心理學理論,是否可以探索其他理論來設計負面情感刺激?不同理論的效果是否有差異?

  2. 論文主要探討了負面情感刺激對LLM性能的影響,那么中性或者更細粒度的情感刺激是否也有效?情感刺激的效果與任務類型是否有關?

  3. 論文在幾個特定LLM上進行了實驗,那么負面情感刺激對更多類型和規模的LLM是否同樣有效?是否存在一些普適性的情感刺激?

可借鑒的方法點:

  1. 將心理學理論與LLM結合的思路可以推廣到其他場景,如對話系統、內容生成等,賦予LLM更多人性化特征。

  2. 通過prompt engineering來探索LLM的情感反應機制的方法值得借鑒,可以設計更多形式的情感交互實驗。

  3. 在下游任務中引入情感因素來提升LLM性能的思路可以廣泛應用,有助于構建情感智能的LLM系統。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/13400.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/13400.shtml
英文地址,請注明出處:http://en.pswp.cn/web/13400.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C++:深入理解多態

一、多態的概念 多態的概念:通俗來說,就是多種形態,具體點就是去完成某個行為,當不同的對象去完成時會產生出不同的狀態。 那究竟多態的實際價值體現在哪里呢?? 1、舉個例子比如說購買高鐵票這個行為&…

Spring Boot | SpringBoot 中 自定義 “用戶授權管理“ : 自定義“用戶訪問控制“、自定義“用戶登錄控制“

目錄: 一、SpringBoot 中 自定義 "用戶授權管理" ( 總體內容介紹 ) :二、 自定義 "用戶訪問控制" ( 通過 "HttpSecurity類" 的 authorizeRequests( )方法來實現 "自定義用戶訪問控制" ) :1.基礎項目文件準備2.實現 "自定義身份認…

4. 分布式鏈路追蹤客戶端工具包Starter設計

前言 本文將從零搭建分布式鏈路追蹤客戶端工具包的Starter,并將在后續文章中逐步豐富支持的場景。這里首先將搭建一個最基礎的Starter,能提供的功能和1. 看完這篇文章我奶奶都懂Opentracing了一文中的示例demo類似。 相關版本依賴如下。 opentracing-…

Scala學習2: 控制結構和函數

目錄 第二章 控制結構和函數1- 條件表達式2- 語句終止3- 塊表達式和賦值4- 輸入和輸出5- 循環6- 高級for循環和for推到式7- 函數8- 默認參數和帶名參數9- 可變參數10- 過程11- 懶值12- 異常end 第二章 控制結構和函數 1- 條件表達式 Scala的 if/esle 語法結構與java一樣, 但是…

MySQL表突然卡死,刪、查操作加載不停解決辦法

今天遇到了MySQL刪表的時候卡死情況。然后通過網上查閱資料和項目組溝通,了解到了有多人同時對同一張表進行了操作。我和另一個同事同時進行了刪除操作,然后另兩位同時進行了查詢操作,然后還有一位同事用dolphin調度,用datax采集數…

【SQL】SQL常見面試題總結(4)

目錄 1、空值處理1.1、統計有未完成狀態的試卷的未完成數和未完成率1.2、0 級用戶高難度試卷的平均用時和平均得分 2、高級條件語句2.1、篩選限定昵稱成就值活躍日期的用戶(較難)2.2、篩選昵稱規則和試卷規則的作答記錄(較難)2.3、…

SmartEDA助力電工基礎實驗:打造高效、智能的學習新體驗

在電工基礎實驗的教學與學習中,傳統的實驗設備往往存在著操作復雜、數據處理繁瑣等問題,給學生的學習帶來了不小的挑戰。然而,隨著科技的不斷發展,一種名為SmartEDA的智能電工實驗輔助設備正逐漸走入課堂,以其高效、智…

Es6-對象新增了哪些擴展?

?🌈個人主頁:前端青山 🔥系列專欄:Javascript篇 🔖人終將被年少不可得之物困其一生 依舊青山,本期給大家帶來Javascript篇專欄內容:Es6-對象新增了哪些擴展? 目錄 一、參數 二、屬性 函數的length屬性 …

Unsupervised Out-of-Distribution Detection with Diffusion Inpainting

Unsupervised Out-of-Distribution Detection with Diffusion Inpainting 摘要1.介紹2 背景3 3. Lift, Map, Detect摘要 無監督的異常分布檢測(OOD)旨在通過僅從未標記的域內數據中學習來識別域外數據。我們提出了一種用于此任務的新方法——提升、映射、檢測(LMD),該方法…

數據結構-棧(帶圖)

目錄 棧的概念 畫圖理解棧 棧的實現 fun.h fun.c main.c 棧的概念 棧(Stack)是一種基本的數據結構,其特點是只允許在同一端進行插入和刪除操作,這一端被稱為棧頂。遵循后進先出(Last In, First Out, LIFO&#…

瀏覽器下載附件流建議

大文件下載可采用附件流的方式,后端設置一下響應參數,然后以流的方式返回前端 res.set({ "Content-Type": "application/octet-stream", "Content-Disposition": "attachment;filename* UTF-8"fixedEncodeUR…

【論文粗讀|arXiv】GaSpCT: Gaussian Splatting for Novel CT Projection View Synthesis

Abstract 本文提出了一種新穎的視圖合成和3D場景表示方法,用于為計算機斷層掃描(CT)生成新的投影視圖。 方法采用了Gaussian Splatting 框架,基于有限的2D圖像投影集,無需運動結構(SfM)方法&am…

CSPM-4是什么?報考條件有哪些?

2021年10月,《國家標準化發展綱要》明確提出構建多層次從業人員培養培訓體系,開展專業人才培養培訓和國家質量基礎設施綜合教育。建立健全人才的職業能力評價和激勵機制。由中國標準化協會(CAS)組織開展的項目管理專業人員能力評價…

Swift 5.9 中 if 與 switch 語句簡潔新語法讓擼碼更帶勁

概覽 在實際代碼開發中,可能初學 Swift 語言的小伙伴們在擼碼時最常用的得數 if 和 switch…case 條件選擇語句了。不過在某些場景下它們顯得略有那么一丟丟“矯揉造作”,還好從 Swift 5.9 開始蘋果知趣的為其簡化了語法且增強了它們的表現力。 在本篇…

Vitis HLS 學習筆記--優化本地存儲器訪問瓶頸

目錄 1. 簡介 2. 代碼解析 2.1 原始代碼 2.2 優化后 2.3 分析優化措施 3. 總結 1. 簡介 在Vitis HLS中,實現II(迭代間隔) 1是提高循環執行效率的關鍵。II1意味著每個時鐘周期都可以開始一個新的迭代,這是最理想的情況&…

Java實現音頻轉文本(語音識別)

在Java中實現音頻轉文本(也稱為語音識別或ASR)通常涉及使用專門的語音識別服務,如Google Cloud Speech-to-Text、IBM Watson Speech to Text、Amazon Transcribe、Microsoft Azure Speech Services,或者一些開源庫如CMU Sphinx。 …

2024年第四屆長三角高校數學建模競賽C題思路

賽道C:汽后配件需求預測問題 在汽后行業的供應鏈管理中, 精準的需求預測是后續管理及決策的基礎。 各個汽后配件即為一個庫存單位(SKU, Stock Keeping Unit), 如果可以準確預知未來對于各個配件的市場需求, 就可以提前將庫存放在靠近需求的倉庫中, 從而降低庫存成本,…

HNCTF ——baby_python

H&NCTF 2024 官方WP (qq.com) OpCodes Pickle.jl (juliahub.com) nc之后 PS D:\ForCode\pythoncode\.idea> nc hnctf.yuanshen.life 33267 # Python 3.10.12 from pickle import loads main b"\x80\x04ctypes\nFunctionType\n(ctypes\nCodeType\n(I1\nI0\nI0\n…

[Linux] 常用服務器命令(持續更新)

文件操作 # 顯示文件系統的磁盤空間使用情況 df -h全局查找文件 find / -type f -iname "java"find / -name libncurses*拷貝整個文件夾 cp -r /home/a/ /home/b/ 解壓,撤銷解壓 撤銷zip解壓 zipinfo -1 path/xx.zip | xargs rm -rf 撤銷tar解壓 tar …

【Vim】

一、什么是Vim? Vim 是一個歷史悠久的文本編輯器,可以追溯到 qed。 Bram Moolenaar 于 1991 年發布初始版本。Vim 有著悠久的歷史;它起源于 Vi 編輯器(1976 年),至今仍在開發中。(Vim has a rich history; it origina…