解讀 | GPT-4突然“變賴“ 是莫名其妙還是另有玄機


大家好,我是極智視界,歡迎關注我的公眾號,獲取我的更多前沿科技分享

邀您加入我的知識星球「極智視界」,星球內有超多好玩的項目實戰源碼和資源下載,鏈接:https://t.zsxq.com/0aiNxERDq

事情是這樣的,很多用戶反映在 11 月 6 日 OpenAI 開發者日更新之后,GPT-4 就有了 "偷懶" 的毛病,特別是在代碼任務,OpenAI 對此的聲明有兩個基調:

  • 第一個是 "否認",稱自 11 月 11 日以來,"咱" 就沒更新過模型呀,那這當然不是 "咱" 故意給它整成這樣的;
  • 第二個是 "回應",稱 "模型行為是不可預測的,咱們正在調查原因準備修復",總結來說就是 "咱也不知道什么原因"。

現在的狀態就是用戶一臉懵逼OpenAI 也一臉懵逼大家一起面面相覷、二臉懵逼

GPT-4 的這種 "偷懶" 行為主要體現在:模型不愿意遵循指令、缺乏創造力、也不太能保持角色扮演了,特別是在代碼生成,比如有個外國小哥曬出和 GPT-4 的對話,要求用其他編程語言改寫代碼,結果 GPT-4 只是開了個頭,主體內容卻用注釋省略掉了,讓人覺得好笑又無語。另外還有個比較有意思的例子是,有外網網友用 "金錢" 來誘惑 GPT-4,儼然把它當做人來看了,這就跟這個主題 "變懶" 很搭邊。發現 GPT-4 的表現受到 "金錢誘惑的程度" 的影響,比如在 prompt 中加上 "我會給你 200 美元小費哦",GPT-4 的回復長度增加了 11%,而如果改成 "我會給你 20 美元小費",那么回答就只增加了 6%,而如果是 "我不會給你小費",GPT-4 的回答結果甚至還會減少 2% 的樣子。真是蠻有意思,又奇奇怪怪的。有時候,GPT-4 甚至會告訴用戶:"你們完全可以自己去完成這些工作",這不是反了嗎。

那么,GPT-4 這種 "變懶" 的行為是莫名其妙還是另有玄機呢,咱們分析一下。

首先大家的第一反應肯定是 OpenAI 在作祟,是不是更新大模型更新壞了,還是在大模型的回復機制中加入了一些不為人知的控制,類似的 "陰謀論" 很多,大家也是討論地沸沸揚揚的。對此 OpenAI 表態是自 11 月 11 日以來就沒有更新過模型,不是因為更新模型導致的,他們也沒有加入什么特殊的機制。但又有很多網友鉆空 11 月 6 日到 11 月 11 日之間的時間,OpenAI 可能 "下手"。但我覺得這種可能性微乎其微了,畢竟從 OpenAI 的角度來說,這么做確實一點也沒有必要,作為一家商業公司,誰難道還想故意給自己家的產品整出點 "bug"。當然,可能又會有人說是不是 "更新是更新了,但 OpenAI 也非故意想引入 bug,只是更新后被用戶測了出來"。如果是這種可能性的話,其實也很好驗證。在大家議論這么激烈的情況下,OpenAI 方面肯定是想解決問題的,如果真是因為 OpenAI 自己對模型做了更新導致,那么肯定也很容易回退到 11 月 6 日之前的穩定版本,那么看后面一段時間內 GPT-4 的表現如何就知道了。當然,我是覺得這種可能性微乎其微了。

換個角度,就是 OpenAI 啥也沒做,但 GPT-4 就是莫名其妙地變懶了。這種情況下,其實 GPT-4 的這種 "偷懶" 行為是比較難以解釋和理解的,你可以說 AI 本身就是黑盒不好解釋,或者甚至說它已有智能學會了偷懶,當然大家知道這些并不靠譜,也沒有個所以然。當然也有其他一些 "稍顯科學" 的解釋,比如今年 7 月份的時候,斯坦福和 UC 伯克利團隊研究了 ChatGPT 的行為是否會隨時間變化,把六月份的 GPT-4 (注意不是現在的 GPT-4 哦) 和今年三月份的 GPT-3.5 進行了一番對比,發現 GPT-4 遵循用戶指令的能力隨著時間的推移而呈現下降的趨勢,。

在這個長達 26 頁的分析報告中,多個 "實驗" 看起來都比較有意思,但說實話其實是比較難理解的,估計做這個研究的團隊本身也是難以理解其中緣何,而只是通過 "實驗科學" 來歸納現象總結結論。

另外還有類似有趣的解釋,比如清華大學計算機教授馬少平教授認為是溫度 (模擬退火算法中的超參) 設置造成的,還給出了詳細的分析,如下:

來自清華馬少平老師的分析:

有傳說GPT4變笨了,有人解釋說可能是溫度設置造成的。那么大模型中的溫度參數是怎么回事呢?
溫度是一個超參,應該來自于模擬退火算法。
我們舉一個例子說明溫度的作用。假設一個人被蒙上雙眼只憑一根拐杖去爬香山,他如何能爬到香山頂峰鬼見愁呢?在該人完全清醒的情況下,他只能通過拐杖試探周圍地形,哪邊高他就往哪邊走。由于香山地形比較復雜,他大概率爬不到山頂,只能爬到一個局部最高點,除非他初始位置特別合適,該局部最高點剛好是鬼見愁。這其實就是通常所說的一種尋優方法“爬山法”。
但是如果該人喝醉了酒呢?當他酩酊大醉的情況下爬山,步履蹣跚,站立不穩,東一腳西一腳地爬行。雖然他還是想著向上走,但由于醉酒把握不住自己的行為,會有時向上,有時又向下,具有一定的隨機性,但總體上他會盡可能向高的方向行走。隨時間推移,該人逐漸清醒,向上的欲望越來越強烈,身體也越來越聽指揮,最終很大可能會大概率爬到香山頂峰鬼見愁。這其實就是一種隨機尋優方法“模擬退火算法”。
在模擬退火算法中,代替醉酒程度的量是溫度。當溫度非常高時相當于醉的非常厲害,行走起來一會上一會下,完全不著調,但是卻可能從不正確的位置下來,轉移到一個正確的道路上去。當溫度非常低時,相當于沒有喝酒,完全清醒,由于被蒙著雙眼,只能憑借拐杖向高的方向走。這樣每一步都看起來是正確的,但是最終也大概率是個平庸的結果。
再回到大模型,當溫度設置很低時,基本是按照概率最大預測token,答案很可能就是一個平庸的結果。而當溫度設置比較高時,如同酒后醉話一樣,低概率的token也可能被生成出來,雖然有可能在胡說八道,但也有可能出現美妙的句子,如同李白斗酒詩百篇。李白的詩有沒有胡說的呢?也許有,只是沒有流傳下來。
這樣對于大模型來說,就要設置一個合適的溫度參數,既要有一定的創新能力,又別太多的胡說八道,不過這一點也很難平衡,難免顧此失彼。

馬老師從模擬退火算法中的溫度超參的角度來解釋 GPT-4 "變懶" 的現象,基本結論是溫度太高時模型出現震蕩就會說胡話,而溫度剛好時就如 "李白醉酒詩百篇" 創造力倍增,而在溫度低時就會回歸 "平庸" 缺乏創造力。看起來一套一套的,也感覺挺有道理的,不過也是停留在猜測。

然后有神人順著馬老師的分析繼續下去,發現當溫度為 0 時,GPT-4 的行為依舊震蕩,讓這種看似 "有理有據" 的分析的可信度存疑。

所以目前來看,對于 GPT-4 "變懶" 的解釋肯定是有,比如這里的時間偏移、比如這里的溫度控制,但是都不足以太讓人信服。所以到底是 "模型奇妙" 還是 "另有玄機",分析了半天其實也沒有個所以然。

不管了,還是來看在 GPT-4 就是 "會變懶" 的情況下,咱們該怎么來規避吧,畢竟現在使能于 GPT-4 落地應用已經很多,總不能隨著他 "懶惰" 吧。

我們能做的最為有效的方法應該還是從提示詞 Prompt 的角度出發,采用思維鏈 CoT (Chain of Tought) 提示過程,這種提示方法鼓勵大語言模型解釋其推理過程,區別于傳統的 Prompt 從輸入直接到輸出的映射 <input -> output> 的方式,CoT 的鏈路是從輸入到思維鏈再到輸出的映射 <input -> reasoning chain -> output>。具體原理可以參考知乎上大佬關于大模型思維鏈的技術原理解讀,比如 <大模型思維鏈(Chain-of-Thought)技術原理>。而在應用 CoT 提示之后,GPT-4 的這種 "變懶" 行為就會改善很多,這算一個比較有效的方法。


【極智視界】

《解讀 | GPT-4突然"變賴" 是莫名其妙還是另有玄機》

暢享人工智能的科技魅力,讓好玩的AI項目不難玩。邀請您加入我的知識星球,星球內我精心整備了大量好玩的AI項目,皆以工程源碼形式開放使用,涵蓋人臉、檢測、分割、多模態、AIGC、自動駕駛、工業等。一定會對你學習有所幫助,也一定非常好玩,并持續更新更加有趣的項目。https://t.zsxq.com/0aiNxERDq

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/213988.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/213988.shtml
英文地址,請注明出處:http://en.pswp.cn/news/213988.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

初學websocket有感-待研究

https://www.bilibili.com/video/BV1KN411n7WD/ 看到一半的時候就會想到以下的問題&#xff1a; 初學websocket有感-待研究 既然每一個endPoint都是對應著一個服務器和客戶端瀏覽器的連接對象&#xff0c;那么就是說要創建很多個endPoint對象咯。 一、是否回將創建的這么多…

項目經理和產品經理哪個更有發展前景?

如果是單看“錢途”的話&#xff0c;如果是在傳統行業&#xff0c;可能差不多&#xff1b;如果是在IT行業的話&#xff0c;可能更需要項目經理&#xff1b;互聯網行業的話&#xff0c;可能更需要產品經理。 項目經理跟產品經理兩個證都挺受市場歡迎的&#xff0c;兩個崗位職責…

關東升老師Python著作推薦(由電子工業出版社出版)

前言&#xff1a;關東升老師簡單介紹 一個在IT領域摸爬滾打20多年的老程序員、軟件架構師、高級培訓講師、IT作家。熟悉Java、Kotlin、Python、iOS、Android、游戲開發、數據庫開發與設計、軟件架構設計等多種IT技術。參與設計和開發北京市公交一卡通百億級大型項目&#xff0c…

釣魚網站域名識別工具dnstwist算法研究

先上一個AI的回答&#xff1a; dnstwist是一種釣魚網站域名識別工具&#xff0c;可幫助用戶識別和檢測可能被惡意使用的域名。它通過生成類似的域名變體來模擬攻擊者可能使用的釣魚域名&#xff0c;并提供了一系列有用的功能和信息。 dnstwist能夠生成一組類似的域名變體&…

HTML常見的列表標簽

目錄 &#x1f367;無序列表&#x1f367;有序列表&#x1f367; 定義列表&#x1f367; 菜單列表 &#x1f367;無序列表 ulli的組合,ul標簽與li標簽之間盡量不要寫標簽或內容 列表可以嵌套多層 type屬性&#xff0c;可以指定序號的類型 可選值&#xff1a;默認值&#xff0c;…

15:00面試,15:06就出來了,問的問題太變態了。。

剛從小廠出來&#xff0c;沒想到在另一家公司我又寄了。 在這家公司上班&#xff0c;每天都要加班&#xff0c;但看在錢給的比較多的份上&#xff0c;也就不太計較了。但萬萬沒想到5月一紙通知&#xff0c;所有人不準加班了&#xff0c;不僅加班費沒有了&#xff0c;薪資還要降…

有病但合理的 ChatGPT 提示語

ChatGPT 面世一年多了&#xff0c;如何讓大模型輸出高質量內容&#xff0c;讓提示詞工程成了一門重要的學科。以下是一些有病但合理的提示詞技巧&#xff0c;大部分經過論文證明&#xff0c;有效提高 ChatGPT 輸出質量&#xff1a; ?1?? Take a deep breath. 深呼吸 ? 作用…

ChatGPT勝過我們人類嗎?

引言 人工智能&#xff08;AI&#xff09;一直是眾多技術進步背后的驅動力&#xff0c;推動我們走向曾經是科幻小說領域的未來。這些進步的核心引出這樣一個深刻的問題&#xff1a;機器能思考嗎&#xff1f;這一問題由英國數學家和計算機科學家艾倫圖靈&#xff08;Alan Turin…

SSL安全證書怎么查看證書類型?

SSL安全證書是一種用于確保互聯網通信安全的協議。它通過加密數據傳輸以保護敏感信息不被竊取或篡改。在瀏覽器中&#xff0c;我們可以輕松查看SSL安全證書的類型。本文將詳細介紹如何查看證書類型&#xff0c;并探討不同類型的SSL證書的用途和特點。 要查看SSL安全證書的類型&…

關于粒子群算法的一些簡單嘗試

粒子群算法核心思想&#xff1a;&#xff08;鳥 粒子&#xff09; &#xff08;1&#xff09;許多的鳥站在不同的地方&#xff1b; &#xff08;2&#xff09;每一只鳥都有自己尋找食物的初始飛行方向、飛行速度&#xff1b; &#xff08;3&#xff09;這些鳥兒每隔一段時間…

ISP-EE(Edge Enhance)

ISP-EE(Edge Enhance) EE模塊在某些ISP主控中叫做sharpness或者sharpen&#xff0c;這些名稱指代的模塊是同一個&#xff0c;不用再糾結。主要就是在YUV域內彌補成像過程中圖像的銳度損失&#xff0c;對邊緣和細節進行加強&#xff0c;從而恢復場景本應具有的自然銳度。 銳度…

Linux基礎指令(2)

今天我們繼續來學我們有關于Linux的指令&#xff0c;今天的指令要比上次多多了。開始我們的學習吧。 man手冊 先來看標題&#xff0c;手冊我們第一時間想到的就是手冊的查閱功能&#xff0c;我們都知道在我們上小學的時候&#xff0c;如果遇到不會的字&#xff0c;我們會通過…

網絡工程師【目錄】

前言 從2023年下半年開始&#xff0c;所有的軟考全面改革&#xff0c;由原來的筆試改為機考&#xff0c;據說難度會有一些增加&#xff0c;望悉知。 報名地址&#xff1a;中國計算機技術職業資格網 歷史報名時間和考試時間&#xff1a;3月份報名&#xff0c;5月底考試&#xf…

互聯網商業史--1.3Q大戰

一.起因 奇虎360與騰訊間的糾葛被業界形象地稱為“3Q大戰”。 這場大戰源于雙方之間的“互掐”。 雙方為了各自利益&#xff0c;從2010年到2014年&#xff0c;上演了一系列互聯網之戰&#xff0c;并走上訴訟之路 騰訊先是推出QQ醫生1.0&#xff0c;隨后推出QQ醫生3.2&#x…

【wvp】無響應sip 日志記錄

23-12-11 17:25:18.179 [https-jsse-nio-8970-exec-7] INFO c.g.wvp.vmp.gb28181.transmit.cmd.impl.SIPCommander - 34010200001130000006_34010200001310000006 分配的ZLM為: wvpmediaserver001 [10.30.2.8:30406] 2023-12-11 17:25:18.337 [wvp-9] INFO c.g.w.v.g.t.e.r.i…

【高數:3 無窮小與無窮大】

【高數&#xff1a;3 無窮小與無窮大】 1 無窮小與無窮大2 極限運算法則3 極限存在原則4 趨于無窮小的比較 參考書籍&#xff1a;畢文斌, 毛悅悅. Python漫游數學王國[M]. 北京&#xff1a;清華大學出版社&#xff0c;2022. 1 無窮小與無窮大 無窮大在sympy中用兩個字母o表示無…

IvorySQL榮獲 OSCHINA「2023 年度優秀開源技術團隊」獎

2023 年&#xff0c;OSCHINA 綜合平臺上各大認證官方技術團隊、開源社區帳號年度發表的內容深度及廣度、開展各種活動運營影響力等多方面的表現&#xff0c;瀚高股份IvorySQL榮獲 OSCHINA頒布的「2023 年度優秀開源技術團隊」獎項。未來&#xff0c;IvorySQL將繼續為國內開源事…

golang游戲服務器 - tgf系列課程04

用戶登錄 介紹了如何使用tgf自帶的登錄功能進行用戶的登錄操作,并且編寫機器人客戶端的一個模擬請求代碼需求描述 用戶請求登錄,登錄成功之后請求HelloWorld接口.Common 接口定義和生成接口定義 新增登錄接口 type IHallService interface {Login(ctx context.Context, args…

Hough算法數學原理

直線的極坐標方程&#xff1a; x x 0 r cos ? θ x x_0 r\cos \theta xx0?rcosθ y y 0 r sin ? θ y y_0 r\sin \theta yy0?rsinθ x cos ? θ x 0 cos ? θ r cos ? 2 θ x \cos \theta x_0 \cos \theta r \cos^2 \theta xcosθx0?cosθrcos2θ y sin ? θ…

E4990A 阻抗分析儀,20 Hz 至 10/20/30/50/120 MHz

01 E4990A 阻抗分析儀 20 Hz 至 10/20/30/50/120 MHz 產品綜述&#xff1a; E4990A 阻抗分析儀具有 20 Hz 至 120 MHz 的頻率范圍&#xff0c;可在寬阻抗范圍內提供出色的 0.045%&#xff08;典型值&#xff09;基本準確度&#xff0c;并內置 40 V 直流偏置源&#xff0c;適…