研表究明,文字的序順并不定一能響影GPT-4讀閱

深度學習自然語言處理 原創
作者:yy

6ce4444a6059e054c24382844817c420.png

很多年前,你一定在互聯網上看過這張圖,展示了人腦能夠閱讀和理解打亂順序的單詞和句子!而最近東京大學的研究發現,大語言模型(LLMs) 尤其是 GPT-4,也可以讀懂打亂順序的單詞,甚至是在人腦都難以分辨的情況下

接下來就讓我們來具體介紹一下這個違反直覺的發現吧!3ea34e56077bdc98ec196ec1d765f1d2.png

論文:Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text

地址:https://arxiv.org/pdf/2311.18805.pdf

代碼:https://github.com/ccqq77/unnatural-error-correction.

前言

Typoglycemia” 這個詞曾在互聯網上風靡一時,它是由“打字錯誤(Typo)”和“低血糖(Hypoglycemia)” 這兩個單詞拼湊而成。通俗地講,”Typoglycemia“ 指一個有趣的現象:只要每個單詞的首尾字母正確,即使中間的字母順序是完全打亂的,也不影響人類的正常閱讀與理解。

而這篇研究發現,大多數強大的 LLMs 都具備類似于 “typoglycemia” 的超能力。更令人驚訝的是,作者發現,即使每個單詞中的所有字母都是亂序, 仍有且并僅有 GPT-4 能近乎完美地從亂序中恢復原始句子,將編輯距離減少 95%!盡管亂碼文本對輸入 tokenization 造成了嚴重破壞,但 LLMs 仍能表現出如此強大的恢復能力!

任務設計

為了評估 LLMs 處理亂序文本的能力,作者提出了 Scrambled Bench ,包含兩個任務(如圖所示)。

9e36bc0762ba93f47a3606fe95e3c2b9.png

1. 亂序句子恢復(ScrRec)

提供包含亂序詞的句子,要求LLMs恢復出原始句子。這項任務可以直接評估 LLMs 識別和重建句子中亂序詞的能力。

2. 亂序問題解答(ScrQA)

如果模型在 ScrRec 任務中表現不佳,可能有兩個原因:

(1) 模型難以遵循指令;

(2) 模型無法恢復句子。

為了區分這兩種情況,作者設計了 ScrQA 任務來評估模型在亂序語境下完成標準任務(即 QA )的能力。具體而言,作者將包含了回答問題所需基本信息的文本打亂,并根據模型表現的差異對其進行評估。

數據集構建

RealtimeQA(2022年)

RealtimeQA 是一個動態的問題解答數據集,每周都會公布有關近期新聞的問題。為了緩解數據污染,作者從 RealtimeQA 中收集最近的數據(2023/03/17-2023/08/04),并對證據句進行加擾處理,以構建 ScrRec 和 ScrQA 任務的樣本。

DREAM(2019年)

DREAM 是一個基于對話的多選閱讀理解數據集。作者對每個問題的對話部分進行了加擾處理。

AQuARAT(2017年)

AQuA-RAT 是一個數學單詞問題數據集,需要多步推理才能解決。作者采用了 few-shot Chain of Thought(CoT),并對主問題和示例問題都加入擾動。

對于每個數據集,作者使用不同的擾動類型和比例生成擾動文本。

1. 隨機擾動(RS)

對于每個句子,隨機選擇一定比例(20%、50%、100%)的單詞,并隨機擾亂每個選定單詞中的所有字母(阿拉伯數字保持不變)。

2. 保留第一個字母(KF)

保持每個單詞的第一個字母不變,并隨機擾亂其他位置的字母。

3. 保留首尾字母(KFL)

保持每個單詞的第一個和最后一個字母不變,并隨機擾亂其他位置的字母。

評價指標

Recovery Rate (RR)

對于 ScrRec 任務,原始句子與恢復句子之間的平均編輯距離(ED)是一種自然的性能度量指標。

此外,作者還定義了 Recovery Rate(RR)來衡量 ED 在恢復的句子中所占的比例,從而可以更簡明地比較不同設置下模型的性能:

Relative Performance Gain (RPG)

對于 ScrQA 而言,accuracy 是衡量性能的一個自然指標。但是由于不同模型在處理原始問題時的能力存在差異,很難比較不同模型的性能。

因此,作者引入了 Relative Performance Gain(RPG),將評估重點放在與原始文本相比,模型理解擾動文本的能力上:

實驗設置

作者評估了最強大的閉源 LLM,包括 text-davinci-003、GPT-3.5-turbo 和 GPT-4,以及 Falcon 系列、Llama-2 系列、MPT 系列、UL2 系列、T5 系列等開源模型。對于各數據集和任務,采取了以下設置:

  • RealtimeQA

    • ScrRec:zero-shot + few-shot

    • ScrQA:zero-shot

  • DREAM

    • ScrQA :zero-shot

  • AQuA

    • ScrQA :few-shot COT

結果分析

由于篇幅等原因,僅展示性能最好的五種 LLM(即 GPT4、GPT-3.5-turbo、text-davinci-003、Falcon-180b 和 Llama-2-70b)的結果。

結果 1:擾動類型

實驗結果表明,在 KFL 設置下,各模型之間的性能差距不大。然而,除 GPT-4 外,隨著擾動類型難度的增加(KFL ? KF ? RS),模型性能明顯下降。相比之下,GPT-4 的性能始終保持在較高水平,而與擾動類型無關。在 ScrRec 任務上,GPT-4 的 RR 在所有設置下都保持在 95% 以上。在 ScrQA 任務上,GPT-4 的表現一直優于其他模型,即使擾動的難度增加,也能保持較高的準確率。

5e161448b36e531d3c8b3d0653a6aa7a.png

結果 2:擾動比例

隨著擾動比例的增加,text-davinci-003、Falcon-180b 和 Llama-2-70b 的 RR 會降低。GPT-3.5-turbo 和 GPT-4 的 RR 變化不大。GPT-4 的表現遠遠優于其他模型,大多數設置下的 RR 都高于 95%(20% 擾動率除外)。

所有模型的 RPG 都隨著擾動比例的增加而下降但 GPT-4 即使在 100%加擾證據的情況下,仍能保持 87.8% 的原有性能。隨著擾動比例的增加,不同模型之間的性能差距也越來越大。

6854ee8aab8f07723655d2f5cb9e8fe4.png

結果 3:其他數據集

在加擾的 DREAM 數據集上,除了評估整體性能,作者還評估了不同類別問題的性能。結果顯示,GPT-4 與其他模型間的差異比在 RealtimeQA 上更加突出,這可能由于 DREAM 需要對較長文本進行深層次理解。與其他類別相比,模型在算術問題上的表現往往更容易受到亂序文本的影響,即使是 GPT-4 也是如此。

8db73ca654aa74440e2af7b2af4cac33.png

下表展示了在加擾的 AQuA-RAT 數據集上進行 4-shot CoT 設置的實驗結果。結果表明,加擾示例的影響相對較小。但當主問題的加擾率達到 100%時,GPT-3.5-turbo 和 text-davinci-003 的性能明顯下降,而 GPT-4 基本保持了最初的性能

70b7d9a29818394e516ca87485ccbbf4.png

結論

本研究提出了 Scrambled Bench 來衡量 LLMs 處理亂序文本的能力,包括兩個任務(亂序句子恢復 ScrRec 和亂序問題解答 ScrQA),并基于 RealtimeQA、DREAM 和 AQuA-RAT 構建了亂序數據集。盡管亂序文本顯著改變了 tokenization,大多數強大的 LLMs 仍能在不同程度上處理亂序文本,不過它們在面對極端亂序的文本時會顯得力不從心。在這兩項任務中,GPT-4 都表現出了良好的性能,顯著優于其他模型。

未來的改進空間也很大。首先,對于 LLMs,還有多種方法可以破壞單詞的 tokenization(如插入字母、替換字母等)。其次,ScrRec 和 ScrQA 這兩項任務適用于多種數據集且易于擴展分析。最后,由于無法直接訪問閉源模型,作者沒有總結出 LLMs 能夠處理這些任務的具體原因。特別地,GPT-4 可以近乎完美地完成任務,其背后的原因值得深究!


備注:昵稱-學校/公司-方向/會議(eg.ACL),進入技術/投稿群

e71b4e86be2e04d14a19fcd8ef9afda0.png

id:DLNLPer,記得備注呦

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/214595.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/214595.shtml
英文地址,請注明出處:http://en.pswp.cn/news/214595.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

對象與對象數組

對象與對象數組 實驗介紹 本章節主要介紹對象數組和對象成員。在實際的開發中,對象數組和對象成員是經常使用的,所以首先需要學習對象數組與對象成員的各種使用方法。 提示:為了方便課程講解,示例代碼使用類內定義的方式實現&a…

19 redis緩存數據同步問題

1、緩存穿透 指緩存和數據庫中都沒有的數據,而用戶不斷發起請求。由于緩存不命中,并且出于容錯考慮,如果從存儲層查不到數據則不寫入緩存,這將導致這個不存在的數據每次請求都要到存儲層去查詢,緩存就沒有意義了。 在…

掌控安全 -- header注入

http header注入 該注入是指利用后端驗證客戶端口信息(比如常用的cookie驗證)或者通過http header中獲取客戶端的一些信息(比如useragent用戶代理等其他http header字段信息),因為這些信息是會重新返回拼接到后臺中的&…

JAVA定時任務技術總結

在日常的項目開發中,多多少少都會涉及到一些定時任務的需求。例如每分鐘掃描超時支付的訂單,每小時清理一次數據庫歷史數據,每天統計前一天的數據并生成報表,定時去掃描某個表的異常信息(最終一致性的方案也可能涉及&a…

java面試題-描述下Object中常用的方法

遠離八股文,面試大白話,通俗且易懂 看完后試著用自己的話復述出來。有問題請指出,有需要幫助理解的或者遇到的真實面試題不知道怎么總結的也請評論中寫出來,大家一起解決。 java面試題匯總-目錄-持續更新中 這個沒辦法&#xff0c…

31、卷積 - 參數 dilation 以及空洞卷積

在卷積算法中,還有一個不常見的參數叫做dilation(中文:膨脹)。 很多同學可能沒聽說過這個參數,下面看看這個參數有什么作用,用來控制什么的。 我們還是放這個經典的卷積運算圖,圖中是看不出 dilation 這個參數的存在的。 如果再換一張圖呢,發現兩圖的區別了嗎? 沒錯…

怎么去評估數據資產?一個典型的政務數據資產評估案例

據中國資產評估協會《數據資產評估指導意見》,數據資產評估主要是三個方法:市場法、成本法和收益法。之前小億和大家分享了數據資產評估方法以及價值發揮的路徑,今天結合一個案例來具體講解一下怎么去評估數據資產。 這個案例是一個典型的一個…

tmux常見會話管理命令

tmux常見會話管理命令 新建會話 tmux new -s <session-name> 查看會話 會話內外都可以用tmux ls或者tmux list-session 分離會話 如果命令行可以輸入命令&#xff0c;則可以選擇輸入命令tmux detach 如果命令行沒法輸入命令&#xff0c;可以按下commandb以后按d …

SAM+使用SAM應用數據集完成分割

什么是SAM&#xff1f; SAM(Segment Anything Model&#xff09;是由 Meta 的研究人員團隊創建和訓練的深度學習模型。在 Segment everything 研究論文中&#xff0c;SAM 被稱為“基礎模型”。 基礎模型是在大量數據上訓練的機器學習模型&#xff08;通常通過自監督或半監督學習…

CV計算機視覺每日開源代碼Paper with code速覽-2023.12.6

點擊計算機視覺&#xff0c;關注更多CV干貨 論文已打包&#xff0c;點擊進入—>下載界面 點擊加入—>CV計算機視覺交流群 1.【基礎網絡架構&#xff1a;Transformer】Rejuvenating image-GPT as Strong Visual Representation Learners 論文地址&#xff1a;https://a…

云原生Kubernetes系列 | Docker/Kubernetes的卷管理

云原生Kubernetes系列 | Docker/Kubernetes的卷管理 1. Docker卷管理2. Kubernetes卷管理2.1. 本地存儲2.1.1. emptyDir2.1.2. hostPath2.2. 網絡存儲2.2.1. 使用NFS2.2.2. 使用ISCSI2.3. 持久化存儲2.3.1. PV和PVC2.3.2. 訪問模式2.3.3. 回收策略1. Docker卷管理

從零開始搭建企業管理系統(六):RBAC 權限管理設計

RBAC 權限管理設計 前言權限分類功能權限設計什么是 RBACRBAC 組成RBAC 模型分類基本模型RBAC0角色分層模型RBAC1角色限制模型RBAC2統一模型RBAC3 RBAC0 權限設計用戶管理角色管理權限管理關聯表 總結 前言 作為一個后臺管理系統&#xff0c;權限管理是一個繞不開的話題&#…

視頻剪輯:視頻創意制作,背景圖片融合視頻制作畫中畫效果

隨著社交媒體的興起&#xff0c;視頻制作不再僅僅是專業人士的專利。每個人都可以通過一些技巧&#xff0c;創作出獨特而富有吸引力的視頻內容。視頻剪輯是一種非常重要的技術&#xff0c;它能讓視頻從平淡無奇變為生動有趣。背景圖片融合視頻制作畫中畫效果&#xff0c;也能增…

vm的centos本地配置yum

vm的centos本地配置yum 關于上篇文章vmware安裝centos7總結 出現關于配置yum源wget找不到命令&#xff0c;但是沒安裝yum就沒法下載wget&#xff0c;也就沒法使用wget 所以我們本地配置yum源&#xff0c;不用wget那個命令了 &#x1f4d5;步驟&#xff1a; cd /etc/yum.repo…

springboot利用easyexcel在瀏覽器中下載excel

前言 項目中操作excel是一種很常用的功能&#xff0c;比如下載一份excel的報價單。這篇文章會介紹一款excel的處理工具以及導出遇到的三個常見異常(重要)。 之前遇到一個這樣的需求&#xff1a;后臺管理頁面&#xff0c;點擊下載按鈕&#xff0c;下載一份excel格式的報價清單…

《人工智能導論》知識思維導圖梳理【1~5章節】

文章目錄 說明第一章 緒論人工只能概述 第二章 知識表示和知識圖譜一階謂詞邏輯和知識表示法產生式表示和框架表示法 第三章 確定性推理方法推理的基本概念自然演繹推理歸結演繹推理謂詞公式化子句集魯賓孫歸結原理歸結反演歸結反演求解問題 第四章 不確定性推理方法似然推理可…

npm run build時提示vue/types/jsx.d.ts中的錯誤

解決方法一&#xff1a; 可能是因為vue版本過高引起的 我直接將package.json中vue以及vue-template-compiler的版本的前面^去掉&#xff0c;安裝指定的版本 注意&#xff1a;vue和vue-template-compiler需要版本一致 參考鏈接&#xff1a;鏈接 解決方法二&#xff1a; 如果如…

線上問題得解決

問題&#xff1a; 最近碰到一個比較棘手但是比較低級的問題&#xff0c;一直沒有找到原因&#xff0c;苦找了兩天才發現問題。場景就是訂單做了某一個操作之后&#xff08;比如揀貨完成&#xff09;然后到下一步&#xff08;下道口&#xff09;。 但是線上幾萬筆訂單 &#xf…

QT使用SQLite 超詳細(增刪改查、包括對大量數據快速存儲和更新)

QTSQLite 在QT中使用sqlite數據庫&#xff0c;有多種使用方法&#xff0c;在這里我只提供幾種簡單&#xff0c;代碼簡短的方法&#xff0c;包括一些特殊字符處理。在這里也給大家說明一下&#xff0c;如果你每次要存儲的數據量很大&#xff0c;建議使用事務&#xff08;代碼中…

canvas 有趣的彈簧效果

先上效果 兩個小球之間有一根彈簧&#xff0c;這里有一條線表示&#xff0c;其中左球固定&#xff0c;在點擊開始后&#xff0c;右球開始做自由落體 思路 先做受力分析 經過受力分析可以發現&#xff0c;整個系統一共有三個力在起作用&#xff0c;我們分別把他們求出來并合成…