今日arXiv最熱NLP大模型論文:揭露大語言模型短板,北京大學提出事件推理測試基準

人工智能領域又一里程碑時刻!北京大學、北京智源人工智能研究院等機構聯合推出大型事件推理評測基準?。這是首個同時在知識和推理層面全面評估大模型事件推理能力的數據集。

總所周知,事件推理需要豐富的事件知識和強大的推理能力,涉及多種推理范式和關系類型。而??的出現,讓我們對大模型在這一重要領域的能力有了全新的認知。

研究人員在??上對多個常見大模型進行了全面測評,結果令人驚喜又意料之中:

  1. 大模型已初步具備事件推理能力,但距離人類還有不小差距;

  2. 不同大模型的能力參差不齊;

  3. 大模型能掌握事件知識,卻不懂得如何高效運用。

?GPT-3.5研究測試:

yeschat

GPT-4研究測試:

Hello, LLMs

Claude-3研究測試(全面吊打GPT-4):

AskManyAI

基于這些發現,研究人員進一步探索了引導大模型更好進行事件推理的新方法。他們設計的知識引導方案,讓大模型的表現獲得了顯著提升。下面就讓我們一起深入解讀這篇文章,看看研究人員的智慧結晶如何推動人工智能跨越式發展。?為業界樹立了創新性工作的標桿,必將激發更多學者投身于這一領域的探索。人工智能的明天,值得我們所有人滿懷期待!

圖片

論文標題:

A Comprehensive Evaluation on Event Reasoning of Large Language Models

論文鏈接:

https://arxiv.org/pdf/2404.17513

——全面評估大模型事件推理能力的“試金石”

隨著人工智能的飛速發展,大模型在各類自然語言任務中取得了令人矚目的成績。然而,對于事件推理這一重要能力,我們對大模型的真實水平卻知之甚少。業界迫切需要一個能夠全面評估其事件推理能力的“試金石”。?的誕生,正是為了填補這一空白。

那么??有哪些獨特之處呢?讓我們一探究竟。

首先,?開創了全新的評估模式。傳統的評估方法往往只關注結果,忽視了過程。而事件推理是一個復雜的過程,既需要豐富的事件知識作為基礎,又需要靈活運用各種推理技巧。?巧妙地從Schema(模式)和Instance(實例)兩個層面入手,全面考察大模型的事件知識儲備和推理能力,這在業界尚屬首次。

其次,?的考察內容非常全面,它涵蓋了因果、時序、層次等多種事件關系類型,設計了事件關系推理、事件分類等不同形式的任務。這種多維度、多角度的考察,能夠全方位地測試大模型的事件推理能力,讓我們對其優勢和短板有更清晰的認識。

最后,?的構建過程頗具特色。它并非少數研究人員閉門造車的產物,而是融合了人工智能和人類智慧的結晶。研究團隊利用 GPT-4 自動生成海量事件數據,以此保證數據規模;同時,人工標注團隊對數據質量進行了嚴格把關,確保了數據的準確性和可靠性。這種人機協作的方式極大地提升了??的數據質量。

總的來說,?是一個全新的事件推理能力評估基準,它在評估模式、考察內容和構建方法上都有獨到之處。這為全面評估大模型的事件推理能力提供了重要工具,有助于推動人工智能領域的進一步發展。

背后的“智慧密碼”

要探究大模型的事件推理能力,科學的研究方法和嚴謹的實驗設計必不可少。接下來,就讓我們走進研究團隊,看看他們是如何開展這項開創性工作。

評測模型與任務設計

研究人員首先精心挑選了9個在業界具有代表性的大模型,作為評測的"參賽選手"。這些模型都是自然語言處理領域的佼佼者,例如GPT-4、GPT-3.5、Qwen1.5-7B等。但它們在事件推理上的真實水平如何,還是未知數。通過在??基準上對這些模型進行系統評測,我們就能一探究竟。

為了全面考察大模型的事件推理能力,研究團隊精心設計了兩大類任務:上下文事件分類(CEC)和上下文關系推理(CRR)。下圖展示了CEC和CRR兩類任務的一般步驟:

圖片

CEC任務主要考察模型在特定背景下識別事件的能力:給定一個事件和特定的關系類型,模型需要從候選事件中選出正確答案。而CRR任務則側重于考察模型理解事件間關系的能力:給定兩個事件,模型要正確判斷它們之間的關系類型。這兩類任務相輔相成,可以多角度評估模型的事件推理水平。

數據集構建流程

眾所周知,數據質量對于模型評測至關重要。為了構建高質量的評測數據集,研究人員可謂"下足了功夫"。他們采用了三步走的策略:

  1. 基于EECKG知識庫構建模式圖。該圖涵蓋了豐富的事件類型及其關系,為后續工作奠定了堅實的基礎;

  2. 利用GPT-4的生成能力,將模式圖轉化為實例圖。通過這種方式,研究人員獲得了海量的真實可信的事件實例;

  3. 由人工標注團隊在模式圖和實例圖的基礎上,構建CEC和CRR任務的問答數據集。標注團隊的加入,進一步保證了數據的準確性和可靠性。

這種先自動生成、再人工標注的方式,既保證了數據規模,又兼顧了數據質量。可以說,?的數據集是人工智能和人類智慧協作的結晶。

下圖表示了??數據集與現有事件推理數據集之間的比較,其中表示數據集包含的層面,和分別表示模式和實例層面,表示是否符合上下文,和分別表示是否具有多重關系或范式。

圖片

知識引導方法探索

除了評測大模型的事件推理能力,研究人員還探索了如何進一步提升其表現。他們別出心裁地設計了兩種知識引導方法:直接引導和基于**思維鏈的引導(CoT)**。

直接引導的思路很簡單,就是在輸入文本中直接提供事件類型知識,給模型"劃重點"。而CoT引導則更有"燒腦"的味道,它啟發模型先預測事件類型,再基于預測結果進行推理。通過這種思維鏈的方式,模型可以更好地利用事件知識進行判斷。

綜上所述,這項研究采用了嚴謹的實驗設計和創新的研究方法。通過系統評測和知識引導,研究人員全面考察了大模型的事件推理能力,并探索了提升其表現的新思路。

揭秘大模型的事件推理能力

在介紹了??基準的特點和研究方法后,你是不是迫不及待地想知道實驗結果了呢?別著急,接下來我就為你一一道來,讓我們一起來看看大模型們在這場"考試"中的表現如何。

大模型已初具事件推理能力,但離人類還有差距

首先,讓我們來看看大模型在事件推理任務上的整體表現。在實例層面的評測中,GPT-4在CEC和CRR任務上的準確率分別達到了63.80%和61.20%,遠超其他模型。這個結果表明,以GPT-4為代表的大模型已經具備了一定的事件推理能力。它們能夠在給定背景下正確識別事件,并判斷事件之間的關系。

圖片

然而我們也要看到,即使是表現最好的GPT-4,其準確率也還沒有達到令人滿意的程度。這說明,大模型在事件推理上雖然已經初具能力,但離人類的水平還有不小的差距。要讓它們真正具備人類般的事件推理能力,還需要進一步的提升。

模型在不同關系類型和任務上的表現不平衡

接下來,讓我們再來看看模型在不同類型的事件關系和任務上的表現差異。

實驗結果顯示,所有模型在處理因果關系時的表現最好,其次是時序關系和層次關系。這說明,大模型對于不同類型的事件關系,掌握的程度是不一樣的。它們似乎更擅長處理因果關系,而在時序和層次關系上還有待加強。

圖片

同時我們也發現,模型在CEC任務上的表現普遍優于CRR任務。這表明大模型在識別事件方面的能力,要強于理解事件間關系。這也許是因為判斷事件間的關系需要更深入的推理和分析能力。

圖片

總的來說,實驗結果揭示了大模型在事件推理能力上的不平衡性。它們在不同的關系類型和任務上表現出了明顯的差異。這提示我們在未來的研究中要更加注重提升模型在薄弱環節上的能力,實現全面而均衡的發展。

事件模式知識的運用仍有待加強

除了考察大模型的事件推理能力,研究人員還探究了它們運用事件模式知識的情況。

隨著模型發展,模型在實例層面的推理表現要好于模式層面,這表明事件模式知識落后于事件實例知識。這一發現表明,加強事件模式知識可以進一步提高模型的能力,從而獲得更好的通用LLM。

圖片

此外,作者還探討了大語言模型在利用事件模式知識進行推理時,與人類是否一致。結果表示大語言模型在利用事件模式知識進行推理時,其方式可能與人類存在差異。換句話說,它們并沒有很好地與人類的思維方式對齊。

圖片

這一發現很有啟發性。它提示我們,讓大語言模型學會像人類一樣利用事件模式知識進行推理,可能是顯著提升其事件推理能力的關鍵。

知識引導為大模型指明前進方向

最后,讓我們來看看知識引導方法對大模型事件推理能力的影響。

實驗結果顯示,無論是直接引導還是CoT引導,都能夠顯著提升大模型在事件推理任務上的表現。其中,直接引導對多個模型的CEC和CRR任務準確率提升最為明顯,平均提升幅度超過5%。而CoT引導目前在GPT-4上也取得了積極的效果。

圖片

圖片

這些結果充分證明了知識引導方法的有效性。通過恰當的引導,我們可以幫助大模型更好地利用事件知識進行推理,從而大幅提升它們的表現。這為進一步提高大模型的事件推理能力指明了方向。

總的來說,通過??基準的實驗,我們對大模型的事件推理能力有了更全面、更深入的認識。一方面,我們看到了它們已經初步具備了這一能力;另一方面,我們也發現了它們在不同方面還存在短板,這需要我們在未來的研究中重點關注和改進。同時,知識引導方法的初步成功也為我們指明了一條有潛力的研究道路。

大模型來了,事件推理還會遠嗎?

?基準的提出及隨后的系列研究,無疑是人工智能領域的一次重大突破。它們不僅揭示了大模型在事件推理方面的優勢與不足,更為后續研究指明了方向。

?的研究結果告訴我們,大模型已經初步具備了事件推理能力,這是一個令人驚喜的發現。然而我們也要清醒地認識到,當前大模型的事件推理能力還存在諸多限制。它們在處理不同類型的事件關系時表現出明顯的不平衡性,尤其是在時序和層次關系的理解上還有很大的提升空間。此外,大模型在靈活運用事件知識方面也存在不足。

?的研究只是一個開始,它為我們探索大模型的事件推理能力提供了一個全新的視角和方法論,開啟了這一領域的新紀元。隨著??及后續研究工作的不斷深入,大模型的事件推理能力必將得到長足的進步。在不久的將來,機器或許就能夠像人類一樣,甚至比人類更好地理解和推理世間萬物的因果聯系、時序規律和層次結構。這將極大地拓展人工智能的應用邊界,為人類認識世界、改變世界提供更強大的智能工具。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/10872.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/10872.shtml
英文地址,請注明出處:http://en.pswp.cn/web/10872.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

consul啟動Error_server_rejoin_age_max (168h0m0s) - consider wiping your data dir

consul 啟動報錯: consul[11880]: 2024-05-12T08:37:51.095-0400 [ERROR] agent: startup error: error"refusing to rejoin cluster because server has been offline for more than the configured server_rejoin_age_max (168h0m0s) - consider wiping you…

【GD32】02-ADC模擬數字轉換器

ADC 在電子和通信技術中,ADC(模擬數字轉換器)是一種將模擬信號轉換為數字信號的電子設備。這種轉換是電子系統中非常關鍵的一個環節,因為數字信號更易于處理、存儲和傳輸。ADC的工作原理通常包括采樣、保持、量化和編碼等步驟。采…

http協議 tomcat如何訪問資源 servlet理論介紹

tomcat介紹 bin是啟動命令; conf是配置,可以修改端口號; lib是依賴的jar包; logs是日志 webapps是重點,在這里新建我們自己的javaWeb項目 tomcat如何訪問資源 tomcat通過統一資源定位符(URL)來…

鄉村振興與農村基礎設施建設:加大農村基礎設施建設投入,提升農村公共服務水平,改善農民生產生活條件,構建宜居宜業的美麗鄉村

一、引言 鄉村振興是我國現代化進程中的重要戰略,而農村基礎設施建設則是鄉村振興的基石。隨著城市化進程的加快,農村基礎設施建設滯后的問題日益凸顯,成為制約鄉村發展的瓶頸。因此,加大農村基礎設施建設投入,提升農…

打造一套在線教育系統,如何在教育這個慢行業打造品牌?

品牌對于教育行業非常重要,很多從事教育行業的朋友一直想塑造屬于自己的品牌形象,但做起來卻沒那么容易。因為教育行業相對來說是一個慢行業,用戶必須看到效果才會認可,而教育的效果往往需要經過長期的學習才能看到。 我覺得&…

AI大模型探索之路-訓練篇21:Llama2微調實戰-LoRA技術微調步驟詳解

系列篇章💥 AI大模型探索之路-訓練篇1:大語言模型微調基礎認知 AI大模型探索之路-訓練篇2:大語言模型預訓練基礎認知 AI大模型探索之路-訓練篇3:大語言模型全景解讀 AI大模型探索之路-訓練篇4:大語言模型訓練數據集概…

華為OD機試 - 執行任務賺積分 - 動態規劃(Java 2024 C卷 100分)

華為OD機試 2024C卷題庫瘋狂收錄中,刷題點這里 專欄導讀 本專欄收錄于《華為OD機試(JAVA)真題(A卷+B卷+C卷)》。 刷的越多,抽中的概率越大,每一題都有詳細的答題思路、詳細的代碼注釋、樣例測試,發現新題目,隨時更新,全天CSDN在線答疑。 一、題目描述 現有 N 個任…

Gradle基礎學習(六) 認識任務Task

理解Gradle中的任務 Gradle的構建過程基于任務(Task)的概念,而每個任務都可以包含一個或多個動作(Action)。 任務是構建中執行的一些獨立的工作單元,例如編譯類、創建JAR、生成Javadoc或將存檔發布到倉庫…

4.5網安學習第四階段第五周回顧(個人學習記錄使用)

本周重點 ①部署域環境(Win2008) ②域組策略 ③域內信息收集 ④(重點)哈希傳遞攻擊PTH ⑤MS14-068 提權漏洞 ⑥黃金票據偽造 ⑦白銀票據偽造 ⑧ZeroLogon (CVE-2020-1472) 漏洞復現 本周主要內容 ①部署域環境(Win2008)…

【算法】滑動窗口——串聯所有單詞的子串

今天來以“滑動窗口”的思想來詳解一道比較困難的題目——串聯所有單詞的子串,有需要借鑒即可。 目錄 1.題目2.下面是示例代碼3.總結 1.題目 題目鏈接:LINK 這道題如果把每個字符串看成一個字母,就是另外一道中等難度的題目,即&…

對象,字符串的解構賦值

大家想了解更多,可以去看阮一峰的ECMAScript6(ES6)標準入門課程 對象 簡介 解構不僅可以用于數組,還可以用于對象。 let { foo, bar } { foo: aaa, bar: bbb }; foo // "aaa" bar // "bbb" 對象的解構與數組有一個重要的不同。…

[CAM_REQ_MGR_EVENT_MAX]高通6225平臺相機老化異常重啟

報錯log 相機老化出現20/7萬比例的老化異常重啟&#xff0c;具體報錯log入下 <4>[ 167.506585] [1970:01:02 18:52:26](0) [0:swapper/0]cam_v4l2_event_queue_notify_error: 251 callbacks suppressed 7 3339<6>[ 167.506602] [1970:01:02 18:52:26](0) [0:swap…

面試試題一

封裝&#xff08;Encapsulation&#xff09; 面試問題&#xff1a; 封裝在面向對象編程中扮演什么角色&#xff1f;如何在Java中實現封裝&#xff1f;有哪些最佳實踐可以幫助提高類的封裝性&#xff1f; 詳細答案&#xff1a; 封裝的角色&#xff1a; 封裝是面向對象編程的核…

CMake 的繼承關系

1. CMake如何確定繼承關系 在 CMake 中&#xff0c;父子關系是通過文件系統中的目錄結構來定義的。當你在一個目錄中創建一個 CMakeLists.txt 文件時&#xff0c;該目錄就被視為一個 CMake 項目的目錄&#xff0c;而該文件中的內容將被用于配置和構建該目錄中的項目。 當你在父…

不同路徑| 和 不同路徑||

不同路徑| 一個機器人位于一個 m x n 網格的左上角 &#xff08;起始點在下圖中標記為 “Start” &#xff09;。 機器人每次只能向下或者向右移動一步。機器人試圖達到網格的右下角&#xff08;在下圖中標記為 “Finish” &#xff09;。 問總共有多少條不同的路徑&#xf…

Tomcat啟動閃退問題解決辦法

本文將通過一系列診斷步驟幫助您找出原因&#xff0c;并提供相應的解決辦法。 診斷步驟 查看日志文件 Tomcat的日志文件是解決啟動問題的第一線工具。查看logs目錄下的catalina.out和其他日志文件&#xff0c;這些文件經常記錄了錯誤信息和系統崩潰的線索。 cat /path/to/to…

C++編程與朱元墇的關系

學編程和英語沒關系&#xff0c;我說這句話&#xff0c;沒人會相信&#xff0c;也不會有人說我什么嘩眾取寵。 我說學編程和朱元墇有關系&#xff0c;一定有人說我放P&#xff0c;其實這個P也和朱元墇有關系&#xff0c; 和朱元墇有什么P關系啊。 真有這P事啊&#xff0c; 朱元…

LeetCode刷題筆記之圖論

1. 797【所有可能的路徑】 題目&#xff1a; 給你一個有 n 個節點的 有向無環圖&#xff08;DAG&#xff09;&#xff0c;請你找出所有從節點 0 到節點 n-1 的路徑并輸出&#xff08;不要求按特定順序&#xff09;。graph[i] 是一個從節點 i 可以訪問的所有節點的列表&#xf…

大學生體質測試|基于Springboot+vue的大學生體質測試管理系統設計與實現(源碼+數據庫+文檔)

大學生體質測試管理系統 目錄 基于Springboot&#xff0b;vue的大學生體質測試管理系統設計與實現 一、前言 二、系統設計 三、系統功能設計 1系統功能模塊 2管理員功能模塊 3用戶功能模塊 4教師功能模塊 四、數據庫設計 五、核心代碼 六、論文參考 七、最新計算…

MySQL數據庫基礎功能

MySQL是一種常用的關系型數據庫管理系統&#xff0c;它廣泛應用于網站開發、數據分析和其他許多領域。 咋可以不專業搞這個&#xff0c;但是基礎的最好能看懂和應用&#xff0c;快去學習吧 下面是10個不同案例&#xff0c;展示MySQL的用法。 ①創建數據庫&#xff1a;使用CR…