2024.7 XAI 遇見 LLM:可解釋 AI 與大型語言模型之間關系的調查

https://arxiv.org/pdf/2407.15248

問題

  • Q1:XAI 技術當前如何與 LLMs 集成?
  • Q2:將 LLMs 與 XAI 方法融合的新興趨勢是什么?
  • Q3:當前相關文獻存在哪些差距,哪些領域需要進一步研究?

挑戰

  • LLMs 的復雜性和不透明性:其內部工作機制難以理解,如同一個 “黑箱”,增加了設計、部署和解釋的難度。
  • 倫理和隱私問題:使用中可能產生公平性、仇恨言論等倫理困境,以及敏感數據暴露的隱私風險。
  • 不準確和幻覺問題:LLMs 可能生成錯誤信息,在多個領域造成風險,需要提高準確性并開發事實核查系統。
  • 用戶信任和透明度問題:在關鍵領域(如醫療、金融),由于模型的不透明性,信任成為挑戰,尤其在嚴格法規要求解釋性的情況下。
  • 濫用和批判性思維影響:LLMs 的多功能性可能被用于有害目的,且過度依賴可能削弱用戶的批判性思維。

創新點

  • 采用系統性映射研究(SMS)方法,不僅涵蓋同行評審論文,還納入預印本論文,以更全面地跟蹤快速發展的 LLMs 和 XAI 領域研究動態。
  • 提出一種新的分類框架,用于評估 LLMs 可解釋性的研究,清晰呈現該領域的研究現狀。

貢獻

  • 提供分類框架:引入新的分類框架,系統評估 LLMs 可解釋性研究,清晰呈現研究現狀。
  • 全面文獻綜述:基于 ArXiv 和 DBLP 數據庫對同行評審和預印本論文進行全面調查,超越常規研究工具。
  • 指引未來研究:批判性評估當前實踐,明確研究差距和問題,提出潛在的未來研究方向。

提出的方法

  • 自定義搜索與篩選方法:不依賴常見搜索引擎,而是手動通過預定義關鍵詞搜索相關論文,對標題和摘要進行仔細審查,篩選出同時涉及 XAI 和 LLMs 的論文,包括從特定 Q1 期刊獲取同行評審論文(借助 dblp、AMiner 和 Scopus 等數據庫獲取標題和摘要),以及從 Arxiv 數據庫獲取預印本論文(根據平均每年引用次數篩選)。
  • 【我能不能用大模型來做一個類似的工作流,幫助大家分析和收集文獻】
  • 基于關鍵詞的分類方法:使用全面的關鍵詞集對收集的論文進行相關性篩選,將論文分為應用論文(包括 “To Explain” 和 “As Feature” 兩個子類別)和討論論文(包括 “Issues” 和 “Benchmark and Metrics” 兩個子類別),以邏輯運算符組合關鍵詞確保篩選準確性。

指標

  • 論文分類指標:通過定義明確的關鍵詞列表對論文進行分類,如針對 XAI 和 LLMs 分別設置關鍵詞,根據論文是否包含這些關鍵詞以及關鍵詞之間的邏輯關系(如 AND 和 OR 運算符)將論文分為不同類別(應用論文和討論論文及其子類別),以此評估研究的分布和重點。
  • 研究質量相關指標(未明確提及特定數值指標,但在分析中涉及):通過審查論文來源(如頂級 Q1 期刊)、論文在開源平臺上的參與度(如 GitHub 上的 stars、forks 等,但指出其參與程度不一致)等方面,從側面反映研究的質量和影響力。

模型結構(論文未提及特定模型結構相關內容)

結論

  • 目前僅有少數作品致力于開發 LLMs 的解釋方法,盡管 LLMs 在各領域應用日益廣泛。
  • XAI 社區應將可解釋性從 “可有可無” 提升為 LLMs 開發過程的核心要素,積極納入設計和實現階段,以確保模型有效、透明和負責。
  • 同時,XAI 研究人員應拓寬研究范圍,改進解釋的呈現方式,使其更易于被非技術利益相關者理解,從而平衡技術效率與倫理責任,推動 AI 發展。

剩余挑戰和未來工作

  • 解決關鍵問題的關注度不足:多數已審查的出版物未充分解決 LLMs 面臨的如信任、錯誤信息傳播等關鍵挑戰,XAI 社區需加大投入。
  • 社區參與度差異問題:開源研究雖增多,但社區對不同開源資源的參與程度差異大,需探究影響因素以促進資源有效利用。
  • 研究重點平衡問題:當前研究在解釋 LLMs 內部機制和利用其提升任務性能之間存在失衡,應更多關注模型可解釋性,實現兩者平衡。
  • 提高解釋的可理解性:目前的解釋對于非技術人員往往過于復雜,未來需開發方法使解釋更易于被廣泛受眾理解。

數據集

  • SCIENCEQA:用于多模態科學問答的新數據集,包含約 21k 個不同科學主題的問題及注釋,還有講座和解釋,用于訓練語言模型(特別是 LLMs)生成解釋,以提升推理能力。
  • ROSCOE:一套用于評估語言模型逐步推理的指標集,包含推理錯誤分類法,通過與基線指標對比,評估模型生成理由的語義一致性、邏輯性、信息性、流暢性和事實性等方面。
  • WHOOPS!:一個新的數據集和基準,包含故意違背常識的圖像(由 Midjourney 等工具生成),用于測試 AI 模型的視覺常識推理能力,包括圖像字幕、跨模態匹配、視覺問答和解釋生成等任務。

什么是XAI

XAI 即 eXplainable Artificial Intelligence,可解釋人工智能。它旨在讓復雜的人工智能模型(尤其是那些被視為 “黑箱” 的模型,如深度學習模型)的決策過程和輸出結果能夠被人類理解。隨著人工智能技術在各個領域的廣泛應用,許多模型的復雜性和不透明性引發了人們對其決策過程的信任、公平性、安全性和可審計性等方面的擔憂。XAI 試圖解決這些問題,主要體現在以下幾個方面:

  1. 提高透明度:幫助用戶理解模型如何做出決策,揭開模型內部工作機制的神秘面紗。例如,在醫療診斷中,如果一個 AI 系統推薦了某種治療方案,XAI 可以解釋為什么該方案被推薦,是基于哪些數據和特征做出的判斷,這有助于醫生評估系統的可靠性。
  2. 增強信任:當人們能夠理解模型的決策依據時,他們更有可能信任和接受 AI 系統的輸出。對于一些關鍵應用,如金融貸款審批、司法決策輔助等,信任是至關重要的。
  3. 確保公平性和合規性:通過解釋模型,可以檢查是否存在潛在的偏見或不公平對待。在一些受到嚴格監管的行業,如銀行業和醫療保健業,需要確保 AI 系統的決策符合倫理和法律標準,XAI 有助于滿足這些要求。
  4. 輔助模型改進和調試:了解模型的行為有助于開發者識別模型的弱點,改進模型設計,并在出現問題時進行調試。例如,如果一個圖像識別模型在某些情況下頻繁出錯,XAI 可以幫助分析是哪些因素導致了錯誤,從而針對性地改進模型。
  5. 促進人機協作:在一些場景中,人類和 AI 系統需要協同工作。XAI 使人類能夠更好地理解 AI 的建議,從而在決策過程中更有效地與 AI 合作,發揮各自的優勢。實現 XAI 的方法包括可視化技術(如可視化神經網絡的中間層輸出、注意力分布等)、特征重要性分析(確定哪些輸入特征對模型決策影響最大)、生成解釋性文本(以自然語言解釋模型決策)、因果推斷(分析輸入與輸出之間的因果關系)等。XAI 在金融、醫療、交通、法律等眾多領域都有著廣泛的應用前景和研究價值。

原文

摘要 — 在這項調查中,我們解決了大型語言模型 (LLM) 研究中的主要挑戰,重點關注可解釋性的重要性。在 AI 和商業部門日益增長的興趣的推動下,我們強調了 LLM 透明度的必要性。我們研究了當前LLM研究和可解釋人工智能 (XAI) 的雙重路徑:通過 XAI 提高性能以及對模型可解釋性的新興關注。我們的論文倡導一種平衡的方法,將可解釋性與功能進步同等重視。認識到法學碩士研究的快速發展,我們的調查包括同行評審和預印本 (arXiv) 論文,全面概述了 XAI 在法學碩士研究中的作用。我們最后敦促進行研究社區共同推進 LLM 和 XAI 領域。

索引詞 — 可解釋的人工智能、可解釋的機器學習、大型語言模型、自然語言處理

I. 引言

LLM 的出現極大地影響了人工智能 (AI),因為它們在多個自然語言處理 (NLP) 應用程序中表現出色。它們的多功能性減少了對手工制作功能的需求,使應用程序成為可能跨各個領域。他們在內容生成和上下文理解方面的高度創造力有助于創意寫作和對話式 AI 的進步。此外,對大量數據進行廣泛的預訓練使 LLM 能夠表現出強大的泛化能力,而無需來自用戶 Zhao et al. [2023a]、Amin et al. [2023] 的進一步特定領域數據。由于這些原因,LLM 正在迅速成為主流工具,深度融入許多行業領域,例如醫學(參見 Thirunavukarasu 等人 [2023])和金融(參見 Wu 等人 [2023a]),僅舉幾例。

然而,它們的出現也引發了道德問題,需要持續努力解決與偏見、錯誤信息和負責任的 AI 部署相關的問題。LLM 是一個眾所周知的復雜 “黑盒” 系統。它們的內部運作是不透明的,其錯綜復雜的復雜性使它們的解釋具有挑戰性 Kaadoud 等人 [2021]、Cambria 等人 [2023a]。這種不透明性會導致產生不適當的內容或誤導性輸出 Weidinger 等人 [2021]。最后,缺乏對訓練數據的可見性會進一步阻礙對關鍵應用程序的信任和問責制 Liu [2023]。

????????在這種情況下,XAI 是基于 LLM 的復雜系統與人類對其行為的理解之間的重要橋梁。為 LLM 開發 XAI 框架對于建立用戶信任、確保問責制以及促進負責任和合乎道德地使用這些模型至關重要。

????????在本文中,我們以結構化的方式回顧和分類當前 LLM 的 XAI。正如 Sevastjanova 和 El-Assady [2022] 所建議的那樣,本調查強調了清晰和真實解釋的重要性,旨在指導未來的研究,以提高 LLM 在實際應用中的可解釋性和可信度。

A. 貢獻

我們工作的貢獻有三個方面:

1) 我們引入了一個新的分類框架,用于評估有關 LLM 可解釋性的研究主體。該框架提供清晰有序地概述最新的技術水平。

2) 我們基于 ArXiv 和 DBLP 數據庫對同行評審和預印本論文進行了全面調查,超越了使用常見的研究工具。

3) 我們批判性地評估當前的實踐,確定研究差距和問題,并闡明潛在的未來研究軌跡。

B. 研究問題

在這項調查中,我們探討了 XAI 方法與 LLM 的共存,以及這兩個字段是如何合并的。具體來說,我們的調查圍繞以下關鍵問題展開:

問題 1:XAI 技術目前如何與 LLM 集成?

Q2 將 LLM 與 XAI 方法融合的新興趨勢是什么?

Q3 目前相關文獻存在哪些空白,哪些領域需要進一步研究?

II. LLM 中解釋的必要性

在 XAI 領域,與 LLM 的交叉帶來了獨特的挑戰和機遇。本調查論文旨在剖析這些挑戰,將對話擴展到對 XAI 目標的常規理解之外,即為各種利益相關者闡明不透明模型的內部機制,同時避免引入新的不確定性(參見例如,Cambria 等人 [2023b],Burkart 和 Huber [2021])。

盡管取得了進步,但 LLM 仍與復雜性和不透明性作斗爭,從而引發了設計、部署和解釋問題。受 Weidinger 等人 [2021] 的啟發,本文將 LLM 挑戰分為用戶可見和不可見的挑戰。

a) 可見的用戶挑戰:對于沒有專業工具的用戶來說,可以直接感知的挑戰。

b) 信任和透明度:信任問題出現在關鍵領域,例如醫療保健 Mercorio 等人 [2020]、Gozzi 等人 [2022]、Alimonda 等人 [2022] 或金融 Xing 等人 [2020]、Castelnovo 等人 [2023]、Yeo 等人 [2023],因為黑盒模型(包括 LLM)的不透明性。

XAI 必須提供透明、符合道德的解釋才能得到更廣泛的接受,尤其是在要求可解釋性的嚴格法規下(例如,歐盟的 GDPR Novelli 等人 [2024])。這會影響監管合規性和公眾信譽,例如歐洲技能情報項目需要 XAI 進行決策解釋 Malandri 等人 [2022a, 2024, 2022b,c]。

c) 濫用和批判性思維影響:LLM 的多功能性有被濫用的風險,例如為有害目的創建內容和逃避審核 Shen et al. [2023]。過度依賴 LLM 也可能削弱批判性思維和獨立分析,正如在教育環境中所看到的那樣(參見 Abd-Alrazaq 等人 [2023])。

d) 隱形用戶挑戰:需要更深入地理解模型的挑戰。

e) 道德和隱私問題:使用 LLM 造成的道德困境,例如公平和仇恨言論問題,以及隱私風險(如敏感數據泄露),需要采取積極措施和道德準則 Weidinger et al. [2021], Yan et al. [2023], Salimi and Saheb [2023]。

f) 不準確和幻覺:LLM 可能會產生虛假信息,給教育、新聞和醫療保健等各個領域帶來風險。解決這些問題涉及提高 LLM 的準確性、教育用戶和開發事實核查系統 Rawte et al. [2023]、Azaria 和 Mitchell [2023]。

III. 方法

系統圖譜研究 (SMS) 是一項全面的調查,對特定研究領域的一系列已發表作品進行分類和總結,確定文獻差距、趨勢和未來的研究需求。它們在大型或未充分開發的領域特別有用,在這些領域中,詳細的系統文獻綜述 (SLR) 可能不可行。

SMS 和 SLR 遵循三階段方法(計劃、執行、報告),但它們的方法不同,因為 SMS 解決的問題范圍更廣,涵蓋更廣泛的出版物,審查不太詳細,旨在提供研究領域的概述。相比之下,

SLR 專注于特定問題,徹底審查較少的出版物,并努力獲得精確的、基于證據的結果 Barn et al. [2017]。

繼 Mart'?nez-G'arate 等人 [2023] 之后,我們為 XAI 和 LLM 設計了 SMS,包括同行評審和預印本論文。后一種選擇是因為我們相信計算機科學等快速發展的領域,包括提供最新研究的預印本,這對于全面回顧 Oikonomidi 等人 [2020] 至關重要。

我們按照這些步驟來構建我們的 SMS:第 I-B 部分提出并定義了研究問題,第 III-A 部分描述了論文檢索是如何進行的;第 III-B 節描述了基于既定標準的論文選擇過程;第 III-C 部分解釋了我們處理假陽性結果的人員,最后在第 IV 部分我們描述了獲得的結果。

A. 紙張檢索

a) 概述:我們沒有使用常見的科學搜索引擎,例如 Google Scholar,而是采用了以下部分描述的自定義搜索方法。通過仔細檢查所獲得論文的標題和摘要,我們使用一組與 LLM 和 XAI 相關的預定義關鍵字進行了有針對性的搜索。選擇這種手動和深思熟慮的搜索策略是為了最大限度地降低自動搜索算法可能遺漏的相關研究的風險,并確保我們的 SMS 數據集的準確性和相關性。通過這個嚴格的過程,我們構建了一個定義明確的文獻語料庫,為深入分析和審查做好準備。圖 1 提供了此過程的概述。

b) 同行評審論文:我們通過確定 2022 年 “人工智能” 類別中的頂級 Q1 期刊(去年在研究開始時提供)來啟動這一步驟,為我們提供 58 種期刊,從中汲取相關出版物。

隨后,我們利用 dblp 計算機科學書目中的 XML dump1 來獲取

1https://dblp.org/xml/dblp.xml.gz

在確定的 Q1 期刊上發表的所有論文的標題,DBLP 未涵蓋的 10 種期刊除外。一旦我們收集了這些論文標題,我們就開始尋找它們的摘要。為此,我們最初使用了 AMiner2 的最后一個可用引文網絡,但鑒于此轉儲缺少 2023 年的大部分出版物,我們利用 Scopus API(一個詳細的科學摘要和引文數據庫)來檢索與積累的標題相對應的缺失摘要。

在完成初始檢索階段后,我們總共確定了 1,030 份手稿。因為

一些研究關鍵詞具有廣泛的含義,例如 “解釋” 和 “解釋” 這兩個詞可以在與 XAI 不同的上下文中使用,我們檢索到了一些假陽性論文,即不涉及 XAI 和 LLM 的論文。我們排除了假陽性 —— 僅單獨涉及 XAI 或 LLM 或沒有涉及任何 XAI 或 LLM 的出版物。為此,我們手動分析了每篇論文的標題和摘要。這種細致的審查過程產生了 233 篇與 XAI 和 LLM 相關的論文。

c) 預印本論文:我們抓取了 2010 年至 2023 年 10 月期間 Arxiv 數據庫中的所有計算機科學論文,共計 548,711 篇論文。因此,我們使用 Arxiv API 來獲取這些論文的摘要。

鑒于將所有這些論文納入我們的調查是不可行的,我們根據每年的平均引用次數選擇了最相關的論文。整個研究過程共選出 35 篇文章。

B. 紙張選擇

我們采用了一套全面的關鍵詞來過濾收集到的論文與 LLM 和 XAI 的相關性。檢索詞經過精心挑選,以包含與每個領域通常相關的各種術語和短語 3。

IV. 檢索結果

我們將論文分為應用論文的兩個宏觀類別,即以某種方式產生解釋的論文,要么是為了可解釋性,要么是將它們用作另一項任務的特征,而討論論文,即不參與解釋生成但解決有關可解釋 LLM 模型的問題或研究差距的論文。

在我們的檢索中,我們在每個列表的成員中應用了一個邏輯 OR 運算符來捕獲單個類別中的任何術語,并在兩個列表之間使用了 AND 運算符,以確保僅檢索包含兩個類別中術語的論文以供分析。

A. 申請論文

第一個宏觀類別包括在方法、工具或任務中使用 LLM 的論文。根據 LLM 的使用方式,我們將此類別進一步分為兩個子類別,如下所示:“解釋”,即試圖解釋 LLM 工作原理并提供對這些模型的不透明性質的見解的論文。論文的第二個子類別稱為 “As feature”,使用 LLM 生成的解釋和特征來改進各種任務的結果。以下部分討論了這些子類別:

C. 處理誤報

2https://originalfileserver.aminer.cn/misc/dblp?v14.tar.gz

3XAI 的關鍵詞包括:['xai', ' 解釋 ', ' 解釋 ', ' 黑匣子 ', ' 黑匣子 ', ' 透明模型理解 ', ' 特征重要性 ', ' 負責任的人工智能 ', ' 道德人工智能 ', ' 可信的人工智能 ', ' 公平性 ', ' 人工智能理由 ', ' 因果推理 ', ' 人工智能審計 ']而對于 LLM,關鍵字是;['LLM', ' 大型語言模型 ', 'GPT-3', 'GPT-2', 'GPT3', 'GPT2', ' 伯特 ', ' 語言模型預訓練 ', ' 微調語言模型 ', ' 生成式預訓練轉換器 ', 'llama', ' 吟游詩人 ', ' 羅伯塔 ', ' T5', 'xlnet', ' 威震天 ', ' 伊萊特拉 ', 'Deberta', ' ernie', ' 阿爾伯特 ', ' BART', ' 攪拌機機器人 ', ' 開放預訓練轉換器 ', 'MT-NLG', 'Turingnlg', ' 飛馬 ', 'GPT-3.5', 'GPT-4', 'GPT3.5', 'GPT4', 'Cohere', 'Claude', ' 侏羅紀 - 1', 'openllama', 'falcon', 'dolly', 'mpt', 'guanaco', 'bloom', ' 羊駝 ', 'OpenChatkit', 'GPT4all', 'flan-t5', ' 虎鯨 ']、

1) 解釋:大多數論文,即 35 篇中的 17 篇,都屬于這個子類別,其中大多數都解決了對更易解釋和透明的 LLM 的需求。

例如,Vig [2019] 引入了一種可視化工具,用于理解 BERT 和

GPT-2 的。他們提出的工具提供了從單個神經元到整個模型層的多個尺度的見解,有助于檢測模型偏差,定位相關的注意力頭,并將神經元與模型行為聯系起來。

Swamy et al. [2021] 提出了一種方法,通過在訓練的不同階段從這些模型中提取知識圖譜來解釋基于 BERT 的語言模型的知識獲取和語言技能。知識圖譜通常用于可解釋的外推推理,Lin et al. [2023]。

Wu et al. [2021] 提出了 Polyjuice,一種通用的反事實生成器。該工具通過在多個數據集上微調 GPT-2 來生成多樣化、現實的反事實,從而允許對類型和位置進行受控擾動。

Wang et al. [2022] 研究了 GPT-2 small 的機制可解釋性,特別是它識別句子中間接賓語的能力。該研究涉及模型計算圖的電路分析和逆向工程,確定特定的注意力頭及其在這項任務中的作用。

Menon 和 Vondrick [2022] 介紹一部小說

使用 LLM 生成的描述進行視覺分類的方法。這種方法被他們稱為 “按描述分類”,涉及使用 GPT-3 等 LLM 生成視覺類別的描述性特征。然后,這些功能用于更準確地對圖像進行分類,同時提供比僅依賴類別名稱的傳統方法更透明的結果。

Gao et al. [2023a] 使用事件因果識別 (ECI)、因果發現 (CD) 和因果解釋生成 (CEG) 等任務研究了 ChatGPT 的因果推理能力。作者聲稱,雖然 ChatGPT 作為因果解釋器很有效,但它在因果推理方面遇到了困難,并且經常表現出因果幻覺。該研究還調查了上下文學習 (ICL) 和思維鏈 (CoT) 技術的影響,得出的結論是 ChatGPT 的因果推理能力對提示的結構和措辭高度敏感。

Pan 等人 [2023] 是一個旨在用來自知識圖譜的明確、結構化知識增強大語言模型的框架,解決諸如幻覺和缺乏可解釋性等問題。該論文概述了三種主要方法:KG 增強的 LLM、LLM 增強的 KG 以及與 KG 的協同 LLM。這種統一提高了 AI 系統在各種應用程序中的性能和可解釋性。

Conmy et al. [2023] 專注于自動化神經網絡中部分機制可解釋性工作流程。使用自動電路發現 (ACDC) 等算法,作者可以自動識別神經模型中與特定行為或功能相對應的子圖。

他等人 [2022] 提出了一種新穎的 LLM 后處理方法,該方法利用外部知識,以增強解釋的忠實度并提高整體性能。這種方法稱為 Rethinking with Retrieval,它使用 CoT 提示生成使用相關外部知識精煉的推理路徑。作者聲稱,他們的方法通過產生更準確和可靠的解釋,顯著提高了 LLM 在復雜推理任務上的性能。

Yoran 等人 [2023] 引入的多鏈推理 (MCR) 通過提示 LLM 在多個推理鏈上進行元推理來改進 LLM 中的問答。這種方法有助于選擇相關事實,混合信息?的 API 方法,并為答案生成更好的解釋。該論文證明了 MCR 優于以前的方法,尤其是在多跳問答方面。

Inseq Sarti et al. [2023] 是一個 Python 庫,有助于對序列生成模型進行可解釋性分析。該工具包側重于提取模型內部和特征重要性分數,特別是對于 transformer 架構。它集中了對各種特征歸因方法的訪問,可以用熱圖等可視化方式直觀地表示 Aminimehr et al. [2023],促進對序列生成模型的公平和可重復的評估。

Wu et al. [2023b] 引入的無界分布式對齊搜索 (Boundless DAS) 是一種識別 LLM 中可解釋因果結構的方法。在他們的論文中,作者證明了 Alpaca 模型(一種 7B 參數 LLM)通過實現具有可解釋布爾變量的簡單算法來解決數值推理問題。

Li et al. [2023] 通過探索對比輸入 - 標簽演示對的影響,包括標簽翻轉、輸入擾動和添加互補解釋,研究了各種演示如何影響 LLM 中的 ICL。該研究采用顯著性圖來定性和定量地分析這些演示如何影響 LLM 的預測。

LMExplainer Chen et al. [2023] 是一種解釋 LM 決策過程的方法。這種方法結合了知識圖譜和圖注意力神經網絡來解釋 LM 預測背后的原因。

Gao 等人 [2023b] 提出了一種新的推薦系統框架 Chat-REC,它集成了 LLM 以生成更具交互性和可解釋性的建議。該系統將用戶檔案和交互歷史記錄轉換為 LLM 的提示,從而利用 LLM 的 ICL 功能增強推薦流程。

Zhang et al. [2022] 提出的 DSR-LM 是一個結合了可微分符號的框架

使用預先訓練的語言模型進行推理。作者聲稱,他們的框架通過執行演繹推理的符號模塊改進了語言模型中的邏輯推理,從而提高了演繹推理任務的準確性。

2) 作為特征:該子類別中的論文并不直接旨在提供更透明的模型或解釋基于 LLM 的模型。相反,他們使用 LLM 來生成推理和描述,這些和描述用作輔助任務的輸入。

例如,Li et al. [2022] 探討了 LLM 的解釋如何增強較小語言模型 (SLM) 的推理能力。他們引入了一個多任務學習框架,其中 SLM 使用 LLM 的解釋進行訓練,從而提高了推理任務的性能。

Ye 和 Durrett [2022] 評估了 LLM 在小樣本學習場景中生成的解釋的可靠性。作者聲稱,LLM 解釋通常不會顯著提高學習成績,并且通過強調 LLM 推理和解釋中的事實正確性之間的潛在不一致,可能在事實上不可靠。

【所以對生成的解釋需要進行進一步的驗證】

Turpin 等人 [2023] 研究了 CoT 推理的可靠性。作者聲稱,雖然 CoT 可以提高任務績效,但它也可以系統性地歪曲模型預測背后的真正原因。他們通過實驗證明了這一點,該實驗展示了模型輸入中的偏差特征(例如重新排序多項選擇選項)如何嚴重影響 CoT 解釋,而沒有在解釋本身中得到承認。

Kang 等人 [2023] 引入了一種自動化調試過程的方法,稱為自動科學調試 (AutoSD)。這種方法利用 LLM 生成有關代碼中錯誤的假設,并使用調試器與有問題的代碼進行交互。這種方法可以自動得出結論和生成補丁,并為調試決策提供清晰的解釋,從而有可能使開發人員做出更高效、更準確的決策。

Krishna et al. [2023] 提出了一個框架稱為 Amplifying Model Performance by Leveraging In-Context Learning with Post Hoc Explanations (AMPLIFY),旨在通過自動生成基本原理來提高 LLM 在復雜推理和語言理解任務上的性能。它利用事后解釋方法(輸出歸因分數,指示每個輸入特征對模型預測的影響)來構建自然語言基本原理。這些理由為 LLM 提供了糾正信號。

Yang et al. [2023] 介紹了語言引導瓶頸 (LaBo),這是一種無需手動指定概念即可構建高性能概念瓶頸模型 (CBM) 的方法。LaBo 利用 GPT-3 生成有關類別的事實句子,形成 CBM 的候選概念。然后使用 CLIP Radford et al. [2021] 將這些概念與圖像對齊,以形成瓶頸層。該方法使用子模實用程序有效地搜索瓶頸,專注于判別性和多樣化信息。作者聲稱,他們的方法在 11 個不同數據集的少鏡頭分類任務中優于黑盒線性探針,在數據更多的情況下顯示出相當或更好的性能。

Bitton-Guetta 等人 [2023] 介紹了 WHOOPS!,這是一個新的數據集和基準測試,旨在測試 AI 模型的視覺常識推理能力。該數據集包含故意違背常識的圖像,這些圖像是使用 Midjourney 等圖像生成工具創建的。該論文評估了 AI 模型在圖像描述、跨模態匹配、視覺問答等任務中的任務,以及具有挑戰性的解釋生成任務,其中模型必須識別和解釋圖像的異常性。結果表明,即使是像 GPT3 和 BLIP2 這樣的高級模型也難以完成這些任務,這凸顯了與人類表現相比,AI 的視覺常識推理存在差距。

B. 討論文件

與應用論文不同,此類別包括通過 LLM 針對 XAI 論點的論文,反之亦然,但不一定提供任何特定的方法、框架或應用程序。反過來,該類別又分為兩個子類別,即問題或提及關注點的作品以及基準和指標,主要關注法學碩士領域 XAI 方法的評價和評估。

1) 問題:Bowman [2023] 批判性地研究了 LLM,強調了它們的不可預測性以及它們在擴展方面的能力的新興性質。他們強調了指導和解釋 LLM 的挑戰,以及細致入微地了解其局限性和潛力的必要性。

Liu et al. [2023] 提供了一項調查和一套指南,用于評估 LLM 與人類價值觀和意圖的一致性。它們對 LLM 可信度的各個方面進行了分類和詳細說明,包括可靠性、安全性、公平性、抗濫用性、可解釋性、對社會規范的遵守和穩健性。

Liao 和 Vaughan [2023] 從以人為本的角度強調了 LLM 透明度的必要性。作者討論了使用 LLM 實現透明度的獨特挑戰,將它們與更小、更專業的模型區分開來。本文提出了一個研究路線圖,強調了理解和解決 LLM 生態系統中不同利益相關者的透明度需求的重要性。它倡導開發和設計透明度方法,以考慮這些利益相關者的需求、LLM 的新應用及其各種使用模式和相關挑戰。

最后,Xie et al. [2023] 通過零鏡頭分析強調了 ChatGPT 在金融市場分析背景下在可解釋性和穩定性方面的局限性。作者建議需要更專業的培訓或微調。

2) 基準和指標:Lu et al. [2022] 介紹了 SCIENCEQA,這是一個用于多模態科學問答的新數據集。此數據集包括大約 21k 個問題,具有不同的科學主題和注釋,以講座和解釋為特色,以幫助理解推理過程。作者演示了如何訓練語言模型,尤其是 LLM,以生成這些講座和解釋,作為 CoT 過程的一部分,從而提高它們的推理能力。該研究表明,CoT 提高了問答性能,并提供了對 LLM 在復雜、多模態領域中模擬類人多步推理的潛力的見解。

Golovneva et al. [2022] 介紹了 ROSCOE,這是一組指標,旨在評估語言模型的逐步推理,尤其是在沒有黃金參考的情況下。這項工作包括推理錯誤的分類法和根據各種推理任務的基線指標對 ROSCOE 進行綜合評估。作者證明了 ROSCOE 在評估模型生成的基本原理中的語義一致性、邏輯性、信息量、流暢性和事實性方面的有效性。

Zhao et al. [2023b] 對 LLM 的可解釋性技術進行了全面調查,重點關注基于 Transformer 的模型。它根據傳統的微調和提示范式對這些技術進行了分類,詳細介紹了生成局部和全局解釋的方法。本文討論了可解釋性方面未來研究的挑戰和潛在方向,強調了與傳統深度學習模型相比,LLM 獨特的復雜性和功能。盡管如此,該調查主要關注一般的 XAI,對 XAI 和 LLM 之間的關系的覆蓋面很小。

V. 討論

我們的分析表明,少數被審查的出版物直接解決了第 II 節中強調的挑戰。例如,Liu et al. [2023] 的工作側重于 LLM 中與信任相關的問題,而 Gao et al. [2023a] 調查了 LLM 傳播錯誤信息的問題。這種對發現的問題表明 XAI 社區必須進行大量參與以充分面對這些問題。

a) 開源參與:我們的調查研究表明,越來越多的研究正在超越僅用文本描述方法的傳統方法。相反,他們將它們作為有形工具或開源代碼發布,通常托管在 GitHub 等平臺上。這種演變是朝著提高計算機科學研究的透明度和可重復性邁出的值得稱道的一步。這一趨勢表明,作者越來越傾向于發布他們的代碼并公開發布他們的工具,這與幾年前相比是一個顯著的變化。但是,我們還應該提到社區對這些存儲庫的參與程度的不一致。雖然一些存儲庫吸引了大量興趣,促進了進一步的開發和改進,但其他存儲庫仍未得到充分利用。這種參與度的差異引發了關于影響社區與這些資源互動的因素的重要問題。

b) 目標:大多數作品主要將注意力轉向 LLM,而不是專注于基于 AI 的系統中更專業或更狹窄的主題。這種廣泛的方法與相對較少的研究形成鮮明對比,這些研究專門關注 Transformer 或僅限于檢查特定類別的系統,例如推薦系統。這種對 LLM 的總體關注代表了 AI 社區內一個積極且有影響力的趨勢。鑒于 LLM 系統在學術和實際應用中的快速發展和日益突出,這種更廣泛的關注對于推動我們在該領域的理解和能力向前發展是及時和關鍵的。它確保研究與該領域的進步保持同步,培養一種全面且具有前瞻性的方法,這對 AI 技術的持續發展和發展至關重要。

c) 目標:如表 I 所示,我們的分析揭示了正在審查的 LLM 研究的目標存在分歧。一方面,這些作品的一個子集主要致力于解釋和增強這些 “黑匣子” 模型的可解釋性。另一方面,更大的隊伍更注重任務,專注于增強特定的任務和模型,而可解釋性只是作為副產品出現。研究重點的這種二分法強調了一個關鍵趨勢:迫切需要將更多注意力轉移到揭開 LLM 內部運作的神秘面紗上。不應忽視它們固有的不透明性質,而不是僅僅利用這些模型來提高任務績效。追求性能改進必須與解開和闡明 LLM 的潛在機制的努力相平衡。這種方法對于促進對這些復雜系統的更深入理解、確保其應用有效和透明至關重要。這種平衡的關注對于推動該領域的技術發展和維護合乎道德和負責任的 AI 發展至關重要。

表 I:近期應用論文的綜合,總結了截至 2024 年 1 月的參與指標、更新時間表、模型特異性以及每項研究的總體目標。在表的第一部分中,列出了 To Explain papers,而 As Feature 在第二部分中有效。對于缺少關聯倉庫的論文,不會報告 Stars、fork 和 Last updates (-)。Target 是研究的特定重點,例如特定類型的語言模型。不可知 指示研究是否與模型無關。目標代表每項研究的主要目標:模型比較 (C)、解釋 (E)、改進 (IMP)、可解釋性 (INT) 和推理 (R)。

VI. 結論

我們的 SMS 顯示,只有少數作品致力于為基于 LLM 的系統開發解釋方法。考慮到 LLM 在各種應用中的迅速增長,這一發現尤為突出。因此,在這種情況下,我們的研究具有雙重目的。首先,它充當 XAI 社區的導航燈塔,突出了創建可解釋和透明的基于 LLM 的系統可以有效解決更廣泛的 AI 社區面臨的挑戰的肥沃領域。其次,它是一個行動號召,敦促研究人員和從業者冒險進入這個相對未開發的領域。在基于 LLM 的系統中需要解釋方法不僅是技術上的需要,也是邁向負責任的 AI 實踐的一步。通過專注于這一領域,XAI 社區可以為使 AI 系統更高效、更值得信賴和更負責任做出重大貢獻。

我們的行動呼吁如下:首先,采用 LLM 模型的研究人員必須承認并解決潛在的長期問題

這些系統的不透明性帶來了挑戰。可解釋性的重要性應該從單純的 “最好有” 特性提升到開發過程的一個不可或缺的方面。這涉及一種主動的方法,將可解釋性納入基于 LLM 的系統的設計和實施階段。這種視角的轉變對于確保這些模式有效、透明和負責任至關重要。其次,我們敦促 XAI 領域的研究人員擴大他們的研究范圍。重點不僅應該放在設計能夠處理基于 LLM 的系統復雜性的方法上,還應該加強這些解釋的表示層。目前,提供的解釋對于非技術利益干系人來說通常過于復雜。因此,必須開發使這些解釋更容易被更廣泛的受眾訪問和理解的方法。這種雙重方法將使 LLM 更易于理解和用戶友好,并彌合 AI 開發中技術效率和道德責任之間的差距。

參考文獻深挖

Pan 等人 [2023] 是一個旨在用來自知識圖譜的明確、結構化知識增強大語言模型的框架,解決諸如幻覺和缺乏可解釋性等問題。該論文概述了三種主要方法:KG 增強的 LLM、LLM 增強的 KG 以及與 KG 的協同 LLM。這種統一提高了 AI 系統在各種應用程序中的性能和可解釋性。

Pan Lu, Swaroop Mishra, Tanglin Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, and Ashwin Kalyan. Learn to explain: Multimodal reasoning via thought chains for science question answering. NeurIPS, 35:2507–2521, 2022.

He等人 [2022] 提出了一種新穎的 LLM 后處理方法,該方法利用外部知識,以增強解釋的忠實度并提高整體性能。這種方法稱為 Rethinking with Retrieval,它使用 CoT 提示生成使用相關外部知識精煉的推理路徑。作者聲稱,他們的方法通過產生更準確和可靠的解釋,顯著提高了 LLM 在復雜推理任務上的性能。

Hangfeng He, Hongming Zhang, and Dan Roth.

Rethinking with retrieval: Faithful large language

model inference. arXiv:2301.00303, 2022

下面這篇我看過了,但是沒有記筆記

Arun James Thirunavukarasu、Darren Shu Jeng Ting、Kabilan Elangovan、Laura Gutierrez、Ting Fang Tan 和 Daniel Shu Wei Ting。醫學中的大型語言模型。自然醫學,第 1-11 頁,2023 年。

Arun James Thirunavukarasu, Darren Shu Jeng Ting, Kabilan Elangovan, Laura Gutierrez, Ting Fang Tan, and Daniel Shu Wei Ting. Large language models in medicine. Nature medicine, pages 1–11, 2023.

Qika Lin、Jun Liu、Rui 毛、Fangzhi Xu 和 Erik Cambria。技術:用于可解釋的外推推理的時間邏輯圖網絡。在計算語言學協會第 61 屆年會論文集(第 1 卷:長篇論文)中,第 1281-1293 頁,2023 年。

已完成

aiyan Zhao, Hanjie Chen, Fan Yang, Ninghao Liu, Huiqi Deng, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, and Mengnan Du. Explainability for large language models: A survey. ACM TIST, 2023b.

趙海燕、陳漢杰、楊帆、劉寧浩、鄧慧琪、蔡恒義、王帥強、尹大偉和杜夢楠。 大型語言模型的可解釋性:一項調查。ACM TIST,2023 年 b。

2023.9 Explainability for Large Language Models: A Survey-CSDN博客

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/63700.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/63700.shtml
英文地址,請注明出處:http://en.pswp.cn/web/63700.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

前端滾動錨點(點擊后頁面滾動到指定位置)

三個常用方案: 1.scrollintoView 把調用該方法的元素滾動到屏幕的指定位置,中間,底部,或者頂部 優點:方便,只需要獲取元素然后調用 缺點:不好精確控制,只能讓元素指定滾動到中間&…

前端筆記——大數據量瀏覽器卡頓優化思路

多任務數據量處理卡頓問題 任務分批次 為避免阻塞,可以將 長時間的單一任務 拆分成多個小任務并分批執行。這樣可以在兩次任務之間讓瀏覽器有時間處理渲染、用戶輸入等操作。兩種常見方法: setTimeout 方法: 使用 setTimeout 將任務分段&a…

數智化轉型是什么?

數智化轉型是指企業通過數字化(Digitalization)和智能化(Intelligentization)技術的結合,推動業務流程、產品服務、組織管理的全面升級,從而提升效率、增強創新能力,并實現更高價值。相比傳統的…

RIP實驗

要求及分析 路由器上分別配置環回 連接路由器的線路網段為12.1.1.0/24、23.1.1.1.0/24 R1和R3連接的網絡地址分別為192.168.1.0/24/192.168.2.0/24 整個網絡使用RIP達到全網可達 配置 先配置路由器各接口ip和環回和pc ip網關掩碼(圖略) 進行 RI…

Oracle 中間件 Webcenter Portal服務器環境搭建

環境信息 服務器基本信息 如下表,本次安裝總共使用2臺服務器,具體信息如下: Webcenter1服務器 歸類 SOA服務器 Ip Address 172.xx.xx.xx.xx HostName wcc01.xxxxxx.com Alias wccprd01 Webcenter2服務器 歸類 OSB服務器 Ip Addr…

macOS 配置 vscode 命令行啟動

打開 vscode 使用 cmd shift p 組合快捷鍵,輸入 install 點擊 Install ‘code’ command in PATH Ref https://code.visualstudio.com/docs/setup/mac

3、交換機IP路由功能

每個用例前自己最好先畫個圖,不然容易繞暈,這篇文章寫好久了,自己都覺得有點繞 一、直連路由 如果一個交換機與另一個交換機時直連著的并且他們用來連接的端口屬于同網段,那么這種情況下他們就屬于直連路由。不需要做任何配置便可…

分層架構 IM 系統之多媒體功能設計與實現

現在 IM 系統已經不僅限于文本消息的通訊了,多媒體數據占據越來越多的比重,比如:文件傳輸、語音通話、視頻通話等。 在前面的文章(《基于需求分析模型來結構化剖析 IM 系統》)中我們分析過,“多媒體消息”…

0.gitlab ubuntu20.04 部署問題解決

安裝依賴: ① sudo apt-get update 出現: 解決方式: 去 /etc/apt/sources.list.d 這個目錄刪除或注釋對應的list文件 第三方軟件的源一般都以list文件的方式放在 /etc/apt/sources.list.d 這個目錄 重新運行sudo apt-get update 安裝…

Next.js v15 - 服務器操作以及調用原理

約定 服務器操作是在服務器上執行的異步函數。它們可以在服務器組件和客戶端組件中調用,用于處理 Next.js 應用程序中的表單提交和數據修改。 服務器操作可以通過 React 的 “use server” 指令定義。你可以將該指令放在 async 函數的頂部以將該函數標記為服務器操…

什么是3DEXPERIENCE SOLIDWORKS,它有哪些角色和功能?

將業界領先的 SOLIDWORKS 3D CAD 解決方案連接到基于單一云端產品開發環境 3DEXPERIENCE 平臺。您的團隊、數據和流程全部連接到一個平臺進行高效的協作工作,從而能快速的做出更好的決策。 目 錄: ★ 1 什么是3DEXPERIENCE SOLIDWORKS ★ 2 3DEXPERIE…

【華為OD-E卷-開心消消樂 100分(python、java、c++、js、c)】

【華為OD-E卷-開心消消樂 100分(python、java、c、js、c)】 題目 給定一個 N 行 M 列的二維矩陣,矩陣中每個位置的數字取值為 0 或 1。矩陣示例如: 1 1 0 0 0 0 0 1 0 0 1 1 1 1 1 1 現需要將矩陣中所有的 1 進行反轉為 0&#…

[Unity]【圖形渲染】【游戲開發】Shader數學基礎4-更多矢量運算

在計算機圖形學和著色器編程中,矢量運算是核心的數學工具之一。矢量用于描述空間中的位置、方向、速度等各種物理量,并在圖形變換、光照計算、紋理映射等方面起著至關重要的作用。本篇文章將詳細講解矢量和標量之間的乘法與除法、矢量的加法與減法、矢量的模與單位矢量、點積…

【漏洞復現】CVE-2023-37461 Arbitrary File Writing

漏洞信息 NVD - cve-2023-37461 Metersphere is an opensource testing framework. Files uploaded to Metersphere may define a belongType value with a relative path like ../../../../ which may cause metersphere to attempt to overwrite an existing file in the d…

Bcrypt在線密碼加密生成器

具體前往:在線Bcrypt加密工具--使用bcrypt及生成salt的迭代次數強度參數計算生成哈希(摘要)

Django 模板分割及多語言支持案例【需求文檔】-->【實現方案】

Django 模板分割及多語言支持案例 這個案例旨在提供一個清晰的示范,展示如何將復雜的頁面分解為多個可復用的模板組件,使代碼更加模塊化和易于管理。希望這篇案例文章對你有所幫助。 概述 在 Django 項目開發中,使用模板分割和多語言支持能…

wxWidgets使用wxStyledTextCtrl(Scintilla編輯器)的正確姿勢

開發CuteMySQL/CuteSqlite開源客戶端的時候,需要使用Scintilla編輯器,來高亮顯示SQL語句,作為C/C領域最成熟穩定又小巧的開源編輯器,Scintilla提供了強大的功能,wxWidgets對Scintilla進行包裝后的是控件類:…

構建高性能異步任務引擎:FastAPI + Celery + Redis

在現代應用開發中,異步任務處理是一個常見的需求。無論是數據處理、圖像生成,還是復雜的計算任務,異步執行都能顯著提升系統的響應速度和吞吐量。今天,我們將通過一個實際項目,探索如何使用 FastAPI、Celery 和 Redis …

介紹 Html 和 Html 5 的關系與區別

HTML(HyperText Markup Language)是構建網頁的標準標記語言,而 HTML5 是 HTML 的最新版本,包含了一些新的功能、元素、API 和屬性。HTML5 相對于早期版本的 HTML(比如 HTML4)有許多重要的改進和變化。以下是…

【win10+RAGFlow+Ollama】搭建本地大模型助手(教程+源碼)

一、RAGFlow簡介 RAGFlow是一個基于對文檔深入理解的開源RAG(Retrieval-augmented Generation,檢索增強生成)引擎。 主要作用: 讓用戶創建自有知識庫,根據設定的參數對知識庫中的文件進行切塊處理,用戶向大…