【文獻精讀筆記】Explainability for Large Language Models: A Survey （大語言模型的可解釋性綜述）（三）

****非斜體正文為原文獻內容（也包含筆者的補充），灰色塊中是對文章細節的進一步詳細解釋！

3.2 全局解釋（Global Explanation）

與旨在解釋模型個體預測的局部解釋不同，全局解釋提供了對語言模型內部工作機制的洞察。全局解釋旨在理解各個組成部分（神經元、隱藏層和更大的模塊）編碼了什么，并解釋各個組成部分學到的知識/語言屬性。我們檢查了三種主要的全局解釋方法：分析模型表示和參數的探測方法，確定模型對輸入響應的神經元激活分析，以及基于概念的方法。

3.2.1 基于探測的解釋（Probing-Based Explanations）

自監督預訓練過程導致模型從訓練數據中獲得廣泛的語言知識。探測技術用于理解LLMs（如BERT）捕獲的知識，可以幫助研究人員了解模型在預訓練過程中學到了什么，以及模型是如何表示和處理語言信息的。? ? ? ? ??

3.2.1.1 基于分類器的探測（Classifier-Based Probing）

基于分類器的探測的基本思想是在預訓練或微調的語言模型（如BERT、T5）上訓練一個淺層分類器。

為了執行探測，首先凍結預訓練模型的參數，模型為輸入單詞、短語或句子生成表示，并學習參數，如注意力權重。
這些表示和模型參數被輸入到探測分類器中，其任務是識別模型獲得的某些語言屬性或推理能力。
一旦探測訓練完成，它將在保留數據集上進行評估。標記數據來自可用的標注器或金標準標注數據集。盡管每個探測分類器通常針對特定任務量身定制，但訓練分類器探測不同知識的方法保持一致。

"Holdout dataset"（保留數據集）：指的是從整個數據集中劃分出來的一部分數據，這部分數據在模型訓練過程中不被使用，而是保留到訓練完成后用于評估模型的性能。保留數據集的主要目的是提供一個未被模型見過的數據樣本集合，以測試模型對新數據的泛化能力。

Available Taggers（可用的標注器）：標注器（Tagger）是指能夠識別文本中單詞的語法類別（如名詞、動詞等）的NLP工具。能夠自動對文本進行詞性標注（Part-of-Speech Tagging）或其他類型的標注，如命名實體識別（Named Entity Recognition）。例如，NLTK（Natural Language Toolkit）是一個流行的Python庫，它提供了易于使用的接口來進行文本處理，包括分類、標記化、詞干提取、標注等。

Gold-Annotated Datasets（金標準標注數據集）：金標準標注數據集是指人工精確標注的數據集，這些數據集被用作訓練和評估NLP模型的標準。在這些數據集中，每條數據都經過了詳細的標注，比如標記了詞性、句法結構、實體等信息。例如，Universal NER（UNER）項目旨在開發多語言的命名實體識別基準，提供了跨語言一致的標注方案。

相關研究將根據探測的模型組件進行介紹，即向量表示和模型參數。

我們首先審視了一些研究工作，這些工作通過分析向量表示來衡量模型中蘊含的知識。在這個類別中，所謂的“知識”可以是低層次的語法知識（Syntax Knowledge），也可以是高層次的語義知識（Semantic Knowledge）。研究表明，模型的較低層次更能夠預測單詞級的語法，而較高層次更能夠捕獲句子級的語法和語義知識（Belinkov et al., 2017; Peters et al., 2018; Blevins et al., 2018; Jawahar et al., 2019)。

語法標簽可以進一步分為單詞級或句子級類別。單詞級的語法標簽提供有關每個單詞的信息，如詞性標記、形態標記、最小短語成分標記等。句子級的語法標簽描述整個句子的屬性，如語態（主動或被動）、時態（過去、現在、未來）和頂級句法序列。

1）對于單詞級語法探測，通常通過依賴句法分析器 (Dozat & Manning, 2017)來引入解析樹（Parse Trees），來幫助提取依賴關系 (Tenney et al., 2019b)。還開發了結構探測器，通過使用距離度量測量所有詞對之間的句法距離來識別特定向量空間中的解析樹 (Hewitt & Manning, 2019; Chen et al., 2021)。這表明句法知識被嵌入到了向量表示中，并且通常用于重建依賴樹以進行探測任務。

解析樹（Parse Trees）：

解析樹是一種樹狀結構，用于表示句子中單詞之間的句法關系。在這種結構中，每個節點代表一個單詞，而邊代表單詞之間的依存關系或句法結構。

然而，有人擔心探測分類器是學習表示中的語法，還是僅僅學習任務。一些人認為，只有豐富的語法表示才能使簡單分類器表現良好 (Lin et al., 2019)。Kunz和Kuhlmann (2020)推翻了這些主張，證明其良好的性能來自于對局部鄰近單詞進行編碼。一項研究表明，如果一個分類器主要依賴于語義線索（即單詞或句子的含義信息）來進行預測，那么它可能無法有效地提取或識別句子中的語法結構（這里的“語法”指的是句子中單詞如何組織和相互關聯的規則，比如詞性、句法結構、依存關系等）(Maudslay & Cotterell, 2021)。相比之下，其他研究發現，如BERT這樣的模型以多種方式編碼相應信息 (Mohebbi et al., 2021; Li et al., 2021a)。因此，探測語法信息的有效性仍需要進一步調查。

2）句子級語法探測：由于句子級語法信息通常分布在每個單詞中，因此使用探測分類器對它們的預測更簡單，無需依賴樹檢索。局部句法和語義通常一起研究，因為它們研究相同的對象，如神經元、層和上下文表示。差異主要來源于它們的訓練目標和訓練數據 (Tenney et al., 2019a)。

學習語義知識的能力通常在如指代消解（Coreference Resolution）、命名實體識別（Named Entity Recognition, NER）、關系分類（Relation Classification）、問題類型分類（Question Type Classification）和支持事實（Supporting Facts）等任務上進行測試（Van Aken等人，2019年）。

指代消解（Coreference Resolution）：
指代消解任務的目標是識別文本中代詞和名詞短語之間的指代關系。例如，確定“他”在句子“約翰丟了鑰匙，他很傷心”中指的是“約翰”。

命名實體識別（Named Entity Recognition, NER）：
命名實體識別任務涉及識別和分類文本中的特定實體，如人名、地名、組織名等。

關系分類（Relation Classification）：
關系分類任務旨在識別文本中實體之間的關系。例如，確定句子“蘋果公司由史蒂夫·喬布斯創立”中“蘋果公司”和“史蒂夫·喬布斯”之間的“創立者”關系。

問題類型分類（Question Type Classification）：
問題類型分類任務是指將問題根據其詢問的類型進行分類，如是否問題、數量問題、定義問題等。

支持事實（Supporting Facts）：
支持事實任務涉及識別和提取支持給定陳述或論點的事實。這通常用于驗證信息的真實性或構建知識庫。

一個突出的框架稱為邊緣探測?(Tenney et al., 2019b)，它提供全面的句法和語義探測工具。不同之處在于，它用預訓練表示和整數span作為輸入，并將它們轉換為固定長度的span表示，以訓練探測分類器。由于 span 表示的定義，這種方法變得非常通用，并廣泛應用于句法和語義探測任務。

一些工作簡單地通過測量代詞經過轉換后的表示與前面單詞之間的相似度來探測指代關系（代詞（如“他”、“它”）在句子中指向哪個名詞或名詞短語（稱為antecedent）），并為更相似的單詞對分配更高的概率（如果兩個單詞的表示相似度較高，模型會認為它們指代同一實體的可能性更大）(Sorodoc et al., 2020).

在使用提示（prompts）進行探測工作時，尤其是在零樣本（zero-shot）和少樣本（few-shot）學習場景中，常常會遇到的挑戰。使用這些模型的評估更加復雜，因為提示質量也會顯著影響性能(Zhang et al., 2022a)。即使使用了精心設計的數據集和提示（prompt）設計，得到的結果仍然需要進一步的審查和驗證。

零樣本學習（Zero-Shot Learning, ZSL）
在零樣本學習中，模型需要在沒有看到任何特定類別樣本的情況下識別新類別。這種學習方式面臨的挑戰包括對已見過類別的偏見、領域偏移（domain shift）、語義表示的質量，以及擴展性問題。例如，模型可能會偏向于已見過的類別，導致對未見類別的識別性能不佳。

少樣本學習（Few-Shot Learning, FSL）
少樣本學習是指模型僅使用少量樣本進行學習。這種學習方式的挑戰在于如何快速從極少的樣本中學習到有效信息。這包括了如何有效地遷移知識、如何設計有效的元學習策略，以及如何處理樣本不足導致過擬合的問題。

?另一方面，針對注意力頭的探測分類器以類似的方式設計，其中淺層分類器在預訓練模型上進行訓練，以預測某些特征。除了將注意力頭與句法和語義聯系起來外，還研究了注意力頭的模式。一項代表性工作是：通過在預訓練的語言模型上使用隨機輸入數據，生成自注意力圖（self-attention maps）來觀察模型如何關注不同的詞語，然后訓練一個簡單的分類器來識別這些圖中的模式，并基于這些模式來優化模型，比如通過減少不必要的注意力頭來提高效率（剪枝）（Kovaleva et al.，2019;Clark et al.，2019）。有些研究不是做出預測，而是將模型中的注意力機制視為一種語義信息指示器，通過反向追蹤模型中的注意力權重，從模型的高層向輸入層積累這些權重，并將它們分配回輸入的 tokens，以此來表示每個單詞的語義信息（Wu et al.， 2020a）。但問題是，追蹤的注意力是否能夠在不同的頭之間等價地表示語義信息。

盡管高探測性能通常來源于表示的質量和可解釋性，但這種假設仍然很大程度上未經證實且難以驗證。在我們能夠全面解決這些挑戰之前，添加如選擇性（Hewitt和Liang，2019）等約束可能有助于臨時緩解潛在的探測偏差，可以幫助我們更好地理解探針在多大程度上能夠針對特定的語言特性（如詞性標注），而不是與之無關的控制任務。這種選擇性測量可以在一定程度上減輕探針可能存在的偏差，從而為我們提供更可靠的結果。

3.2.1.2 無參數探測（Parameter-Free Probing）

以數據為中心的探測技術還有另一個分支，它不需要探測分類器，相反，這些技術設計了針對特定語言屬性（如語法）的定制數據集?(Marvin & Linzen, 2018)。通過評估編碼模型在這些數據集上的表現，可以展示模型捕捉這些語言特征的能力。

對于語言模型來說，評估的標準是看模型對正例（符合特定語言特征的樣本）的概率是否高于對負例（不符合特定語言特征的樣本）的概率。如果模型能夠更高概率地預測正例，這表明它在捕捉這些語言特征方面表現良好。

探測任務也可以通過數據驅動的提示搜索來執行，這種方法不依賴于額外的探測分類器，而是利用語言模型自身在文本生成或補全任務上的表現來評估模型對特定語言屬性的掌握程度?(Petroni et al., 2019; Apidianaki & Soler, 2021; Li et al., 2022)。例如，Ravichander等人證明BERT通過完成填空任務（即填充不完整句子中的空白）能夠編碼超類信息，并且在零樣本設置中表現良好，能夠在所有樣本的前5個結果中提供正確答案。然而，這種方法也存在爭議（Zhong等人，2021），因為訓練數據中包含的規律可能被提示方法利用來做出預測，這使得語言模型真正捕捉到的事實知識變得模糊不清。

3.2.2 神經元激活解釋（Neuron Activation Explanation）

與檢查整個向量空間不同，神經元分析關注于單個維度，即那些對模型性能至關重要或與特定語言屬性相關的神經元。

它分為兩個主要步驟：首先，以無監督的方式識別重要神經元。其次，在監督任務中學習語言屬性與個體神經元之間的關系。

基于“不同模型在學習相似的語言屬性時通常會共享相似的神經元”的假設，這些共享神經元根據各種指標（如相關性測量和學習權重）進行排名(Bau et al., 2018; Dalvi et al., 2019)。

或者，也可以采用傳統的有監督分類方法來找到特定模型中的重要神經元（Dalvi et al., 2019）。這些神經元的重要性通過消融實驗（如遮蔽、擦除、可視化等）來定量驗證。

消融實驗是一種通過移除或改變模型的某些部分來觀察模型性能變化的方法，以此來評估這些部分的重要性。

此外，還出現了其他探測技術，如貪婪高斯探測（greedy Gaussian probing），用于識別重要神經元（Torroba Hennigen et al., 2020）。然而，現有方法難以平衡準確性和選擇性（Antverg & Belinkov, 2022）。

準確性指的是探測任務的性能，而選擇性指的是探測與特定語言屬性相關神經元的能力。

直觀上，為了解釋模型的行為，我們應該檢查所有神經元。但是，由于計算成本高昂，并且有研究表明只有一小部分神經元對決策至關重要，因此現有的方法通常結合了排名算法來識別和分析這些重要的神經元（Bau et al., 2018; Antverg & Belinkov, 2022）。

隨著LLMs的泛化能力的提高，為單個神經元提供解釋變得可行。OpenAI最近的一項研究展示了如何使用GPT-4為GPT-2 XL中的單個神經元激活生成自然語言解釋。

使用GPT-4為GPT-2 XL中的單個神經元激活生成自然語言解釋的過程大致如下：

生成解釋（步驟一）：
首先，研究人員會選擇GPT-2 XL中的一個特定神經元，并向GPT-4展示與該神經元相關的文本序列和激活情況。GPT-4的任務是生成一個可能的解釋，描述這個神經元的行為。例如，GPT-4可能會分析一段關于漫威電影的文本，并識別出該神經元與“電影、角色和娛樂”相關。

使用GPT-4進行模擬（步驟二）：
接下來，研究人員再次使用GPT-4來模擬被解釋的神經元的行為。GPT-4會嘗試預測這個神經元在新的文本輸入下會如何激活。

對比評估打分（步驟三）：
最后，研究人員會比較GPT-4模擬的神經元激活結果與GPT-2 XL真實神經元的激活結果，根據匹配程度對GPT-4的解釋進行評分。這個評分反映了GPT-4生成的解釋與實際神經元行為的一致性。

通過測試GPT-4模擬激活與真實激活之間的相關性來評估每個神經元解釋的質量（下圖）。高相關性表明解釋準確捕捉了神經元編碼的本質。超過1000個GPT-2 XL神經元被發現有來自GPT-4的高評分解釋，這占了它們行為的大部分。這種自動生成的自然語言提供了對GPT-2 XL中出現的內部計算和特征表示的直觀洞察。

圖片內容：摩西被命令“拿著這段文字，以便你能記住如何保存我將托付給你的書籍。你要安排它們，用雪松膏抹它們，并把它們放在陶罐中……”（摩西遺囑 1:16–17）。

圖注：?激活可視化顯示了GPT-2第五層中第131個神經元的激活情況。GPT-4的模擬解釋表明，第131個神經元在處理引用時被激活（綠色）。該神經元的真實激活驗證了GPT-4提供的模擬解釋的準確性。

解釋LLMs的各個組成部分的一個常見限制是缺乏各個組成部分的真實解釋注釋。沒有這些注釋，就難以準確評估模型生成的解釋是否正確。

另一項最近的研究提出了Summarize和Score（SASC）解釋流程，以生成自然語言解釋來解釋大型語言模型中的模塊(Singh et al., 2023)。首先，SASC使用預訓練的語言模型來識別能夠最大程度激活模塊f的n-gram（詞組），并基于這些n-gram生成候選解釋。然后，SASC通過基于每個候選解釋生成合成數據，并測試模塊 f 對這些數據的響應，來評估每個候選解釋。研究人員將SASC應用于BERT（bert-base-uncased）中的模塊，并將其與人類標注的解釋進行比較。比較結果表明，SASC生成的解釋有時與人類解釋相似。

這種方法的優勢在于，它不需要訪問模塊的內部結構，也不需要人工干預，完全通過黑盒方式（即僅通過模塊的輸入輸出）來生成解釋。SASC的提出，為自動獲取LLMs中黑盒文本模塊的自然語言解釋提供了一種可能的解決方案，并有助于提高模型的可解釋性。

3.2.3 基于概念的解釋

基于概念的可解釋性算法將輸入映射到一組概念，并測量每個預定義概念對模型預測的重要性分數，從而實現對模型的解釋。這種方法通過引入抽象概念，使得模型的解釋更加易于人類理解，而不是僅僅依賴于低層次的特征。在潛在空間中的信息也可以被轉換成易于理解的解釋。

一個代表性的框架是TCAV（Testing with Concept Activation Vectors），它使用方向導數來量化定義概念對模型預測的貢獻。

TCAV首先通過一組示例來定義概念。這些示例可以是任何與概念相關的輸入數據，例如，為了定義“條紋”概念，可以提供一組條紋圖案的示例。
接下來，TCAV通過訓練一個線性分類器來區分代表概念的示例和隨機反例，從而學習一個“概念激活向量”（CAV），用于檢測感興趣的概念。CAV是正交于決策邊界的向量，指向概念的方向。

這種方法提供了對模型預測中概念重要性的全局解釋，而不僅僅是對單個圖像或樣本的解釋，且不需要更改或重新訓練原始模型即可使用。通過這種方式，TCAV使得模型的解釋更接近人類的理解和交流方式。

TCAV最初是為計算機視覺提出的，后來也適應了NLP模型，用于IMDB敏感性數據集的情感分類。例如，研究中探索了“積極的形容詞”（Positive Adjectives）和“中性”（Neutral）兩個概念。積極的形容詞概念指的是表達積極情感的形容詞集合，如“好”或“可愛”。而中性概念則涵蓋更廣泛的領域/主題，并且與積極的形容詞概念不同。對于具有負面情感的句子，TCAV分數表明，與中性相比積極形容詞的得分相對較低，這與人類理解一致。然而，TCAV需要額外的數據來描述概念，概念分類器的性能很難保證。

選擇概念的另一種方法是通過讓神經元在帶有標注數據集的探測任務中進行學習（Mu & Andreas, 2021）。研究表明，神經元不僅基于單個概念產生解釋，還基于邏輯形式的組合。解釋的神經元越多，模型就越準確。基于概念的解釋的一個常見陷阱是如何定義有用的概念。此外，它總是受到可用描述性數據集的限制。
?

3.2.4 機械解釋

機械解釋通過研究單個神經元以及它們之間的連接（即電路Circuits?），來理解語言模型(Anthropic, 2023; Bricken et al., 2023).。這種方法的動機是將神經模型的各個部分視為功能性組件，就像我們研究機器的各個部分以了解整個機器是如何運作的一樣。?Circuits?最初被提出來解釋直觀易懂的視覺模型，其中復雜物體的檢測器可以由簡單的構建塊（如線檢測器、曲線檢測器等）構建而成。

有研究專注于神經網絡的隱藏表示，這些表示可以通過特征進行可視化。他們認為，復雜的特征檢測器可以從早期和簡單的特征檢測器中實現。此外，不同的特征可以分布在許多多義性神經元上，也稱為疊加（Olah等人，2020a）。

注解：

隱藏層通常不直接與輸入或輸出相連，但卻包含了輸入數據經過處理后的高級特征表示。這些隱藏表示可以通過特征可視化技術展示出來，幫助我們理解神經網絡是如何學習和識別數據中的特征的。
在神經網絡中，復雜的特征（比如圖像中的物體形狀）可以通過組合早期層中檢測到的簡單特征（比如線條和顏色）來構建。
“多義性神經元”指的是，單個神經元可能對多種不同的特征都有反應。這種現象被稱為“疊加”，意味著一個神經元可以同時代表多個特征，這增加了神經網絡的表達能力，但也使得理解單個神經元的功能變得更加復雜。

另一種工作研究連接神經元的權重，旨在找到實現簡單邏輯的有意義的算法。研究者將神經網絡中的子圖（即網絡的一部分）視為電路。這些電路代表了特征的線性組合以及邏輯操作。通過分析這些電路，研究者可以建立輸入和輸出之間的因果關系。

特征的線性組合是指將多個特征按照一定的權重相加，而邏輯操作則是指基于這些特征進行的決策過程。

在基于神經元級別的電路解釋之上，還探索了更大規模的功能組件。已經識別出三種現象：1）分支專業化，2）權重帶，3）等變性。

分支專業化（Branch Specialization）描述了分支之間的特征組織，其中給定類型的特征被觀察到聚集在一個分支中。這一現象存在于不同層級中，相同的分支專業化可能在不同的架構和任務中都是穩健的。(Voss et al., 2021)
權重帶狀（Weight Banding）通常出現在視覺模型的最后一層，特別是在使用了全局平均池化（Global Average Pooling）的情況下。全局平均池化是一種減少特征圖空間維度的技術，它通過計算每個特征圖的平均值來實現。權重帶狀指的是在這種池化操作后，權重在某些特定的“帶”中聚集。(Petrov et al., 2021)
等變性（Equivariance）捕捉了神經網絡中的對稱性，即網絡如何處理輸入數據的變換（如旋轉、縮放等）。在具有等變性的網絡中，如果輸入數據發生了某種變換，網絡中的許多神經元也會相應地進行變換，從而保持輸出的一致性。這意味著網絡能夠識別出輸入數據的某些不變性質，即使輸入的外觀發生了變化。(Olah et al., 2020b)

當涉及到Transformer時，?Circuits 通常可行，且由于Transformer的架構，電路在Transformer中的工作和解釋方式與傳統神經網絡有所不同。研究者最近研究了單層和雙層的僅使用注意力的模型。

單層注意力模型：在這些模型中，可以通過權重訪問二元組（bigram）和跳躍三元組（skip-trigram）表。這些表幫助模型捕捉語言中的局部和長距離依賴關系。
雙層注意力模型：這些模型展示了“歸納頭”（induction head）的概念，通過組合不同層的注意力頭來實現。歸納頭由兩個注意力頭組成，第一個注意力頭負責將前一個標記的信息復制到下一個標記，而第二個注意力頭則使用第一個注意力頭的信息來推斷下一個標記。這種機制被認為是上下文學習（in-context learning）的來源。這一點已經通過多個不那么確定的證據得到了證明。例如，上下文學習和歸納頭的共現出現的相位變化，以及在擾動或敲除歸納頭后上下文學習的變化。

由于最先進的語言模型包含多層和多層感知機等復雜組件，目前還不清楚這些模型中的“歸納頭”理論是否仍然成立。

另外，一些研究關注包含大部分信息的前饋層。在Transformer中，每個鍵（key）被視為訓練樣本中文本模式的記憶，而值（value）則基于鍵誘導輸出分布(Geva et al., 2020)。通過追蹤GPT中隱藏狀態激活的因果效應，并改變對模型預測起決定性作用的模型權重，研究者識別了一系列與事實相關的中間層?(Meng et al., 2022)。

另一項研究將前饋層轉換為子更新向量，這被解釋為一組人類可解釋的概念集(Geva et al., 2022)。

然而，與每個部分都有確定功能的數字電路不同，大規模神經網絡在結構上更加靈活和多樣化。例如，它們能夠承受移除整個層的影響，這表明這些模型具有一定程度的魯棒性。

此外，盡管現有的大多數假設尚未在大型語言模型上進行檢驗，但最近的研究開始探索這一點。Lieberum等人（2023）在70B參數的Chinchilla模型上探索了電路分析的可擴展性。研究結果表明，激活拼接（activation patching，Meng等人，2022）、注意力模式可視化（attention pattern visualization，Elhage等人，2021）和邏輯歸因（logit attribution）等技術能夠很好地適應大型模型，而不是簡單地將信息從正確的內容標記轉移到最終標記的正確字母頭。因此，基于電路的解釋仍然需要在大型語言模型上進行進一步的研究。

這里的“正確內容標記”和“正確字母頭”指的是在處理語言任務時，模型需要識別和理解輸入數據中的關鍵信息，并在生成輸出時準確地使用這些信息。

激活拼接（Activation Patching）：這是一種分析技術，可以幫助研究者理解模型在處理特定輸入時哪些部分被激活，以及這些激活如何與模型的輸出相關聯。

注意力模式可視化（attention pattern visualization）：通過可視化模型的注意力模式，研究者可以觀察模型是如何關注輸入序列的不同部分，以及這些關注點如何影響模型的決策過程。

邏輯歸因（Logit Attribution）：用于確定模型輸出中每個輸入標記的貢獻度，幫助理解模型是如何基于輸入數據做出預測的。

3.3 利用解釋（Making Use of Explanations）

在前面的小節中，我們介紹了LLMs的解釋方法。在這個小節中，我們討論如何將可解釋性作為工具來調試和改進模型。

3.3.1 調試模型（Debugging Models）

事后解釋性方法可以用來分析 模型特征重要性的模式，以識別其行為中的偏見或局限性（Du等人，2023年）。例如，如果模型在不考慮上下文的情況下始終關注輸入序列中的某些特定標記，這可能表明模型依賴于啟發式或偏見，而不是真正理解輸入序列的含義。

最近的研究使用集成梯度（Integrated Gradients）來調試訓練有素的語言模型在自然語言理解任務中的表現，發現它們在預測時依賴于捷徑而不是復雜推理（Du等人，2021年）。具體來說，這些模型在訓練初期就傾向于從長尾分布中挑選這些捷徑特征。這種捷徑學習損害了模型的魯棒性和對分布外樣本的泛化能力。集成梯度解釋還用于檢查語言模型對對抗性示例的魯棒性（Chen & Ji，2022年）。這些解釋揭示了，對對抗性示例魯棒的模型依賴于相似的特征，而不魯棒的模型依賴于不同的關鍵特征。這些見解激發了更魯棒的對抗性訓練方法的發展。

3.3.2 改進模型（Improving Models）

正則化技術可以用來改進模型解釋的性能和可靠性。具體來說，解釋正則化（ER）方法旨在通過使模型的機器推理（模型關注的標記）與人類推理相一致來提高大型語言模型（LLM）的泛化能力（Joshi等人，2022年）。例如，提出了一個名為AMPLIFY的框架，它使用事后解釋方法生成自動化推理（Ma等人，2023年）。這些自動化推理作為提示的一部分輸入給LLM進行預測。實驗表明，AMPLIFY能夠將LLM在各種任務上的準確性提高10-25%，即使在缺乏人類推理的情況下也是如此。

另一項研究提出了ER-TEST（Joshi等人，2022年），這是一個評估ER模型在分布外（OOD）泛化性能的框架，從三個維度進行評估：未見過的數據集測試、對比集測試和功能測試。這比僅僅評估在分布內（In-Distribution）的性能提供了更全面的評估。他們考慮了三種類型的解釋方法，包括輸入*梯度（Input*Gradient）、基于注意力的推理（Stacey等人，2022年）和學習推理（Chan等人，2022年）。在情感分析和自然語言推理任務/數據集上，ER-TEST顯示ER對在分布內性能影響不大，但在OOD上獲得了較大的提升。

還有研究提出了一個名為XMD的端到端框架，用于基于解釋的調試和改進（Lee等人，2022年）。XMD允許用戶通過直觀的界面對任務或實例級別的解釋提供靈活的反饋。然后，它通過正則化模型以實時更新，使解釋與用戶反饋保持一致。使用XMD已被證明可以將文本分類模型在OOD性能上提高高達18%。

上篇：【文獻精讀筆記】Explainability for Large Language Models: A Survey （大語言模型的可解釋性綜述）（一）_可解釋推薦的大型語言模型指標獨特句子比率 (usr)-CSDN博客

【文獻精讀筆記】Explainability for Large Language Models: A Survey （大語言模型的可解釋性綜述）（二）-CSDN博客

下篇：

【文獻精讀筆記】Explainability for Large Language Models: A Survey （大語言模型的可解釋性綜述）（四）-CSDN博客
【文獻精讀筆記】Explainability for Large Language Models: A Survey （大語言模型的可解釋性綜述）（五）-CSDN博客