大模型的全方位評估

摘要：

? ? ? ?評估通過提供一種跟蹤進度、理解模型以及記錄其能力和偏差的方法，為基礎大模型提供了背景。基礎大模型挑戰了機器學習中標準評估范式實現這些目標的能力，因為它們距離特定任務只有一步之遙。為了設想適合基礎模型的評估新范式，我們討論了

? ? （a）直接評估基礎模型以測量其固有能力并告知基礎模型如何訓練，

? ? （b）通過控制適應資源和訪問來評估特定任務的模型，

? ? （c）更廣泛的評估設計以提供超出準確性測量的更豐富的上下文（例如，魯棒性、公平性、效率、環境影響。

? ? ? ?評價做法的改革將使評價能夠充分服務于基礎模式范式所涉的各種目標和利益攸關方。

1.?導言

? ? ? ?評估為機器學習模型提供了背景：

（1）跟蹤進度的一種手段-我們如何衡量模型的性能，以及我們如何設計改進的模型;

（2）理解-模型表現出哪些行為以及它們如何在不同的數據切片上執行;

（3）文檔-我們如何有效地總結模型行為并將其傳達給不同的利益相關者。

? ? ? ?對于基礎模型來說，這些評估目的都是至關重要的，但基礎模型的性質引入了在其他AI或ML環境中通常不會遇到的新挑戰：

? ? ?（1）跟蹤進度需要相對比較，但比較基礎模型是復雜的，因為基礎模型必須適應（可能以不同的方式）執行任務。

? ? ? ?(2)理解需要特定的預先知識（例如，分類法），但是基礎模型獲得了緊急技能（例如，在設計評價時很難預料到的問題。

? ? ? ?(3)文檔需要明確的必要條件才能為決策提供有意義的信息，但基礎模型可以適用于無數應用程序，這使得全面的文檔具有挑戰性。

? ? ? ?為了定位評估基礎模型的討論，我們區分兩類評估基礎模型的抽象產生的：內在的基礎模型，這是固有的評價脫離一個特定的任務，由于這些模型的任務不可知性的基礎模型，和外在的評估任務特定的模型，這是必然依賴于基礎模型和適應機制。此外，我們認識到，由于基礎模型的預期影響和范圍，各種利益相關者（例如，基礎模型提供者和應用程序開發者、審計員和決策者、從業人員和研究人員）將需要對基礎模型和特定任務衍生工具進行評價，這些評價服務于不同的目的，并根據利益攸關方的不同需要而涉及不同的需求。考慮到這一點，用于評估機器學習模型的標準范例并不是為基礎模型的設置而明確設計的。因此，我們強調內在評估、外部評估中適應的重要性（和評估設計，作為更適合基礎模型的評估框架的明確步驟。這一討論有助于圍繞機器學習系統評估的作用展開更廣泛的對話，并且考慮到評估的復雜性，可以受益于利用機器學習之外的測量和評估理論。

2.??內在評價

? ? ? 機器學習系統的評估傳統上基于任務，通常是那些被設想為對應用程序特別有用的功能（例如，翻譯、對象識別）。相反，由于基礎模型是中間資產，必須進一步調整或專門化以執行有用的任務，因此必須改變標準評價范式，以促進對基礎模型的直接理解和比較。

? ? ? ?一種方法是根據與訓練目標相關聯的任務來評估基礎模型。例如，通過在給定先前上下文的情況下預測下一個單詞來訓練的語言模型（如GPT-3）可以基于它在給定單詞在保持的測試數據中的先前上下文的情況下分配單詞的概率來評估（即，語言建模基準（如LAMBADA）的困惑）。到目前為止，這種方法在NLP中表現出了希望，但我們發現它表現出兩個基本的局限性。首先，依賴于評估的訓練目標缺乏通用性：使用不同的不兼容目標訓練的基礎模型不能在一致的框架中容易地進行比較或理解。第二，以這種方式進行的評估依賴于代理關系是有意義的，即，就訓練目標而言的測量應該與其它更有意義和可理解的量相關（例如，經由基礎模型生成的內容的質量）。

? ? ? ?雖然這種代理關系在過去的某些情況下已經被證明是健壯的，但當評估基礎模型的更多樣化的能力時，它可能會崩潰，它們在更多樣化的環境或領域中的行為，以及超出領域內準確性的考慮。鑒于這些限制，我們預計需要考慮兩種方法，以提供互補的好處。從廣義的外在評價中估算內在評價。評估基礎模型的一個途徑是使它們適應廣泛的任務，并衡量由此產生的特定任務模型的性能。由于基礎模型是所有這些模型的共享基礎，因此總體績效反映了該共享基礎的性質和質量。

? ? ? ?目前，人工智能的許多子領域已經開始構建元基準，即，一個單一的評估，整合了多個不同任務或領域的單個評估。鑒于這一模式越來越多地被采用，而且其既有優勢，我們在此指出，為什么它可能不足以完全滿足基礎模型評價的目標。元基準評估需要適應（最低限度地將基礎模型專門化到元基準中的每個任務），這使得關于基礎模型本身的推理在給定添加過程的情況下具有挑戰性。具體而言，這使進展問題復雜化，無論是在跟蹤方面（例如，是可歸因于有效的基礎模型或設計良好的適應實踐的性能）以及在識別用于學習基礎模型的過程中的改進方面（例如，數據選擇、訓練目標和模型架構的根本改進可能難以通過比較兩個基礎模型之間的元基準性能來識別。此外，這種評估范例使得難以理解或記錄基礎模型特有的屬性和能力，這可能使得難以向某些利益相關者（例如，SuperGLUE的表現可能沒有足夠的信息，或者可能會誤導政策制定者），或者作為預測他們在新任務或領域的行為的依據。

? ? ? ?直接評估固有屬性

? ? ? ?為了補充元基準的使用，我們還討論了為什么測量屬性（例如，我們可以奮進直接測量基礎模型的語言能力，以識別句法上有效和無效的句子。為了激發這種方法的價值，我們回到評估的目的。值得注意的是，闡明能力、技能和偏見的存在和強度，確定了需要改進的具體領域（進展），闡明了當前的潛力（理解），并有效地表達了相關方面（文件）。這種方法也有助于進行廣泛的評價，即，技術專家、非技術專家（例如，決策者或社會科學家）和一般目的。例如，表征這些模型的說服或修辭能力可能特別直觀地內化其潛在的虛假信息和誤用（第5.2節：誤用）。屬性的直接評估也是更好地處理基礎模型的涌現屬性的重要途徑;為了證明這一點，我們將情境學習作為案例研究。特別是，Brown等人不僅證明了GPT-3強大的上下文學習的簽名能力，而且是第一個明確將上下文學習確定為適應模型和與模型交互的特定方式（通過他們對GPT-3的探索）。傳統的基于任務的外在評價并沒有提供一個明確的手段，通過它可以識別的背景下學習，在這種情況下，直接與基礎模型的互動似乎是必要的。更一般地說，雖然通過對這些模型及其能力的非結構化或松散結構化探索，許多未預料到的現象（如情境學習）將不可避免地被識別出來，但我們認為應該尋找新的評估方法來構建這種探索，或者更雄心勃勃地提出新的屬性，然后可以進行更嚴格的測試。內在評價也可能降低門檻，以證明潛在的基礎模型;新的方法，基礎模型可能是足夠有前途的，如果他們表現出改善內在評價，即使他們沒有立即伴隨著相應的適合的適應方法，以引出這些能力在外在評價。有一個重要的開放性問題，如何內在評價應實施;這種評價的機制尚不清楚。

? ? ?我們列舉了一些一般性的原則和考慮，可能有助于通知設計和執行的內在評估。

(1)?對人類評價的啟示。

? ? ? ?我們對基礎模型感興趣的許多相關屬性、能力和偏差也對人類感興趣，這表明測量人類這些屬性的方法可能對評估基礎模型有指導意義，甚至可以直接翻譯。例如，可以修改人類語言能力的心理語言學測量，以評估基礎模型語言能力或人類社會偏見的心理測量可以修改以評估基礎模型社會偏見。

(2)?人在環評估。

? ? ? ?人在回路中的評估可能被證明是至關重要的，以提供一個更探索性的手段來理解基礎模型，包括評估其生成或交互能力。特別地，人類與基礎模型的直接交互可以更好地識別它們的緊急能力和限制，以及基礎模型的直接審計可以推進文檔化和透明度的目標。

(3)?內在測量的有效性。

? ? ? 雖然內在措施允許在源頭直接測量，即，測量和評估的基礎模型的屬性獨立于適應和具體的任務，他們提出了挑戰，建立信任的有效性的評估。特別是，外在評估結果在驗證內在測量設計方面也可能很重要，例如，內在測量的預測有效性（即，它們（統計上）預測相關下游結果的能力）可能被證明是一個中心標準。

3.?外部評價和適應

? ? ? ? 評估特定任務的模型歷來涉及報告的性能（一般意味著準確性）的模型在一個特定的舉行了測試集。雖然這種范式可能部分足以理解或記錄一個模型，但它往往相當于對使用不同（以及潛在的不平等）資源生成的特定任務模型進行不公平的比較，從而難以衡量取得了多大進展。在基礎模型制度中，對不公平比較的擔憂加劇了：不同的基礎模型（例如，BERT和GPT-3）可以形成不同任務特定模型的基礎，這些基礎模型可能涉及大量不同的訓練數據和計算。為了說明實現特定績效水平所需的資源，Linzen認為，應在評估中確認和跟蹤（預）培訓資源。我們認為這是一個科學的原則性建議;比較不同的培訓基礎模型方法而不考慮培訓資源可能會產生誤導。然而，考慮到創建基礎模型的過程特別昂貴（例如，需要大量的人力和財力資本），并且通常受社會因素（例如，除了科學因素之外，實際上的基礎模式在提供的培訓資源方面可能差別很大，難以進行有控制的比較。在這里，我們考慮一種替代方案，它可能更普遍可行，部分考慮所涉及的資源，以補充Linzen 的建議。特別是，我們認為為什么外在評價應該承認適應資源，這是至關重要的，以確保外在評價能夠確定最有效的適應方法（內在評價，從根本上說，不能做）。我們提請注意這樣一個事實，即適應資源通常被解釋為用于適應模型的數據，但額外的資源和約束。

適應資源核算

? ? ? ?要計算為使基礎模型適應具體任務而花費的資源，就需要全面了解不同適應方法使用了哪些資源或限制，即，奮進說明這些資源的評價必須隨著適應中使用哪些資源的發展而發展。在現有的特定于任務的評估中，大多數評估指定可以用于使（基礎）模型適應任務的數據量。然而，Perez等人。在這里確定了一個在過去的工作中被忽視的關鍵細微差別，因為這應該包含用于通知適應的所有數據，即，用于調整基礎模型的數據和用于選擇調整方法的數據。此外，在基礎模型制度中，不同適應方法的準入要求概念也是一個新的考慮因素，應納入評估。具體地，一些適應方法通常可能優于其他適應方法，但是與其他適應方法相比，可能需要更大的訪問或修改基礎模型的能力（例如，微調需要基礎模型梯度來修改基礎模型，而提示可能僅需要指定輸入時的黑盒訪問）。

? ? ? 會計適應所涉及的資源豐富的結論，可以合理地從特定任務模型的評估。目前，特定于任務的評估可以為特定于任務的工件的某些類型的理解或文檔提供足夠的清晰度（即，正在評估的精確模型），但是沒有提供關于不同自適應方法如何執行以及如何在給定上下文中選擇特定自適應方法的清楚信號。相反，通過說明適應所涉及的資源和獲取要求，評價更好地使研究能夠確定哪些適應方法或進程最佳利用了所提供的資源，即，信號不僅為被評估的特定工件提供，而且還為它們所衍生的更一般的過程提供。因此，擬議的評估協議顯然有助于確定應使用哪些適應方法;我們注意到，所有這些結論應始終被視為特定于給定的基礎模型，因為這種形式的評估并沒有提供足夠的證據來得出適應方法在所有基礎模型中均為最佳的結論。

4.?評價設計

在理論上，評估的目標是測量和表征各種理論結構（例如，準確性，魯棒性，公平性，效率，環境影響，用于各種目的（即，進展、理解、文件）。然而，在實踐中，評價的效用將取決于如何設計和執行評價。例如，基礎模型的生成能力的自動測量（例如，它們的事實正確性）可能不能很好地捕捉這些品質的本質，相反，人在回路中的評估可以更好地將這些能力置于情境中。在考慮評估設計時，我們設想的基礎模型和它們的適應衍生物，我們開始與評估的機制。傳統上，機器學習模型的評估涉及用于學習模型的大型訓練集，用于設置超參數的可選驗證集，以及用于評估學習模型對保持數據的泛化的測試集。因此，創建用于評估模型的基準歷來需要大量數據，其中大部分用于訓練，這使得在數據稀缺或獲取成本高昂時，某些診斷或細微評價的設計變得復雜相反，由于基礎模型的好處往往與適應的樣本效率相一致（即，幾次或零次能力）和可能應用的多樣性，我們設想一種機制，其中單個任務的基準要小得多（因為需要提供更少的數據作為“訓練”，即，適應，數據），并且更加多樣化（既要在內在評估中捕獲各種能力，又要在外在評估中以生態有效的方式進行更強有力的基礎評估）。這表明，基礎模型的性質可能會導致基準性質的轉變（以及基準制定者的心態），不再強調數量是基準的關鍵優先事項，而強調質量和多樣性。NLP社區已經開始看到這樣一個制度的開端，如BIG-Bench 61和FLEX這種范式降低了基準設計的障礙，從而使更廣泛的社區能夠參與評估設計。

? ? ? ?除了評價機制外，評價結果的介紹和接口還說明了如何利用這些結果為決策提供信息（例如，新的建模方法、模型選擇、審計）。排行榜已經成為機器學習中事實上的范例，模型通過特定和單一的標準（通常是準確性的一種形式）進行排名。這種方法通常導致系統質量隨著時間的推移而顯著和快速的進步，但人們對這是否會產生更普遍的改善提出了重大關切.與所有機器學習模型一樣，基礎模型及其衍生物的需求很少是單一的;相反，我們預計其應用的廣度和社會影響需要高度考慮準確性之外的標準（例如，穩健性、公平性、效率和環境影響）。為此，我們注意到，基礎模型的評估應該報告這些不同方面的測量結果;現有的基準越來越多地被設計為反映不僅僅是準確性（例如，穩健性、公平性、效率和環境影響）。此外，我們注意到，如果以排行榜的形式報告這些不同類別的性能，則消除潛在權衡（以誘導排名）的機制將特別必要。特別是，由于不同的利益相關者將有不同的偏好（例如，他們賦予不同屬性的權重）和價值，排行榜設計應該允許利益相關者互動和操縱排名如何與他們的價值觀保持一致; Ma et al. 提出了一種早期嘗試，通過基于用戶指定的效用函數使用經濟框架比較模型的效用來實現這一點。

5.?建議

? ? ? ?評價發揮幾種作用（即，進展、理解、文檔），這對所有機器學習范式都至關重要，包括基礎模型范式。基礎模式對現有評價框架提出了新的挑戰;設計直接針對基礎模式制度的評價不僅能更好地服務于評價的多重目的，而且能更好地服務于所涉的無數利益攸關方。

(1)雖然機器學習評估傳統上考慮特定于任務的模型，但評估基礎模型涉及到這些模型并不特定于任務的事實。對這些模型的評估可能涉及到兩種互補的方法的整合：

（a）通過對特定任務衍生物的廣泛評估來估算基礎模型的屬性，

（b）直接測量基礎模型中的這些屬性。

(2)現有的評價框架往往沒有考慮到創建被評價模型所需的資源，導致不公平的比較。對于基礎模型，我們討論了一個評估范式，強調適應資源的會計（例如，適應中使用的所有數據、基礎模型的獲取要求），這似乎導致信息量更大的評估，從而更好地確定如何進行適應。

(3)現有的評估設計往往局限于所考慮的指標的多樣性，需要大量的適應數據集。對于基礎模型，我們響應越來越多的要求評估考慮更廣泛的必要條件（例如，穩健性、公平性、效率、環境影響），以捕捉廣泛的利益攸關方價值觀/偏好，并強調調整適應模型的樣本效率如何通過重新分配設計評價所涉及的資源，允許進行更多樣化的評價。