大模型的全方位評估

摘要:

? ? ? ?評估通過提供一種跟蹤進度、理解模型以及記錄其能力和偏差的方法,為基礎大模型提供了背景。基礎大模型挑戰了機器學習中標準評估范式實現這些目標的能力,因為它們距離特定任務只有一步之遙。為了設想適合基礎模型的評估新范式,我們討論了

? ? (a)直接評估基礎模型以測量其固有能力并告知基礎模型如何訓練,

? ? (b)通過控制適應資源和訪問來評估特定任務的模型,

? ? (c)更廣泛的評估設計以提供超出準確性測量的更豐富的上下文(例如,魯棒性、公平性、效率、環境影響。

? ? ? ?評價做法的改革將使評價能夠充分服務于基礎模式范式所涉的各種目標和利益攸關方。

1.?導言

? ? ? ?評估為機器學習模型提供了背景:

1)跟蹤進度的一種手段-我們如何衡量模型的性能,以及我們如何設計改進的模型;

2)理解-模型表現出哪些行為以及它們如何在不同的數據切片上執行;

3)文檔-我們如何有效地總結模型行為并將其傳達給不同的利益相關者。

? ? ? ?對于基礎模型來說,這些評估目的都是至關重要的,但基礎模型的性質引入了在其他AIML環境中通常不會遇到的新挑戰:

? ? ?(1)跟蹤進度需要相對比較,但比較基礎模型是復雜的,因為基礎模型必須適應(可能以不同的方式)執行任務。

? ? ? ?(2)理解需要特定的預先知識(例如,分類法),但是基礎模型獲得了緊急技能(例如,在設計評價時很難預料到的問題。

? ? ? ?(3)文檔需要明確的必要條件才能為決策提供有意義的信息,但基礎模型可以適用于無數應用程序,這使得全面的文檔具有挑戰性。

? ? ? ?為了定位評估基礎模型的討論,我們區分兩類評估基礎模型的抽象產生的:內在的基礎模型,這是固有的評價脫離一個特定的任務,由于這些模型的任務不可知性的基礎模型,和外在的評估任務特定的模型,這是必然依賴于基礎模型和適應機制。此外,我們認識到,由于基礎模型的預期影響和范圍,各種利益相關者(例如,基礎模型提供者和應用程序開發者、審計員和決策者、從業人員和研究人員)將需要對基礎模型和特定任務衍生工具進行評價,這些評價服務于不同的目的,并根據利益攸關方的不同需要而涉及不同的需求。考慮到這一點,用于評估機器學習模型的標準范例并不是為基礎模型的設置而明確設計的。因此,我們強調內在評估、外部評估中適應的重要性(和評估設計,作為更適合基礎模型的評估框架的明確步驟。這一討論有助于圍繞機器學習系統評估的作用展開更廣泛的對話,并且考慮到評估的復雜性,可以受益于利用機器學習之外的測量和評估理論

2.??內在評價

? ? ? 機器學習系統的評估傳統上基于任務,通常是那些被設想為對應用程序特別有用的功能(例如,翻譯、對象識別)。相反,由于基礎模型是中間資產,必須進一步調整或專門化以執行有用的任務,因此必須改變標準評價范式,以促進對基礎模型的直接理解和比較。

? ? ? ?一種方法是根據與訓練目標相關聯的任務來評估基礎模型。例如,通過在給定先前上下文的情況下預測下一個單詞來訓練的語言模型(如GPT-3)可以基于它在給定單詞在保持的測試數據中的先前上下文的情況下分配單詞的概率來評估(即,語言建模基準(如LAMBADA)的困惑)。到目前為止,這種方法在NLP中表現出了希望,但我們發現它表現出兩個基本的局限性。首先,依賴于評估的訓練目標缺乏通用性:使用不同的不兼容目標訓練的基礎模型不能在一致的框架中容易地進行比較或理解。第二,以這種方式進行的評估依賴于代理關系是有意義的,即,就訓練目標而言的測量應該與其它更有意義和可理解的量相關(例如,經由基礎模型生成的內容的質量)。

? ? ? ?雖然這種代理關系在過去的某些情況下已經被證明是健壯的,但當評估基礎模型的更多樣化的能力時,它可能會崩潰,它們在更多樣化的環境或領域中的行為,以及超出領域內準確性的考慮。鑒于這些限制,我們預計需要考慮兩種方法,以提供互補的好處。從廣義的外在評價中估算內在評價。評估基礎模型的一個途徑是使它們適應廣泛的任務,并衡量由此產生的特定任務模型的性能。由于基礎模型是所有這些模型的共享基礎,因此總體績效反映了該共享基礎的性質和質量。

? ? ? ?目前,人工智能的許多子領域已經開始構建元基準,即,一個單一的評估,整合了多個不同任務或領域的單個評估。鑒于這一模式越來越多地被采用,而且其既有優勢,我們在此指出,為什么它可能不足以完全滿足基礎模型評價的目標。元基準評估需要適應(最低限度地將基礎模型專門化到元基準中的每個任務),這使得關于基礎模型本身的推理在給定添加過程的情況下具有挑戰性。具體而言,這使進展問題復雜化,無論是在跟蹤方面(例如,是可歸因于有效的基礎模型或設計良好的適應實踐的性能)以及在識別用于學習基礎模型的過程中的改進方面(例如,數據選擇、訓練目標和模型架構的根本改進可能難以通過比較兩個基礎模型之間的元基準性能來識別。此外,這種評估范例使得難以理解或記錄基礎模型特有的屬性和能力,這可能使得難以向某些利益相關者(例如,SuperGLUE的表現可能沒有足夠的信息,或者可能會誤導政策制定者),或者作為預測他們在新任務或領域的行為的依據。

? ? ? ?直接評估固有屬性

? ? ? ?為了補充元基準的使用,我們還討論了為什么測量屬性(例如,我們可以奮進直接測量基礎模型的語言能力,以識別句法上有效和無效的句子。為了激發這種方法的價值,我們回到評估的目的。值得注意的是,闡明能力、技能和偏見的存在和強度,確定了需要改進的具體領域(進展),闡明了當前的潛力(理解),并有效地表達了相關方面(文件)。這種方法也有助于進行廣泛的評價,即,技術專家、非技術專家(例如,決策者或社會科學家)和一般目的。例如,表征這些模型的說服或修辭能力可能特別直觀地內化其潛在的虛假信息和誤用(第5.2節:誤用)。屬性的直接評估也是更好地處理基礎模型的涌現屬性的重要途徑;為了證明這一點,我們將情境學習作為案例研究。特別是,Brown等人不僅證明了GPT-3強大的上下文學習的簽名能力,而且是第一個明確將上下文學習確定為適應模型和與模型交互的特定方式(通過他們對GPT-3的探索)。傳統的基于任務的外在評價并沒有提供一個明確的手段,通過它可以識別的背景下學習,在這種情況下,直接與基礎模型的互動似乎是必要的。更一般地說,雖然通過對這些模型及其能力的非結構化或松散結構化探索,許多未預料到的現象(如情境學習)將不可避免地被識別出來,但我們認為應該尋找新的評估方法來構建這種探索,或者更雄心勃勃地提出新的屬性,然后可以進行更嚴格的測試。內在評價也可能降低門檻,以證明潛在的基礎模型;新的方法,基礎模型可能是足夠有前途的,如果他們表現出改善內在評價,即使他們沒有立即伴隨著相應的適合的適應方法,以引出這些能力在外在評價。有一個重要的開放性問題,如何內在評價應實施;這種評價的機制尚不清楚。

? ? ?我們列舉了一些一般性的原則和考慮,可能有助于通知設計和執行的內在評估。

(1)?對人類評價的啟示。

? ? ? ?我們對基礎模型感興趣的許多相關屬性、能力和偏差也對人類感興趣,這表明測量人類這些屬性的方法可能對評估基礎模型有指導意義,甚至可以直接翻譯。例如,可以修改人類語言能力的心理語言學測量,以評估基礎模型語言能力或人類社會偏見的心理測量可以修改以評估基礎模型社會偏見

(2)?人在環評估。

? ? ? ?人在回路中的評估可能被證明是至關重要的,以提供一個更探索性的手段來理解基礎模型,包括評估其生成或交互能力。特別地,人類與基礎模型的直接交互可以更好地識別它們的緊急能力和限制,以及基礎模型的直接審計可以推進文檔化和透明度的目標。

(3)?內在測量的有效性。

? ? ? 雖然內在措施允許在源頭直接測量,即,測量和評估的基礎模型的屬性獨立于適應和具體的任務,他們提出了挑戰,建立信任的有效性的評估。特別是,外在評估結果在驗證內在測量設計方面也可能很重要,例如,內在測量的預測有效性(即,它們(統計上)預測相關下游結果的能力)可能被證明是一個中心標準。

3.?外部評價和適應

? ? ? ? 評估特定任務的模型歷來涉及報告的性能(一般意味著準確性)的模型在一個特定的舉行了測試集。雖然這種范式可能部分足以理解或記錄一個模型,但它往往相當于對使用不同(以及潛在的不平等)資源生成的特定任務模型進行不公平的比較,從而難以衡量取得了多大進展。在基礎模型制度中,對不公平比較的擔憂加劇了:不同的基礎模型(例如,BERTGPT-3)可以形成不同任務特定模型的基礎,這些基礎模型可能涉及大量不同的訓練數據和計算。為了說明實現特定績效水平所需的資源,Linzen認為,應在評估中確認和跟蹤(預)培訓資源。我們認為這是一個科學的原則性建議;比較不同的培訓基礎模型方法而不考慮培訓資源可能會產生誤導。然而,考慮到創建基礎模型的過程特別昂貴(例如,需要大量的人力和財力資本),并且通常受社會因素(例如,除了科學因素之外,實際上的基礎模式在提供的培訓資源方面可能差別很大,難以進行有控制的比較。在這里,我們考慮一種替代方案,它可能更普遍可行,部分考慮所涉及的資源,以補充Linzen 的建議。特別是,我們認為為什么外在評價應該承認適應資源,這是至關重要的,以確保外在評價能夠確定最有效的適應方法(內在評價,從根本上說,不能做)。我們提請注意這樣一個事實,即適應資源通常被解釋為用于適應模型的數據,但額外的資源和約束

適應資源核算

? ? ? ?要計算為使基礎模型適應具體任務而花費的資源,就需要全面了解不同適應方法使用了哪些資源或限制,即,奮進說明這些資源的評價必須隨著適應中使用哪些資源的發展而發展。在現有的特定于任務的評估中,大多數評估指定可以用于使(基礎)模型適應任務的數據量。然而,Perez等人。在這里確定了一個在過去的工作中被忽視的關鍵細微差別,因為這應該包含用于通知適應的所有數據,即,用于調整基礎模型的數據和用于選擇調整方法的數據。此外,在基礎模型制度中,不同適應方法的準入要求概念也是一個新的考慮因素,應納入評估。具體地,一些適應方法通常可能優于其他適應方法,但是與其他適應方法相比,可能需要更大的訪問或修改基礎模型的能力(例如,微調需要基礎模型梯度來修改基礎模型,而提示可能僅需要指定輸入時的黑盒訪問)。

? ? ? 會計適應所涉及的資源豐富的結論,可以合理地從特定任務模型的評估。目前,特定于任務的評估可以為特定于任務的工件的某些類型的理解或文檔提供足夠的清晰度(即,正在評估的精確模型),但是沒有提供關于不同自適應方法如何執行以及如何在給定上下文中選擇特定自適應方法的清楚信號。相反,通過說明適應所涉及的資源和獲取要求,評價更好地使研究能夠確定哪些適應方法或進程最佳利用了所提供的資源,即,信號不僅為被評估的特定工件提供,而且還為它們所衍生的更一般的過程提供。因此,擬議的評估協議顯然有助于確定應使用哪些適應方法;我們注意到,所有這些結論應始終被視為特定于給定的基礎模型,因為這種形式的評估并沒有提供足夠的證據來得出適應方法在所有基礎模型中均為最佳的結論。

4.?評價設計

在理論上,評估的目標是測量和表征各種理論結構(例如,準確性,魯棒性,公平性,效率,環境影響,用于各種目的(即,進展、理解、文件)。然而,在實踐中,評價的效用將取決于如何設計和執行評價。例如,基礎模型的生成能力的自動測量(例如,它們的事實正確性)可能不能很好地捕捉這些品質的本質,相反,人在回路中的評估可以更好地將這些能力置于情境中。在考慮評估設計時,我們設想的基礎模型和它們的適應衍生物,我們開始與評估的機制。傳統上,機器學習模型的評估涉及用于學習模型的大型訓練集,用于設置超參數的可選驗證集,以及用于評估學習模型對保持數據的泛化的測試集。因此,創建用于評估模型的基準歷來需要大量數據,其中大部分用于訓練,這使得在數據稀缺或獲取成本高昂時,某些診斷或細微評價的設計變得復雜相反,由于基礎模型的好處往往與適應的樣本效率相一致(即,幾次或零次能力)和可能應用的多樣性,我們設想一種機制,其中單個任務的基準要小得多(因為需要提供更少的數據作為訓練,即,適應,數據),并且更加多樣化(既要在內在評估中捕獲各種能力,又要在外在評估中以生態有效的方式進行更強有力的基礎評估)。這表明,基礎模型的性質可能會導致基準性質的轉變(以及基準制定者的心態),不再強調數量是基準的關鍵優先事項,而強調質量和多樣性。NLP社區已經開始看到這樣一個制度的開端,如BIG-Bench 61FLEX這種范式降低了基準設計的障礙,從而使更廣泛的社區能夠參與評估設計。

? ? ? ?除了評價機制外,評價結果的介紹和接口還說明了如何利用這些結果為決策提供信息(例如,新的建模方法、模型選擇、審計)。排行榜已經成為機器學習中事實上的范例,模型通過特定和單一的標準(通常是準確性的一種形式)進行排名。這種方法通常導致系統質量隨著時間的推移而顯著和快速的進步,但人們對這是否會產生更普遍的改善提出了重大關切.與所有機器學習模型一樣,基礎模型及其衍生物的需求很少是單一的;相反,我們預計其應用的廣度和社會影響需要高度考慮準確性之外的標準(例如,穩健性、公平性、效率和環境影響)。為此,我們注意到,基礎模型的評估應該報告這些不同方面的測量結果;現有的基準越來越多地被設計為反映不僅僅是準確性(例如,穩健性、公平性、效率和環境影響)。此外,我們注意到,如果以排行榜的形式報告這些不同類別的性能,則消除潛在權衡(以誘導排名)的機制將特別必要。特別是,由于不同的利益相關者將有不同的偏好(例如,他們賦予不同屬性的權重)和價值,排行榜設計應該允許利益相關者互動和操縱排名如何與他們的價值觀保持一致; Ma et al. 提出了一種早期嘗試,通過基于用戶指定的效用函數使用經濟框架比較模型的效用來實現這一點。

5.?建議

? ? ? ?評價發揮幾種作用(即,進展、理解、文檔),這對所有機器學習范式都至關重要,包括基礎模型范式。基礎模式對現有評價框架提出了新的挑戰;設計直接針對基礎模式制度的評價不僅能更好地服務于評價的多重目的,而且能更好地服務于所涉的無數利益攸關方。

(1)雖然機器學習評估傳統上考慮特定于任務的模型,但評估基礎模型涉及到這些模型并不特定于任務的事實。對這些模型的評估可能涉及到兩種互補的方法的整合:

a)通過對特定任務衍生物的廣泛評估來估算基礎模型的屬性,

b)直接測量基礎模型中的這些屬性。

(2)現有的評價框架往往沒有考慮到創建被評價模型所需的資源,導致不公平的比較。對于基礎模型,我們討論了一個評估范式,強調適應資源的會計(例如,適應中使用的所有數據、基礎模型的獲取要求),這似乎導致信息量更大的評估,從而更好地確定如何進行適應。

(3)現有的評估設計往往局限于所考慮的指標的多樣性,需要大量的適應數據集。對于基礎模型,我們響應越來越多的要求評估考慮更廣泛的必要條件(例如,穩健性、公平性、效率、環境影響),以捕捉廣泛的利益攸關方價值觀/偏好,并強調調整適應模型的樣本效率如何通過重新分配設計評價所涉及的資源,允許進行更多樣化的評價。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/209353.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/209353.shtml
英文地址,請注明出處:http://en.pswp.cn/news/209353.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

枚舉 LeetCode2048. 下一個更大的數值平衡數

如果整數 x 滿足:對于每個數位 d ,這個數位 恰好 在 x 中出現 d 次。那么整數 x 就是一個 數值平衡數 。 給你一個整數 n ,請你返回 嚴格大于 n 的 最小數值平衡數 。 如果n的位數是k,n它的下一個大的平衡數一定不會超過 k1個k1…

圖論——最小生成樹

圖論——最小生成樹 A wise man changes his mind, a fool never will 生成樹 一個連通圖的生成樹是一個極小的連通子圖,它包含圖中全部的n個頂點,但只有構成一棵樹的n-1條邊。 最小生成樹 在這些邊中選擇N-1條出來,連接所有的N個點。這N-1…

Java后端的登錄、注冊接口是怎么實現的

目錄 Java后端的登錄、注冊接口是怎么實現的 Java后端的登錄接口是怎么實現的 Java后端的注冊接口怎么實現? 如何防止SQL注入攻擊? Java后端的登錄、注冊接口是怎么實現的 Java后端的登錄接口是怎么實現的 Java后端的登錄接口的實現方式有很多種&a…

使用git出現的問題

保證 首先保證自己的git已經下載 其次保證自己的gitee賬號已經安裝并且已經生成ssh公鑰 保證自己要push的代碼在要上傳的文件夾內并且配置文件等都在父文件夾(也就是文件沒有套著文件) 問題 1 $ git push origin master gitgitee.com: Permission de…

近似同態加密的 IND/SIM-CPA+ 安全性:對于 CKKS 實際有效的攻擊

參考文獻: [LM21] Li B, Micciancio D. On the security of homomorphic encryption on approximate numbers[C]//Advances in Cryptology–EUROCRYPT 2021: 40th Annual International Conference on the Theory and Applications of Cryptographic Techniques, Z…

【Linux】命令expect使用詳解

🦄 個人主頁——🎐個人主頁 🎐?🍁 🪁🍁🪁🍁🪁🍁🪁🍁 感謝點贊和關注 ,每天進步一點點!加油!&…

【上海大學數字邏輯實驗報告】五、記憶元件測試

一、實驗目的 掌握R-S觸發器、D觸發器和JK觸發器的工作原理及其相互轉換。學會用74LS00芯片構成鐘控RS觸發器。學會用74LS112實現D觸發器學會在Quartus II上用D觸發器實現JK觸發器。 二、實驗原理 基本R-S觸發器是直接復位-置位的觸發器,它是構成各種功能的觸發器…

AI文檔助手,當下熱門的AI文檔助手【2024】

在當今信息爆炸的時代,文檔創作的需求愈發龐大。為了滿足用戶對高效、準確、原創性文檔的需求,人工智能技術的應用日益廣泛。本文將專心分享AI文檔助手領域的熱門推薦。 AI文檔助手的背景與應用 AI文檔助手作為人工智能技術在文檔創作領域的一大應用&am…

nginx配置自建SSL證書

文章目錄 前言配置SSL證書SSL證書放在 Nginx 而不放在應用服務器上的好處Nginx只能轉發http協議嗎Nginx轉發TCP協議會收到端口限制嗎Nginx本身能將Websocket數據轉化成TCP數據嗎總結 前言 之前的一篇文章《自建CA并生成自簽名SSL證書》中講到為什么要自建CA和自簽名SSL證書&am…

velocity-engine-core是什么?Velocity模板引擎的使用

velocity-engine-core是什么?Velocity模板引擎的使用 1. 常見的模板引擎2. Velocity 的語法3.Velocity的使用 相信在日常開發中或多或少都聽過或者使用過模板引擎,比如熟知的freemarker, thymeleaf等。而模板引擎就是為了實現View和Data分離而產生的。 而…

C++封裝、繼承(單繼承)、多態詳細分析。

系列文章目錄 文章目錄 系列文章目錄摘要一、基本概念二、多態的分類三、多態的實現3.1 類型兼容與函數重寫3.2 動態聯編與靜態聯編3.3 虛函數3.4 動態多態的實現過程 總結參考文獻 摘要 多態性特征是 C中最為重要的一個特征,熟練使用多態是學好 C的關鍵&#xff0…

Kotlin關鍵字二——constructor和init

在關鍵字一——var和val中最后提到了構造函數,這里就學習下構造函數相關的關鍵字: constructor和init。 主要構造(primary constructor) kotlin和java一樣,在定義類時就自動生成了無參構造 // 會生成默認的無參構造函數 class Person{ }與java不同的是…

configure腳本的常用參數

下面是一些常用的configure選項參數及其解釋&#xff1a; --prefix<directory>&#xff1a;指定安裝目錄--with-<package>&#xff1a;指定依賴的外部庫或軟件包--enable-<feature>&#xff1a;啟用某個特性--disable-<feature>&#xff1a;禁用某個特…

原創 | 數據的確權、流通、入表與監管研究(一):數據與確權

作者&#xff1a;張建軍&#xff0c;中國電科首席專家&#xff0c;神州網信技術總監 本文約7100字&#xff0c;建議閱讀10分鐘 本文主要介紹數據與數據分類、數據確權規則、數據的所有權與其他權利等方面內容&#xff0c;并進行案例分析。 2022年12月發布的《關于構建數據基礎制…

Linux 和 macOS 的主要區別在哪幾個方面呢?

(??? )&#xff0c;Hello我是祐言QAQ我的博客主頁&#xff1a;C/C語言&#xff0c;數據結構&#xff0c;Linux基礎&#xff0c;ARM開發板&#xff0c;網絡編程等領域UP&#x1f30d;快上&#x1f698;&#xff0c;一起學習&#xff0c;讓我們成為一個強大的攻城獅&#xff0…

uniapp實戰 —— 彈出層 uni-popup (含vue3子組件調父組件的方法)

效果預覽 彈出的內容 src\pages\goods\components\ServicePanel.vue <script setup lang"ts"> // 子組件調父組件的方法 const emit defineEmits<{(event: close): void }>() </script><template><view class"service-panel"…

ALSA Compress-Offload API

概述 從 ALSA API 的早期開始&#xff0c;它就被定義為支持 PCM&#xff0c;或考慮到了 IEC61937 等固定比特率的載荷。參數和返回值以幀計算是常態&#xff0c;這使得擴展已有的 API 以支持壓縮數據流充滿挑戰。 最近這些年&#xff0c;音頻數字信號處理器 (DSP) 常常被集成…

git如何配置多個遠程倉庫,并且進行切換

一、配置多個遠程倉庫并進行切換&#xff0c;請按照以下步驟進行操作&#xff1a; 打開命令行終端&#xff0c;并進入您的 Git 倉庫所在的目錄。添加第一個遠程倉庫&#xff0c;使用以下命令&#xff1a;git remote add origin <第一個遠程倉庫的 URL>這里將遠程倉庫命名…

C# .NET平臺提取PDF表格數據,并轉換為txt、CSV和Excel表格文件

處理PDF文件中的內容是比較麻煩的事情&#xff0c;特別是以表格形式呈現的各種數據。為了充分利用這些寶貴的數據資源&#xff0c;我們可以通過程序提取PDF文件中的表格&#xff0c;并將其保存為更易于處理和分析的格式&#xff0c;如txt、csv、xlsx&#xff0c;從而更方便地對…

leetcode面試經典150題——35 螺旋矩陣

題目&#xff1a; 螺旋矩陣 描述&#xff1a; 給你一個 m 行 n 列的矩陣 matrix &#xff0c;請按照 順時針螺旋順序 &#xff0c;返回矩陣中的所有元素。 示例&#xff1a; 輸入&#xff1a;matrix [[1,2,3],[4,5,6],[7,8,9]] 輸出&#xff1a;[1,2,3,6,9,8,7,4,5] 提示&…