大型語言模型自我進化綜述

24年4月來自北大的論文“A Survey on Self-Evolution of Large Language Models”。

大語言模型(LLM)在各個領域和智體應用中取得了顯著的進步。 然而,目前從人類或外部模型監督中學習的LLM成本高昂,并且隨著任務復雜性和多樣性的增加可能面臨性能的天花板。 為了解決這個問題,使LLM能夠自主獲取、完善模型本身生成的經驗并從中學習的自我進化方法,正在迅速發展。 這種受人類體驗式學習過程啟發的新訓練范式提供了將LLM擴展到超級智能的潛力。 這項工作對LLM的自我進化方法進行了全面的調查。 首先提出了自我進化的概念框架,并將進化過程概述為由四個階段組成的迭代循環:經驗獲取、經驗細化、更新和評估。 其次,對 LLM 和基于 LLM 智體的演化目標進行了分類; 然后總結文獻并為每個模塊提供分類和見解。 最后,指出現有的挑戰并提出了改進自我進化框架的未來方向。

人工智能的自我進化。 人工智能代表了智體的一種高級形式,具有與人類相似的認知能力和行為。 人工智能開發人員的愿望在于使人工智能能夠利用自我進化能力,與人類發展的體驗式學習過程平行進行。 人工智能中自我進化的概念源于更廣泛的機器學習和進化算法領域(B?ck & Schwefel,1993)。 最初受到自然進化原理(例如選擇、突變和繁殖)的影響,研究人員開發了模擬這些過程的算法,優化復雜問題的解決方案。 Holland(1992)引入了遺傳算法,標志著人工智能自我進化能力歷史上的一個基礎性時刻。 神經網絡和深度學習的后續發展進一步增強了這種能力,允許人工智能系統在無需人工干預的情況下修改自己的架構并提高性能(Liu et al., 2021)。

在自我進化的概念框架中,一個動態的、迭代的過程,反映了人類獲取和完善技能和知識的能力。 該框架如圖所示,強調學習和改進的循環性質。 該過程的每次迭代都專注于特定的演化目標,允許模型參與相關任務、優化其體驗、更新其架構并在進入下一個周期之前評估其進度。
在這里插入圖片描述
該概念框架概述了LLM的自我進化,類似于人類的獲取、完善和自主學習過程,其類別如圖所示:
請添加圖片描述
如圖是LLM訓練范式的變化史:
請添加圖片描述
自我進化LLM的進化目標是預定義的目標,可以自主指導其發展和完善。 就像人類根據需求和愿望設定個人目標一樣,這些目標至關重要,因為它們決定了模型如何迭代地自我更新。 它們使LLM能夠自主地從新數據中學習、優化算法并適應不斷變化的環境,通過反饋或自我評估有效地“感受”其需求,并設定自己的目標來增強功能,而無需人工干預。

進化目標定義為進化能力和進化方向的結合。 不斷發展的能力代表著與生俱來的、細致的技能。 進化方向是進化目標旨在改進的方面。
下表是自我進化方法概述,詳細介紹了各個進化階段的方法。 其中:Pos(積極)、Neg(消極)、R(基于基本原理)、I(互動)、S(自我搏擊)、G(落地)、C(對比)、P(擾動)、Env(環境) 、In-W(權重內)、In-C(上下文中)、IF(指令跟隨)。 對于進化目標,“反饋的適配”為綠色,“知識庫擴展”為藍色,“安全、道德和減少偏見”為棕色。 “提高性能”采用默認的黑色。
請添加圖片描述
請添加圖片描述
表中目標進化能力分為兩類:LLM和LLM智體

LLM的基本能力包括:遵循指令(Xu 等人,2023a)、推理(Cui & Wang,2023)、數學(Ahn,2024)、編碼(Singh ,2023;Zelikman,2023)、角色扮演(Lu et al., 2024a)和其他NLP 任務(Stammer et al., 2023; Koa et al., 2024; Gulcehre et al., 2023; Zhang et al. ., 2024b,c)。

基于LLM的智體能力是用于在數字或物理世界中解決任務或模擬的高級人類特征。 這些功能反映了人類的認知功能,使這些智體能夠執行復雜的任務并在動態環境中有效地交互。 包括:規劃(Qiao et al., 2024)、工具使用(Zhu et al., 2024)、具身控制(Bousmalis,2023)和溝通(Ulmer et al., 2024)。

探索和利用(Gupta et al., 2006)是人類和LLM學習的基本策略。 其中,探索涉及尋求新的經驗以實現目標,類似于LLM自我進化的初始階段,即經驗獲取。 這個過程對于自我進化至關重要,使模型能夠自主應對核心挑戰,例如適應新任務、克服知識限制和增強解決方案的有效性。 此外,經驗是一個整體的建構,不僅包括所遇到的任務(Dewey,1938),還包括為解決這些任務而開發的解決方案(Sch?n,2017)以及作為任務執行的結果而收到的反饋(Boud et al.,2013)。

受此啟發,經驗獲取分為三個部分:任務進化、解決方案進化和獲取反饋。 在任務進化中,LLM根據進化目標策劃和進化新的任務。 對于解決方案的進化,LLM制定并實施策略來完成這些任務。 最后,LLM可以選擇收集與環境交互的反饋,以進一步改進。

如圖所示任務進化示意圖:基于知識、無知識和選擇方法;前兩種是生成方法,根據各自對知識的使用而有所不同;相比之下,第三種方法采用判別性方法來選擇要學習的內容。
請添加圖片描述
獲得進化任務后,LLM解決任務以獲得相應的解決方案。 最常見的策略是直接根據任務公式生成解決方案(Zelikman et al., 2022; Gulcehre et al., 2023; Singh et al., 2023; Cheng et al., 2024b; Yuan et al., 2024 )。 然而,這種簡單的方法可能會得到與進化目標無關的解決方案,從而導致次優進化(Hare,2019)。 因此,解決方案的進化使用不同的策略來解決任務并通過確保解決方案不僅生成而且具有相關性和信息性來增強LLM能力。 如圖所示:
請添加圖片描述
根據解決方案的正確性將這些方法分為積極方法和消極方法。 積極方法引入了各種方法來獲得正確且理想的解決方案。 相反,消極方法會引出并收集不需要的解決方案,包括不忠實或不一致的模型行為,然后將其用于偏好對齊。

當人類學習技能時,反饋在證明解決方案的正確性方面發揮著至關重要的作用。 這些關鍵信息使人類能夠反思并更新他們的技能。 與此過程類似,LLM應該在自我進化周期中的任務解決期間或之后獲得反饋。

存在兩種類型的反饋:模型反饋是指收集LLM自己評價的批評或評分;此外,環境反饋表示直接從外部環境收到的反饋。 如圖所示這些概念:
請添加圖片描述
在獲得經驗之后和自我進化更新之前,LLM可以通過經驗細化來提高其輸出的質量和可靠性。 它幫助LLM適應新的信息和環境,而無需依賴外部資源,從而在動態環境中獲得更可靠、更有效的幫助。這些方法分為兩類:過濾和修正。如圖所示:
請添加圖片描述
自我進化的經驗細化涉及兩種主要的濾波策略:基于度量和無度量。 前者使用外部指標來評估和過濾輸出,而后者不依賴這些指標。 這確保了只有最可靠和高質量的數據才能用于進一步更新。

自我進化的最新進展凸顯了迭代自我修正的重要性,它使模型能夠完善其經驗。 把方法分為兩類:基于批評的糾正和無批評的糾正。 批評通常作為強烈的暗示,包括感知錯誤或次優輸出背后的基本原理,指導模型改進迭代。

經驗細化后,進入關鍵的更新階段,利用細化的經驗來提高模型性能。這些方法分為權重學習(涉及模型權重的更新)和上下文學習(涉及外部或工作記憶的更新)。如圖所示:
請添加圖片描述
更新LLM權重的經典訓練范式包括連續預訓練(Brown et al., 2020; Roziere et al., 2023)、有監督微調(Longpre et al., 2023)和偏好對齊(Ouyang et al., 2022;Touvron,2023a)。 然而,在自我進化的迭代訓練過程中,核心挑戰在于實現整體改進并防止災難性遺忘,這需要在保留原有技能的同時提煉或獲取新的能力。 這一挑戰的解決方案可以分為三種主要策略:**基于重放、基于正則化和基于合并(架構)**的方法。

除了直接更新模型參數之外,另一種方法是利用LLM的上下文能力從經驗中學習,從而無需昂貴的培訓成本即可實現快速自適應更新。 這些方法可分為更新外部記憶和更新工作記憶

就像人類的學習過程一樣,必須通過評估來確定當前的能力水平是否足夠,是否滿足應用要求。此外,正是從這些評估中,人們可以確定未來學習的方向。然而,如何準確評估進化模型的性能并為未來的改進提供方向是一個至關重要但尚未充分探索的研究領域。其方法分成定量和定性兩種。

自我進化方法存在的開放問題:

分級和多樣。
自動化級別:低、中、高。
經驗獲取和細化:從經驗到理論。
更新方法:穩定性-可塑性困境。
評估:系統和進化。
安全和超對齊。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/11902.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/11902.shtml
英文地址,請注明出處:http://en.pswp.cn/web/11902.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

子模塊介紹,開發規范說明和工具類封裝

在上一章的內容中&#xff0c;我們完成了聚合工程的搭建以及工程依賴的導入 當然我們會延續上一章的傳統提供一個傳送門給各位&#xff0c;如未完成上一章內容&#xff0c;請點擊左側->傳送門 概述子模塊 上一章我們已經創建了整個聚合工程 該聚合工程有以下子模塊 <…

如何將一個Web應用部署到 Kubernetes 集群

Kubernetes&#xff08;常簡稱為 k8s&#xff09;是一個是一個開源的容器編排平臺&#xff0c;由 Google 設計并捐贈給 Cloud Native Computing Foundation&#xff08;CNCF&#xff09;的開源平臺。它旨在提供一個標準化的容器部署流程&#xff0c;讓部署、擴展和管理應用程序…

C# WinForm —— 18 NumericUpDown 介紹

1. 簡介 數字顯示框&#xff0c;通過向上、向下按鈕來 增加/減小 顯示的數值 2. 常用屬性 屬性解釋(Name)控件ID&#xff0c;在代碼里引用的時候會用到,一般以 numUD 開頭Hexadecimal數值 up-down 控件的值是否應以十六進制顯示Increment每單擊一下按鈕&#xff0c;增加或減…

springboot基本使用十(搭建jpa)

jpa底層是hibernate,(ORM)對象關系映射技術 jpa依賴: <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-jpa</artifactId> </dependency> 配置文件: server:port: 8088Spring:datasou…

音源分離|Music Source Separation in the Waveform Domain

一、文章摘要 本文中&#xff0c;比較了兩種時域結構。首先將最初為語音源分離而開發的卷積tasnet應用于音樂源分離任務。雖然ConvTasnet擊敗了許多現有的頻域方法&#xff0c;但正如人類評估所顯示的那樣&#xff0c;它存在明顯的artifacts。本文提出了一種新的時域模型Demucs…

鴻蒙內核源碼分析 (協處理器篇) | CPU 的好幫手

本篇很重要&#xff0c;對CP15協處理所有16個寄存器一一介紹&#xff0c;可能是全網介紹CP15最全面的一篇&#xff0c;鴻蒙內核的匯編部分(尤其開機啟動)中會使用&#xff0c;熟練掌握后看匯編代碼將如虎添翼。 協處理器 協處理器 (co-processor) 顧名思義是協助主處理器完成…

服務器渲染和客戶端渲染:解析服務器渲染(SSR)和客戶端渲染(CSR)的概念,各自的優點和缺點,并比較如Next.js, Nuxt.js等解決方案

首先從概念上區分&#xff0c;服務器渲染&#xff08;Server-side Rendering&#xff0c;簡稱 SSR&#xff09;和客戶端渲染&#xff08;Client-side Rendering&#xff0c;簡稱 CSR&#xff09;主要的區別在于頁面的渲染地點不同&#xff1a; 服務器渲染&#xff0c;即 SSR&am…

韻搜坊(全棧)-- 前后端初始化

文章目錄 前端初始化后端初始化 前端初始化 使用ant design of vue 組件庫 官網快速上手&#xff1a;https://www.antdv.com/docs/vue/getting-started-cn 安裝腳手架工具 進入cmd $ npm install -g vue/cli # OR $ yarn global add vue/cli創建一個項目 $ vue create ant…

社交媒體數據恢復:默往

如果你在默往社交軟件中丟失了重要的數據&#xff0c;不要著急&#xff0c;以下是一些步驟可以幫助你進行數據恢復&#xff1a; 登錄賬號&#xff1a;首先&#xff0c;你需要登錄默往社交軟件賬號&#xff0c;確保你已經登錄了正確的賬號&#xff0c;因為如果你登錄了錯誤的賬號…

邦芒簡歷:如何恰當呈現跳槽經歷在簡歷中

在職業生涯中&#xff0c;跳槽往往伴隨著個人的成長與選擇。然而&#xff0c;頻繁或不當的跳槽記錄可能會給HR留下不穩定的印象。因此&#xff0c;在撰寫簡歷時&#xff0c;如何恰當地呈現跳槽經歷就顯得尤為重要。 1、短期工作經歷的處理 對于短期工作經歷&#xff08;尤其是…

弘君資本策略:股指預計保持震蕩上揚格局 關注公用事業、電網設備等板塊

弘君資本指出&#xff0c;周一A股商場探底上升、小幅震動收拾&#xff0c;早盤股指低開后震動回落&#xff0c;滬指盤中在3126點附近取得支撐&#xff0c;午后股指企穩上升&#xff0c;盤中電網設備、公用事業、電力以及工程建造等職業體現較好&#xff1b;半導體、互聯網以及軟…

掌握社交的這二十個心理技巧

1.自信&#xff1a;這一點說起來容易做起來難&#xff0c;但就算是假裝出來的自信&#xff0c;通過你的肢體語言表現出來。在很大程度也可以幫助你留下很好的第一印象。人們喜歡自信的人。因為他們更可靠&#xff0c;更值得信賴&#xff0c;更具吸引力。 2.當你第一次見到某人…

PXE+Kickstart無人值守安裝安裝Centos7.9

文章目錄 一、什么是PXE1、簡介2、工作模式3、工作流程 二、什么是Kickstart1、簡介2、觸發方式 三、無人值守安裝系統工作流程四、實驗部署1、環境準備2、服務端&#xff1a;關閉防火墻和selinux3、添加一張僅主機的網卡4、配置僅主機的網卡4.1、修改網絡連接名4.2、配IP地址4…

差異基因散點圖繪制教程

差異基因散點圖繪制教程 本期教程 小杜的生信筆記&#xff0c;自2021年11月開始做的知識分享&#xff0c;主要內容是R語言繪圖教程、轉錄組上游分析、轉錄組下游分析等內容。凡事在社群同學&#xff0c;可免費獲得自2021年11月份至今全部教程&#xff0c;教程配備事例數據和相…

最新版Ceph( Reef版本)塊存儲簡單對接k8s(上集)

當前ceph 你的ceph集群上執行 1.創建名為k8s-rbd 的存儲池 ceph osd pool create k8s-rbd 64 642.初始化 rbd pool init k8s-rbd3 創建k8s訪問塊設備的認證用戶 ceph auth get-or-create client.kubernetes mon profile rbd osd profile rbd poolk8s-rbd部署 ceph-rbd-csi c…

List集合的復制方式

List集合的復制方式主要有以下幾種: 使用構造器復制 創建一個新的List集合,并將原始List集合作為參數傳遞給它的構造器。例如,List<String> newList = new ArrayList<>(originalList)。這種方式會創建一個新的List對象,并將原始List的所有元素復制到新List中…

快速學習SpringAi

Spring AI是AI工程師的一個應用框架&#xff0c;它提供了一個友好的API和開發AI應用的抽象&#xff0c;旨在簡化AI應用的開發工序&#xff0c;例如開發一款基于ChatGPT的對話應用程序。通過使用Spring Ai使我們更簡單直接使用chatgpt 1.創建項目 jdk17 引入依賴 2.依賴配置 …

同城組局同城活動找搭子小程序JAVA源碼面芽組局的實現方案

功能概述 基于微信小程序開發的一款軟件&#xff0c;支持用戶動態發布、私信聊天關注、禮物充值打賞、發起活動組局、用戶報名參與、支持商家入駐&#xff0c;對接廣告功能等。 活動發布&#xff1a;用戶可以在平臺上發布各種類型的活動&#xff0c;如戶外徒步、音樂會觀賞、…

AI應用案例:會議紀要自動生成

以騰訊會議轉錄生成的會議記錄為研究對象&#xff0c;借助大模型強大的語義理解和文本生成等能力&#xff0c;利用指令和文本向量搜索實現摘要總結、要點提取、行動項目提取、會議紀要生成等過程&#xff0c;完成會議紀要的自動總結和生成&#xff0c;降低人工記錄和整理時間成…

React 第三十章 React 和 Vue 描述頁面的區別

面試題&#xff1a;React 和 Vue 是如何描述 UI 界面的&#xff1f;有一些什么樣的區別&#xff1f; 標準且淺顯的回答&#xff1a; React 中使用的是 JSX&#xff0c;Vue 中使用的是模板來描述界面 前端領域經過長期的發展&#xff0c;目前有兩種主流的描述 UI 的方案&#xf…