預訓練對齊:數學理論到工程實踐的橋梁

在人工智能和機器學習領域,預訓練模型的對齊是一個至關重要的概念。本篇博客源自聽了一場黃民烈老師關于大模型對齊的分享,整理內容如下,供大家參考。
在這里插入圖片描述

數學理論中的預訓練對齊

數學理論上,預訓練對齊是什么?
在這里插入圖片描述

序列到序列的轉換

在2014年,序列到序列(Seq2Seq)的轉換是自然語言處理(NLP)中的一個突破性進展。這種模型通過編碼器-解碼器架構,將輸入序列轉換為輸出序列,廣泛應用于機器翻譯、文本摘要等任務。編碼器負責將輸入序列映射到一個固定長度的向量,而解碼器則將這個向量逐步轉換為輸出序列。
在這里插入圖片描述

有監督的微調

到了2022年,有監督的微調成為了預訓練模型對齊的主流方法。這種方法通過在特定任務上對預訓練模型進行進一步的訓練,使得模型能夠更好地適應任務的需求。微調過程中,模型的參數會根據任務特定的數據進行調整,從而提高模型在特定任務上的表現。

在這里插入圖片描述

超級對準研究問題 :

  • 弱到強的泛化 。如何利用深度學習的泛化特性來控制具有弱監督器的強模型
  • 可擴展的監督 。如何利用AI系統人工標簽來協助監管其他強大的AI系統
  • 評價。如何自動搜索有問題的行為及其內部因素來驗證系統的一致性,如何對整個管道進行對抗性測試

Learn task decomposition from human feedback
Learn task decomposition from human feedback

對齊優化方法

在這里插入圖片描述

線性加權求和

線性加權求和是一種直觀的對齊方法,它通過為預訓練模型和任務特定模型分配不同的權重,然后將兩者的輸出進行加權求和,以實現對齊。這種方法簡單易行,但可能無法捕捉到模型間的復雜關系。
在這里插入圖片描述

DPO最大似然對齊

DPO(Differentiable Pointwise Optimisation)最大似然對齊是一種更為精確的對齊方法。它通過優化模型參數,使得模型輸出的分布盡可能接近真實數據的分布,從而實現對齊。這種方法可以更精確地調整模型參數,以適應新任務的需求。
在這里插入圖片描述
理論上DPO的方法為何更優
在這里插入圖片描述

語言學習的復雜性

語言學習是一個高度復雜的任務,它涉及到詞匯、語法、語義等多個層面的知識。在進行語言模型的預訓練對齊時,需要考慮到語言的多樣性和復雜性。這意味著對齊過程不能簡單地依賴于平均分布,而應該深入理解語言的結構和使用環境。

Existing Challenges
Efficiency: lt is cost consuming to train LLMs.
Accessibility: AP|-based models are not publicly available.
Interpretability: The modeling and improvements of human preferenceis uninterpretable.

在這里插入圖片描述

工程實踐中的應用

將預訓練對齊的理論應用于工程實踐,可以采用以下幾種思路進行優化:
在這里插入圖片描述

  1. 數據集的精細劃分:根據任務的需求,對數據集進行精細的劃分和處理。例如,在機器翻譯任務中,可以根據語言對和領域進行數據集的劃分,以確保模型能夠更好地學習和適應特定的語言和領域。
    在這里插入圖片描述

  2. 模型參數的動態調整:在訓練過程中,動態調整模型參數,以實現對不同任務的適應性。例如,可以使用學習率調度器來調整學習率,或者使用正則化技術來防止模型過擬合。

  3. 多任務學習:通過多任務學習,使模型能夠在處理一個任務的同時,學習到其他任務的知識。這種方法可以提高模型的泛化能力,使其在面對新任務時能夠更快地適應。

在這里插入圖片描述

結語

預訓練對齊是連接數學理論與工程實踐的橋梁。通過不斷優化對齊方法和策略,我們可以提高模型的性能,使其在各種任務中都能發揮出色的作用。本文探討了預訓練對齊的多個方面,從理論到實踐,從方法到應用,旨在為讀者提供一個全面的視角,以更好地理解和應用預訓練對齊技術。
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/41966.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/41966.shtml
英文地址,請注明出處:http://en.pswp.cn/web/41966.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java-關鍵字(static,final)

1.1 static關鍵字 static關鍵字 : 靜態的意思 , 可以修飾變量 , 也可以修飾方法 , 被static修飾的成員 , 我們叫做靜態成員 static特點 : 靜態成員被所類的所有對象共享 隨著類的加載而加載 , 優先于對象存在 可以通過對象調用 , 也可以通過類名調用 , 建議使用類名 1. 靜…

Keepalived+HAProxy 集群及虛IP切換實踐

1、軟件介紹 ①Keepalived keepalive是一個用c語言編寫的路由軟件,這個項目的主要目標是為Linux系統和基于Linux的基礎設施提供簡單而健壯的負載平衡和高可用性設施。負載均衡框架依賴于眾所周知且廣泛使用的Linux Virtual Server (IPVS)內核模塊提供第4層負載均衡…

srs直播內網拉流帶寬飆升問題記錄

問題背景 srs部署在云服務器上,32核cpu,64G內存,帶寬300M. 客戶端從srs拉流,發現外網客戶端拉流,cpu和帶寬都正常。然而內網客戶端拉流,拉流人數超過5人以上,帶寬就會迅速飆升。 排查 用srs…

數學建模論文寫作文檔word

目錄 1. 摘要寫法1.1 確定題目與方法1.2 編寫開頭段落1.3 填寫問題一1.4 重復步驟3填寫其他問題1.5 編寫結尾段落1.6 編寫關鍵詞 2. 問題重述2.1 問題背景2.2 問題提出 3. 問題分析4. 問題X模型的建立與求解5. 模型的分析5.1 靈敏度分析5.2 誤差分析(主要用于預測類…

Milvus lite start 及存儲策略

背景 今天開始寫下Milvus,為了方便,我直接使用的是 milvus-lite 版本,default 情況下,你可能不知道他到底將 db 存儲到什么位置了。啟動 default-server,看下Milvus 的start及存儲邏輯 主邏輯 def start(self):sel…

adb參數詳解

文章目錄 1. -d2. -e3. -s4. -t5. -H6. -P7. -L8. --one-device9. --exit-on-write-error10. connect / disconnect11. pair12. forward13. forward --list14. reverse15. mdns check16. mdns services17. push18. pull19. sync20.shell21. install22. uninstall23. bugreport2…

最小二乘支持向量機(Least Squares Support Vector Machine,LSSVM)及其Python和MATLAB實現

LSSVM(Least Squares Support Vector Machine)又稱最小二乘支持向量機,是支持向量機(SVM)的一種變體,它通過將SVM的優化問題轉化為帶約束的二次規劃問題,利用最小二乘法進行優化求解&#xff0c…

redis集群部署 (通過redis工具快速部署,手動部署)

目錄 一、快速部署集群 1、 進入集群目錄,創建集群 2、 查看正常啟動 二、部署集群 1、分配集群節點 2、驗證集群可用性 3、停止redis進程 三、手動部署集群 1、配置redis.conf配置文件 2、啟動redis集群 3、手動創建redis集群 4、驗證 四、集群…

mysql異常數據損壞處理,報錯:Operating system error number 2 in a file operation

一、問題描述 某次一線反應,某主庫表全部丟失,查看為空,登陸主機查看mysqld.log后報錯:Operating system error number 2 in a file operation數據目錄OS重裝后修改過,但只是指向方式不同,目錄還是同一目錄…

【綠色版】Mysql下載、安裝、配置與使用(保姆級教程)

大家都知道,Mysql安裝版的卸載過程非常繁瑣,而且卸載不干凈會出現許多問題,很容易讓大家陷入重裝系統的窘境。基于此,博主今天給大家分享綠色版Mysql的安裝、配置與使用。 目錄 一、Mysql安裝、配置與使用 1、下載解壓 2、創建…

vue對axios進行請求響應封裝

一、原因 像是在一些業務邏輯上,比如需要在請求之前展示loading效果,或者在登錄的時候判斷身份信息(token)等信息有沒有過期,再者根據服務器響應回來的code碼進行相應的提示信息。等等在請求之前,之后做的一…

ABAP注釋快捷鍵修改(留著備用)

ABAP注釋快捷鍵修改(留著備用) 在使用ABAP編輯器的時候,原有的添加代碼注釋和取消代碼注釋的快捷鍵未生效,這時我們可以考慮對注釋快捷鍵進行修改 在事務碼SE38(ABAP編輯器)屏幕右下角,點擊【Options選項】圖標 在【鍵盤】|【命令】輸入欄中…

DWM 相關實現代碼 [自用]

1. DWM 縮略圖和模糊隱藏實現半透明 #include <windows.h> #include <dwmapi.h> #include <string> #pragma comment(lib, "dwmapi.lib")// 檢查 UWP 窗口是否可見 bool IsUWPWindowVisible(HWND hwnd) {DWORD cloaked 0;DwmGetWindowAttribute(…

【c語言】玩轉文件操作

&#x1f31f;&#x1f31f;作者主頁&#xff1a;ephemerals__ &#x1f31f;&#x1f31f;所屬專欄&#xff1a;C語言 目錄 引言 一、文件的打開和關閉 1.流 2.標準流 3.文本文件和二進制文件 4.控制文件打開與關閉的函數 二、文件的順序讀寫 三、文件的隨機讀寫 1…

深入理解OAuth 2.0:原理、流程與實踐

一、什么是OAuth 2.0 1. 什么是OAuth 2.0 OAuth 2.0 是一套關于授權的行業標準協議。 OAuth 2.0 允許用戶授權第三方應用訪問他們在另一個服務提供方上的數據&#xff0c;而無需分享他們的憑據&#xff08;如用戶名、密碼&#xff09;。 2. OAuth 2.0 應用場景 OAuth 2.0的…

非參數檢測6——優缺點

優點&#xff1a; 參量檢測的特點在于以似然比處理器為基礎&#xff0c;并建立在假定干擾或噪聲的統計特性已知的基礎上。但實際上&#xff0c;干擾環境往往十分復雜&#xff0c;包括自然和人為因素&#xff0c;且常常隨時改變。這使我們很難確定噪聲的統計特性。因此人們提出…

服務器U盤安裝Centos 7時提示Warning:/dev/root does not exist

這是沒有找到正確的鏡像路徑導致的&#xff0c;我們可以在命令行輸入ls /dev看一下有哪些盤符 像圖中紅色圈起來的就是我插入U盤的盤符&#xff0c;大家的輸幾盤可能做了多個邏輯盤&#xff0c;這種情況下就可以先將U盤拔掉再ls /dev看一下和剛才相比少了那兩個盤符&#xff0c…

在Spring Boot中實現多線程任務調度

在Spring Boot中實現多線程任務調度 大家好&#xff0c;我是微賺淘客系統3.0的小編&#xff0c;也是冬天不穿秋褲&#xff0c;天冷也要風度的程序猿&#xff01; 1. Spring Boot中的任務調度 Spring Boot通過集成Spring框架的Task Execution和Scheduling支持&#xff0c;提供…

Double 4 VR仿真情景實訓教學系統在法律專業課堂上的應用

隨著科技的飛速發展&#xff0c;VR技術逐漸滲透到各個領域&#xff0c;為教育行業帶來了革命性的變化。 VR技術以其獨特的沉浸式體驗&#xff0c;為法律課堂帶來了前所未有的學習體驗。通過Double 4 VR仿真情景實訓教學系統&#xff0c;學生可以身臨其境地進入虛擬的仿真情景中…

vue前端面試

一 .v-if和v-show的區別 v-if 和 v-show 是 Vue.js 中兩個常用的條件渲染指令&#xff0c;它們都可以根據條件決定是否渲染某個元素。但是它們之間存在一些區別。 語法&#xff1a;v-if 和 v-show 的語法相同&#xff0c;都接收一個布爾值作為參數。 <div v-if"show…