監督微調-指令微調-偏好微調

有監督微調

有監督微調是使用輸入及其標簽對的典型情況。例如,判斷郵件是垃圾郵件還是非垃圾郵件,判斷情感是積極還是消極。根據文檔的主要主題對其進行分類也是一種常見應用。模型會將輸入文本的相應表示(隱藏狀態或嵌入向量)作為一組特征,來執行分類任務——這正是模型頭部的作用。

在自監督的情況下,標簽與輸入相同,模型的任務同樣是執行分類。但它并非將輸入分類到少數幾個類別中,而是存在與整個詞匯表中標記數量一樣多的類別:每個輸入標記都可能是預測輸出。

大型語言模型(LLMs)可以用于典型的分類任務,但這可能有些大材小用。像BERT這樣的基于編碼器的模型,在這些任務上已經被證明非常有效,而且它們的規模只是大型語言模型的一小部分(這意味著將它們投入生產的成本也更低)。

有些人可能會認為,使用“提示詞”和“補全內容”對來微調大型語言模型不屬于自監督,而是基本的有監督學習。在我看來,如果補全內容本身也是用自然語言編寫的(而非像“積極”或“消極”這樣的單個詞語),那么這顯然屬于自監督學習的情況。唯一的區別是,我們只是在教模型如何生成“補全內容”部分的文本,并且假設“提示詞”部分不會為其增添任何價值。

指令微調

指令微調是自監督微調中一種非常特殊的情況,模型通過這種微調學習如何遵循指令或直接回答問題。通過提供數千個問答對示例,模型會了解到答案更有可能跟隨在問題之后,而不是像在測試或考試中那樣將多個問題堆砌在一起。以往,終端用戶不得不將問題重新表述為未完成的陳述以待補全,而指令微調則讓模型認識到這兩種形式是等效的,從而減輕了用戶的負擔。

從指令微調后的模型角度來看,以下兩個提示詞應該會引出相同的補全內容(“布宜諾斯艾利斯”):

  • “阿根廷的首都是”
  • “阿根廷的首都是什么?”

僅經過預訓練的基礎模型,其訓練目的只是學習語言結構,它能正確補全第一個提示詞,但對于第二個,可能會生成類似“秘魯的首都是什么?”這樣的內容。

指令模型以及聊天模型通常會與其基礎版本(純粹的下一個標記預測器)一同發布,因此你幾乎不太可能需要自己對基礎模型進行指令微調。即便你想通過在某些內部公司數據上進行微調來融入一些相當特定的知識,或許更好的做法是使用一個已經過指令微調的模型,并調整你的數據集以適應相應的模板,而不是先在你的數據上進行微調,之后再自己進行指令微調。

偏好微調

最后一種微調類型是偏好微調,其目的是使模型的響應與一組偏好保持一致。這些偏好通常通過一組響應對數據集來體現,其中一個響應被認為是可接受的,另一個則是需要避免的。其目標是降低模型生成包含有毒、有偏見、非法、有害或總體上不安全內容的可能性。偏好微調涉及多種技術,如基于人類反饋的強化學習(RLHF)和直接偏好優化(DPO)等,但這些都超出了本實踐實驗系列的范圍。

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/917831.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/917831.shtml
英文地址,請注明出處:http://en.pswp.cn/news/917831.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

樓宇自控系統對建筑碳中和目標的實現具重要價值

隨著全球氣候變化問題日益嚴峻,建筑行業作為碳排放的重要來源之一,其節能減排工作備受關注。樓宇自控系統(Building Automation System,BAS)作為智能建筑的核心組成部分,通過集成控制、監測和管理建筑內的各…

【YOLO學習筆記】YOLOv5詳解

一、數據增強 mosaic仿射變換與透視變換Mixup mosaic代碼位置仿射變換 與 透視變換?代碼片段位置 二、網絡結構 1. 網絡不同尺寸 nsmlx與網絡深寬度 yolov5 官方提供了5個目標檢測的網絡版本:yolov5n、yolov5s、yolov5m、yolov5l、yolov5x ,早年是…

WebRTC前處理模塊技術詳解:音頻3A處理與視頻優化實踐

一、WebRTC前處理模塊概述 WebRTC(Web Real-Time Communication)作為實時音視頻通信的核心技術,其前處理模塊是提升媒體質量的關鍵環節。該模塊位于媒體采集與編碼之間,通過對原始音頻/視頻數據進行優化處理,解決實時…

ssm復習

Spring Framework系統架構核心容器的學習IOC/DIIOC容器IOC使用對象時,由主動new產生的對象轉換為由外部提供對象,此過程中對象的創建的控制權交由外部,此思想稱為控制反轉, (實現了自己new的解耦) 對象創建的控制權Spring提供一個容器,稱為IOC容器 用來充當IOC思想的外部Bea…

ESP32:2.搭建UDP服務器

硬件:ESP32-Devkit-V4 MODEL:ESP32-32U 庫:ESP-IDF v5.4.1 系統:windows中的虛擬機 ubuntu 22.04 實現STA,主動連接AP后,打印IP地址,獲取IP后,創建socket,搭建UDP 服務器&#xff0…

【Linux】動靜態庫制作

🐼故事背景假設今天你有一位舍友。你需要幫助他完成老師的作業。而他寫的代碼依賴兩個文件(mymath.h,mystdio.h)。但是這兩個文件的功能他不會寫,他只會調用。他的調用代碼:#include"mystdio.h" #include"mymath.h…

使用Database Navigator插件進行連接sqlite報錯invalid or incomplete database

解決方案 ,將這個db.sqlite3文件拷貝到盤的文件中 ,修改文件夾名字,重新使用絕對路徑訪問 db.sqlite3,將路徑名字的中文去掉 ,不能有中文

【Linux】重生之從零開始學習運維之主從MGR高可用

MGR集群部署12、15、18主機環境準備ssh免密碼登錄\rm -rf .ssh/* ssh-keygen ssh-copy-id 127.1 scp -r .ssh 10.0.0.12:/root/ ssh root10.0.0.12還原基礎環境systemctl stop mysqld \rm -rf /var/lib/mysql/* id mysqlvim /etc/my.cnf.d/mysql-server.cnf [mysqld] datadir/v…

如何在虛擬機(Linux)安裝Qt5.15.2

1.進入到阿里的網站下載在線安裝包 qt-official_releases-online_installers安裝包下載_開源鏡像站-阿里云 https://mirrors.aliyun.com/qt/official_releases/online_installers/?spma2c6h.13651104.d-5201.2.60ad4773ZZNPNm 2.下載完畢后,進入到下載地址&…

【運維進階】DHCP服務配置和DNS域名解析

DHCP服務配置和DNS域名解析 DHCP 服務介紹 在大型網絡中,系統靜態分配IP地址面臨問題: 確保不要同時在多個系統上使用同一個地址。部署新系統通常需要手動分配其IP地址。在云環境中,實例的網絡是自動化配置的。 動態主機配置協議(…

VisionPro MR環境下虛擬物體與現實的透明度混合

display.rgb (virtualcontent.rgb*1)(passthrough.rgb*(1 - vistualcontent.a) viirtualcontent預乘過a值了,跟透明度混合公式一致 人頭檢測挖孔不清晰問題,這個a值變成設備層動態檢測人頭的a值,當面前的渲染壓力過大時,會導致…

css怪異模式(Quirks Mode)和標準模式(Standards Mode)最明顯的區別

文章目錄css怪異模式(Quirks Mode)和標準模式(Standards Mode)最明顯的區別詳細對比示例對比(盒模型)標準模式(Standards Mode)怪異模式(Quirks Mode)如何觸發…

一種簡單的3dnr去噪算法介紹

一段未經過插補的視頻圖像可以分解為若干幀,為了能正確地找到并去除圖像幀中的噪聲污染,由于視頻圖像各幀的連續性,在去噪的過程中就必須考慮幀圖像的空間性和時間性,一個簡單的例子,在去噪算法中就必須考慮&#xff0…

【數據結構初階】--排序(四):歸并排序

🔥個人主頁:草莓熊Lotso 🎬作者簡介:C研發方向學習者 📖個人專欄: 《C語言》 《數據結構與算法》《C語言刷題集》《Leetcode刷題指南》 ??人生格言:生活是默默的堅持,毅力是永久的…

GaussDB 并行創建索引

1 背景當業務數據在單表存儲達到一定的數量級時,此時對表創建索引是要花費時間的。GaussDB為了解決這個問題采用并行創建索引技術,以提高創建索引的效率。2 示例步驟1:根據實際情況調整maintenance_work_mem參數該大小。[Rubydtest1 ~]$ gsq…

LOOP Finance:一場 Web3 共和國中的金融制度實驗

LOOP Finance 是建構于幣安智能鏈(BNB Chain)上的定投型DEFI理財協議。 它以凱因斯經濟學為啟發,設計出一套長期、安全、穩定收益的全新DEFI玩法,兼顧穩健利息回報與DEFI高速成長的潛力。 通過生態機制,LOOP要求每位參…

【golang面試題】Golang遞歸函數完全指南:從入門到性能優化

引言:遞歸的本質與挑戰 在Golang中,遞歸函數是一把鋒利的雙刃劍。它通過函數自身調用實現問題分解,讓代碼變得簡潔優雅,但也容易因無限遞歸、棧溢出或性能問題讓開發者陷入困境。本文將從基礎到高級,全面解析Golang遞歸…

功能安全和網絡安全的綜合保障流程

摘要網絡物理系統是控制機械部件的計算機化系統。這些系統必須既功能安全又網絡安全。因此,已建立的功能安全與網絡安全標準需求創建網絡安全檔案(ACs),以論證系統是功能安全與網絡安全的,即所有功能安全與網絡安全目標…

數據科學首戰:用機器學習預測世界杯冠軍

數據科學首戰:用機器學習預測世界杯冠軍Scikit-learn實戰:從數據清洗到冠軍預測的完整指南一、足球預測:數據科學的終極挑戰??世界杯數據價值??:歷史比賽數據:44,000場球隊特征指標:200球員數據點&…

一個php 連sqlserver 目標計算機積極拒絕,無法連接問題的解決

一個接口查詢數據耗時15秒,還沒數據,經查報錯日志:SQLSTATE[08001]: [Microsoft][ODBC Driver 17 for SQL Server]TCP 提供程序: 由于目標計算機積極拒絕,無法連接。 命令行執行:netstat -ano | findstr :1433發現結…