微調這件小事:訓練集中的輸入數據該作為instruction還是input?從LLaMA-Factory的源碼中尋找答案吧~

在之前的博文中,我們已經了解了LLaMA-Factory框架執行各類任務的流程。今天,我們將深入探討SFT微調過程中關于數據集的兩個關鍵問題:

  1. 數據集中的instruction和input是如何結合起來生成大模型可以理解的輸入的?instruction是不是就是system prompt呢?(之所以會問這個問題,是因為我發現有的數據集將輸入作為instruction,有的作為input,而它們在效果上基本沒有區別)
  2. 模板(template)是如何起作用的?它如何將文本數據轉換為模型可以理解的格式?

這兩個問題其實在處理流程上是一體的,由于篇幅限制,我們這里先聚焦于第一個問題。

文章目錄

    • SFT微調整體流程
      • 主要流程概括
      • 數據集與微調參數準備
      • SFT入參調試
    • 數據生成源碼解析
      • 數據集準備
        • 數據集加載部分
          • 讀取單個文件
          • 格式轉換(解開謎題的鑰匙)
          • 多數據集合并
        • 數據集后處理部分
    • 結論


??進入大模型應用與實戰專欄 | ??查看更多專欄內容


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/73239.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/73239.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/73239.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

nacos-actuator漏洞

1、nacos配置文件添加以下配置 vim application.properties# 添加以下配置項 management.endpoints.enabled-by-defaultfalse management.server.port-12、重啟Nacos systemctl restart nacos3、驗證 打開地址http://ip:port/nacos/actuator查看是否有敏感信息輸出&#xff0…

extern關鍵字的用法

目錄 總述 一、聲明外部變量 二、聲明外部函數 三、實現模塊化編程 四、與"C" 連用,實現C和C的混合編程 五、注意事項 六、疑點補充(你可能會有和我一樣的疑問?) 總述 在C和C中,extern關鍵字用于聲明外…

Jboss漏洞再現

一、CVE-2015-7501 1、開環境 2、訪問地址 / invoker/JMXInvokerServlet 出現了讓下載的頁面,說明有漏洞 3、下載ysoserial工具進行漏洞利用 4、在cmd運行 看到可以成功運行,接下來去base64編碼我們反彈shell的命令 5、執行命令 java -jar ysoserial-…

Android平臺毫秒級低延遲HTTP-FLV直播播放器技術探究與實現

一、前言 在移動互聯網蓬勃發展的今天,視頻播放功能已成為眾多Android應用的核心特性之一。面對多樣化的視頻格式和傳輸協議,開發一款高效、穩定的視頻播放器是許多開發者追求的目標。FLV(Flash Video)格式,盡管隨著H…

BUAA XCPC 2025 Spring Training 2

C \color{green}{\texttt{C}} C [Problem Discription] \color{blue}{\texttt{[Problem Discription]}} [Problem Discription] 給定一棵以 1 1 1 為根的樹,記 a i a_{i} ai? 表示節點 i i i 的權值, lca( i , j ) \text{lca(}i,j) lca(i,j) 表示節…

MySQL 中,分庫分表機制和分表分庫策略

在 MySQL 中,分庫分表是一種常見的數據庫水平擴展方案,用于解決單庫單表數據量過大導致的性能瓶頸問題。通過將數據分散到多個數據庫或表中,可以提高系統的并發處理能力、降低單點故障風險,并提升查詢性能。 一、分庫分表的作用 提升性能: 分散數據存儲和查詢壓力,避免單…

組件日志——etcd

目錄 一、簡介 二、安裝【Ubuntu】 安裝etcd 安裝CAPI 三、寫一個示例 3.0寫一個示例代碼 3.1獲取一個etcd服務 3.2獲取租約(寫端操作) 3.3使用租約(寫端操作) 3.4銷毀租約(寫端操作) 3.5獲取etcd服務中的服務列表(讀端操作) 3.6監聽狀態變化(讀端操作) 一、簡介 Et…

python網絡爬蟲開發實戰之網頁數據的解析提取

目錄 1 XPath的使用 1.1 XPath概覽 1.2 XPath常用規則 1.3 準備工作 1.4 實例引入 1.5 所有節點 1.6 節點 1.7 父節點 1.8 屬性匹配 1.9 文本獲取 1.10 屬性獲取 1.11 屬性多值匹配 1.12 多屬性匹配 1.13 按序選擇 1.14 節點軸選擇 2 Beautiful Soup 2.1 簡介…

理解操作系統(一)馮諾依曼結構和什么是操作系統

認識馮諾依曼系統 操作系統概念與定位 深?理解進程概念,了解PCB 學習進程狀態,學會創建進程,掌握僵?進程和孤?進程,及其形成原因和危害 1. 馮諾依曼體系結構 我們常?的計算機,如筆記本。我們不常?的計算機&am…

Tomcat常見漏洞攻略

一、CVE-2017-12615 漏洞原理:當在Tomcat的conf(配置?錄下)/web.xml配置?件中添加readonly設置為false時,將導致該漏洞產 生,(需要允許put請求) , 攻擊者可以利?PUT方法通過精心構造的數據包…

快速求出質數

要快速判斷一個數是否為質數,可以采用以下優化后的試除法,結合數學規律大幅減少計算量: 步驟說明 處理特殊情況: 若 ( n \leq 1 ),不是質數。若 ( n 2 ) 或 ( n 3 ),是質數。若 ( n ) 能被 2 或 3 整除&…

Linux上位機開發實戰(camera視頻讀取)

【 聲明:版權所有,歡迎轉載,請勿用于商業用途。 聯系信箱:feixiaoxing 163.com】 關于linux camera,一般都是認為是mipi camera,或者是usb camera。當然不管是哪一種,底層的邏輯都是v4l2&#x…

高性能緩存:使用 Redis 和本地內存緩存實戰示例

在現代高并發系統中,緩存技術是提升性能和降低數據庫壓力的關鍵手段。無論是分布式系統中的Redis緩存,還是本地高效的本地內存緩存,合理使用都能讓你的應用如虎添翼。今天,我們將基于go-dev-frame/sponge/pkg/cache庫的代碼示例&a…

Python實現deepseek接口的調用

簡介:DeepSeek 是一個強大的大語言模型,提供 API 接口供開發者調用。在 Python 中,可以使用 requests 或 httpx 庫向 DeepSeek API 發送請求,實現文本生成、代碼補全,知識問答等功能。本文將介紹如何在 Python 中調用 …

山東大學數據結構課程設計

題目:全國交通咨詢模擬系統 問題描述 處于不同目的的旅客對交通工具有不同的要求。例如,因公出差的旅客希望在旅途中的時間盡可能地短,出門旅游的旅客則期望旅費盡可能省,而老年旅客則要求中轉次數最少。編織一個全國城市間的交…

深入理解倒排索引原理:從 BitSet 到實際應用

倒排索引是一種極為重要的數據結構,它能夠高效地支持大規模數據的快速查詢,本文將深入探討倒排索引的原理,借助 BitSet 這種數據結構來理解其實現機制,并通過具體的JSF請求條件示例來展示其在實際應用中的運算過程。 BitSet&#…

Unity網絡開發快速回顧

知識點來源:總結人間自有韜哥在, 唐老獅,豆包 目錄 1.網絡通信-通信必備知識-IP地址和端口類2.網絡通信中序列化和反序列化2進制數據3.Socket類4.TCP同步服務端和客戶端基礎實現4.1.服務端基本實現4.2.客戶端實現: 5.區分消息類型…

內網滲透技術 Docker逃逸技術(提權)研究 CSMSF

目錄 如何通過上傳的webshell判斷當前環境是否是物理環境還是Docker環境 方法一:檢查文件系統 方法二:查看進程 方法三:檢查網絡配置 方法四:檢查環境變量 方法五:檢查掛載點 總結 2. 如果是Docker環境&#x…

動態規劃:從暴力遞歸到多維優化的算法進化論(C++實現)

動態規劃:從暴力遞歸到多維優化的算法進化論 一、動態規劃的本質突破 動態規劃(Dynamic Programming)不是簡單的遞歸優化,而是計算思維范式的革命性轉變。其核心價值在于通過狀態定義和決策過程形式化,將指數復雜度問…

數據結構與算法-數據結構-樹狀數組

概念 樹狀數組,也叫二叉索引樹(Binary Indexed Tree,BIT),它是用數組來模擬樹形結構。樹狀數組的每個節點存儲的是數組中某一段的和(或其他可合并的信息),通過巧妙的索引方式和樹形…