8.1 prefix Tunning與Prompt Tunning模型微調方法

8.1 prefix Tunning與Prompt Tunning模型微調方法

diannao/2025/7/9 5:54:23/文章來源:https://blog.csdn.net/qq_28611929/article/details/149097777

1 prefix Tunning

鏈接：https://blog.csdn.net/m0_66890670/article/details/142942034 這里有基礎的細節介紹。我下面直接總結。

?連接2 ：https://zhuanlan.zhihu.com/p/1899112824342577371，簡單明了

prefix Tunning改變了什么呢？

? Prefix-Tuning 顯式擴展了 K/V 投影的尺寸；

? Prefix-Tuning 會初始化一個可訓練的參數矩陣（Pθ），其維度為 [prefix_length, hidden_dim]。在輸入階段，該前綴矩陣會與原始輸入的嵌入向量 直接拼接，形成 [PREFIX; X] 的結構。

inputs = torch.cat([prefix, input_ids], dim=1)  # 拼接前綴與原始輸入

計算流程：

參數高效性：僅需訓練前綴參數（5×768），凍結原始模型權重7。
注意力機制擴展：前綴通過修改K/V間接影響注意力分布，無需調整模型結構；

對于前綴于 X分別進行計算然后拼接。?

注意：

鏈接：https://blog.csdn.net/m0_66890670/article/details/142942034

2?Prompt Tuning

Prefix 與 prompt tunning 在注意力矩陣計算的二者的區別：

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/90204.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/90204.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/90204.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

FlashAttention 深入淺出

FlashAttention 深入淺出

一標準Attention的計算 1.1 標準Attention機制詳解標準Attention（注意力）機制是深度學習，尤其是在自然語言處理領域中一項革命性的技術，它允許模型在處理序列數據時，動態地將焦點放在輸入序列的不同部分，…

閱讀更多...

C/C++ inline-hook（x86）高級函數內聯鉤子

C/C++ inline-hook（x86）高級函數內聯鉤子

🧵 C/C inline-hook（x86）高級函數內聯鉤子引用： fetch-x86-64-asm-il-sizeC i386/AMD64平臺匯編指令對齊長度獲取實現 🧠 一、Inline Hook技術體系架構 Inline Hook是一種二進制指令劫持技術，通過修改目…

閱讀更多...

云服務器的安全防護指南：從基礎安全設置到高級威脅防御

云服務器的安全防護指南：從基礎安全設置到高級威脅防御

隨著云計算的廣泛應用，云服務器已成為企業和個人存儲數據、運行應用的重要基礎設施。然而，隨之而來的安全威脅也日益增多——從常見的網絡攻擊（如 DDoS、SQL 注入）到復雜的惡意軟件和零日漏洞，無一不考驗著系統的安全性…

閱讀更多...

狀態機管家：MeScroll 的交互秩序維護

狀態機管家：MeScroll 的交互秩序維護

一、核心架構設計與性能基石 MeScroll作為高性能滾動解決方案，其架構設計遵循"分層解耦、精準控制、多端適配"的原則，通過四大核心模塊實現流暢的滾動體驗： 事件控制層：精準捕獲觸摸行為，區分滾動方向與距…

閱讀更多...

數據出海的隱形冰山：企業如何避開跨境傳輸的“合規漩渦”？

數據出海的隱形冰山：企業如何避開跨境傳輸的“合規漩渦”？

首席數據官高鵬律師數字經濟團隊創作，AI輔助凌晨三點的寫字樓，某跨境電商的技術總監盯著屏幕上的報錯提示，指尖懸在鍵盤上遲遲沒落下。剛從新加坡服務器調取的用戶行為數據，在傳輸到國內分析系統時被攔截了——系統提示“不符合跨…

閱讀更多...

【Rust base64庫】Rust bas64編碼解碼詳細解析與應用實戰

【Rust base64庫】Rust bas64編碼解碼詳細解析與應用實戰

?? 歡迎大家來到景天科技苑?? ???? 養成好習慣，先贊后看哦~???? ?? 作者簡介：景天科技苑 ??《頭銜》：大廠架構師，華為云開發者社區專家博主，阿里云開發者社區專家博主，CSDN全棧領域優質創作者，掘金優秀博主，51CTO博客專家等。 ??《博客》：Rust開發…

閱讀更多...

如何利用AI大模型對已有創意進行評估，打造殺手級的廣告創意

如何利用AI大模型對已有創意進行評估，打造殺手級的廣告創意

摘要廣告創意是影響廣告效果的最重要的因素之一，但是如何評估和優化廣告創意，一直是一個難題。傳統的方法，如人工評審、A/B測試、點擊率等，都有各自的局限性和缺陷。本文將介紹一種新的方法，即利用人工智能大模型&am…

閱讀更多...

OSCP - HTB - Cicada

OSCP - HTB - Cicada

主要知識點 SMB 用戶爆破Backup Operator 組提權具體步驟 nmap掃描一下先，就像典型的windows 靶機一樣，開放了N多個端口 Nmap scan report for 10.10.11.35 Host is up (0.19s latency). Not shown: 65522 filtered tcp ports (no-response) PORT …

閱讀更多...

10046 解決 Oracle error

10046 解決 Oracle error

How to Offline a PDB Datafile in NOARCHIVELOG mode CDB which is not Open in Read Write (Doc ID 2240730.1)1. pdb 下的datafile 只能在pdb下操作，不能在cdb下操作For the purposes of this document, the following fictitious environment is used as an exa…

閱讀更多...

在HP暗影精靈Ubuntu20.04上修復IntelAX211Wi-Fi不可用的全過程記錄——系統安裝以后沒有WIFI圖標無法使用無線網

在HP暗影精靈Ubuntu20.04上修復IntelAX211Wi-Fi不可用的全過程記錄——系統安裝以后沒有WIFI圖標無法使用無線網

在 HP 暗影精靈 Ubuntu 20.04 上修復 Intel AX211 Wi-Fi 不可用的全過程記錄 2025 年 7 月初系統環境：HP OMEN（暗影精靈）筆記本?|?雙系統 Windows 11 & Ubuntu 20.04?|?內核 5.15 / 6.15 mainline 問題關鍵詞：Intel AX21…

閱讀更多...

Sql server 中關閉ID自增字段（SQL取消ID自動增長）

Sql server 中關閉ID自增字段（SQL取消ID自動增長）

sql server在導入數據的時候，有時候要考慮id不變，就要先取消自動增長再導入數據，導完后恢復自增。比如網站改版從舊數據庫導入新數據庫，數據庫結構不相同，可能會使用insert into xx select ..from yy的語句導入數據。…

閱讀更多...

Python實現文件夾中文件名與Excel中存在的文件名進行對比，并進行刪除操作

Python實現文件夾中文件名與Excel中存在的文件名進行對比，并進行刪除操作

以下python程序版本為Python3.13.01.請寫一個python程序，實現以下邏輯：從文件夾獲取所有文件名，與Excel中的fileName列進行對比，凡是不在該文件夾下的文件名，從Excel文檔中刪除后，并將Excel中fileName和fil…

閱讀更多...

廣告業務動態查詢架構設計：從數據建模到可視化呈現

廣告業務動態查詢架構設計：從數據建模到可視化呈現

在數字化營銷領域，廣告主每天面臨著海量數據帶來的分析挑戰：從賬戶整體投放效果，到分渠道、分地域的精細化運營，每一層級的數據洞察都需要靈活高效的查詢能力。我們的廣告業務動態查詢系統，正是為解決這類需求而生 &am…

閱讀更多...

pytorch、torchvision與python版本對應關系

pytorch、torchvision與python版本對應關系

pytorch、torchvision與python版本對應關系可以查看官網： https://github.com/pytorch/vision#installation

閱讀更多...

【機器學習筆記 Ⅲ】3 異常檢測算法

【機器學習筆記 Ⅲ】3 異常檢測算法

異常檢測算法（Anomaly Detection）詳解異常檢測是識別數據中顯著偏離正常模式的樣本（離群點）的技術，廣泛應用于欺詐檢測、故障診斷、網絡安全等領域。以下是系統化的解析：1. 異常類型類型描述示例點異常單個…

閱讀更多...

【ssh】在 Windows 上生成 SSH 公鑰并實現免密登錄 Linux

【ssh】在 Windows 上生成 SSH 公鑰并實現免密登錄 Linux

在 Windows 上生成 SSH 公鑰并實現免密登錄 Linux，可以使用 ssh-keygen 命令，這是 Windows 10 和 Windows 11 中默認包含的 OpenSSH 工具的一部分。下面是詳細步驟： 在 Windows 上生成 SSH 公鑰打開 PowerShell 或命令提示符： 在…

閱讀更多...

MS51224 一款 16 位、3MSPS、雙通道、同步采樣模數轉換器（ADC）

MS51224 一款 16 位、3MSPS、雙通道、同步采樣模數轉換器（ADC）

MS51224 是一款 16 位、3MSPS、雙通道、同步采樣模數轉換器（ADC），具有集成的內部參考和參考電壓緩沖器。芯片可由 5V 單電源供電，支持單極性和全差分模擬信號輸入，具有出色的直流和交流性能。芯片模擬輸入信號頻率高達…

閱讀更多...

WPF學習（四）

WPF學習（四）

文章目錄一、用戶控價1.1 依賴屬性的注冊1.2 具體使用一、用戶控價 1.1 依賴屬性的注冊 using System.Windows; using System.Windows.Controls;namespace WpfApp {public partial class MyUserControl : UserControl{// 依賴屬性：外部可綁定的文本public static …

閱讀更多...

vue3+typescript項目配置路徑別名@

vue3+typescript項目配置路徑別名@

1. vite.config.ts配置//方法1 import { defineConfig } from vite; import vue from vitejs/plugin-vue; import path from path;export default defineConfig({plugins: [vue()],resolve: {alias: {: path.resolve(__dirname, src)}} });//方法2,需要執行npm install -D type…

閱讀更多...

MySql 常用SQL語句、 SQL優化

MySql 常用SQL語句、 SQL優化

???????????????SQL語句主要分為哪幾類 SQL（結構化查詢語言）是用于管理和操作關系型數據庫的標準語言，其語句通常根據功能劃分為以下幾大類，每類包含不同的子句和命令，用于實現特定的數據庫操作需求&am…

閱讀更多...

最新文章