昇思學習營-【模型推理和性能優化】學習心得_20250730

一、權重的加載

模型包含兩部分:
base model 和 LoRA adapter
其中base model的權重在微調時被凍結,
推理時加載原權重即可,LoRA adapter可通過PeftModel.from_pretrained進行加載。

二、啟動推理

通過model.generate,啟動推理。

三、效果比較

“DeepSeek-R1”,而在加載LoRA adapter之后,回答為“甄嬛”。
在微調多輪后的LoRA權重,在加載LoRA adapter之后,回答為“甄嬛”

在generate_kwargs中添加 repetition_penalty=1.2減少重復文本輸出

四、性能測試

凡是在推理過程中涉及采樣(do_sample=True)的案例,可以通過配置如下變量,
注釋掉之前添加的同步模式代碼,再運行代碼,即可獲取每個token的推理時長和平均時長。
export INFERENCE_TIME_RECORD=True
此時,從終端的運??志可以看到,平均推理時間為0.727秒,
可通過禁用多線程將推理速度適當提升為平均單token推理時長0.674秒。

五、性能優化

通過上述禁用多線程的方式,可以適當減少平均單token的推理時長,但效果不明顯。
在此基礎上,還可以通過jit即時編譯的方式進一步加速
jit即時編譯通過jit修飾器修飾Python函數或者Python類的成員函數使其被編譯成計算圖,通過圖優化等技術提高運行速度。
jit修飾器應該修飾模型decode的函數,但由于原代碼將模型的logits計算、解碼等過程整體封裝成了一個
model.generate函數,不好進行優化,所以需要手動實現解碼邏輯。

六、實操

6.1 訪問云上Jupyter

6.1.1 點擊“打開Jupyter在線編程”

1.png

6.1.2 選擇如下紅框中的來運行起來:

2.png

6.1.3 進入后,選擇“應用實際”、“昇騰開發板”

3.png

6.1.4 進入后,選擇“deepdeek-r1-distill-qwen-1.5b-jit.ipynb**”并運行它

1.png

七、代碼的邏輯

7.1 每一步執行推理的時間都打印了出來,較之前有提升

2.png

7.2 運行結果

3.png

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/91050.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/91050.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/91050.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[AI8051U入門第十一步]W5500-服務端

學習目標: 1、連接TCP/IP 2、學習W5500作為服務端代碼一、TCP/IP介紹 TCP/IP 協議棧介紹 TCP/IP(Transmission Control Protocol / Internet Protocol)是互聯網通信的核心協議族,定義了數據如何在網絡中進行傳輸和路由。它由多個協議組成,采用分層架構,確保不同設備之間…

C 標準庫 <time.h> 函數詳解

目錄 概述 1 核心數據類型 1.1 time_t 1.2 clock_t 1.3 struct tm 1.4 size_t 2 核心函數 2.1 時間獲取函數 2.2 時間轉換函數 2.3 時間差計算 2.4 時間格式化函數 3 線程安全版本(POSIX 擴展) 3.1 函數列表 3.2 時間處理完整示例 4 重要…

基于BEKK-GARCH模型的參數估計、最大似然估計以及參數標準誤估計的MATLAB實現

基于BEKK-GARCH模型的參數估計、最大似然估計以及參數標準誤估計的MATLAB實現。BEKK-GARCH模型是一種多變量GARCH模型,用于估計多個時間序列的條件方差和協方差矩陣。 MATLAB實現BEKK-GARCH模型 1. 準備數據 假設你已經有一個時間序列數據矩陣 returns,每…

TDengine 中 TDgpt 用于異常檢測

介紹 TDgpt 內置時序數據異常檢測模型 TDengine 中定義了異常(狀態)窗口來提供異常檢測服務。異常窗口可以視為一種特殊的事件窗口(Event Window),即異常檢測算法確定的連續異常時間序列數據所在的時間窗口。與普通事件…

統計學08:概率分布

一、隨機變量隨機變量是一個將 隨機事件 映射到 數值 的數學函數,用于描述事件的結果。隨機變量可以是離散的(如骰子)或連續的(如人的身高、體重)。1)概率質量函數PMF——離散隨機變量P(X x) 對應于某個值…

vue3【組件封裝】消息反饋 S-msgWin.vue (針對父容器對齊,左右居中,可自定義頂部距離)

最終效果成功的提示報錯的提示代碼實現components/SUI/S-msgWin.vue <script lang"ts" setup> const props defineProps({msg: {type: Object,required: true,},top: {type: String,default: "50%",},duration: {type: Number,default: 3000,}, });…

MySQL 8.0.42創建MGR集群

MySQL 8.0.42創建MGR集群 概述 關于MySQL MGR集群的介紹就不在這里做詳細的介紹了&#xff0c;大家可以自己到官網上查看閱讀。在這里主要是實際操作方面的內容 總體結構設計如下圖服務器節點信息序號角色IP地址數據庫端口MGR端口1主節點192.168.56.1043309100612從節點192.168…

《Go Web編程實戰派--從入門到精通》的隨筆筆記

第二章 Go Web 開發基礎2.1第一個Go Web 程序package mainimport ("fmt""net/http" )func hello(w http.ResponseWriter, r *http.Request) {fmt.Fprintf(w, "Hello World") } func main() {server : &http.Server{Addr: "0.0.0.0:80&q…

MySQL在Linux環境下的性能調優

&#x1f4ca; MySQL性能基準測試&#xff1a;知己知彼建立性能基線的關鍵指標# 核心性能指標監控腳本 #!/bin/bash echo " MySQL Performance Baseline " mysql -e "SHOW GLOBAL STATUS LIKE Questions;" mysql -e "SHOW GLOBAL STATUS LIKE Uptime;…

PyQt事件處理機制深度指南:超越信號與槽的底層掌控

—— 5大核心策略實戰案例&#xff0c;解鎖GUI交互的底層密碼 &#x1f50d; 事件與信號槽的本質差異維度事件處理機制信號與槽機制抽象層級操作系統消息的原始封裝對事件的高級封裝應用場景控件行為定制/底層交互常規業務邏輯綁定執行順序先于信號槽觸發在事件處理完成后觸發性…

10_opencv_分離顏色通道、多通道圖像混合

split() 通道分離 void cv::split(const Mat & src,Mat * mvbegin ) merge() 通道合并 void cv::merge(InputArrayOfArrays mv,OutputArray dst ) Mat::at()方法 Mat::at()方法返回一個引用到指定的數組元素。 注意是引用&#xff0c;相當于兩者等價&#xff0c;也就是…

Kotlin的datetime庫

kotlinx 是一組不是 Kotlin 標準庫一部分&#xff0c;但非常實用的擴展項目集合。其中&#xff0c;kotlinx-datetime 是一個跨平臺的 Kotlin 時間日期處理庫。 如何在項目中使用該庫 Gradle 項目中 在 repositories 塊中添加 Maven Central 倉庫&#xff1a; repositories {…

基于模型蒸餾的大模型文案生成最佳實踐

背景 大語言模型在生成高質量文案方面表現優異&#xff0c;然而其巨大的計算資源消耗和存儲需求&#xff0c;使得實際應用尤其是在資源受限場景中的應用充滿挑戰。企業在尋求高效的文案生成時&#xff0c;常常面臨著在性能和資源之間權衡的困境。在這種背景下&#xff0c;模型…

調用通義千問大模型實現流式對話

前言 我使用的是硅基流動中通義千問免費的大模型&#xff1a;我的技術棧使用的 Next14.2 全棧框架。 代碼結構 需要使用的庫&#xff1a; npm i ai openai目錄結構&#xff1a; 基礎測試頁面 test-openai/page.tsx&#xff1a; use client;import { useChat } from ai/react;ex…

如何搭建Linux環境下的flink本地集群

第一步&#xff0c;搭建Linux環境 這里我使用的是 WSL2 安裝前&#xff0c;先用管理員打開終端&#xff0c;執行以下三條命令&#xff0c;目的是開啟安裝 WSL2所需要的環境 //開啟適用于windows的Linux子系統 dism.exe /online /enable-feature /featurename:Microsoft-Wind…

算法:鏈表part02:24. 兩兩交換鏈表中的節點 + 19. 刪除鏈表的倒數第 N 個結點 + 面試題 02.07. 鏈表相交

24. 兩兩交換鏈表中的節點題目&#xff1a;https://leetcode.cn/problems/swap-nodes-in-pairs/description/ 講解&#xff1a;https://programmercarl.com/0024.%E4%B8%A4%E4%B8%A4%E4%BA%A4%E6%8D%A2%E9%93%BE%E8%A1%A8%E4%B8%AD%E7%9A%84%E8%8A%82%E7%82%B9.html 復習可以先…

【Linux學習】(11)進程的概念

前言在上一章我們知道了什么是進程&#xff0c;并簡單了解了PCB。 本文我們將繼續深入學習進程概念相關知識點&#xff1a; 學習進程狀態&#xff0c;學會創建進程&#xff0c;掌握僵尸進程和孤兒進程&#xff0c;及其形成原因和危害了解進程調度&#xff0c;Linux進程優先級&a…

UniappDay04

1.登錄模塊-小程序快捷登錄定義接口&#xff0c;封裝 import { http } from /utils/httptype loginParams {code: stringencryptedData: stringiv: string } export const postLoginWxMinAPI (data: loginParams) > {return http({method: POST,url: /login/wxMin,data,})…

NPM/Yarn完全指南:前端開發的“基石“與“加速器“

開篇:當你第一次運行npm install時... "這node_modules文件夾怎么比我的項目代碼還大100倍?!" —— 每個前端新手第一次看到node_modules時的反應都出奇地一致。別擔心,今天我要帶你徹底搞懂這個讓項目"膨脹"的"罪魁禍首",以及如何用NPM/Y…

vue頁面自定義滾動條

效果圖實現思路 固定整個灰色滾動條的長度計算可滾動區域占整個可視視圖的比例&#xff0c;來確定橙色塊的長度監聽頁面滾動&#xff0c;計算橙色塊向右偏移距離 主要代碼 template&#xff1a; <div v-show"showBar" ref"barRef" class"scrollbar…