使用本地部署的 LLaMA 3 模型進行中文對話生成

以下程序調用本地部署的 LLaMA3 模型進行多輪對話生成,通過 Hugging Face Transformers API 加載、預處理、生成并輸出最終回答。

  • 程序用的是 Chat 模型格式(如 LLaMA3 Instruct 模型),遵循 ChatML 模板,并使用 apply_chat_template 正確構造 prompt。

首先執行下面這個python腳本下載大模型到本地(下載到本地的具體路徑通過cache_dir參數指定)。

#模型下載
from modelscope import snapshot_download
model_dir = snapshot_download('LLM-Research/Llama-3.2-1B-Instruct', cache_dir="/root/autodl-tmp/llm")

然后,加載下載好的本地大模型,執行后續操作

from transformers import AutoModelForCausalLM, AutoTokenizerDEVICE = "cuda"# 加載本地模型路徑為該模型配置文件所在的根目錄
model_dir = "/root/autodl-tmp/llm/LLM-Research/Llama-3___2-1B-Instruct"
# 使用transformer加載模型
model = AutoModelForCausalLM.from_pretrained(model_dir, torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_dir)# 調用模型
# 定義提示詞
prompt = "你好,你叫什么名字?你是由誰創造的?"
# 將提示詞封裝為message
messages = [{"role": "system", "content": "You are a helpful assistant system"},{"role": "user", "content": prompt}]
# 使用分詞器的apply_chat_template方法將messages轉換為chat引擎可以接受的信息
# tokenize=False表示此時不進行令牌化
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)print("--------------")
print(text)
print("--------------")# 將處理后的文本令牌化并轉換為模型的輸入張量
model_inputs = tokenizer([text], return_tensors="pt").to(DEVICE)
# 輸入模型得到輸出
generated = model.generate(model_inputs.input_ids, max_new_tokens=512)
print(generated)# 對輸出的內容進行解碼還原
response = tokenizer.batch_decode(generated, skip_special_tokens=True)
print(response)
root@autodl-container-38c543b634-d7f7c9f4:~/autodl-tmp/demo_10# python llama3.2_test.py 
--------------
<|begin_of_text|><|start_header_id|>system<|end_header_id|>Cutting Knowledge Date: December 2023
Today Date: 12 May 2025You are a helpful assistant system<|eot_id|><|start_header_id|>user<|end_header_id|>你好,你叫什么名字?你是由誰創造的?<|eot_id|><|start_header_id|>assistant<|end_header_id|>--------------
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
tensor([[128000, 128000, 128006,   9125, 128007,    271,  38766,   1303,  33025,2696,     25,   6790,    220,   2366,     18,    198,  15724,   2696,25,    220,    717,   3297,    220,   2366,     20,    271,   2675,527,    264,  11190,  18328,   1887, 128009, 128006,    882, 128007,271,  57668,  53901, 104660, 105424, 101879, 119395,  11571,  57668,21043,  68171, 112471, 104251,  67178,   9554,  11571, 128009, 128006,78191, 128007,    271,  37046,  21043,  16197,  44689,  15836,  18328,3922, 113230,  13372,  18184,    445,  81101,   1811,     43,  81101,55951,  16197,  44689,  48044,  27384, 121790,   9554, 109683, 120074,55642, 123123,   3922,  68438,  38129,  43240,  87502,  41007,  37507,111478,  34208,  23226,  42399,   1811, 128009]], device='cuda:0')
['system\n\nCutting Knowledge Date: December 2023\nToday Date: 12 May 2025\n\nYou are a helpful assistant systemuser\n\n你好,你叫什么名字?你是由誰創造的?assistant\n\n我是 Meta 的AI assistant,目前名為 Llama。Llama 是 Meta 的一個大規模的自然語言處理模型,通過使用多種方法來學習和改進。']

這段程序的目的是:使用本地部署的 LLaMA 3 模型進行多輪中文對話生成,主要包括模型加載、輸入構造、文本生成和輸出解析四個核心部分。

程序一開始導入了必要的模塊,并設置計算設備為 "cuda",也就是使用 GPU 來加速模型推理。接著,它指定了模型所在的本地目錄路徑 model_dir,這個目錄中應該包含 Hugging Face 格式的模型權重和配置文件。程序通過 AutoModelForCausalLM.from_pretrained 來加載模型,并指定了 torch_dtype="auto"device_map="auto",這讓 transformers 自動選擇合適的數據精度(比如 float16)并智能將模型加載到可用的 GPU 上(需要安裝 accelerate 庫)。同時,AutoTokenizer 也從該路徑中加載對應的分詞器,它會把人類語言轉換成模型可以理解的 token ID。

接下來,程序準備了一條用戶輸入:你好,你叫什么名字?你是由誰創造的?。為了構建標準的聊天輸入,程序創建了一個 messages 列表,其中包含一個 "system" 信息(設定助手角色),以及一條 "user" 提問。這種格式是 Chat 模型(如 LLaMA3 Instruct)所支持的,類似于 ChatGPT 的對話格式。之后,通過 tokenizer.apply_chat_template 方法將這組消息轉換為模型能夠理解的 純文本格式。這個方法的參數中,tokenize=False 表示暫時不轉換為 token ID,而 add_generation_prompt=True 會在文本結尾添加生成提示符,引導模型開始生成回答。

完成 prompt 構造后,程序使用分詞器將文本轉換為 token ID,并用 return_tensors="pt" 表示返回 PyTorch 張量,隨后將其 .to(DEVICE) 移到 GPU 上,準備作為模型輸入。然后調用 model.generate 方法,讓模型基于輸入生成回復。這里設置了 max_new_tokens=512,即最多生成 512 個 token 的新內容。

模型生成的是一串 token ID,因此最后一步需要用分詞器進行反解碼。tokenizer.batch_decode 方法會將生成的 token 序列還原為人類可讀的自然語言文本,skip_special_tokens=True 參數會去除控制符號。程序最后將生成的回復打印出來,實現了從用戶提問到模型生成回答的完整過程。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/80485.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/80485.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/80485.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Oracle19c中的全局臨時表

應用程序通常使用某種形式的臨時數據存儲來處理過于復雜而無法一次性完成的流程。通常&#xff0c;這些臨時存儲被定義為數據庫表或 PL/SQL 表。從 Oracle 8i 開始&#xff0c;可以使用全局臨時表將臨時表的維護和管理委托給服務器。 一、臨時表分類 Oracle 支持兩種類型的臨…

Windows 安裝 Milvus

說明 操作系統&#xff1a;Window 中間件&#xff1a;docker desktop Milvus&#xff1a;Milvus Standalone&#xff08;單機版&#xff09; 安裝 docker desktop 參考&#xff1a;Window、CentOs、Ubuntu 安裝 docker-CSDN博客 安裝 Milvus 參考鏈接&#xff1a;Run Mil…

24、DeepSeek-V3論文筆記

DeepSeek-V3論文筆記 **一、概述****二、核心架構與創新技術**0.匯總&#xff1a;1. **基礎架構**2. **創新策略** 1.DeepSeekMoE無輔助損失負載均衡DeepSeekMoE基礎架構無輔助損失負載均衡互補序列級輔助損失 2.多令牌預測&#xff08;MTP&#xff09;1.概念2、原理2.1BPD2.2M…

1.8 梯度

&#xff08;知識體系演進邏輯樹&#xff09; 一元導數&#xff08;1.5&#xff09; │ ├─→ 多元偏導數&#xff08;1.6核心突破&#xff09; │ │ │ └─解決&#xff1a;多變量耦合時的單變量影響分析 │ │ │ ├─幾何&#xff1a;坐標軸切片切線斜率…

274、H指數

題目 給你一個整數數組 citations &#xff0c;其中 citations[i] 表示研究者的第 i 篇論文被引用的次數。計算并返回該研究者的 h 指數。 根據維基百科上 h 指數的定義&#xff1a;h 代表“高引用次數” &#xff0c;一名科研人員的 h 指數 是指他&#xff08;她&#xff09…

【C++11】異常

前言 上文我們學習到了C11中類的新功能【C11】類的新功能-CSDN博客 本文我們來學習C下一個新語法&#xff1a;異常 1.異常的概念 異常的處理機制允許程序在運行時就出現的問題進行相應的處理。異常可以使得我們將問題的發現和問題的解決分開&#xff0c;程序的一部分負…

Linux基礎命令之目錄管理——了解各種操作文件目錄的命令,萬字教學,超詳細!!!(1)

文章目錄 前言1、Linux文件系統1.1 核心特點1.2 重要目錄結構1.3 文件類型1.4 文件和目錄的命名規則1.5 文件與目錄的定位方式 2、查看目錄或文件的詳細信息&#xff08;ls&#xff09;2.1 基本語法2.2 常用操作2.3 高級用法 3、切換目錄&#xff08;cd&#xff09;3.1 常用操作…

在線caj轉換word

CAJ格式是中國知網特有的一種文獻格式&#xff0c;在學術研究等領域廣泛使用&#xff0c;但有時我們需要將其轉換為Word格式&#xff0c;方便編輯、引用文獻。本文分享如何輕松將CAJ轉換為word的轉換工具&#xff0c;提高閱讀和辦公效率。 如何將CAJ轉換WORD? 1、使用CAJ轉換…

【現代深度學習技術】注意力機制05:多頭注意力

【作者主頁】Francek Chen 【專欄介紹】 ? ? ?PyTorch深度學習 ? ? ? 深度學習 (DL, Deep Learning) 特指基于深層神經網絡模型和方法的機器學習。它是在統計機器學習、人工神經網絡等算法模型基礎上&#xff0c;結合當代大數據和大算力的發展而發展出來的。深度學習最重…

SpringBoot 集成滑塊驗證碼AJ-Captcha行為驗證碼 Redis分布式 接口限流 防爬蟲

介紹 滑塊驗證碼比傳統的字符驗證碼更加直觀和用戶友好&#xff0c;能夠很好防止爬蟲獲取數據。 AJ-Captcha行為驗證碼&#xff0c;包含滑動拼圖、文字點選兩種方式&#xff0c;UI支持彈出和嵌入兩種方式。后端提供Java實現&#xff0c;前端提供了php、angular、html、vue、u…

邊緣網關(邊緣計算)

邊緣網關是邊緣計算架構中的關鍵組件&#xff0c;充當連接終端設備&#xff08;如傳感器、IoT設備&#xff09;與云端或核心網絡的橋梁。它在數據源頭附近進行實時處理、分析和過濾&#xff0c;顯著提升效率并降低延遲。 核心功能 協議轉換 ○ 支持多種通信協議&#xff08;如…

OpenCV定位地板上的書

任務目標是將下面的圖片中的書本找出來&#xff1a; 使用到的技術包括&#xff1a;轉灰度圖、提取顏色分量、二值化、形態學、輪廓提取等。 我們嘗試先把圖片轉為灰度圖&#xff0c;然后二值化&#xff0c;看看效果&#xff1a; 可以看到&#xff0c;二值化后&#xff0c;書的…

機器學習第一講:機器學習本質:讓機器通過數據自動尋找規律

機器學習第一講&#xff1a;機器學習本質&#xff1a;讓機器通過數據自動尋找規律 資料取自《零基礎學機器學習》。 查看總目錄&#xff1a;學習大綱 關于DeepSeek本地部署指南可以看下我之前寫的文章&#xff1a;DeepSeek R1本地與線上滿血版部署&#xff1a;超詳細手把手指…

修改圖像分辨率

在這個教程中&#xff0c;您將學習如何使用Python和深度學習技術來調整圖像的分辨率。我們將從基礎的圖像處理技術開始&#xff0c;逐步深入到使用預訓練的深度學習模型進行圖像超分辨率處理。 一、常規修改方法 1. 安裝Pillow庫 首先&#xff0c;你需要確保你的Python環境中…

jsAPI

環境準備 1 安裝nvm nvm 即 (node version manager)&#xff0c;好處是方便切換 node.js 版本 安裝注意事項 要卸載掉現有的 nodejs提示選擇 nvm 和 nodejs 目錄時&#xff0c;一定要避免目錄中出現空格選用【以管理員身份運行】cmd 程序來執行 nvm 命令首次運行前設置好國…

SCDN是什么?

SCDN是安全內容分發網絡的簡稱&#xff0c;它在傳統內容分發網絡&#xff08;CDN&#xff09;的基礎上&#xff0c;集成了安全防護能力&#xff0c;旨在同時提升內容傳輸速度和網絡安全性。 SCDN的核心功能有&#xff1a; DDoS防御&#xff1a;識別并抵御大規模分布式拒絕服務…

Qt/C++開發監控GB28181系統/實時視頻預覽/視頻點播/rtp解包解碼顯示

一、前言 通過gb28181做實時視頻預覽&#xff0c;也就是視頻點播功能&#xff0c;是最重要的功能了&#xff0c;絕對是整個系統排第一重要的&#xff0c;這就是核心功能&#xff0c;什么設備注冊、獲取通道等都是為了實時預覽做準備的&#xff0c;當然這個功能也是最難的&…

找銀子 題解(c++)

題目 思路 首先&#xff0c;這道題乍一看&#xff0c;應該可以用搜索來做。 但是&#xff0c;搜索會不會超時間限制呢&#xff1f; 為了防止時間超限,我們可以換一種做法。 先創立兩個二維數組&#xff0c;一個是輸入的數組a&#xff0c;一個是數組b。 假設 i 行 j 列的數…

子集樹算法文檔

1.算法概述 子集樹是一種 回溯算法&#xff0c;用于生成一個集合的所有子集。給定一個數組 arr&#xff0c;該算法遞歸地遍歷所有可能的子集&#xff0c;并通過一個輔助數組 x 標記當前元素是否被選中。 2.算法特點 時間復雜度&#xff1a;O(2n)&#xff08;因為一個包含 n 個…

HTTP/1.1 host虛擬主機詳解

一、核心需求&#xff1a;為什么需要虛擬主機&#xff1f; 在互聯網上&#xff0c;我們常常希望在一臺物理服務器&#xff08;它通常只有一個公網 IP 地址&#xff09;上運行多個獨立的網站&#xff0c;每個網站都有自己獨特的域名&#xff08;例如 www.a-site.com?, www.b-s…