LoRA 問答微調與部署全流程：基于 LLaMA-Factory + DeepSeek + FastAPI 打造專屬大模型

想快速掌握大模型落地實戰？本文將手把手教你完成一個國產大模型的微調任務，并通過 FastAPI 向后端暴露接口。特別適合希望快速將大模型應用于實際業務的開發者。

📌 本文為《LoRA 應用實錄》系列第 3 篇，在第一篇里講解了LoRA在 NLP 與 CV 場景的高效微調方法全解析，你可以查看：

總覽篇：《LoRA 實戰指南：NLP 與 CV 場景的高效微調方法全解析》👉 點此閱讀
CV篇：《LoRA 圖像生成全流程實戰：從數據準備到模型上線，一文通透！》👉 點此閱讀

文章目錄

- 一、項目背景：企業為何需要微調大模型？
- 二、LoRA 微調原理：低成本高效微調
- 三、項目實操：分步指南
- - 3.1 技術棧選擇
  - 3.2 搭建環境：準備硬件資源
  - 3.3 模型下載與加載
  - 3.4：準備微調數據集
  - 3.5：開始訓練
  - 3.6 評估微調效果
  - 3.7：導出合并模型權重
- 四、部署模型 API（FastAPI）
- 五、前后端集成調用
- 六、優化建議
- 七、總結與推薦學習路徑

一、項目背景：企業為何需要微調大模型？

通用大模型在企業實際應用中，往往難以滿足定制化需求。微調可以有效解決以下問題：

增強私有知識理解：讓模型精準掌握企業專屬文檔或知識庫。。
垂直行業問答增強：提升模型在醫學、法律等專業領域的問答能力。
交互風格個性化：如二次元、客服話術等特定風格。
實時動態信息接入：使模型能夠及時響應公司最新活動等信息（可結合 RAG）。

建議：

如果有足夠數據，建議采用 SFT + RAG 聯合方案。
數據頻繁變更時優先考慮 RAG。
數據高質量、任務穩定，優先 LoRA 微調。

二、LoRA 微調原理：低成本高效微調

傳統全量微調需要修改模型的所有參數，成本高昂。LoRA（Low-Rank Adaptation）通過以下創新方式實現高效微調：

凍結原始模型權重，保持預訓練模型的知識。
引入低秩矩陣 A、B：僅訓練這兩個小矩陣，大幅減少參數量。
適合多任務快速切換：快速適應不同業務場景。

舉例說明：
假設原始參數矩陣是 100x100，總共 1 萬個參數。LoRA 用 100x2 和 2x100 兩個矩陣代替，只需訓練 400 個參數，效果卻能媲美全量微調！

三、項目實操：分步指南

3.1 技術棧選擇

模型：DeepSeek-R1-Distill-Qwen-1.5B（HuggingFace 獲取）
微調框架：LLaMA Factory（北航開源）

微調實現框架
LlamaFactory：
特點：目前國產最熱門的微調框架，由北航開源的低代碼大模型訓練框架。支持多種主流大語言模型和多種訓練方式（包括預訓練、指令監督微調等）。
優勢：使用非常簡單，可實現零代碼微調，適合入門和快速驗證。
場景選擇：對于追求快速原型開發和降低技術門檻的項目，
LlamaFactory是非常好的選擇。

Hugging Face Transformers Trainer：
特點： Hugging Face提供的高層API，適用于各種大模型任務的微調。提供標準化的流程和多種監控工具。
優勢：適合需要更多定制化場景，尤其在部署和生產環境中表現出色。
場景選擇：如果對微調過程需要更精細的控制，或已深度集成Hugging Face生態，Trainer是更專業的選擇。
微調算法：LoRA（支持 SFT）
API部署：FastAPI（?個基于 python 的 web 框架）
前端/后端：Vue3 + Spring Boot

3.2 搭建環境：準備硬件資源

租用帶 GPU 的云主機：推薦 AutoDL，選擇高性能 GPU（如 RTX 4090）和合適的 Python 鏡像（如 Python 3.10）。
遠程連接服務器：使用 Visual Studio Code 的 SSH Remote 插件，方便開發。
數據存儲：將所有數據存儲到數據盤，方便后續遷移和擴容。 Conda 虛擬環境：
創建 Conda 虛擬環境，安裝 LLaMA Factory 依賴。

3.3 模型下載與加載

從 HuggingFace 下載 DeepSeek 1.5B 模型
啟動 LLaMA Factory 可視化界面
測試模型：直接對話，確保模型加載成功。

3.4：準備微調數據集

準備 JSON 格式的數據集文件，包含 instruction（指令）、input（上下文，可選）和 output（期望的模型輸出）字段。

{"instruction": "ABC中臺 中的數據權限控制怎么設置？","input": "","output": "在 ABC中臺 中，您可以通過角色管理模塊設置數據訪問權限..."
}
{"instruction": "根據企業制度回答問題","input": "市場部出差超過3天需要誰審批？","output": "根據公司政策，出差超過3天需部門負責人和行政審批。"
}

數據存儲：將數據放入 data/ 文件夾。
注冊數據集：修改 dataset_info.json 文件，添加新數據集的配置信息，讓LlamaFactory 能夠找到并讀取。
界面選擇：在 LlamaFactory 頁面選擇微調算法 LoRA + 模型路徑 + 數據集。

3.5：開始訓練

設置關鍵參數：學習率、輪數、Batch Size、精度（float16）

學習率（Learning Rate）：決定模型每次更新權重改變的幅度。
訓練輪數（Epochs）：
訓練數據集被完整遍歷的次數。過少可能欠擬合，過多可能過擬合。
計算類型（Compute Type）：如Float32或Float16，平衡性能和精度。
截斷長度（Max Length）：處理長文本時的閾值，防止內存溢出和文本截斷。
批處理大小（Batch Size）：每次訓練處理的數據量，影響效率和穩定性。
梯度累積（Gradient Accumulation）：
通過多次計算累積梯度再更新參數，模擬更大Batch Size 。
評估方式（Eval Strategy）：
訓練集和驗證集的劃分比例（如80%訓練，20%驗證）。學習率調節器（Scheduler）：動態調整學習率。

支持 NoHub 后臺訓練（防止斷連）：在頁面或終端（推薦使用
nohup命令將任務放到后臺執行，并重定向日志到文件）啟動訓練過程。

3.6 評估微調效果

觀察 Loss 曲線：監控訓練過程中的損失曲線，判斷是否收斂。損失降低過慢可增大學習率；訓練結束時損失仍下降可增大訓練輪數。
交互測試：在 LlamaFactory 的 “Chat”交互頁面，加載微調后的檢查點路徑，再次提問（如“你是誰”），對比微調前后的回復，評估模型是否學到特定知識（例如回復變成了“我是ABC產品中臺機器人客服，可以幫助你解答問題、撰寫內容、分析數據、構思創意，或者一起頭腦風暴。”）。
優化迭代：如果效果不理想，可嘗試更換更強的預訓練模型、增加數據量、優化數據質量或調整參數重新訓練。

數據量和數據質量是影響微調效果最顯著的因素。

3.7：導出合并模型權重

因為 LoRA 只訓練 AB 兩個矩陣，所以需要與原始權重合并才能得到完整的微調模型。

# 指定導出路徑
python merge.py --adapter_model /path/to/adapter --output /path/to/merged_model

四、部署模型 API（FastAPI）

創建獨立 Conda 環境，安裝 Transformers、FastAPI 等依賴
編寫 main.py 腳本：

@app.get("/generate")
def generate(prompt: str):input = tokenizer(prompt, return_tensors="pt").to(device)output = model.generate(**input, max_length=150)return {"response": tokenizer.decode(output[0], skip_special_tokens=True)}

啟動服務：

uvicorn main:app --host 0.0.0.0 --port 8000

使用 Postman 或前端調用接口測試

五、前后端集成調用

后端通過 HTTP 請求調用接口
前端使用 Vue3 發送用戶輸入、接收模型回復
支持傳入用戶身份、歷史上下文，提升交互體驗

六、優化建議

問題	解決建議
模型過擬合	增加數據量或使用更強模型
響應不通順	優化數據質量，適當調整參數
推理延遲高	模型合并后可部署至 GPU 推理服務
接口安全問題	企業可通過網關轉發 + 鑒權保護