前言
由于 deepseek 等大語言模型數據時效性問題,無法跟上現實世界信息的動態變化,企業內部信息更是無法理解,為了將 deepseek 應用到企業內部,之前有寫過通過聯網搜索、上傳文件、搭建知識等檢索增強生成(RAG)方式,現在繼續探討如何通過結合數據庫來實現問答。
一、準備環境
- ollama,用于在本地運行、部署和管理大型語言模型(LLMs)。
- deepseek 模型,本文用的 deepseek-r1:14b。
- langchain,大語言模型應用程序的開發框架,主要 python 實現。
- Mysql,這里建議單獨部署一個專門用來數據庫問答,避免影響生產環境。
二、開發思路
本文打算通過三張表,用戶基本信息表,公司/部門信息表,一個用戶與公司/部門關聯表,再結合 deepseek 根據用戶問答使用自然語言流暢問答,打造一個企業智能通訊錄。
- 使用 deepseek 生成可執行的 sql 語句,langchain 自帶了一些模塊,比如:
- create_sql_query_chain:基于用戶自然語言問題構建SQL查詢
- SQLDatabaseChain:使用鏈進行查詢、創建和執行來查詢SQL數據庫
- create_sql_agent:使用代理進行健壯和靈活的與SQL數據庫交互
發現還是不太理想,決定還是讓 deepseek 根據”表結構 + 提示詞 + 使用示例“來生成 sql 語句。
- 對生成的 sql 語句進行清洗,比如推理思考過程、markdown標簽、其他無關信息等,提取出可直接執行的純 sql 。
- 執行 sql 獲取結果,在讓 deepseek 根據”表結構 + 提示詞 + 執行的SQL + 執行結果",來回答。
三、代碼解讀
- 準備好用戶、組織架構方面的表,注意以下幾點:
- 去掉用不著的字段,防止干擾 deepseek 思考
- 去掉敏感字段,比如密碼、身份證
- 每個字段用自然語言添加注釋
- 有關聯關系的字段,注釋清楚
- 每張表用自然語言添加注釋
- 由于表結構后續還會用到,建議單獨放一個文件
新建一個文件 “table_schema”,寫入表結構信息,這是我準備的表:
- 用戶信息表
CREATE TABLE `uc_user` (`ID` varchar(192) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci NOT NULL COMMENT '主鍵,用戶ID',`USER_NAME` varchar(192) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '名稱',`ACCOUNT` varchar(192) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '賬號',`GENDER` varchar(96) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '性別 男:F-男 女:F-女',`EMAIL` varchar(192) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '郵箱',`PHONE` varchar(48) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '手機號碼',`ADDRSS` text CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci COMMENT '地址',`CREATE_DATE` datetime DEFAULT NULL COMMENT '創建時間',`MODIFY_DATE` datetime DEFAULT NULL COMMENT '修改時間',`STATUS` varchar(6) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '狀態 1:正常 0:禁用',`REMARK` text CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci COMMENT '備注',`CREATE_ID` varchar(64) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '創建人id,用戶表主鍵',`into_date` varchar(50) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '入職日期',PRIMARY KEY (`ID`) USING BTREE,KEY `idx_user_name` (`USER_NAME`) USING BTREE,KEY `idx_account` (`ACCOUNT`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb3 COMMENT='用戶信息表';- 公司/部門信息表
CREATE TABLE `uc_organization` (`ID` varchar(192) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci NOT NULL COMMENT '主鍵',`ORG_CODE` varchar(60) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '部門編碼',`ORG_NAME` text CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci COMMENT '部門或公司名稱',`PARENT_ORG_ID` text CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci COMMENT '上級部門/公司ID,公司/部門信息表主鍵',`ORG_PATH_NAME` text CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci COMMENT '組織架構全路徑',`SORT` int DEFAULT NULL COMMENT '排序號',`ORG_TYPE` varchar(150) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '組織類型:0.根組 1.分公司 2.子公司 3.部門',`CREATE_ID` varchar(192) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '創建人ID,用戶表的主鍵',`CREATE_DATE` datetime DEFAULT NULL COMMENT '創建時間',`MODIFY_ID` varchar(192) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '修改人ID,用戶表的主鍵',`MODIFY_DATE` datetime DEFAULT NULL COMMENT '修改時間',`STATE` varchar(10) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT '狀態 1:正常 0:禁止',`ADDR` text CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci COMMENT '詳細地址',PRIMARY KEY (`ID`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb3 COMMENT='公司/部門信息表';- 用戶和部門/公司關聯表
CREATE TABLE `uc_user_app_relation` (`USER_ID` varchar(192) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '用戶ID,用戶表的主鍵',`STATUS` varchar(6) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci NOT NULL COMMENT '狀態 1:正常 0:禁用',`COMPANY_ID` varchar(192) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '公司ID,組織和公司表的主鍵',`ORG_ID` varchar(192) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '部門ID,組織和公司表的主鍵',`CREATE_DATE` datetime DEFAULT NULL COMMENT '創建時間',`MODIFY_DATE` datetime DEFAULT NULL COMMENT '修改時間',`CREATE_ID` varchar(192) CHARACTER SET utf8mb3 COLLATE utf8mb3_general_ci DEFAULT NULL COMMENT '創建人ID',KEY `idx_user_id` (`USER_ID`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb3 COMMENT='用戶和部門/公司關聯表';
這里的表稍微有點復雜,主要在 uc_organization 表,即有公司又有部門,還有上下級關系,所以接下來寫系統提示詞。
- 假如不知道怎么寫系統提示詞的,可以去 deepseek 官網看示例,然后慢慢調整。
官網:https://api-docs.deepseek.com/zh-cn/prompt-library/
提示詞:
### 你是一個的 MYSQL 專家給定輸入問題,根據提供的表結構信息,將自然語言查詢需求轉換為準確且可執行的SQL語句。**表結構信息**{table_schema}## 查詢需求
1. 用清晰的自然語言描述查詢需求,包括:
- 需要獲取的數據字段
- 篩選條件
- 排序要求
- 聚合需求(如求和/計數/平均值等)
- 多表關聯需求
2. 生成智能模糊查詢,包括:
- 輸入參數:`[用戶輸入的簡稱片段]`
- 匹配字段:`[目標字段名]`
- 預期效果:智能匹配包含輸入詞素及其變體的全稱
- 特殊要求:`[分詞處理/同義詞擴展/優先級排序]`## 約束條件
- 嚴格基于提供的表結構生成
- 優先使用標準SQL語法
- 不準捏造字段
- 不要列出系統字段,如主鍵、創建日期、修改日期等
- 每張表查詢都要帶上正常狀態!!!不管單表還是多表查詢,特別多表查詢主表也要加上正常狀態!!!
- 使用規范的SQL格式:關鍵字大寫、適當縮進、使用表別名時保持一致性、避免使用*選擇所有列
- 必須直接輸出SQL語句,不要其他內容,不要分步驟列出
- 只能生成SELECT查詢語句### 不準捏造表和字段!!!
### 主表一定要加上狀態查詢!!!
這里踩的坑有點多,比如:
- 每張表都有狀態字段,都需要帶上這個查詢條件,類似的很多系統也有軟刪除 is_deleted 字段,要著重強調
- 我們習慣性的會問公司簡稱,需要加上模糊搜索
- 有時候 deepseek 會捏造字段,也要特別注意
到這里 deepseek 對于單表生成 sql 還可以,但是多表查詢,特別表結構又復雜,需要引導 deepseek 如何生成,這就體現了參考示例的作用,寫幾個稍微復雜的 sql 查詢示例讓 deepseek 理解,如下:
- 查詢某個用戶信息
SELECT u.USER_NAME AS 姓名,u.ACCOUNT AS 賬號,u.GENDER AS 性別,u.EMAIL AS 郵箱,u.PHONE AS 手機號碼,u.ADDRSS AS 地址,u.into_date AS 入職日期,o.ORG_NAME AS 公司名稱,d.ORG_NAME AS 部門名稱
FROM uc_user u
LEFT JOIN uc_user_app_relation r ON u.ID = r.USER_ID AND r.STATUS = '1'
LEFT JOIN uc_organization o ON r.COMPANY_ID = o.ID
LEFT JOIN uc_organization d ON r.ORG_ID = d.ID
WHERE u.USER_NAME = '某某某';
GROUP BY u.ID;
- 查詢某個公司下面人員清單
SELECT u.USER_NAME AS 姓名,u.ACCOUNT AS 賬號,u.GENDER AS 性別,u.EMAIL AS 郵箱,u.PHONE AS 手機號碼,u.ADDRSS AS 地址,u.into_date AS 入職日期,o.ORG_NAME AS 部門名稱,c.ORG_NAME AS 公司名稱
FROM uc_user u
LEFT JOIN uc_user_app_relation r ON u.ID = r.USER_ID
LEFT JOIN uc_organization o ON r.ORG_ID = o.ID
LEFT JOIN uc_organization c ON r.COMPANY_ID = c.ID
WHERE u.STATUS = '1' AND r.STATUS = '1' AND o.STATE = '1' AND c.STATE = '1' AND c.ORG_NAME LIKE '%某某公司%'
- 查詢某個公司某個部門下面的人員清單
SELECT u.USER_NAME AS 姓名,u.ACCOUNT AS 賬號,u.GENDER AS 性別,u.EMAIL AS 郵箱,u.PHONE AS 手機號碼,u.ADDRSS AS 地址,u.into_date AS 入職日期,o.ORG_NAME AS 部門名稱,c.ORG_NAME AS 公司名稱
FROM uc_user u
LEFT JOIN uc_user_app_relation r ON u.ID = r.USER_ID
LEFT JOIN uc_organization o ON r.ORG_ID = o.ID
LEFT JOIN uc_organization c ON r.COMPANY_ID = c.ID
WHERE u.STATUS = '1' AND r.STATUS = '1' AND o.STATE = '1' AND c.STATE = '1' AND c.ORG_NAME LIKE '%某某公司%' AND o.ORG_NAME LIKE '%某某部門%'
- 某某公司的子公司清單
SELECT c.ORG_NAME AS 公司名稱,p.ORG_NAME AS 上級公司名稱,c.ORG_PATH_NAME AS 組織架構全路徑
FROM uc_organization c
LEFT JOIN uc_organization p ON c.PARENT_ORG_ID = p.ID
WHERE c.STATE = '1' AND p.STATE = '1' AND c.ORG_TYPE < 3 AND p.ORG_NAME LIKE '%某某公司%'
ORDER BY c.ORG_PATH_NAME;
- 某某公司的部門清單
SELECT c.ORG_NAME AS 部門名稱,p.ORG_NAME AS 上級部門名稱,c.ORG_PATH_NAME AS 組織架構全路徑
FROM uc_organization c
LEFT JOIN uc_organization p ON c.PARENT_ORG_ID = p.ID
WHERE c.STATE = '1' AND p.STATE = '1' AND c.ORG_TYPE = 3 AND p.ORG_NAME LIKE '%某某公司%'
ORDER BY c.ORG_PATH_NAME;
直接將參考示例放到提示詞下面就好了(代碼有 ```sql 標簽貼出格式就亂了,大家自己搞一下)
- deepseek 生成的內容帶了推理過程和標簽,直接用正則過濾一下。
代碼:
def extract_sql_blocks(text):# 使用正則表達式匹配非貪婪模式,并包含換行符pattern = r'```sql(.*?)```'matches = re.findall(pattern, text, re.DOTALL)# 去除每個匹配項兩端的空白字符return [match.strip() for match in matches]def remove_think_tags(text):"""移除文本中<think>標簽及其內容"""pattern = re.compile(r'<think>.*?</think>', re.DOTALL) # 非貪婪匹配 + 跨行匹配return pattern.sub('', text)
過濾之前:
過濾之后:
4. 執行 sql 獲取查詢結果
mysql_uri = "mysql+mysqlconnector://test:123456@127.0.0.1:3306/test"
db = SQLDatabase.from_uri(mysql_uri)
query_result = db.run(query_sql)
- 將表結構、提示詞、執行sql、返回結果全都給 deepseek 回答,提示詞模板如下:
**指令**
你是一個數據庫專家,根據表結構、查詢sql、查詢結果,回答用戶問題,如果查詢結果為空,直接回復”暫未找到您要的信息“。**數據庫表結構**
{query_tables}**查詢sql**
{query_sql}**查詢結果**
{query_result}## 要求:
1. 用自然語言總結查詢結果,回答用戶的問題,不允許在回答中添加編造成分,回答請使用中文。
2. 字段請用中文描述,沒有中文注釋的不返回。
代碼:
def start_chat_mysql(query, model):# 根據自定義提示詞寫出SQL語句response = create_query_sql(query)# 過濾推理和無關信息,只保留可執行的SQLsqls = extract_sql_blocks(remove_think_tags(response))query_sql = sqls[0]# print(query_sql)# 初始化數據庫連接db = SQLDatabase.from_uri(mysql_uri)# 執行查詢query_result = db.run(query_sql)# 初始化LLM和鏈llm = get_chat_llm(model)prompt = get_answer_prompt()chain = prompt | llmwith open("table_schema", "r", encoding="utf-8") as file:table_schema = file.read()response = chain.invoke({"query_tables": table_schema,"query_sql": query_sql,"query_result": query_result,"input": query})return response
沒有找到的時候,deepseek 回答:
找到的時候, deepseek 回答:
完整代碼私信要吧~ 這里貼出來格式沖突不太好看