深入探索 Vanna：讓數據庫交互更智能

在數字化時代，與數據庫進行高效交互是許多開發者、數據分析師和企業面臨的挑戰。傳統的 SQL 查詢編寫不僅需要對數據庫結構有深入的了解，還需要花費大量的時間和精力來調試和優化。Vanna，一個基于 Python 的開源工具，通過結合檢索增強（Retrieval Augmentation）和大型語言模型（LLM），為這一問題提供了一個創新的解決方案。本文將深入探討 Vanna 的工作原理、安裝、配置、使用方法以及如何將其集成到 Flask 應用中，幫助你更高效地生成 SQL 查詢并執行。

一、Vanna 工作原理

（一）核心概念

Vanna 的核心在于利用檢索增強（Retrieval Augmentation）和大型語言模型（LLM）來生成準確的 SQL 查詢。它的工作流程分為兩個主要步驟：訓練和提問。

訓練階段：在這個階段，Vanna 會根據你提供的數據（如數據庫的 DDL 語句、文檔或 SQL 查詢）構建一個參考語料庫。這個語料庫為后續的查詢生成提供了上下文信息。Vanna 使用檢索增強技術，通過檢索語料庫中的相關信息，幫助語言模型更好地理解問題的上下文，從而生成更準確的 SQL 查詢。
提問階段：在這個階段，你可以用自然語言提出問題，Vanna 會利用參考語料庫生成相應的 SQL 查詢語句，這些查詢可以直接在你的數據庫上執行。

（二）工作流程

Vanna 的工作流程可以通過以下圖示來更直觀地理解：

Vanna 工作流程

數據輸入：首先，你需要向 Vanna 提供數據庫的結構信息（如 DDL 語句）、業務邏輯文檔或示例 SQL 查詢。這些數據將被存儲在參考語料庫中。
語料庫構建：Vanna 會解析這些輸入數據，構建一個結構化的語料庫。這個語料庫包含了數據庫的表結構、字段信息、業務邏輯等關鍵信息。
自然語言問題：當你用自然語言提出問題時，Vanna 會通過檢索增強技術從語料庫中檢索相關信息，幫助語言模型理解問題的上下文。
SQL 查詢生成：基于檢索到的信息，Vanna 的語言模型會生成相應的 SQL 查詢語句。
查詢執行：生成的 SQL 查詢可以直接在你的數據庫上執行，返回結果。

二、安裝 Vanna

（一）環境準備

在安裝 Vanna 之前，確保你的開發環境已經安裝了以下工具：

Python（推薦版本 3.8 及以上）
pip（Python 包管理器）

（二）安裝步驟

打開終端或命令行工具，運行以下命令安裝 Vanna：

pip install vanna

確保網絡連接正常，以便能夠從 PyPI 倉庫下載并安裝 Vanna 包。安裝完成后，可以通過以下命令驗證安裝是否成功：

python -c "import vanna; print(vanna.__version__)"

如果安裝成功，你將看到 Vanna 的版本號。

三、初始化 Vanna

（一）選擇向量數據庫和語言模型

Vanna 支持多種向量數據庫和語言模型。在本文中，我們將使用 ChromaDB 作為向量數據庫，使用 OpenAI 的語言模型。以下是初始化代碼的詳細說明：

from vanna.openai.openai_chat import OpenAI_Chat
from vanna.chromadb.chromadb_vector import ChromaDB_VectorStoreclass MyVanna(ChromaDB_VectorStore, OpenAI_Chat):def __init__(self, config=None):ChromaDB_VectorStore.__init__(self, config=config)OpenAI_Chat.__init__(self, config=config)vn = MyVanna(config={'api_key': 'your_api_key', 'model': 'gpt-3.5-turbo'})

導入模塊：首先，導入 OpenAI_Chat 和 ChromaDB_VectorStore 模塊。OpenAI_Chat 用于與 OpenAI 的語言模型進行交互，ChromaDB_VectorStore 用于管理向量數據庫。
定義自定義類：定義一個名為 MyVanna 的類，繼承自 ChromaDB_VectorStore 和 OpenAI_Chat。這樣，MyVanna 類就具備了向量數據庫和語言模型的功能。
初始化方法：在 MyVanna 類的 __init__ 方法中，分別調用父類的初始化方法，并傳遞配置參數。
配置參數：在初始化 MyVanna 對象時，提供一個配置字典，其中包含 OpenAI API 的密鑰和所使用的模型名稱。api_key 是你的 OpenAI API 密鑰，model 是你選擇的語言模型（如 gpt-3.5-turbo）。

（二）配置參數說明

api_key：這是你的 OpenAI API 密鑰，用于訪問 OpenAI 的語言模型。你可以在 OpenAI 的官方網站上創建一個賬戶并獲取你的 API 密鑰。
model：這是你選擇的語言模型。Vanna 支持多種 OpenAI 模型，如 gpt-3.5-turbo、gpt-4 等。不同的模型在性能和成本上有所不同，你可以根據需求選擇合適的模型。

四、連接數據庫

（一）支持的數據庫類型

Vanna 支持多種類型的數據庫，包括 SQLite 和 MySQL。以下是連接到 SQLite 和 MySQL 數據庫的詳細步驟：

（二）連接到 SQLite 數據庫

SQLite 是一種輕量級的數據庫，適合小型項目和開發環境。以下是連接到 SQLite 數據庫的代碼示例：

vn.connect_to_sqlite('path_to_your_sqlite_db')

將 'path_to_your_sqlite_db' 替換為你的 SQLite 數據庫文件的實際路徑。例如，如果你的數據庫文件名為 example.db，并且位于當前目錄下，代碼應如下所示：

vn.connect_to_sqlite('example.db')

（三）連接到 MySQL 數據庫

MySQL 是一種廣泛使用的數據庫管理系統，適合大型項目和生產環境。以下是連接到 MySQL 數據庫的代碼示例：

vn.connect_to_mysql(host='localhost', dbname='your_db_name', user='your_username', password='your_password', port=3306)

在連接 MySQL 數據庫時，需要提供以下參數：

host：數據庫服務器的主機地址。如果是本地數據庫，通常為 'localhost'。
dbname：數據庫的名稱。
user：數據庫的用戶名。
password：數據庫的密碼。
port：數據庫服務器的端口號。MySQL 的默認端口號為 3306。

例如，如果你的數據庫服務器運行在本地，數據庫名稱為 mydatabase，用戶名為 root，密碼為 password，代碼應如下所示：

vn.connect_to_mysql(host='localhost', dbname='mydatabase', user='root', password='password', port=3306)

五、訓練 Vanna

（一）訓練的重要性

訓練是 Vanna 工作流程中的關鍵步驟。通過訓練，Vanna 可以學習到數據庫的結構和業務邏輯，從而生成更準確的 SQL 查詢。Vanna 提供了多種訓練方式，包括使用 DDL 語句、文檔和 SQL 查詢進行訓練。

（二）使用 DDL 語句進行訓練

DDL（Data Definition Language）語句用于定義數據庫的結構。通過使用 DDL 語句訓練 Vanna，你可以讓 Vanna 了解數據庫表的結構，包括字段名稱、數據類型和約束等信息。以下是使用 DDL 語句訓練 Vanna 的代碼示例：

vn.train(ddl="""
CREATE TABLE `goods` (`id` int(10) unsigned NOT NULL AUTO_INCREMENT,`name` varchar(150) NOT NULL,`cate_name` varchar(40) NOT NULL,`brand_name` varchar(40) NOT NULL,`price` decimal(10,3) NOT NULL DEFAULT '0.000',`is_show` bit(1) NOT NULL DEFAULT b'1',`is_saleoff` bit(1) NOT NULL DEFAULT b'0',PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=22 DEFAULT CHARSET=utf8;
""")

在這個示例中，我們定義了一個名為 goods 的表，包含了商品的 ID、名稱、分類名稱、品牌名稱、價格、是否顯示和是否促銷等字段。

（三）使用文檔進行訓練

除了 DDL 語句，你還可以通過文檔向 Vanna 介紹數據庫中的業務邏輯。文檔可以包含表的字段描述、字段值的范圍、業務規則等信息。以下是使用文檔訓練 Vanna 的代碼示例：

vn.train(documentation="""
goods表中的字段cate_name為電腦類型，包括：筆記本、游戲本、超極本、平板電腦、臺式機、服務器/工作站、筆記本配件。
goods表中的字段brand_name為品牌名字，包括：華碩、聯想、索尼、戴爾、蘋果等。
goods表中的字段name為電子產品具體型號，例如：ipad air 9.7英寸平板電腦。
""")

在這個示例中，我們通過文檔向 Vanna 介紹了 goods 表中字段的業務邏輯，包括 cate_name、brand_name 和 name 字段的具體含義和可能的值。

（四）使用 SQL 查詢進行訓練

你還可以直接使用 SQL 查詢語句對 Vanna 進行訓練。通過這種方式，Vanna 可以學習到特定的查詢模式和業務邏輯。以下是使用 SQL 查詢進行訓練的代碼示例：

vn.train(sql="SELECT AVG(price) AS avg_price FROM goods WHERE brand_name = '華碩' AND cate_name = '筆記本';")

在這個示例中，我們通過一個 SQL 查詢語句，讓 Vanna 學習如何計算華碩品牌筆記本的平均價格。

（五）訓練方法總結

vn.train(ddl=...)：使用 DDL 語句訓練 Vanna，讓其了解數據庫表的結構。
vn.train(documentation=...)：使用文檔訓練 Vanna，向其介紹數據庫中的業務邏輯。
vn.train(sql=...)：使用 SQL 查詢語句訓練 Vanna，讓其學習特定的查詢模式和業務邏輯。

通過多種訓練方法，你可以讓 Vanna 全面了解你的數據庫結構和業務邏輯，從而生成更準確的 SQL 查詢。

六、使用 Vanna 提問

（一）提問流程

訓練完成后，你就可以使用自然語言向 Vanna 提問了。Vanna 會根據之前訓練過程中學到的信息，生成相應的 SQL 查詢語句，并返回結果。以下是提問的代碼示例：

vn.ask("華碩品牌的筆記本的平均價格是多少?")

在這個示例中，我們用自然語言提出了一個問題，Vanna 會生成相應的 SQL 查詢語句，并返回結果。

（二）提問示例

以下是一些常見的提問示例及其生成的 SQL 查詢語句：

查詢平均價格

問題：華碩品牌的筆記本的平均價格是多少？

生成的 SQL 查詢：

SELECT AVG(price) AS avg_price FROM goods WHERE brand_name = '華碩' AND cate_name = '筆記本';

查詢特定品牌的產品數量

問題：聯想品牌的筆記本有多少種？

生成的 SQL 查詢：

SELECT COUNT(*) AS num_products FROM goods WHERE brand_name = '聯想' AND cate_name = '筆記本';

查詢特定價格范圍內的產品
- 問題：價格在 5000 到 10000 元之間的筆記本有哪些？
- 生成的 SQL 查詢：
```
SELECT * FROM goods WHERE cate_name = '筆記本' AND price BETWEEN 5000 AND 10000;
```
查詢特定品牌和分類的產品
- 問題：蘋果品牌的平板電腦有哪些？
- 生成的 SQL 查詢：
```
SELECT * FROM goods WHERE brand_name = '蘋果' AND cate_name = '平板電腦';
```

（三）提問技巧

明確問題：盡量使用簡潔明了的語言表達問題，避免模糊或歧義。
提供上下文：如果問題涉及特定的業務邏輯或數據范圍，可以在問題中明確說明。
逐步提問：對于復雜的問題，可以先提出簡單的問題，逐步細化和擴展。

七、將 Vanna 集成到 Flask 應用中

（一）Flask 應用的優勢

Flask 是一個輕量級的 Python Web 框架，適合快速開發和部署 Web 應用。將 Vanna 集成到 Flask 應用中，可以方便地在 Web 環境中使用 Vanna，提供一個用戶友好的界面，讓非技術用戶也能輕松地與數據庫進行交互。

（二）集成步驟

以下是將 Vanna 集成到 Flask 應用中的詳細步驟：

安裝 Flask
如果你還沒有安裝 Flask，可以通過以下命令安裝：
```
pip install flask
```

創建 Flask 應用
創建一個 Flask 應用，并將 Vanna 集成到其中。以下是完整的代碼示例：

from flask import Flask, request, render_template_string
from vanna.flask import VannaFlaskAppapp = Flask(__name__)# 初始化 Vanna
vn = MyVanna(config={'api_key': 'your_api_key', 'model': 'gpt-3.5-turbo'})# 連接到數據庫
vn.connect_to_mysql(host='localhost', dbname='mydatabase', user='root', password='password', port=3306)# 訓練 Vanna
vn.train(ddl="""
CREATE TABLE `goods` (`id` int(10) unsigned NOT NULL AUTO_INCREMENT,`name` varchar(150) NOT NULL,`cate_name` varchar(40) NOT NULL,`brand_name` varchar(40) NOT NULL,`price` decimal(10,3) NOT NULL DEFAULT '0.000',`is_show` bit(1) NOT NULL DEFAULT b'1',`is_saleoff` bit(1) NOT NULL DEFAULT b'0',PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=22 DEFAULT CHARSET=utf8;
""")
vn.train(documentation="""
goods表中的字段cate_name為電腦類型，包括：筆記本、游戲本、超極本、平板電腦、臺式機、服務器/工作站、筆記本配件。
goods表中的字段brand_name為品牌名字，包括：華碩、聯想、索尼、戴爾、蘋果等。
goods表中的字段name為電子產品具體型號，例如：ipad air 9.7英寸平板電腦。
""")# 創建 VannaFlaskApp 實例
vanna_app = VannaFlaskApp(vn)# 定義路由
@app.route('/', methods=['GET', 'POST'])
def index():if request.method == 'POST':question = request.form['question']response = vanna_app.ask(question)return render_template_string('''<form method="post"><label for="question">問題：</label><input type="text" id="question" name="question" value="{{ question }}"><button type="submit">提交</button></form><h2>結果：</h2><p>{{ response }}</p>''', question=question, response=response)return render_template_string('''<form method="post"><label for="question">問題：</label><input type="text" id="question" name="question"><button type="submit">提交</button></form>''')if __name__ == '__main__':app.run(debug=True)