【大模型:知識庫管理】--Dify接入RAGFlow 知識庫

ragflow的官方文檔：

HTTP API 接口 |抹布流 --- HTTP API | RAGFlow

接著前文，我們已經創建了知識庫，那么如何才能使用它呢？

當然也是通過網絡API的形式去調用它。本文將講解兩種方式：

Dify調用
python源碼調用

1.創建API-Key

2.DIfy接入ragflow

2.1.確定ragflow的域名

2.2. 確定IP地址

2.3.拼接完整域名

2.4.填寫信息

3.聊天測試

4.Python連接ragflow

4.1.知識庫管理

4.1.1.創建知識庫

4.1.2.刪除知識庫?

4.1.3.列出知識庫

4.1.4.更新知識庫

4.2.知識庫文件管理

4.2.1.上傳文件

4.2.2.更新文件?

4.2.3.下載文件

4.2.4.列出文件

4.2.5.刪除文件

4.2.6.解析文件

4.2.7.停止解析

1.創建API-Key

獲取ragflow知識庫ID：

2.DIfy接入ragflow

看看官網如何講解：External Knowledge API - Dify Docs

貌似找不出什么，因為這個節點肯定是由外部知識庫定義，只要遵循Dify的端點定義要求就行了，即：url路徑中要有一個/retrieval

2.1.確定ragflow的域名

接口是對外提供服務的，是后端服務，所以，他是ragflow-server提供的，我們可以看到，ragflow的容器中，ragflow-server是對外提供服務的，有兩種服務：

一個是web網頁端口的服務：默認是80端口，為了避免和dify端口沖突，我這里改為了8080端口，還有就是ssl端口443，我這里也改為了4434端口
另一個就是接口服務的端口：9380，這個就是我們的知識庫接口對外的服務端口，web前端通過接口提供的服務，與后端進行數據交互

?到這里，ragflow的外部知識庫接口前面的節點就確定了：http://{你的IP}:9380

2.2. 確定IP地址

由于我們的項目是通過docker啟動的，所以，統一使用 host.docker.internal:9380

這里解釋一下這個域名：

host.docker.internal 是Docker提供的一種方便的機制，用于在開發和測試環境中從容器訪問宿主機的服務。這個名稱在Docker Desktop for Windows和Docker Desktop for Mac上是可用的，它允許容器中的應用程序訪問宿主機上的服務和端口。

在不同的操作系統（如Windows和Mac）上，宿主機的IP地址可能會有所不同.host.docker.internal 提供了一個統一的名稱，使得容器中的配置在不同平臺上保持一致。

2.3.拼接完整域名

按照前面一步步推理，理論上來說，一個完整的api節點應該完整了，但是這就夠了嗎？

我們看下官方文檔：

發現每個接口都有個公共前綴：/api/v1

這其實也是絕大多數后端服務的通行做法，加上前面我們拼接處的api節點，現在才算是完整的拼接出了api節點了：http://host.docker.internal:9380/api/v1/dify/retrieval

我們現在可以確定Dify中關于外部知識庫的節點定義了，如下圖：

http://host.docker.internal:9380/api/v1/difyhttp://host.docker.internal:9380/api/v1/dify

2.4.填寫信息

如果配置正確會顯示出來。然后鏈接：

填寫剛剛的外部知識庫 API

3.聊天測試

創建一個聊天助手測試一下知識庫，

4.Python連接ragflow

Python 應用程序接口 |抹布流 --- Python API | RAGFlow

先安裝所需要的包：

pip install ragflow-sdk?

4.1.知識庫管理

4.1.1.創建知識庫

RAGFlow.create_dataset(name: str,avatar: Optional[str] = None,description: Optional[str] = None,embedding_model: Optional[str] = "BAAI/bge-large-zh-v1.5@BAAI",permission: str = "me", chunk_method: str = "naive",pagerank: int = 0,parser_config: DataSet.ParserConfig = None
) -> DataSet

??參數??	??類型??	??說明??	??可選值/默認值??
??name?（必填）?	str	數據集的唯一名稱（最長128字符，不區分大小寫）	-
??avatar??	str	頭像的Base64編碼	默認：`None`
??description??	str	數據集的簡要描述	默認：`None`
??permission??	str	數據集訪問權限	`"me"`（默認，僅自己可管理），`"team"`（全體團隊成員可管理）
??chunk_method??	str	數據集內容的分塊方法	`"naive"`（默認常規分塊）、`"manual"`（手動）、`"qa"`（問答）、`"table"`（表格）、`"paper"`（論文）、`"book"`（書籍）、`"laws"`（法律）、`"presentation"`（演示文稿）、`"picture"`（圖片）、`"one"`（單塊）、`"email"`（郵件）、`"knowledge-graph"`（知識圖譜）
??pagerank??	int	數據集的PageRank值（影響排序權重）	默認：`0`
??parser_config??	dict	解析器配置（根據`chunk_method`動態變化）	詳見下方說明

??parser_config 詳細說明（按分塊方法）??

??chunk_method??	??parser_config 配置??
`"naive"`（常規）	`{"chunk_token_num":128, "delimiter":"\\n", "html4excel":False, "layout_recognize":True, "raptor":{"use_raptor":False}}`
`"qa"`（問答）	`{"raptor": {"use_raptor": False}}`
`"manual"`（手動）	同上
`"table"`（表格）	`None`
`"paper"`（論文）	同`"qa"`
`"book"`（書籍）	同`"qa"`
`"laws"`（法律）	同`"qa"`
`"picture"`（圖片）	`None`
`"presentation"`（演示）	同`"qa"`
`"one"`（單塊）	`None`
`"knowledge-graph"`（知識圖譜）	`{"chunk_token_num":128, "delimiter":"\\n", "entity_types":["organization","person","location","event","time"]}`
`"email"`（郵件）	`None`

簡單的例子：?

from ragflow_sdk import RAGFlowrag_object = RAGFlow(api_key="***", base_url="http://host.docker.internal:9380")
#創建知識庫
dataset = rag_object.create_dataset(name="gyp")

在ragflow網站可以查看到：?