概述
RagflowPlus
v0.4.0 在發布后,收到了積極的反饋,同時也包含一些問題。
本次進行一輪小版本更新,發布 v0.4.1 版本,對已知問題進行修復,并對部分功能進行進一步優化。
開源地址:https://github.com/zstar1003/ragflow-plus
更新方法
下載倉庫最新代碼:
git clone https://github.com/zstar1003/ragflow-plus.git
使用docker啟動:
# cpu模式
docker compose -f docker/docker-compose.yml up -d
# gpu模式
docker compose -f docker/docker-compose_gpu.yml up -d
首次啟動會自動拉取最新版本鏡像。
問題修復
1.修復解析excel文件時,依賴缺失的問題(issue#149)
2.修復解析pdf文件時,遇到空內容表格,出現異常的問題。
功能優化
1. 圖像顯示路徑優化
之前的版本中,將圖像的存儲路徑硬編碼為es屬性中,導致在局域網環境下訪問時,容易出現圖片不顯示的情況。
在本版本中,對每張圖片的協議、ip地址和在minio中的相對路徑進行解耦。
在es中,只存儲圖片的相對路徑地址,具體的訪問ip地址可通過docker/.env
中的MINIO_VISIT_HOST
變量進行控制。
通過這樣的修改,可使問答時,圖像穩定顯示。
2. 容器連接通路優化
由于對minio的訪問地址進行解耦,在后臺管理中進一步修改連接配置database.py
文件:
if is_running_in_docker():MYSQL_HOST = "mysql"MYSQL_PORT = 3306MINIO_HOST = "minio"MINIO_PORT = 9000ES_HOST = "es01"ES_PORT = 9200REDIS_HOST = "redis"REDIS_PORT = 6379
在docker環境中,直接通過服務名進行訪問,而不再像之前的版本那樣通過宿主機再間接訪問。
這樣修改,有效避免了用戶在上傳文件時,容易出現超時未響應的情況,連接速度更快更穩定。
3. 圖片插入位置優化
在之前的版本中,所有相關圖像會在問答末尾一并輸出。
本次對圖像輸出進行了改良,現在圖像會出現在第一個相關塊的引用位置,可在問答中間輸出。
4. 增加文檔撰寫模式的緩存
在文檔撰寫模塊中,新增了當前編輯文檔內容的自動保存功能。
通過瀏覽器自帶的Local storage
,實現對每間隔1s對內容進行無感保存。
切換標簽或刷新頁面后,之前編輯的內容依然存在,不會消失。
5. word導出支持自動圖片下載插入
在文檔撰寫模塊中,導出word文件時,會自動下載編輯區的圖像塊連接,實現圖片的自動下載插入。
6. Top N上限增加
在聊天配置中,有一個Top N
的選項,用來控制大模型能實際看到的前N個解析塊數量。
原始默認的Top N
上限為30,因為在每個塊內容較多的情況下,如果塞入大模型的參考內容過多,會超過模型的最大輸入上限。
考慮到部分用戶應用的內容查詢業務,每個塊的內容很少,查詢數量很多,因此增加Top N的上限為100,默認保持8不變。
問題反饋須知
當前的每輪版本更新都修改文件解析的邏輯,因此,讀者在試用反饋問題時,建議新建知識庫進行解析。
通過知識庫隔離,可防止不同版本的解析文件混雜在相同知識庫中,造成異常情況。
總結
此次更新后,在局域網服務器中進行了一輪測試,目前已基本能滿足個人應用場景的使用需求。
后續會將精力投入到大模型相關的基建拓展研究中,比如,embedding模型的效果如何評估,如何微調大模型。
之前定下的Ragflow-Plus的更新計劃將會暫緩推進,如果有開發經驗的讀者想繼續對此項目進行貢獻,歡迎提交PR。