RAGFlow 學習筆記

RAGFlow 學習筆記

  • 0. 引言
  • 1. RAGFlow 支持的文檔格式
  • 2. 嵌入模型選擇后不再允許改變
  • 3. 干預文件解析?
  • 4. RAGFlow 與其他 RAG 產品有何不同? ?
  • 5. RAGFlow 支持哪些語言? ?
  • 6. 哪些嵌入模型可以本地部署? ?
  • 7. 為什么RAGFlow解析文檔的時間比LangChain要長? ?
  • 8. 為什么RAGFlow比其他項目需要更多的資源? ?
  • 9. RAGFlow 支持哪些架構或設備? ?
  • 10. 可以通過URL分享對話嗎? ?
  • 11. 為什么我的 pdf 解析在接近完成時停止,而日志沒有顯示任何錯誤? ?
  • 12. 為什么我無法將 10MB 以上的文件上傳到本地部署的 RAGFlow? ?
  • 13. 如何增加RAGFlow響應的長度? ?
  • 14. Empty response(空響應)是什么意思?怎么設置呢? ?
  • 15. 如何配置 RAGFlow 以 100% 匹配的結果進行響應,而不是利用 LLM? ?

0. 引言

這篇文章記錄一下學習 RAGFlow 是一些筆記,方便以后自己查看和回憶。

1. RAGFlow 支持的文檔格式

RAGFlow 支持的文件格式包括文檔(PDF、DOC、DOCX、TXT、MD)、表格(CSV、XLSX、XLS)、圖片(JPEG、JPG、PNG、TIF、GIF)和幻燈片(PPT、PPTX)。

2. 嵌入模型選擇后不再允許改變

一旦您選擇了嵌入模型并使用它來解析文件,您就不再允許更改它。明顯的原因是我們必須確保特定知識庫中的所有文件都使用相同的嵌入模型進行解析(確保它們在相同的嵌入空間中進行比較)。

3. 干預文件解析?

RAGFlow 具有可見性和可解釋性,允許您查看分塊結果并在必要時進行干預。

4. RAGFlow 與其他 RAG 產品有何不同? ?

盡管 LLMs 顯著推進了自然語言處理 (NLP),但“垃圾進垃圾出”的現狀仍然沒有改變。為此,RAGFlow 引入了與其他檢索增強生成 (RAG) 產品相比的兩個獨特功能。

  • 細粒度文檔解析:文檔解析涉及圖片和表格,您可以根據需要靈活干預。
  • 可追蹤的答案,減少幻覺:您可以信任 RAGFlow 的答案,因為您可以查看支持它們的引文和參考文獻。

5. RAGFlow 支持哪些語言? ?

目前有英文、簡體中文、繁體中文。

6. 哪些嵌入模型可以本地部署? ?

  • BAAI/bge-large-zh-v1.5
  • BAAI/bge-base-en-v1.5
  • BAAI/bge-large-en-v1.5
  • BAAI/bge-small-en-v1.5
  • BAAI/bge-small-zh-v1.5
  • jinaai/jina-embeddings-v2-base-en
  • jinaai/jina-embeddings-v2-small-en
  • nomic-ai/nomic-embed-text-v1.5
  • sentence-transformers/all-MiniLM-L6-v2
  • maidalun1020/bce-embedding-base_v1

7. 為什么RAGFlow解析文檔的時間比LangChain要長? ?

RAGFlow 使用了視覺模型,在布局分析、表格結構識別和 OCR(光學字符識別)等文檔預處理任務中投入了大量精力。這會增加所需的額外時間。

8. 為什么RAGFlow比其他項目需要更多的資源? ?

RAGFlow 有許多用于文檔結構解析的內置模型,這些模型占用了額外的計算資源。

9. RAGFlow 支持哪些架構或設備? ?

目前,我們僅支持 x86 CPU 和 Nvidia GPU。

10. 可以通過URL分享對話嗎? ?

是的,此功能現已可用。

11. 為什么我的 pdf 解析在接近完成時停止,而日志沒有顯示任何錯誤? ?

如果您的 RAGFlow 部署在本地,則解析進程可能會因 RAM 不足而被終止。嘗試通過增加 docker/.env 中的 MEM_LIMIT 值來增加內存分配。

12. 為什么我無法將 10MB 以上的文件上傳到本地部署的 RAGFlow? ?

您可能忘記更新 MAX_CONTENT_LENGTH 環境變量:

將環境變量 MAX_CONTENT_LENGTH 添加到 ragflow/docker/.env

MAX_CONTENT_LENGTH=100000000

更新 docker-compose.yml:

environment:- MAX_CONTENT_LENGTH=${MAX_CONTENT_LENGTH}

重新啟動 RAGFlow 服務器:

docker compose up ragflow -d

現在您應該能夠上傳大小小于 100MB 的文件。

13. 如何增加RAGFlow響應的長度? ?

右鍵單擊所需的對話框以顯示“Chat Configuration(聊天配置)”窗口。

切換到Model Setting(模型設置)選項卡并調整Max Tokens(最大令牌)滑塊以獲得所需的長度。

單擊“確定”確認您的更改。

14. Empty response(空響應)是什么意思?怎么設置呢? ?

如果從您的知識庫中未檢索到任何內容,則您可以將系統的響應限制為您在“Empty response(空響應)”中指定的內容。如果您沒有在空響應中指定任何內容,您就可以讓您的 LLM 即興創作,給它一個產生幻覺的機會。

15. 如何配置 RAGFlow 以 100% 匹配的結果進行響應,而不是利用 LLM? ?

單擊頁面中間頂部的知識庫。
右鍵單擊所需的知識庫以顯示配置對話框。
選擇“Q&A(問答)”作為塊方法,然后單擊“保存”以確認您的更改。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/24575.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/24575.shtml
英文地址,請注明出處:http://en.pswp.cn/web/24575.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

自動化裝箱封箱解決方案:深度探討其優勢及故障處理技巧

在當今這個快節奏、高效率的時代,自動化裝箱封箱解決方案以其獨特的優勢,正逐漸成為物流、倉儲等行業的新寵。它不僅能大幅提升作業效率,還能顯著降低人工成本,減少人為錯誤。星派將深度探討自動化裝箱封箱技術的顯著優勢&#xf…

【Vue】練習-mutations的減法功能

文章目錄 一、需求二、完整代碼 一、需求 步驟 二、完整代碼 Son1.vue <template><div class"box"><h2>Son1 子組件</h2>從vuex中獲取的值: <label>{{ $store.state.count }}</label><br><button click"handleA…

C# 界面控件中英切換

編程軟件:VS 2015 需求:界面有兩個按鈕&#xff0c;點擊可以將界面上所有控件進行不同語言的切換。 一共兩種方案&#xff0c;個人認為第二種方案使用范圍更廣&#xff08;這里以中英文切換為例&#xff09;。 方案一:如圖所示&#xff0c;建立兩個資源文件 將所需控件的中英…

海思SS928(SD3403)部署YOLOv5-YOLOv7步驟詳解

1. YOLO模型資料 本文檔內容以yolov5-7.0工程、yolov5s模型為例。 a. 模型結構 詳細的模型結構可以利用netron工具打開.pt或.onnx模型查看。 b. 模型參數即驗證結果 其中,YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x為五種類型的預訓練模型,其包含的檢測類別相…

利用Pandas進行數據清洗與過濾:Python實戰指南

利用Pandas進行數據清洗與過濾&#xff1a;Python實戰指南 作為一個Python愛好者和數據分析從業者&#xff0c;我一直在探索如何利用Python來更高效地處理和分析數據。Python語言以其簡單易學、功能強大的特點&#xff0c;成為了數據分析領域的寵兒。本文將分享一些實用的Pyth…

2024 cicsn ezbuf

文章目錄 參考protobuf逆向學習復原結構思路exp 參考 https://www.y4ng.cn/posts/pwn/protobuf/#ciscn-2024-ezbuf protobuf 當時壓根不知道用了protobuf這個玩意&#xff0c;提取工具也沒提取出來&#xff0c;還是做題做太少了&#xff0c;很多關鍵性的結構都沒看出來是pro…

android 異屏同顯---學習筆記

實現 Android 異屏同顯(多個屏幕顯示同樣的畫面)可以通過多種方法來完成,具體實現方式會根據你的需求和設備的支持情況有所不同。以下是幾種常見的方法: 方法 1:使用 Cast SDK 如果你想要將內容投屏到智能電視或其他支持 Cast 的設備上,可以使用 Google Cast SDK。 主…

Unity 集成 FMOD 音頻管理插件 2.02

Unity 集成 FMOD 音頻管理插件 2.02 3. 集成教程&#xff1a;3.1 設置Unity項目3.2 設置FMOD項目3.3 設置 FMOD for Unity3.4 添加聲音&#xff1a;卡丁車引擎3.5 添加聲音&#xff1a;氛圍3.6 添加聲音&#xff1a;音樂3.7 刪除現有音頻3.8 下一步 10. 腳本 API 參考10.1 基礎…

Java鎖的四種狀態(無鎖、偏向級鎖、輕量級鎖、重量級鎖)

介紹 首先&#xff0c;我們需要明確一點&#xff1a;偏向級鎖、輕量級鎖、重量級鎖只針對synchronized 鎖的狀態總共有四種&#xff0c;級別由低到高依次為&#xff1a;無鎖、偏向鎖、輕量級鎖、重量級鎖。 這四種鎖狀態分別代表什么&#xff0c;為什么會有鎖升級&#xff…

在UI界面中實現3d人物展示

簡要原理(設置雙攝像機): 為需要展示的3D人物單獨設置一個攝像機(只設置為渲染人物層級),主要攝像機的方向與人物方向一致,但攝像機需要需要旋轉180,設置的角度自行進行微調創建一個Render Texture類型的組件用于存儲攝像機渲染的內容UI上設置需要展示的圖片區域,圖片…

遍歷目錄

自學python如何成為大佬(目錄):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 遍歷在漢語中的意思是全部走遍&#xff0c;到處周游。在Python中&#xff0c;遍歷是將指定的目錄下的全部目錄&#xff08;包括子目錄&#xff09;及…

聰明人社交的基本順序:千萬別搞反了,越早明白越好

聰明人社交的基本順序&#xff1a;千萬別搞反了&#xff0c;越早明白越好 國學文化 德魯克博雅管理 2024-03-27 17:00 作者&#xff1a;方小格 來源&#xff1a;國學文化&#xff08;gxwh001&#xff09; 導語 比一個好的圈子更重要的&#xff0c;是自己優質的能力。 唐詩宋…

【重學C語言】十九、SDL2 圖形化編程的使用

【重學C語言】十九、SDL2 圖形化編程的使用 SDL2 的第一個程序渲染器紋理渲染1. 紋理的概念2. 加載紋理3. 渲染紋理4. 紋理設置和查詢5. 紋理渲染流程6. 注意事項SDL2_imageSDL2 的第一個程序 #define SDL_MAIN_HANDLED #include <SDL.h>int main(int argc, char* argv[…

AH股高開低走,創業板跌超2%,寧德時代下挫6%,微盤股指數反彈超5%

創業板跌2%&#xff0c;權重股寧德時代跌近6%&#xff1b;地產、光刻機概念股逆勢大漲&#xff1b;券商股午后集體下跌&#xff0c;天風證券一度跌停。微盤股指數經歷連跌后早盤反彈超5%。 內容提要 周五&#xff0c;A股高開后回落&#xff0c;午盤震蕩回升。截至收盤&#x…

python-Bert(谷歌非官方產品)模型基礎筆記0.1.096

python-bert模型基礎筆記0.1.015 TODOLIST官網中的微調樣例代碼Bert模型的微調限制Bert的適合的場景Bert多語言和中文模型Bert模型兩大類官方建議模型Bert模型中名字的含義Bert模型包含的文件Bert系列模型參數介紹微調與遷移學習區別Bert微調的方式Pre-training和Fine-tuning區…

Python可視化 | 使用matplotlib繪制面積圖示例

面積圖是數據可視化中的一個有效工具&#xff0c;用于說明時間上的關系和趨勢。它們提供了一種全面的、視覺上迷人的方法&#xff0c;通過熟練地將折線圖的可讀性與填充區域的吸引力相結合來呈現數值數據。 在本文中&#xff0c;我們將學習更多關于在Python中創建面積折線圖的…

【python】python指南(二):命令行參數解析器ArgumentParser

一、引言 對于算法工程師來說&#xff0c;語言從來都不是關鍵&#xff0c;關鍵是快速學習以及解決問題的能力。大學的時候參加ACM/ICPC一直使用的是C語言&#xff0c;實習的時候做一個算法策略后臺用的是php&#xff0c;畢業后做策略算法開發&#xff0c;因為要用spark&#x…

24考研408大變化,25考研高分上岸規劃+應對策略

巧了&#xff0c;我有現成的經驗&#xff1a; 數學和專業課的成績都不高不低&#xff0c;剛好夠用&#xff0c;其實408想上岸&#xff0c;不僅僅要學好408&#xff0c;還要學好考研數學&#xff0c;這是我的肺腑之言&#xff0c;我復試的時候&#xff0c;我知道的那些沒有進復試…

高通SDX12:Voice Over USB 功能調試

一、功能概述及使用環境 Linux PC 作為上位機,內置 SLIC基于高通 SDX12 平臺的設備作為從設備,通過USB連接到 Linux PC 上,在 PC 上枚舉 UAC 設備從設備進行 MO/MT Call 時,上位機使用 arecord 進行錄音,音頻數據通過 USB 傳至上位機,上位機停止錄音后再使用 aplay 進行播…

vue element 接口返回數據與控制臺打印數據不一致 踩坑

問題描述&#xff1a; 接口返回數據正常&#xff0c;&#xff0c;控制臺打印不對&#xff0c;element el-switch表格中使用&#xff0c;控制臺打印數據被改變 如下正常數據 數據id 17狀態是0 控制臺打印狀態卻是1 造成原因&#xff1a; element el-seitch組件修改了狀態 修…