以下當前比較知名的RAG的文檔解析輔助工具的開源項目匯總,包含核心功能、License信息及GitHub地址:
1.?RAGFlow
- 核心功能:支持PDF/掃描件/CAD等23種格式解析,OCR準確率98%,知識圖譜融合,混合檢索(BM25+向量),工業級部署,單節點日處理超10萬頁文檔。
- 開源信息:
- GitHub:GitHub - infiniflow/ragflow: RAGFlow is an open-source RAG (Retrieval-Augmented Generation) engine based on deep document understanding.
- License:Apache-2.0
2.?Chonkie
- 核心功能:提供5種文本切分方式(Token/Word/Sentence/Semantic/SDPM),支持自定義分塊策略,適配LangChain/LlamaIndex等框架。
- 開源信息:
- GitHub:https://github.com/bhavnicksm/chonkie
- License:未明確標注,但代碼庫公開可訪問。
3.?VARAG
- 核心功能:多模態RAG實踐平臺,支持OCR文本檢索、視覺信息檢索、跨模態嵌入(如JinaCLIP),適用于復雜布局文檔(如信息圖表)。
- 開源信息:
- GitHub:GitHub - adithya-s-k/VARAG: Vision-Augmented Retrieval and Generation (VARAG) - Vision first RAG Engine
- License:未明確標注。
4.?Kotaemon
- 核心功能:基于RAG的文檔問答工具,支持多模態解析、混合檢索、復雜推理(如多跳問題),提供Web-UI界面及高亮引用。
- 開源信息:
- GitHub:GitHub - Cinnamon/kotaemon: An open-source RAG-based tool for chatting with your documents.
- License:未明確標注。
5.?Haystack
- 核心功能:模塊化框架,支持文檔檢索、問答、摘要,集成Elasticsearch/FAISS/SQL存儲及BERT/RoBERTa等模型。
- 開源信息:
- GitHub:GitHub - deepset-ai/haystack: AI orchestration framework to build customizable, production-ready LLM applications. Connect components (models, vector DBs, file converters) to pipelines or agents that can interact with your data. With advanced retrieval methods, it's best suited for building RAG, question answering, semantic search or conversational agent chatbots.
- License:Apache-2.0
6.?txtai
- 核心功能:AI驅動的數據平臺,支持語義搜索、多語言處理、自定義工作流,覆蓋文本/圖像/視頻聯合檢索。
- 開源信息:
- GitHub:GitHub - neuml/txtai: 💡 All-in-one open-source AI framework for semantic search, LLM orchestration and language model workflows
- License:Apache-2.0
7.?QAnything
- 核心功能:網易開源項目,支持文檔解析、多模態問答,但具體技術細節需參考代碼庫。
- 開源信息:
- GitHub:GitHub - netease-youdao/QAnything: Question and Answer based on Anything.
- License:未明確標注。
8.?ragflow-upload
- 核心功能:RAGFlow的輔助工具,支持批量上傳/解析文檔,簡化知識庫構建流程。
- 開源信息:
- GitHub:GitHub - Samge0/ragflow-upload: 自動批量上傳并解析文檔至 RagFlow 知識庫,省去手動操作,提升效率。
- License:MIT
9.?UnstructuredPaddleOCR
- 核心功能:基于PaddlePaddle的OCR工具包,支持80+語言文本識別,適用于PDF/Word等文檔提取。
- 開源信息:
- GitHub:GitHub - Unstructured-IO/unstructured.PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices)
- License:未明確標注,但工具包開源可商用。
選型建議:
- 企業級部署:優先選擇?RAGFlow(Apache-2.0)或?Haystack(Apache-2.0),功能全面且支持工業級負載。
- 輕量級使用:Chonkie?適合文本切分,txtai?適合語義搜索,ragflow-upload?簡化批量操作。
- 多模態場景:VARAG?或?Kotaemon?支持跨模態檢索,但需注意License兼容性。