RAGFlow 各切分方法的含義如下,結合文檔結構、場景特點等設計,以適配不同類型的知識源:
1. General(通用分塊)
- 邏輯:結合文本排版、格式、語義關聯等因素確定分割點,再根據“建議文本塊大小(Token 數)”,將文本切分為合適的塊。
- 支持格式:DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML 等多格式。
- 過程:先用視覺檢測模型把連續文本分割成多個片段,再將片段合并成 Token 數不超過設定值的塊。
2. Q&A(問答分塊)
- 邏輯:專為“問答對”類數據設計,每行“問題 - 答案”作為獨立塊。
- 支持格式:Excel、CSV/TXT。
- Excel:需包含兩列(無標題),第一列是問題、第二列是答案。
- CSV/TXT:需用
UTF-8
編碼,且以 TAB 作為問題與答案的分隔符;不符合規則的行會被忽略。
3. Resume(簡歷分塊)
- 邏輯:不做“分塊”,而是將簡歷解析為結構化數據(如提取學歷、工作經歷等字段)。
- 支持格式:DOCX、PDF、TXT。
- 價值:方便 HR 等場景下,通過自然語言交互快速篩選符合條件的候選人。