內容索引之word轉md工具 - markitdown

切分文檔構建RAG庫過程中,langchain、llamaindex更期望處理latex、md類帶有顯式結構文檔。

langchain、llamaindex切分word,有可能將段落中間截斷,導致切分后的塊語義不完整。

所以,需要先將word轉化為md格式,然后再進行切分構建RAG知識庫。

目前效果較好的word轉md工具,要么是需要付費的商業版,要么借助于LLM轉化,而LLM調用同樣需要付費。

微軟的word轉md的開源工具markitdown,可以達到類似效果,適合文檔分析和內容索引場景。

這里示例markitdown的下載和使用過程。

1 markitdown安裝

1)python環境構建

conda create -n markitdown python=3.12
conda activate markitdown

2)markitdown安裝

如果git clone失敗,可以直接從如下鏈接下載,然后pip安裝。

https://github.com/microsoft/markitdown/archive/refs/tags/v0.1.2.zip

git clone git@github.com:microsoft/markitdown.git
cd markitdown
pip install -e 'packages/markitdown[all]'

2 markidwon 示例

word文件轉md文件

markitdown test.docx > document.md

pdf文件轉md文件

markitdown test.pdf > pdf.md

整體看word轉pdf后能較好的保持文檔結構,pdf轉md會丟失文檔結構。

reference

---

markdidown

https://github.com/microsoft/markitdown

RAG向量化文檔分塊方式探索

https://blog.csdn.net/liliang199/article/details/149798215

借助于llm將pdf轉化為md文本

https://blog.csdn.net/liliang199/article/details/149808465

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/93048.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/93048.shtml
英文地址,請注明出處:http://en.pswp.cn/web/93048.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MaxKB+合合信息TextIn:通過API實現PDF掃描件的文檔審核

上海合合信息科技股份有限公司(以下簡稱為合合信息)是一家深耕人工智能、OCR(光學字符識別)及商業大數據技術領域的科技企業。該公司擁有領先的智能文字識別技術,其名片全能王(CamCard)、掃描全…

MyBatis 核心入門:從概念到實戰,一篇掌握簡單增刪改查

目錄 一、什么是 MyBatis?為什么要用它? 二、MyBatis 核心概念(通俗理解) 1.SqlSessionFactory 2.SqlSession 3.Mapper接口 4.映射文件(XML) 三、手把手搭建第一個 MyBatis 項目 1. 準備工作 2. 核心配置文…

數據結構初階(12)排序算法—插入排序(插入、希爾)(動圖演示)

2. 常見排序算法的實現2.0 十大排序算法2.1 插入排序 2.1.1 基本思想直接插入排序是一種簡單的插入排序法:基本思想把待排序的記錄按其關鍵碼值的大小逐個插入到一個已經排好序的有序序列中。直到所有的記錄插入完為止,得到一個新的有序序列 。 比 挪 (…

MySQL優化常用的幾個方法

本實例是對慢sql從2萬優化到5千優化方法的匯總。 首先貼上優化效果:1、更新數據時使用ID更新;2、"分頁/輪詢"查詢時先獲取符合數據要求主鍵的最大和最小ID,然后WHERE條件增加ID步增查詢;3、檢查SQL是否命中WHERE條件&am…

深入解析 AUTOSAR:汽車軟件開發的革命性架構

引言在汽車智能化、網聯化、電動化浪潮席卷全球的今天,汽車電子系統的復雜性與日俱增。傳統“煙囪式”的 ECU 開發模式(各供應商獨立開發軟硬件)帶來了巨大的兼容性、復用性和維護成本挑戰。AUTOSAR(AUTomotive Open System ARchi…

計算機視覺(opencv)實戰一——圖像本質、數字矩陣、RGB + 圖片基本操作(灰度、裁剪、替換等)

OpenCV 入門教程: OpenCV(Open Source Computer Vision Library)是一個開源的計算機視覺庫,廣泛應用于圖像處理、視頻分析、機器學習等領域。 在 Python 中,cv2 是 OpenCV 的主要接口模塊。本文將帶你一步步掌握 cv2…

《探索C++ set與multiset容器:深入有序唯一性集合的實現與應用》

前引:在STL的關聯式容器中,set以其嚴格的元素唯一性和自動排序特性成為處理有序數據的核心工具。其底層基于紅黑樹(Red-Black Tree)實現,保證了O(log n)的查找、插入與刪除復雜度!本文將從底層原理切入&…

各測試平臺功能對比分析(ITP,Postman,Apifox,MeterSphere)

對比ITP與Postman,Apifox,MeterSphere 功能特性ITPPostmanApifoxMeterSphere接口測試? 可視化接口調試,支持多種請求方式? 支持? 支持? 支持場景測試? 多接口串聯測試,支持前后置腳本? Collections功能? 支持? 支持定時任務? 基于Celery的定時…

開源日志log4cplus—如何將 string類型轉為tstring類型,又如何將char*類型轉換為tstring類型?

文章目錄🔧 一、理解 log4cplus::tstring 的本質?? 二、std::string 轉 tstring 的三種方法? 1. 使用內置宏 LOG4CPLUS_STRING_TO_TSTRING(推薦)? 2. 手動條件編譯轉換(精細控制)? 3. 多字節模式下的直接賦值??…

深度學習之CNN網絡簡介

CNN網絡簡單介紹 1.概述 卷積神經網絡(Convolutional Neural Network,CNN)是一種專門用于處理具有網格狀結構數據的深度學習模型。 ? CNN網絡主要有三部分構成:卷積層、池化層和全連接層構成,其中卷積層負責提取圖像中…

【微實驗】基頻提取的MATLAB實現(優化版)

前情提要: 【超詳細】科普:別再只會用自相關!YIN 和 PYIN 如何破解音頻隱藏密碼?-CSDN博客 【微實驗】媽媽我的MATLAB會識別聲音的基頻了!-CSDN博客 今天用MATLAB把算法封裝成函數,然后調用對比結果。 …

開發 npm 包【詳細教程】(含發布 npm 包,版本號升級,修改包后重新發布等)

1. 給 npm 包取個【唯一】的名字! npm 包命名規范 只能包含小寫字母(a-z)、數字(0-9)、連字符(-) 和 下劃線(_),不能包含空格、大寫字母、標點符號&#xff…

Secure 第三天作業

實驗需求:1.參考以上拓撲所示,完成以下需求:1) 配置各設備 IP 地址2) 配置 ZBFW,Inside-1 和 nside-2 屬于內部 Zone,Outside-1 屬于外部 Zonezone security insidezone security outsidezone-p…

Linux應用層-5.計算機網絡(菜鳥學習筆記)

計算機網絡的核心是連接與通信,從底層的物理信號到上層的應用服務,各層協議協同工作---------------------------------------------------------------------------------------一.計算機網絡分類(按范圍)1?個人區域網&#xff…

[論文閱讀] 人工智能 + 軟件工程 | 大型語言模型對決傳統方法:多語言漏洞修復能力大比拼

大型語言模型對決傳統方法:多語言漏洞修復能力大比拼 論文閱讀:On the Evaluation of Large Language Models in Multilingual Vulnerability RepairarXiv:2508.03470 On the Evaluation of Large Language Models in Multilingual Vulnerability Repair…

計算機網絡2-3:傳輸方式

目錄 串行傳輸和并行傳輸 同步傳輸和異步傳輸 單工、半雙工以及全雙工通信 總結 串行傳輸和并行傳輸 并行傳輸的優點是速度為串行傳輸的n倍,但也存在一個嚴重的缺點即成本高 同步傳輸和異步傳輸 單工、半雙工以及全雙工通信 總結

文檔生成PPT軟件哪個好?深度測評8款word轉ppt生成工具

在日常辦公與教學場景中,如何高效地將Word文檔內容轉化為專業PPT,一直是職場人士、教育工作者及內容創作者的共同痛點。隨著AI技術的普及,一鍵式轉換工具應運而生,它們不僅能精準識別Word中的標題與段落結構,還能自動套…

Azimutt:一款免費開源的多功能數據庫工具

Azimutt 是一款支持數據庫設計、表結構探索與分析、數據查詢以及數據庫文檔生成功能的全棧工具。 Azimutt 是一個免費開源的項目,源代碼托管在 GitHub: https://github.com/azimuttapp/azimutt 功能特性 多數據庫支持:包括主流數據庫 MySQ…

智算賦能:移動云助力“世界一流數據強港”建設之路

2024年5月,某創新產業園區智算中心正式揭牌成立。臺下響起的掌聲不僅是對一個項目的祝賀,更是客戶對未來的期許—— 推動產業結構優化升級,領跑數字經濟轉型發展。5家500強企業、8家上市企業、17家獨角獸企業……該創新產業園區在成為“世界一…

達夢自定義存儲過程實現獲取表完整的ddl語句

--導出表的ddl CREATE OR REPLACE PROCEDURE show_create_table( db IN varchar(255), tb IN varchar(255)) ASsql1 text;ret text : ;cmt text :;sql2 text :; BEGINFOR WSX IN (select TABLEDEF(db,tb) as ddl from dual) LOOPret: ret||WSX.DDL;END LOOP;ret : ret||chr(10…