關于Office系列文件文字內容的提取
本文主要通過接口的方式獲取Office文件和PDF、OFD文件的文字內容。適用于需要獲取Word、OFD、PDF、PPT等文件內容的提取實現。例如在線文字統計以及論文文字內容的提取。
一、提取Word及WPS文檔的文字內容。
支持以下文件格式:
文檔類型 | 文件格式 | 支持與否 |
---|---|---|
word | .doc、.docx、.wps、.rtf | ? |
ppt | .ppt、.pptx、.pps | ? |
? | ||
ofd | .ofd | ? |
excel | .xls、.xlsx、.et | ? |
請求地址:https://vw.usdoc.cn/
請求方式:GET
請求參數:
字段名稱 | 字段類型 | 必填參數 | 說明 |
---|---|---|---|
src | string | 是 | 文件地址,即需要提取的文檔地址。如:https://usdoc.cn/vw/文件模板.docx |
words | .string | 是 | words=all 提取全部內容 words=pag 以分頁的形式對內容分頁提取 |
公共響應參數:
字段名稱 | 類型 | 描述 |
---|---|---|
code | numbe | code請求碼,200表示正常 |
words | string | 錯誤描述信息,用來幫助理解和解決發生的錯誤。 |
data | object | 響應參數 |
響應參數:
字段名稱 | 字段類型 | 描述 | 示例 |
---|---|---|---|
fileName | string | 文件名稱 | 文件模板.docx |
fileSize | numbe | 文件大小,單位為字節 | words=all 提取全部內容 words=pag 以分頁的形式對內容分頁提取 |
pageCount | numbe | 文檔頁數,文件有多少頁內容 | 3 |
content | string | 文檔內容 | 關于國慶節放假安排的通知(在線預覽)\r\r主送機關全稱:…(usdoc在線預覽) |
代碼示例一:
提取全部內容,不分頁返回
//請求接口地址:https://vw.usdoc.cn/
//參數: words=all
//完整的轉換地址如下,可以將如下地址放在瀏覽器請求https://vw.usdoc.cn/?words=all&src=https://usdoc.cn/vw/文件模板.docx
https://vw.usdoc.cn/?words=all&src=https://usdoc.cn/vw/文件模板.docx
{"code": 200,"msg": "success","data": {"fileName": "文件模板.docx","fileSize": 128967,"pageCount": 3,"content": ["關于國慶節放假安排的通知(在線預覽)\r\r主送機關全稱:......(usdoc在線預覽)\r文件正文。其致一也。后之覽者,亦將有感于斯文。"]}
}
代碼示例二:
以分頁的方式提取全部內容,分頁返回
//請求接口地址:https://vw.usdoc.cn/
//參數: words=pag
//完整的轉換地址如下,可以將如下地址放在瀏覽器請求https://vw.usdoc.cn/?words=pag&src=https://usdoc.cn/vw/文件模板.docx
https://vw.usdoc.cn/?words=pag&src=https://usdoc.cn/vw/文件模板.docx
{"code": 200,"msg": "Success","data": {"fileName": "文件模板.docx","fileSize": 128967,"pageCount": 3,"content": ["關于國慶節放假安排的通知(usdoc在線預覽)文件正文。...10月1日至7日放假調休,......三級標題(空兩格)\r(1)四級標題(空兩格)","當否,請批示。\r附件:1、\r 2、\r\r\rusdoc文檔在線預覽服務\r2022年10月10日\r\r\r\r\r\r(聯系人:×××,聯系電話:××××)","蘭亭集序\r\r永和九年,歲在癸丑,暮春之初,會于會稽山陰之蘭亭,修禊......,亦將有感于斯文"]}
}