國產化Word處理控件Spire.Doc教程：Python提取Word文檔中的文本、圖片、表格等

在現代辦公場景中，Word文檔已成為信息存儲與交流的重要載體，承載著關鍵的業務數據、結構化表格、可視化圖表以及協作批注等重要內容。面對日益增長的文檔處理需求，傳統的人工操作方式已難以滿足效率與準確性的雙重標準。采用Python實現Word文檔內容的自動化解析，不僅能顯著提升處理效率、降低人為錯誤率，還能實現數據集成、內容遷移及智能分析等多種應用。

E-iceblue旗下Spire系列產品是國產文檔處理領域的優秀產品，支持國產化，幫助企業高效構建文檔處理的應用程序。本文將詳細介紹如何使用?Spire.Doc for Python?庫在 Python 中讀取 Word 文檔（包括 .doc 和 .docx 格式），并演示如何提取文本、圖片、表格、批注、列表以及文檔的元數據等信息。無論您是進行文檔內容抓取、自動化報告生成，還是開發文檔解析工具，本教程都將提供清晰的代碼示例和實用指導。

Spire.Doc for Python試用下載

為什么使用 Python 讀取 Word 文檔？

Python 作為一門靈活且功能強大的編程語言，廣泛應用于自動化、數據處理及內容分析等領域。使用 Python 讀取 Word 文檔，可以實現以下重要應用：

批量提取數據：從報告、合同、簡歷等文檔中快速抓取關鍵信息，無需手工復制粘貼。
結構化內容解析：將文本、表格和圖片等內容整理成數據庫或分析模型，便于后續處理。
自動化工作流集成：將 Word 文檔讀取功能嵌入到 Web 服務、API 或后臺系統，實現端到端自動化。
支持多格式文檔處理：同時兼容現代 .docx 和傳統 .doc 文件，保證業務場景的全面覆蓋。

安裝 Python Word 文檔解析庫

要在 Python 中讀取 Word 文檔，首先需要安裝支持 .doc 和 .docx 格式的解析庫。Spire.Doc for Python?是一款功能完善且獨立于 Microsoft Office 的第三方庫，支持提取文本、圖片、表格、批注、列表及元數據等多種內容。

通過以下命令即可安裝 Spire.Doc：

pip install Spire.Doc

安裝完成后，即可在 Python 代碼中導入并使用 Spire.Doc 進行 Word 文檔的讀取和處理。

使用 Python 讀取 Word 文檔中文本

提取文本是解析 Word 文檔的基礎需求。根據不同場景，你可能需要獲取整篇文檔的全部文本，或僅針對特定節、段落進行讀取。

獲取整個文檔的文本

在文檔管理系統中，提取全文文本有助于建立搜索索引，使用戶能夠通過關鍵詞快速定位文檔內容，從而提升查詢效率和使用體驗。

Spire.Doc?提供了 Document.GetText() 方法，可一次性提取 Word 文檔中的所有文字信息，涵蓋正文、表格及列表等內容。

以下示例展示了如何加載 Word 文檔，獲取全文文本，并將其保存為獨立的文本文件，便于后續處理與分析：

from spire.doc import *# 創建Document對象
doc = Document()# 加載Word文檔
doc.LoadFromFile("示例.docx")# 獲取文檔所有文本
text = doc.GetText()# 保存獲取的文本為TXT文件
with open("output/提取文本.txt", "w", encoding="utf-8") as file:
file.write(text)document.Close()

獲取特定節或段落的文本

在許多結構化文檔（如報告、合同或說明書）中，內容通常被劃分為多個節或段落。若只需提取文檔中某一部分的文本信息，可以直接訪問指定節，并逐段讀取內容，實現更具針對性的處理。

以下示例展示了如何訪問 Word 文檔中的指定節，并提取其中所有段落的文本內容：

from spire.doc import *# 加載 .docx 或 .doc 文件
document = Document()
document.LoadFromFile("示例.docx")# 訪問指定節
section = document.Sections[0]# 獲取該節段落文本
with open("output/節文本.txt", "w", encoding="utf-8") as file:for paragraph in section.Paragraphs:file.write(paragraph.Text + "\n")document.Close()

使用 Python 讀取 Word 文檔中的特定元素

除了純文本，Word 文檔中還可能包含圖片、表格、批注、列表及元數據等多種元素。Spire.Doc 提供豐富且便捷的接口，幫助開發者高效地提取這些內容，實現對文檔結構和數據的全面訪問。

提取圖片

Word 文檔中常包含圖片元素，例如公司 Logo、插圖、圖表等。若需提取這些圖片以便進行分析、存檔或再利用，可通過遍歷文檔結構并識別圖片對象（DocPicture）來實現。

以下是提取 Word 文檔中所有圖片并將其保存為本地文件的完整示例：

import queue
from spire.doc import *# 創建Document對象
doc = Document()# 加載Word文件
doc.LoadFromFile("示例.docx")# 創建隊列對象
nodes = queue.Queue()
nodes.put(doc)# 創建列表
images = []while nodes.qsize() > 0:node = nodes.get()# 遍歷文檔中的子對象for i in range(node.ChildObjects.Count):child = node.ChildObjects.get_Item(i)# 判斷子對象是否為圖片if child.DocumentObjectType == DocumentObjectType.Picture:picture = child if isinstance(child, DocPicture) else NonedataBytes = picture.ImageBytes# 將圖片數據添加到列表中images.append(dataBytes)elif isinstance(child, ICompositeObject):nodes.put(child if isinstance(child, ICompositeObject) else None)# 遍歷列表中的圖片
for i, item in enumerate(images):fileName = "圖片-{}.png".format(i)with open("output/Images/"+fileName,'wb') as imageFile:# 將圖片寫入指定路徑imageFile.write(item)
doc.Close()

獲取表格數據

在 Word 文檔中，表格常用于組織結構化數據，如報表或物品清單。使用 Spire.Doc，開發者可以遍歷文檔中的所有表格，訪問表格中的每個單元格，并提取單元格的內容。

以下代碼展示了如何提取Word文檔中所有表格的數據，并將結果保存為文本文件：

from spire.doc import *
import os# 加載 Word 文檔
document = Document()
document.LoadFromFile("示例.docx")# 指定輸出文件夾存在
output_dir = "output/Tables"
os.makedirs(output_dir, exist_ok=True)# 遍歷所有節并提取表格數據
for s in range(document.Sections.Count):section = document.Sections[s]tables = section.Tablesfor i in range(tables.Count):table = tables[i]table_data = ""for j in range(table.Rows.Count):row = table.Rows[j]for k in range(row.Cells.Count):cell = row.Cells[k]cell_text = ""for p in range(cell.Paragraphs.Count):para_text = cell.Paragraphs[p].Textcell_text += para_text + " "table_data += cell_text.strip()if k < row.Cells.Count - 1:table_data += "\t"table_data += "\n"# 將提取的表格數據寫入文本文件output_path = os.path.join(output_dir, f"Word表格_{s+1}_{i+1}.txt")with open(output_path, "w", encoding="utf-8") as output_file:output_file.write(table_data)document.Close()

讀取列表

Word 文檔中的項目列表（如編號列表和項目符號列表）常用于展示條款、步驟或要點等結構化內容。借助?Spire.Doc，開發者可以輕松識別并提取文檔中的列表。

以下代碼示例展示了如何加載 Word 文件，查找所有列表項，并將項目編號（如數字或符號）和其對應的文本內容寫入本地文本文件：

from spire.doc import *# 加載 Word 文檔
document = Document()
document.LoadFromFile("示例.docx")# 創建文本文件，用于存放列表內容
with open("output/列表內容.txt", "w", encoding="utf-8") as output_file:# 遍歷文檔中的節for s in range(document.Sections.Count):section = document.Sections[s]# 遍歷節中的段落for p in range(section.Paragraphs.Count):paragraph = section.Paragraphs[p]# 找到列表，提取其內容并保存至文本文件if paragraph.ListFormat.ListType != ListType.NoList:output_file.write(paragraph.ListText + paragraph.Text + "\n")document.Close()

提取批注

Word 支持添加批注，用于提供修改建議或評論。通過訪問 Comments 集合，可以獲取文檔中所有批注的信息，包括批注作者和具體內容，便于實現審閱流程的自動化管理。

以下代碼展示了如何提取所有批注，包括批注作者與內容，并保存到文本文件中：

from spire.doc import *# 加載 Word 文檔
document = Document()
document.LoadFromFile("示例.docx")# 創建文本文件，用于存放批注內容
with open("output/批注內容.txt", "w", encoding="utf-8") as output_file:# 遍歷文檔中的所有批注，獲取每個批注的作者和內容for i in range(document.Comments.Count):comment = document.Comments[i]output_file.write(f"批注 {i + 1}：\n")output_file.write(f"作者：{comment.Format.Author}\n")comment_text = ""for j in range(comment.Body.Paragraphs.Count):paragraph = comment.Body.Paragraphs[j]comment_text += paragraph.Text + "\n"output_file.write(f"內容: {comment_text.strip()}\n\n")document.Close()

獲取元數據（文檔屬性）

Word 文檔通常包含作者、標題、主題、關鍵字等元數據信息，這些數據保存在文檔的 BuiltinDocumentProperties 屬性中。提取這些屬性有助于文檔的歸檔管理、分類整理以及搜索優化。

以下示例代碼展示了如何讀取 Word 文檔的標題、作者、主題等屬性，并將其保存到本地文本文件：

from spire.doc import *# 加載 Word 文檔
document = Document()
document.LoadFromFile("示例.docx")# 獲取文檔屬性
props = document.BuiltinDocumentProperties# 將文檔屬性信息寫入到本地文本文件
with open("output/元數據.txt", "w", encoding="utf-8") as output_file:output_file.write(f"標題: {props.Title}\n")output_file.write(f"作者: {props.Author}\n")
output_file.write(f"主題: {props.Subject}\n")document.Close()

總結

使用 Python 讀取 Word 文檔，不僅能夠顯著提升文檔處理效率，還能實現數據提取與自動化工作的深度集成。通過?Spire.Doc for Python，開發者可以輕松完成 .doc 和 .docx 文件中的文本提取、表格讀取、圖片導出、批注解析、列表識別以及元數據獲取等多種常見操作。

除了讀取內容，Spire.Doc 還支持創建和編輯 Word 文檔、設置樣式格式、插入圖片、執行文檔合并，以及將 Word 轉換為 PDF和圖片等格式，滿足從讀取到輸出的全流程需求，適用于報告生成、合同解析、批量文檔處理等多種業務場景。

常見問題解答

Q1：Python 如何讀取 Word（.doc/.docx）文檔內容？

A1：可以使用?Spire.Doc for Python?來讀取 Word 文件。該庫支持加載 .doc 和 .docx 格式，并提取文檔中的文本、圖片、表格、批注等內容。

Q2：使用?Spire.Doc for Python?是否需要安裝 Microsoft Office？
A2：不需要。Spire.Doc 是一款獨立運行的 Word 處理庫，無需安裝 Microsoft Word 或 Office ，即可在 Python 項目中實現 Word 文件的讀取與編輯功能。

Q3：除了讀取 Word 內容，Spire.Doc 是否支持寫入和生成 Word 文件？
A3：支持。Spire.Doc for Python?不僅可以讀取 Word 文檔內容，還支持以編程方式創建、編輯和保存 Word 文件。用戶可以添加段落、設置樣式、插入圖片和表格，甚至將 Word 轉換為 PDF 或圖片格式，滿足多樣化的文檔生成需求。