Python將Word轉換為Excel

現有大量的Word文檔,每個文檔中有大量的表格,需要將其轉換為Excel。

Python處理源碼

# 需要安裝pip install xlsxwriter
import pandas as pd
from docx import Document
from pathlib import Path
from datetime import datetimedef process_docx(filepath):# 處理Word文檔的主函數doc = Document(filepath)# 示例處理邏輯:提取所有段落文本content = [p.text for p in doc.paragraphs if p.text.strip()]print(f"成功處理文檔: {filepath}")data = []monitor_time = ""# 提取監測時間for paragraph in doc.paragraphs:# print(paragraph.text)if "第12次:" in paragraph.text:monitor_time = parse_monitor_time(paragraph.text)print(f"提取監測時間: {monitor_time}")break# 處理所有表格index = 0for table in doc.tables:# 檢查是否為數據表格(包含房屋編號列)if len(table.columns) >= 7 and "成果表" in table.cell(0,0).text:# print(table.cell(0,0).text)for row in table.rows[2:]:  # 跳過標題行first_cell_text = row.cells[0].text.strip()  # 獲取第一個單元格的文本并去除首尾空格if "備注" in first_cell_text:  # 如果第一個單元格包含"備注"continue  # 跳過該行cells = [cell.text.replace("\n", "").replace("\r", "").strip() for cell in row.cells]if len(cells) >= 7:  # 確保數據完整# 構建輸出記錄record = {'點號': f"{cells[0].replace(" ", "")}-{cells[1]}",'初始值': cells[2],'檢測值': cells[3],'累計值': cells[4],'監測時間': monitor_time,'上次監測時間': "2025/6/17 03:00"  # 根據備注補充}# print(record)data.append(record)return datadef generate_excel(data, output_path):# 生成標準格式Exceldf = pd.DataFrame(data) # 補充固定字段df['備注'] = '無'# 字段順序調整columns_order = [ '點號', '初始值', '檢測值', '累計值', '監測時間', '上次監測時間', '備注' ]df = df.reindex(columns=columns_order)# 填充空值df['上次監測時間'] = '2025-06-01'# 保存Excel# df.to_excel(output_path, index=False)with pd.ExcelWriter(output_path, engine='xlsxwriter') as writer:df.to_excel(writer, index=False, sheet_name='Sheet1')  # 導出數據worksheet = writer.sheets['Sheet1']# 手動設置列寬(單位:字符寬度)worksheet.set_column('A:A', 38)  # 設置A列為15字符寬度worksheet.set_column('B:B', 12)  # 設置B列為10字符寬度print(f"Excel文件已生成: {output_path}")print(f"Excel開始生成")
filepath=r"C:\Users\admin\Desktop\test.docx"
output_path=r"C:\Users\admin\Desktop\test.xlsx"
data = process_docx(filepath)
generate_excel(data, output_path)
print(f"Excel生成結束")

輸入Word文檔

word文檔格式如下所示
在這里插入圖片描述

輸出Excel文檔

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/91452.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/91452.shtml
英文地址,請注明出處:http://en.pswp.cn/web/91452.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

攀爬誤報率↓82%!陌訊多模態算法在周界防護的實戰解析

?摘要?? 原創聲明 本文解析邊緣計算優化下陌訊視覺算法在攀爬識別場景的魯棒性提升,實測數據來自陌訊技術白皮書(2025)。針對傳統安防系統在復雜光影、姿態變化中的誤檢問題,重點闡述動態決策機制與輕量化部署方案,…

Redis 存在哪些問題

內存相關問題 1. 內存消耗大 無壓縮機制:數據以明文形式存儲,占用內存較大元數據開銷:每個key-value對都有額外的元數據開銷內存碎片:頻繁的更新操作可能產生內存碎片 2. 內存容量限制 單機容量受限:受限于單臺服務器的…

ECMAScript2025(ES16)新特性

概述 ECMAScript2025于2025年6月26日正式發布, 本文會介紹ECMAScript2025(ES16),即ECMAScript的第16個版本的新特性。 以下摘自官網:ecma-262 ECMAScript 2025, the 16th edition, added a new Iterator global with associated static and…

Vim 編輯器工作模式及操作指南

Vim 編輯器工作模式及操作指南 一、工作模式概述 Vim編輯器主要包含四種工作模式,分別是: 命令模式(默認進入模式)輸入模式(編輯模式)末行模式(指令模式)可視模式 二、模式切換及操作…

Rabbitmq中常見7種模式介紹

p:生成者,生成消息的程序c:消費者,消費消息的程序Queue:消息隊列,用于緩存消息,生產者向里面投遞消息,消費者從里面拿取消息消費X:交換機,在rabbitMQ中&#…

SpringAI 1.0.0發布:打造企業級智能聊天應用

官方文檔 gitee的demo 1、前言 2025年5月,SpringAI 1.0.0終于正式發布。這不僅是另一個普通的庫,更是將Java和Spring推向AI革命前沿的戰略性舉措。給Java生態帶來了強大且全面的AI工程解決方案。眾多企業級應用在SpringBoot上運行關鍵業務&#xff0c…

全球各界關注與討論鴿姆智庫的多維視角分析?

【摘要】全球各界對鴿姆智庫的關注與討論主要集中在以下多維視角: 一、技術創新維度 ?通用思維框架(GTF)與中文智慧編程系統(CWPS)? GTF通過模擬人類格式塔認知,實現模式補全與圖形-背景分離功能&#xf…

1??4?? OOP:類、封裝、繼承、多態

文章目錄一、類與實例:從抽象到具體1?? 類(Class):抽象的模板2?? 實例(Instance):具體的對象3?? __init__ 方法:初始化實例屬性二、封裝:數據與邏輯的“打包”1??…

靜態鏈接 qt 失敗

配置靜態構建 qt 如下所示,執行配置的時候添加 -static 選項即可。 $skiped_modules ("qttools""qtdoc""qttranslations""qtlanguageserver""qtdeclarative""qtquicktimeline""qtquick3d"…

Qt 多線程界面更新策略

在Qt開發中,界面(UI)更新是高頻操作——無論是后臺任務的進度展示、傳感器數據的實時刷新,還是網絡消息的即時顯示,都需要動態更新界面元素。但Qt對UI操作有一個核心限制:所有UI組件的創建和更新必須在主線…

1.09---區塊鏈節點到底做了什么?從全節點到輕客戶端

鯤志博主出品 Web2 開發者的 Web3 修煉之路 ??【好看的靈魂千篇一律,有趣的鯤志一百六七!】- 歡迎認識我~~ 作者:鯤志說 (公眾號、B站同名,視頻號:鯤志說996) 科技博主:極星會 星輝大使 全棧研發:java、go、python、ts,前電商、現web3 主理人:COC杭州開發者…

Linux線程概念與控制(下)

目錄 前言 2.線程控制 1.驗證理論 2.引入pthread線程庫 3.linux線程控制的接口 3.線程id及進程地址空間布局 4.線程棧 前言 本篇是緊接著上一篇的內容,在有了相關線程概念的基礎之上,我們將要學習線程控制相關話題!! 2.線程…

力扣面試150題--只出現一次的數字

Day 91 題目描述## 思路 交換律&#xff1a;a ^ b ^ c <> a ^ c ^ b 任何數于0異或為任何數 0 ^ n > n 相同的數異或為0: n ^ n > 0 根據以上 很容易想到做法&#xff0c;將數組中所有的數異或起來&#xff0c;得到的就是只出現一次的數 class Solution {public in…

【運維基礎】Linux 進程調度管理

Linux 進程調度管理 進程調度器 現代計算機系統中既包含只有單個CPU且任何時候都只能處理單個指令的低端系統到具有幾百個cpu、每個cpu有多個核心的高性能超級計算機&#xff0c;可以并行執行幾百個指令。所有這些系統都有一個共同點&#xff1a;系統進程線程數量超出了CPU數量…

深度學習篇---層與層之間搭配

在深度學習中&#xff0c;各種層&#xff08;比如卷積層、激活函數、池化層等&#xff09;的搭配不是隨意的&#xff0c;而是像 “搭積木” 一樣有規律 —— 每一層的作用互補&#xff0c;組合起來能高效提取特征、穩定訓練&#xff0c;最終提升模型性能。下面用通俗易懂的方式…

服務器多線主要是指什么?

在數字化的網絡環境當中&#xff0c;服務器已經成為各個企業提升線上業務發展的重要網絡設備&#xff0c;其中服務器多線則是指一臺服務器中能夠同時接入多個網絡運營商&#xff0c;并且通過智能路由技術實現用戶訪問請求的自動化分配&#xff0c;大大提高了用戶訪問數據信息的…

從0到1學PHP(三):PHP 流程控制:掌控程序的走向

目錄一、條件語句&#xff1a;程序的 “抉擇路口”1.1 if 語句家族&#xff1a;基礎與進階1.2 switch 語句&#xff1a;精準匹配的 “導航儀”二、循環語句&#xff1a;程序的 “重復舞步”2.1 for 循環&#xff1a;有序的 “征程”2.2 while 與 do - while 循環&#xff1a;條…

uni-app框架基礎

闡述 MVC 模式1, MVC與MVVMMVC 他是后端的一個開發思想MVVM是基于MVC中的view這層所分離出來的一種設計模式。MVC架構詳解MVC&#xff08;Model-View-Controller&#xff09;是一種廣泛使用的軟件設計模式&#xff0c;主要用于分離應用程序的業務邏輯、用戶界面和輸入控制。這種…

智慧收銀系統開發進銷存庫存統計,便利店、水果店、建材與家居行業的庫存匯總管理—仙盟創夢IDE

在零售與批發行業的數字化轉型中&#xff0c;當前庫存匯總作為進銷存管理的核心環節&#xff0c;直接影響著企業的資金周轉、銷售決策和客戶滿意度。現代收銀系統已超越傳統的收款功能&#xff0c;成為整合多渠道數據、實現實時庫存匯總的中樞神經。本文將深入剖析便利店、水果…

selenium(WEB自動化工具)

定義解釋 Selenium是一個用于Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中&#xff0c;就像真正的用戶在操作一樣。支持的瀏覽器包括IE&#xff08;7, 8, 9, 10, 11&#xff09;&#xff0c;Mozilla Firefox&#xff0c;Safari&#xff0c;Google Chrome&#xff0…