【Python入門】文件讀取全攻略：5種常用格式(csv/excel/word/ppt/pdf)一鍵搞定

【Python入門】文件讀取全攻略：5種常用格式(csv/excel/word/ppt/pdf)一鍵搞定 | 附完整代碼示例

大家好，我是唐叔！今天給大家帶來一篇Python文件讀取的終極指南。無論是數據分析、辦公自動化還是爬蟲開發，文件讀取都是Python程序員必須掌握的核心技能。本文將詳細介紹Python處理5大常用文件格式的方法，包含完整可運行的代碼示例，建議收藏備用！

文章目錄

- 一、為什么要學習Python文件讀取？
- 二、CSV文件讀取 - 數據分析第一步
- - 2.1 為什么需要讀取CSV文件？
  - 2.2 最佳實踐方案
- 三、Excel文件讀取 - 商業數據處理
- - 3.1 為什么需要讀取Excel？
  - 3.2 最佳實踐方案
- 四、Word文檔處理 - 告別復制粘貼
- - 4.1 為什么需要讀取Word？
  - 4.2 最佳實踐方案
- 五、PPT讀取 - 演示文稿的自動化處理
- - 5.1 為什么需要讀取PPT？
  - 5.2 最佳實踐方案
- 六、PDF文本提取
- - 6.1 PDF處理的痛點
  - 6.2 最佳實踐方案
- 七、終極方案 - 文件類型自動判斷
- 八、常見問題解答
- - Q1：讀取文件時出現編碼錯誤怎么辦？
  - Q2：處理大文件內存不足怎么解決？
  - Q3：如何提高PDF解析速度？
- 九、學習資源推薦

一、為什么要學習Python文件讀取？

在開始具體技術講解前，我們先看看為什么這個技能如此重要：

職場需求：據2023年Stack Overflow調查，87%的Python開發者需要處理各種文件格式
效率提升：自動化文件處理可節省90%以上的重復操作時間
面試高頻：Python崗位面試中，文件操作是必考知識點

二、CSV文件讀取 - 數據分析第一步

2.1 為什么需要讀取CSV文件？

CSV（Comma-Separated Values）是數據科學領域最常用的輕量級數據存儲格式，具有以下優勢：

體積小，讀寫速度快
跨平臺兼容性好
支持多種數據類型

2.2 最佳實踐方案

方案一：使用標準庫csv（適合小文件）

import csvwith open('data.csv', mode='r', encoding='utf-8-sig') as f:  # 注意編碼處理reader = csv.DictReader(f)  # 使用DictReader獲取字段名for row in reader:print(row['姓名'], row['成績'])  # 通過字段名訪問數據

方案二：使用pandas（推薦大數據量）

import pandas as pd# 處理大文件時可分塊讀取
chunk_size = 10000
for chunk in pd.read_csv('big_data.csv', chunksize=chunk_size):process(chunk)  # 自定義處理函數# 常用參數：
# header=None   # 無表頭
# skiprows=1    # 跳過首行
# usecols=[0,2] # 只讀取指定列

三、Excel文件讀取 - 商業數據處理

3.1 為什么需要讀取Excel？

雖然CSV很香，但現實世界中80%的商業數據仍然躺在Excel里。格式豐富、支持多工作表是它的殺手锏。

Excel 使用場景：

財務報表處理
客戶數據管理
項目進度跟蹤

3.2 最佳實踐方案

# 使用openpyxl（適合.xlsx格式）
from openpyxl import load_workbookwb = load_workbook('report.xlsx')
sheet = wb.active
for row in sheet.iter_rows(values_only=True):print(row)# 使用pandas多表讀取
with pd.ExcelFile('report.xlsx') as xls:df1 = pd.read_excel(xls, 'Sheet1')df2 = pd.read_excel(xls, 'Sheet2')

性能優化技巧

對于.xlsx大文件，推薦使用openpyxl的read_only模式
僅加載需要的sheet：pd.read_excel('file.xlsx', sheet_name='Sheet1')
禁用圖表加載提升速度：load_workbook(..., data_only=True)

四、Word文檔處理 - 告別復制粘貼

4.1 為什么需要讀取Word？

當你要批量處理上百份合同、簡歷或者論文時，手動操作簡直就是自虐！這個時候就應該考慮下Python操作Word了。

Word 使用場景：

合同關鍵信息提取
簡歷自動篩選
文檔批量格式化

4.2 最佳實踐方案

from docx import Documentdoc = Document('report.docx')# 讀取段落
for para in doc.paragraphs:print(para.text)# 讀取表格
for table in doc.tables:for row in table.rows:for cell in row.cells:print(cell.text)

高級應用

使用正則表達式提取特定內容
結合python-docx-template實現模板替換
批量生成報告時注意內存管理

五、PPT讀取 - 演示文稿的自動化處理

5.1 為什么需要讀取PPT？

想象一下每周都要從幾十份周報PPT中提取關鍵數據，手動操作簡直讓人崩潰！

PPT 使用場景：

自動生成報告摘要
批量替換PPT內容
企業匯報材料分析

5.2 最佳實踐方案

from pptx import Presentationprs = Presentation('presentation.pptx')for slide in prs.slides:for shape in slide.shapes:if hasattr(shape, "text"):print(shape.text)# 處理圖表數據（如果有）for chart in slide.charts:data = chart.chart_data# 進一步處理圖表數據...

六、PDF文本提取

6.1 PDF處理的痛點

PDF設計初衷是為了展示而非數據處理，這使它成為最難處理的格式之一。但別怕，Python依然有辦法！

PDF 使用場景：

發票信息提取
論文內容分析
掃描件OCR識別

6.2 最佳實踐方案

# 方案1：PyPDF2（適合文本型PDF）
from PyPDF2 import PdfReaderreader = PdfReader("document.pdf")
for page in reader.pages:print(page.extract_text())# 方案2：pdfplumber（更強大的文本提取）
import pdfplumberwith pdfplumber.open("document.pdf") as pdf:first_page = pdf.pages[0]print(first_page.extract_text())# 還能提取表格！table = first_page.extract_table()# 方案3：處理掃描件（需要OCR）
import pytesseract
from PIL import Image# 需要先將PDF轉為圖片（可用pdf2image庫）
image = Image.open('scanned_page.jpg')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)

解決方案對比

工具庫	優點	缺點	適用場景
PyPDF2	純Python實現	對復雜PDF支持有限	簡單文本提取
pdfplumber	表格提取能力強	速度較慢	含表格的PDF
pdfminer.six	解析精度高	API復雜	學術論文解析
pytesseract	支持掃描件OCR	需要安裝Tesseract	圖片型PDF

七、終極方案 - 文件類型自動判斷

唐叔教你一個萬能方法，不用記那么多庫！

import magic
import pandas as pddef read_any_file(file_path):mime = magic.Magic(mime=True)file_type = mime.from_file(file_path)if 'csv' in file_type:return pd.read_csv(file_path)elif 'excel' in file_type:return pd.read_excel(file_path)elif 'word' in file_type:# 調用word處理邏輯pass# 其他類型判斷...else:with open(file_path, 'r') as f:return f.read()# 使用示例
data = read_any_file('unknown_file')

八、常見問題解答

Q1：讀取文件時出現編碼錯誤怎么辦？

嘗試常見編碼：utf-8、gbk、gb2312、gb18030

使用chardet自動檢測編碼：

import chardet
with open('file', 'rb') as f:encoding = chardet.detect(f.read())['encoding']

Q2：處理大文件內存不足怎么解決？

使用分塊讀取（chunksize）
考慮使用Dask等分布式計算框架
轉換為更高效的存儲格式（如parquet）

Q3：如何提高PDF解析速度？

預處理PDF：pdf2pdfa -i input.pdf output.pdf
多進程處理：from multiprocessing import Pool
使用GPU加速的OCR工具

九、學習資源推薦

官方文檔：
- pandas IO工具
- python-docx文檔
推薦書籍：
- 《Python自動化秘籍》
- 《Python數據處理實戰》
視頻教程：
- B站"Python辦公自動化"系列
- Coursera"Data Processing Using Python"

唐叔總結：文件讀取看似簡單，實則暗藏玄機。掌握這些技巧后，你的Python數據處理能力將提升一個Level！如果覺得有幫助，請點贊+收藏支持，更多Python干貨正在路上！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/76192.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/76192.shtml
英文地址，請注明出處：http://en.pswp.cn/web/76192.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！