什么是爬蟲?——從技術原理到現實應用的全面解析 V
二十六、異構數據采集技術突破
26.1 PDF文本與表格提取
import pdfplumber
import pandas as pddef extract_pdf_data(pdf_path):"""從PDF中提取文本和表格數據:param pdf_path: PDF文件路徑:return: 包含文本和表格數據的字典"""result = {'text': [], 'tables': []}with pdfplumber.open(pdf_path) as pdf:for page in pdf.pages:# 提取文本text = page.extract_text()if text:result['text'].append(text)# 提取表格table = page.extract_table()if table:df = pd.DataFrame(table[1:],