【pdfplumber庫】從PDF文件中讀取內容?
import pdfplumber
#打開PDF文件
with pdfplumber.open('DeepSeek從入門到精通(20250204).pdf') as pdf:for i in pdf.pages: #遍歷頁print(i.extract_text()) #extract_text()方法提取內容print(f'----------------第{i.page_number}頁結束')
【Numpy庫】數據分析處理數據、矩陣等數據
示例:圖像的灰度處理
import numpy as np
import matplotlib.pyplot as plt
#讀取圖片
n1=plt.imread('Google.jpg')
print(type(n1),n1) #數組,三位數組,最高緯度表示的是圖像的高,次高緯度表示的是圖像的寬,最低緯度[R,G,B]顏色
plt.imshow(n1)#編寫一個灰度的公式
n2=np.array([0.299,0.587,0.114]) #創建數組
#將數組n1(RGB)顏色值與數組n2(灰度公式固定值),進行點乘運算
x=np.dot(n1,n2)
#傳入數組,顯示灰度
plt.imshow(x,cmap='gray')
#顯示圖像
plt.show()
【Pandas庫】數據分析、讀取Excel
示例:利用Pandas庫讀取Excel
import pandas as pd
import matplotlib.pyplot as plt#Pandas庫:數據分析、讀取Excel;Matplotlib庫:數據可視化,繪制餅圖、柱形圖、折線圖等#讀取Excel文件
df=pd.read_excel('商品商品_20241212115850.xls', dtype=object) #dtype指定類型,解決pandas“讀取整數帶小數點”問題
print('讀取Excel文件如下:')
print(df)
控制臺Exce文件顯示不全問題
解決方案:讀取Excel文件前,添加以下代碼
#pd.set_option()進行設置解決顯示不全問題
# 顯示全部列
pd.set_option('display.max_columns', None)
# 顯示全部行
pd.set_option('display.max_row', None)
# 設置數據的顯示長度(解決自動換行)
pd.set_option('display.width', None)
??
?【Matplotlib庫】數據可視化,繪制餅圖、柱形圖、折線圖等
示例:利用Matplotlib庫繪制餅圖
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
# Pandas庫:數據分析、讀取Excel;Matplotlib庫:數據可視化,繪制餅圖、柱形圖、折線圖等
#pd.set_option()進行設置解決顯示不全問題
# 顯示全部列
pd.set_option('display.max_columns', None)
# 顯示全部行
pd.set_option('display.max_row', None)
# 設置數據的顯示長度(解決自動換行)
pd.set_option('display.width', None)#讀取Excel文件
df=pd.read_excel('商品商品_20241212115850.xls', dtype=object) #dtype指定類型,解決pandas“讀取整數帶小數點”問題
print('讀取Excel文件如下:')
print(df)#設置畫布的大小
plt.figure(figsize=(10,6))
goodsName=df['商品名稱']
stock=df['實際可銷售庫存數']
print(goodsName)
print(stock)#繪制餅圖
plt.pie(stock,labels=goodsName,autopct='%1.1f%%',startangle=90) #labels就是扇形當中所的標簽,autopct是設置餅圖每個部分所占比例,%1.1f%%保留一位小數的百分比格式,角度startangle(可提供可不提供,提供了餅圖會比較漂亮)#設置x,y軸刻度
plt.axis('equal')
plt.title('4月份商品剩余庫存占比圖')#顯示出來
plt.show()
中文亂碼問題?
解決方案:讀取Excel文件后,添加以下代碼:
#解決matplotlib畫圖中文亂碼問題
#1.下載中文字體SimHei,下載鏈接:http://139.199.170.86/downloads/SimHei.ttf
#2.安裝SimHei字體到macOS,雙擊下載的字體文件,然后點擊“安裝字體”按鈕。
#3.找到Matplotlib的字體目錄
print('Matplotlib的字體目錄:',mpl.get_data_path())
#4.找到Matplotlib的緩存目錄
print('Matplotlib的緩存目錄:',mpl.get_cachedir()) #/Users/用戶名/.matplotlib
#5.終端刪除這個緩存文件夾:rm -rf rm -rf /Users/用戶名/.matplotlib/*#6.Python腳本中配置Matplotlib使用新字體
plt.rcParams['font.sans-serif'] = ['SimHei'] # 設置字體為SimHei
plt.rcParams['axes.unicode_minus'] = False # 解決負號顯示問題
最終展示情況: