一.掃盲
(一)、pandas 是什么
pandas 是 Python 的一個第三方數據處理庫,它提供了高效、靈活的數據結構(如 Series 和 DataFrame),能方便地對結構化數據進行清洗、轉換、分析和處理。
(二)、pandas 與 NumPy 的關系
NumPy 是 Python 中用于科學計算的基礎庫,主要用于存儲和處理數值型數組。但它有一個局限,就是不能直接存儲和處理字符串等非數值類型的數據。
而 pandas 是在 NumPy 的基礎上構建的,它不僅繼承了 NumPy 對數值型數據的處理能力,還擴展了對字符串、日期等多種數據類型的支持,能更好地應對復雜的結構化數據處理場景。
(三)、為何需要用 pandas 處理 Excel 文件
在日常辦公中,Excel 文件是非常常用的數據存儲和處理格式。但如果僅依靠 Excel 軟件本身進行大量數據的復雜處理,效率往往較低。
這時候就需要用到 pandas,它可以輕松讀取和寫入 Excel 文件,并且能通過簡潔的代碼實現數據篩選、排序、分組、計算等操作,大幅提升數據處理效率。
(四)、哪些行業常用 Excel 且適合用 pandas
很多行業在工作中頻繁使用 Excel,其中金融行業、投行尤為典型。這些行業需要對大量的財務數據、交易數據、市場數據等進行編排、統計和分析計算,借助 pandas 能快速完成復雜的數據處理任務,提高工作效率和準確性。
(五)、openpyxl 庫
除了 pandas,還有一個名為openpyxl的 Python 庫,它可以直接讀取和寫入 Excel 文件。同時,openpyxl 還能模擬 pandas 的部分功能,在一些特定場景下為 Excel 文件處理提供更多選擇。
(六).安裝
- 點擊頂部菜單欄?“File”(文件)→ “Settings”(設置)(或直接按?
Ctrl + Alt + S
?快捷鍵打開設置)。 - 在設置左側列表,找到并點擊?“Project: [你的項目名稱]” → “Python Interpreter”(Python 解釋器)?。
- 在右側 “Python Interpreter” 界面,點?
+
?號(“Add” 按鈕),打開包搜索安裝窗口,搜索你需要的第三方庫(如?pandas
?numpy
?等 ),再點擊 “Install Package” 安裝即可。
二.代碼演示
"""
DataFrame(數據框)
就是excel表(多個Series的拼接)
"""
import pandas as pddf_1 = pd.DataFrame({'age':[10,11,12],'name':['tim', 'tom', 'rose'],'income':[100,200,300]},index=['person1', 'person2', 'person3'])
print(df_1)"""
dataframe的屬性
"""
#行索引
df_1.index
#列名
df_1.columns
#值
df_1.valuesdf_1 = pd.DataFrame({'age':[10,11,12],'name':['tim', 'tom', 'rose'],'income':[100,200,300]})
print(df_1)
print(df_1.name)
在這個代碼里面我們可以看到在6行 pandas 數據類型是dataframe numpy的數據類型是ndnarry
?其中
df_1 = pd.DataFrame({'age':[10,11,12],'name':['tim', 'tom', 'rose'],'income':[100,200,300]},index=['person1', 'person2', 'person3'])
在DataFrame后面的數據是可以全部強制轉化表格數據的類型,
#效果展示: