🐍【Python】進階學習:pandas——describe()
函數的使用介紹
🌈 個人主頁:高斯小哥
🔥 高質量專欄:Matplotlib之旅:零基礎精通數據可視化、Python基礎【高質量合集】、PyTorch零基礎入門教程👈 希望得到您的訂閱和支持~
💡 創作高質量博文(平均質量分92+),分享更多關于深度學習、PyTorch、Python領域的優質內容!(希望得到您的關注~)
🌵文章目錄🌵
- 📊 一、初識`describe()`函數
- 📈 二、`describe()`函數的基本用法
- 🔍 三、定制`describe()`函數的輸出
- 📊 四、`describe()`函數與數據可視化
- 💡 五、深入理解統計指標
- 📚 六、總結與進階學習
- 🤝 七、期待與你共同進步
📊 一、初識describe()
函數
??在數據分析和處理的過程中,我們經常需要了解數據的基本統計信息,如均值、標準差、最小值、最大值等。pandas庫中的describe()
函數為我們提供了這樣的功能,它可以快速生成數據集的描述性統計信息。
📈 二、describe()
函數的基本用法
??describe()
函數是pandas庫中DataFrame和Series對象的一個方法,它默認返回以下統計信息:
count
:非空值的數量mean
:平均值std
:標準差min
:最小值25%
:第一四分位數(Q1)50%
:第二四分位數(中位數,Q2)75%
:第三四分位數(Q3)max
:最大值
使用示例:
import pandas as pd# 創建一個簡單的DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [5, 4, 3, 2, 1],'C': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)# 使用describe()函數
description = df.describe()
print(description)
輸出:
A B C
count 5.000000 5.000000 5.000000
mean 3.000000 3.000000 30.000000
std 1.581139 1.581139 15.811388
min 1.000000 1.000000 10.000000
25% 2.000000 2.000000 20.000000
50% 3.000000 3.000000 30.000000
75% 4.000000 4.000000 40.000000
max 5.000000 5.000000 50.000000
🔍 三、定制describe()
函數的輸出
??describe()
函數提供了多個參數,允許我們定制輸出的統計信息。
percentiles
:指定要包括的其他百分位數,例如percentiles=[.25, .5, .75]
將返回第一、第二和第三四分位數。include
:指定要包括的數據類型,默認為'all'
,可以設置為'all'
,'nums'
, 或'object'
。exclude
:指定要排除的數據類型。
使用示例:
import pandas as pd# 創建一個簡單的DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [5, 4, 3, 2, 1],'C': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)# 使用describe()函數定制輸出
custom_description = df.describe(percentiles=[.30, .60, .90])
print(custom_description)
輸出:
A B C
count 5.000000 5.000000 5.000000
mean 3.000000 3.000000 30.000000
std 1.581139 1.581139 15.811388
min 1.000000 1.000000 10.000000
30% 2.200000 2.200000 22.000000
50% 3.000000 3.000000 30.000000
60% 3.400000 3.400000 34.000000
90% 4.600000 4.600000 46.000000
max 5.000000 5.000000 50.000000
📊 四、describe()
函數與數據可視化
??describe()
函數輸出的統計信息經常與數據可視化結合使用,以更直觀地了解數據的分布。例如,我們可以使用matplotlib庫來繪制箱線圖(boxplot)。
使用示例:
import pandas as pd
from matplotlib import pyplot as plt# 創建一個簡單的DataFrame
data = {'A': [1, 2, 3, 4, 5],'B': [5, 4, 3, 2, 1],'C': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)# 使用describe()函數定制輸出
custom_description = df.describe(percentiles=[.30, .60, .90])
print(custom_description)# 繪制箱線圖
df.boxplot()
plt.show()
效果展示:
💡 五、深入理解統計指標
??了解describe()
函數輸出的統計指標對于正確解讀數據至關重要。例如,標準差可以告訴我們數據集的離散程度,中位數則可以告訴我們數據集的中心趨勢,而不受極端值的影響。
📚 六、總結與進階學習
??describe()
函數是pandas庫中非常實用的一個函數,它可以幫助我們快速了解數據集的基本統計信息。通過定制輸出、結合數據可視化以及深入理解統計指標,我們可以更好地分析和處理數據。在進階學習中,你還可以探索其他與describe()
函數相關的統計方法和可視化工具,以提高你的數據處理和分析能力。
希望這篇博客能幫助你更好地理解和使用pandas中的describe()
函數!🚀📈🔍
🤝 七、期待與你共同進步
??🌱 親愛的讀者,非常感謝你每一次的停留和閱讀!你的支持是我們前行的最大動力!🙏
??🌐 在這茫茫網海中,有你的關注,我們深感榮幸。你的每一次點贊👍、收藏🌟、評論💬和關注💖,都像是明燈一樣照亮我們前行的道路,給予我們無比的鼓舞和力量。🌟
??📚 我們會繼續努力,為你呈現更多精彩和有深度的內容。同時,我們非常歡迎你在評論區留下你的寶貴意見和建議,讓我們共同進步,共同成長!💬
??💪 無論你在編程的道路上遇到什么困難,都希望你能堅持下去,因為每一次的挫折都是通往成功的必經之路。我們期待與你一起書寫編程的精彩篇章! 🎉
??🌈 最后,再次感謝你的厚愛與支持!愿你在編程的道路上越走越遠,收獲滿滿的成就和喜悅!祝你編程愉快!🎉