Python數據分析基礎01:描述性統計分析

下一篇:

《Python數據分析基礎04:預測性數據分析》

Python數據分析基礎03:探索性數據分析

python數據分析基礎02:數據可視化分析

Python數據分析基礎01:描述性統計分析

描述性統計分析是統計學中最基礎、應用最廣泛的部分。它旨在通過總結、組織和簡化數據,來描述和展示數據集合的主要特征,幫助我們理解數據的“樣子”,而不涉及對總體進行推斷(那是推斷統計的任務)。

1.0? 核心目的:

  1. 概括數據:?用少數幾個關鍵指標(如平均值、標準差)代表大量數據。

  2. 發現模式:?識別數據的分布形狀、集中趨勢、離散程度以及變量間可能的關系。

  3. 識別異常:?找出數據中可能存在的異常值。

  4. 數據呈現:?通過圖表清晰、直觀地展示數據特征。

  5. 為推斷統計打基礎:?提供對數據的初步理解,指導后續更復雜的分析(如假設檢驗、回歸分析)。

2.0? 主要分析內容:

描述性統計分析通常從以下幾個關鍵維度來描述數據:

  1. 集中趨勢:

    • 描述數據點圍繞哪個中心值聚集。

    • 常用指標:

      • 均值:?所有數值的和除以數值個數。最常用,但受極端值影響大。Mean = Σx? / n

      • 中位數:?將數據按大小排序后,位于中間位置的值。不受極端值影響,更能反映數據的“典型”中心。奇數個數據取中間值,偶數個取中間兩個的平均值。

      • 眾數:?數據集中出現頻率最高的值。一個數據集可以有多個眾數(多峰分布)或沒有眾數。適用于分類數據和數值數據。

  2. 離散程度:

    • 描述數據點偏離中心值的程度有多大,數據是緊密聚集還是分散開。

    • 常用指標:

      • 極差:?最大值與最小值之差。計算簡單,但只利用了數據兩端的信息,對異常值敏感。

      • 方差:?各數據點與均值之差的平方的平均值。衡量數據偏離均值的平均程度。Variance (s2) = Σ(x? - Mean)2 / (n - 1)?(樣本方差公式)。

      • 標準差:?方差的平方根。單位與原數據一致,是最常用的離散程度度量。Standard Deviation (s) = √Variance。標準差小,數據圍繞均值緊密聚集;標準差大,數據分散。

      • 四分位距:?第三四分位數(Q3, 75%位置)與第一四分位數(Q1, 25%位置)之差。IQR = Q3 - Q1。衡量中間50%數據的離散程度,不受極端值影響,是識別異常值的基礎(常用?Q1 - 1.5*IQR?和?Q3 + 1.5*IQR?作為異常值邊界)。

      • 平均絕對偏差:?各數據點與均值(或中位數)之差的絕對值的平均值。概念直觀,但數學性質不如方差/標準差好。

  3. 分布形態:

    • 描述數據分布的對稱性、偏斜程度和尖峰程度。

    • 常用指標和圖:

      • 偏度:?衡量分布不對稱性的方向和程度。

        • 偏度 ≈ 0: 分布大致對稱(如正態分布)。

        • 偏度 > 0: 正偏態/右偏態。數據向右(較大值方向)拖尾。均值 > 中位數 > 眾數

        • 偏度 < 0: 負偏態/左偏態。數據向左(較小值方向)拖尾。均值 < 中位數 < 眾數

      • 峰度:?衡量分布曲線頂峰的尖銳程度(與正態分布相比)。

        • 峰度 ≈ 0: 峰度與正態分布相當(常峰態)。

        • 峰度 > 0: 尖峰態。數據分布比正態分布更集中在均值附近,尾部更厚。

        • 峰度 < 0: 低峰態/平頂峰。數據分布比正態分布更分散,尾部更薄。

      • 直方圖:?最直觀展示分布形狀的圖表。

      • 箱線圖:?能同時展示中位數、四分位數、極差、異常值,對分布形狀有粗略展示(特別是偏斜和異常值)。

      • Q-Q圖 / P-P圖:?用于更精確地檢驗數據是否服從特定分布(如正態分布)。

  4. 變量間關系:

    • 當數據集包含多個變量時,描述性統計也用于探索變量之間的關聯。

    • 常用方法:

      • 散點圖:?兩個連續變量之間關系的直觀展示(正相關、負相關、非線性相關、無相關)。

      • 協方差:?衡量兩個變量協同變化的方向。正值表示同向變化,負值表示反向變化。Cov(X,Y) = Σ[(x? - Mean?)(y? - Mean?)] / (n - 1)。但其數值大小受變量自身量綱影響,不便于直接比較相關性強弱。

      • 相關系數:

        • 皮爾遜相關系數:?衡量兩個連續變量之間線性關系的強度和方向。r = Cov(X,Y) / (s? * s?)。取值范圍 [-1, 1]。

          • |r| ≈ 1: 強線性相關。

          • |r| ≈ 0: 弱線性相關或無線性相關(可能存在非線性關系)。

          • r > 0: 正相關。

          • r < 0: 負相關。

        • 斯皮爾曼等級相關系數:?衡量兩個變量之間的單調關系(不一定是線性)的強度和方向。基于數據的排名計算。

        • 卡方檢驗 / 列聯表:?用于分析兩個分類變量之間是否存在關聯。

      • 交叉表:?展示兩個或多個分類變量聯合分布的頻數或比例。

常用工具與方法:

  • 統計量計算:?直接計算上述各種指標(均值、標準差、方差、中位數、四分位數、極差、IQR、偏度、峰度、相關系數等)。

  • 數據可視化:

    • 單變量:?直方圖、箱線圖、莖葉圖、餅圖(分類數據)、條形圖(分類數據)。

    • 雙變量:?散點圖、分組條形圖、堆疊條形圖、熱力圖。

    • 多變量:?散點圖矩陣、平行坐標圖(較少用)。

  • 頻數分布表:?展示數據在不同類別或區間內出現的次數或比例。

描述性統計 vs. 推斷性統計:

這是初學者容易混淆的關鍵點:

特征描述性統計推斷性統計
目的描述樣本數據的特征利用樣本數據推斷總體特征或檢驗假設
對象樣本數據本身樣本數據代表的未知總體
方法計算統計量、繪制圖表參數估計(置信區間)、假設檢驗、回歸分析等
結論報告樣本的實際情況(如樣本均值=5.2)對總體做出概率性陳述(如總體均值可能在4.8-5.6之間,置信度95%)
不確定性不涉及抽樣誤差核心是量化和管理抽樣誤差帶來的不確定性

重要性與應用:

描述性統計是任何數據分析項目的第一步和基礎。它在幾乎所有涉及數據的領域都有廣泛應用:

  • 商業智能:?報告銷售總額、平均訂單額、客戶地域分布、產品銷量排名等。

  • 市場研究:?描述消費者人口統計特征(年齡、性別分布)、滿意度評分均值、品牌認知度比例等。

  • 金融:?計算股票收益率均值、波動率(標準差)、風險價值。

  • 社會科學:?描述調查問卷結果(各選項比例、平均態度得分)、人口普查數據(平均收入、教育水平分布)。

  • 自然科學與工程:?報告實驗數據的平均值、誤差范圍(標準差)、測量結果的分布。

  • 質量控制:?監控生產過程的均值、標準差、合格率。

  • 日常報告:?任何需要總結和展示數據的場合。

總結:

描述性統計分析是打開數據寶庫的第一把鑰匙。它通過計算關鍵統計量(集中趨勢、離散程度、分布形態)和繪制直觀圖表(直方圖、箱線圖、散點圖等),有效地總結、簡化和呈現數據的主要特征和模式,幫助我們快速理解“數據講了什么故事”。它為后續更復雜的推斷性統計分析、建模和決策提供了不可或缺的基礎和洞察。不做好描述性統計就急于進行高級分析,就像不看地圖就一頭扎進未知森林一樣危險。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88130.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88130.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88130.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

成員不更新項目進度,如何建立進度更新機制

項目成員不及時更新進度的主要原因包括責任不明確、缺乏更新規則、溝通機制不暢、進度意識薄弱、工具使用不當等。其中尤其需要關注的是建立清晰的進度更新規則。明確規定成員應何時、如何、向誰匯報進度情況&#xff0c;使得項目的每項任務都有責任人和明確的更新頻率及形式&a…

JVM 整體架構詳解:線程私有與線程共享內存區域劃分

Java 虛擬機&#xff08;JVM&#xff09;作為 Java 程序運行的基礎&#xff0c;其內存模型和線程結構設計直接影響著程序的執行效率和穩定性。本文將從 線程是否共享 的角度出發&#xff0c;對 JVM 的整體內存結構進行清晰分類與簡明解析。一、JVM 內存區域劃分概覽 根據是否被…

【Linux庖丁解牛】— 庫的理解與加載!

1. 目標文件編譯和鏈接這兩個步驟&#xff0c;在Windows下被我們的IDE封裝的很完美&#xff0c;我們?般都是?鍵構建?常?便&#xff0c; 但?旦遇到錯誤的時候呢&#xff0c;尤其是鏈接相關的錯誤&#xff0c;很多?就束??策了。在Linux下&#xff0c;我們之前也學 習過如…

QML事件處理:鼠標、拖拽與鍵盤事件

在QML應用開發中&#xff0c;用戶交互是構建動態界面的核心。本文將全面解析QML中的三大交互事件&#xff1a;鼠標事件、拖拽事件和鍵盤事件&#xff0c;通過實際代碼示例展示如何實現豐富的用戶交互體驗。一、鼠標事件處理1. MouseArea基礎MouseArea是QML中處理鼠標交互的核心…

MySQL 8.0 OCP 1Z0-908 題目解析(20)

題目77 Choose the best answer. Which step or set of steps can be used to rotate the error log? ○ A) Execute SET GLOBAL max_error_count . ○ B) Rename the error log file on disk, and then execute FLUSH ERROR LOGS. ○ C) Execute SET GLOBAL log_error ‘’…

八股學習(四)---MySQL

一、MySQL如何進行SQL調優&#xff1f;我的回答&#xff1a;面試官好&#xff01;我想從SQL語句本身和數據庫結構兩方面來做MySQL的SQL調優。首先會優化SQL寫法&#xff0c;比如避免用SELECT *、減少子查詢嵌套&#xff0c;用JOIN代替&#xff0c;還有合理使用索引&#xff0c;…

華中科大首創DNN衍射量子芯片登《Science Advances》:3D打印實現160μm3高維邏輯門

01 前言華中科技大學王健/劉駿團隊在《Science Advances》發表突破性研究&#xff0c;利用飛秒激光三維打印技術&#xff0c;制造出全球首個聚合物基超緊湊高維量子光芯片。該芯片僅160微米見方&#xff08;約頭發絲直徑的1.5倍&#xff09;&#xff0c;卻實現了光子空間模式的…

【排序】插入排序

如果你已經對排序略知一二&#xff0c;現在正在復習排序的一些重點知識 ------------------------------------------------------------------------------------------------------------------------- 點贊收藏&#x1f308;&#xff0c;每天更新總結文章&#xff08;多以圖…

扣子Coze怎么模仿人類輸出(分段輸出)?

效果&#xff1a; 讓AI回復的更像人類 教程&#xff1a; 工作流&#xff1a; 假設大模型節點就是需要的回復&#xff0c;并且已經按句號&#xff08;。&#xff09;區別開每句話 后面連接一個 文本處理 節點&#xff0c;選擇“字符串分隔”&#xff0c;按“。”進行分割 分…

Android 應用開發 | 一種限制拷貝速率解決因 IO 過高導致系統卡頓的方法

文章目錄一、問題背景二、代碼實現一、問題背景 經常做 Android 應用的小伙伴應該會有經驗&#xff0c;就是如果應用在寫入文件的時候&#xff0c;即使寫文件的動作是在子線程&#xff0c;也會出現 UI 上的卡頓&#xff0c;這是因為文件的 IO 是由內核去完成的&#xff0c;此時…

力扣面試150(19/150)

7.7 12. 整數轉羅馬數字 七個不同的符號代表羅馬數字&#xff0c;其值如下&#xff1a; 符號值I1V5X10L50C100D500M1000 羅馬數字是通過添加從最高到最低的小數位值的轉換而形成的。將小數位值轉換為羅馬數字有以下規則&#xff1a; 如果該值不是以 4 或 9 開頭&#xff0c;…

數據結構與算法——從遞歸入手一維動態規劃【1】

前言&#xff1a; 簡單記錄對左程云系列算法課程--算法講解066【必備】的學習&#xff0c;這是第一篇。主要提供C代碼和一些簡單的個人理解&#xff0c;如需要細致講解請移步原視頻。 涉及內容&#xff1a; 斐波那契數列、動態規劃 參考視頻&#xff1a; 左程云--算法講解…

搭建個人博客系列--Nacos 注冊中心

基礎項目已完成&#xff0c;接下來就是SpringCloud的各種組件了。 那你又要問&#xff1a;既然有Nacos為什么之前還裝了Apollo&#xff1f; 那你別管&#xff0c;那不得什么都會點&#xff0c;不然怎么找工作。干就完了。 一、安裝Nacos 管他三七二十一&#xff0c;先在doc…

前端實習總結——案例與大綱

以下是一個結合真實場景的前端面試案例&#xff0c;包含面試流程、核心問題、候選人回答思路及面試官考察點&#xff0c;可直觀感受如何在面試中展現實習/項目經歷&#xff1a; 案例背景 候選人&#xff1a;應屆生&#xff0c;有6個月前端實習經歷&#xff0c;參與過“企業內部…

Web前端開發: :where(偽類函數選擇器)

:where(偽類函數選擇器)&#xff1a;:where() 是 CSS Selectors Level 4 規范中引入的一個強大的偽類函數選擇器&#xff0c;它允許開發者以簡潔的方式編寫復雜的選擇器&#xff0c;同時具有獨特的優先級特性。核心概念&#xff1a;:where() 偽類函數選擇器與 :is() 非常相似&a…

EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba論文精讀(逐段解析)

EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba論文精讀&#xff08;逐段解析&#xff09; 論文地址&#xff1a;https://arxiv.org/abs/2403.09977 CVPR 2024 Abstract. Prior efforts in light-weight model development mainly centered on CNN an…

Integer緩沖區

文章目錄常見面試題&#xff1a;總結Integer緩沖區是Java預先創建的一個固定范圍的Integer對象緩存池&#xff08;默認-128到127&#xff09;&#xff0c;用于自動復用頻繁使用的整數值&#xff0c;減少內存開銷和對象創建。當通過自動裝箱或Integer.valueOf()生成該范圍內的整…

[國家電網備考]計算機網絡

計算機網絡的概述 概念: 用通信設備與線路將地理位置不同,功能獨立的計算機系統互連起來,以功能完善的網絡軟件實現網絡中資源共享和信息傳遞的系統 自治計算機: 能夠自我管理,配置,維護的計算機(目前我們使用的電腦) 以前的終端只有顯示器,不能叫做自治計算機 計算機網絡向用戶…

在 Linux(openEuler 24.03 LTS-SP1)上安裝 Kubernetes + KubeSphere 的防火墻放行全攻略

目錄 在 Linux&#xff08;openEuler 24.03 LTS-SP1&#xff09;上安裝 Kubernetes KubeSphere 的防火墻放行全攻略 一、為什么要先搞定防火墻&#xff1f; 二、目標環境 三、需放行的端口和協議列表 四、核心工具說明 1. 修正后的 exec.sh 腳本&#xff08;支持管道/重…

HTTP 響應頭信息詳解

HTTP 響應頭信息詳解 引言 HTTP(超文本傳輸協議)是互聯網上應用最為廣泛的網絡協議之一。在HTTP協議中,響應頭信息是服務器向客戶端發送的重要信息之一。響應頭信息包含了關于響應的元數據,如狀態碼、內容類型、緩存策略等。本文將詳細介紹HTTP響應頭信息的概念、類型、作…