Python 數據分析與可視化 Day 8 - Pandas 高級操作技巧

? 今日目標

  • 掌握 Pandas 的索引體系(Index / MultiIndex)
  • 使用 set_index()reset_index() 管理數據索引
  • 理解 pivot_tablemeltstack/unstack 重塑數據形態
  • 初步理解“寬表”與“長表”在數據分析與可視化中的應用場景

📚 一、深入理解 Pandas 的索引系統

1. 默認索引 vs 自定義索引

df = pd.read_csv("./data/students_cleaned.csv")# 自定義“姓名”為索引列
df_indexed = df.set_index("姓名")
print(df_indexed.head())# 還原索引為普通列
df_reset = df_indexed.reset_index()

2. 多級索引(MultiIndex)

df_multi = df.set_index(["性別", "是否及格"])
print(df_multi.head())# 多級索引選擇
print(df_multi.loc[("男", True)])

📊 二、數據透視表(pivot_table)

類似 Excel 的數據透視功能,可做匯總/分組/聚合操作

# 性別 + 及格情況的平均成績
pivot = pd.pivot_table(df, values="成績", index="性別", columns="是否及格", aggfunc="mean")
print(pivot)

🔁 三、數據重塑:長表 ? 寬表

1. melt(寬表 → 長表)

df_melted = pd.melt(df, id_vars=["姓名", "性別"], value_vars=["成績", "是否及格"])
print(df_melted.head())

2. pivot(長表 → 寬表)

# 從 melt 回 pivot
df_pivot = df_melted.pivot(index=["姓名", "性別"], columns="variable", values="value")
print(df_pivot.head())

3. stack & unstack

stacked = df.set_index(["姓名", "性別"]).stack()
print(stacked.head())unstacked = stacked.unstack()
print(unstacked.head())

🧪 今日練習任務建議

  1. 使用 set_indexreset_index 操作學生數據

  2. 創建一個以“性別 + 是否及格”為索引的多級索引表

  3. 統計不同性別在及格與否下的平均成績(pivot_table)

  4. 使用 melt 將成績 & 是否及格轉換為“指標名 + 值”形式

  5. 使用 stack/unstack 查看層級結構變化

    data/students_cleaned.csv如數如圖:
    在這里插入圖片描述

    代碼示例:

    import pandas as pd
    import os# 數據路徑
    input_path = "data/students_cleaned.csv"
    if not os.path.exists(input_path):raise FileNotFoundError("? 缺少 students_cleaned.csv,請先運行 clean_data.py")# 加載數據
    df = pd.read_csv(input_path)
    print("? 已加載數據:")
    print(df.head())# ========== 一、索引操作 ==========print("\n👉 使用 set_index() 將姓名設為索引:")
    df_indexed = df.set_index("姓名")
    print(df_indexed.head())print("\n🔁 使用 reset_index() 還原索引:")
    df_reset = df_indexed.reset_index()
    print(df_reset.head())# ========== 二、多級索引 ==========print("\n📦 設置多級索引(性別 + 是否及格):")
    df_multi = df.set_index(["性別", "是否及格"])
    print(df_multi.head())print("\n🔍 查詢:性別為 '女' 且 及格 的學生:")
    print(df_multi.loc[("女", True)])# ========== 三、pivot_table 操作 ==========print("\n📊 pivot_table 統計性別 + 是否及格下的平均成績:")
    pivot = pd.pivot_table(df, values="成績", index="性別", columns="是否及格", aggfunc="mean")
    print(pivot)# ========== 四、melt 數據重塑 ==========print("\n🔄 使用 melt 變長表結構(指標列合并):")
    df_melted = pd.melt(df, id_vars=["姓名", "性別"], value_vars=["成績", "是否及格"])
    print(df_melted.head())# ========== 五、pivot 還原寬表結構 ==========print("\n🔁 使用 pivot 將 melt 數據還原回寬表:")
    df_pivot = df_melted.pivot(index=["姓名", "性別"], columns="variable", values="value")
    print(df_pivot.head())# ========== 六、stack 和 unstack ==========print("\n📚 使用 stack 增加層級結構(列 → 行):")
    df_stacked = df.set_index(["姓名", "性別"]).stack()
    print(df_stacked.head())print("\n📂 使用 unstack 還原結構(行 → 列):")
    df_unstacked = df_stacked.unstack()
    print(df_unstacked.head())
    

    運行結果:

    ? 已加載數據:姓名 性別     成績   是否及格
    0  張三  男  88.00   True
    1  李四  女  81.75   True
    2  王五  男  59.00  False
    3  田七  女  81.75   True
    4  趙六  女  92.00   True👉 使用 set_index() 將姓名設為索引:性別     成績   是否及格
    姓名                 
    張三  男  88.00   True
    李四  女  81.75   True
    王五  男  59.00  False
    田七  女  81.75   True
    趙六  女  92.00   True🔁 使用 reset_index() 還原索引:姓名 性別     成績   是否及格
    0  張三  男  88.00   True
    1  李四  女  81.75   True
    2  王五  男  59.00  False
    3  田七  女  81.75   True
    4  趙六  女  92.00   True📦 設置多級索引(性別 + 是否及格):姓名     成績
    性別 是否及格            
    男  True   張三  88.00True   李四  81.75False  王五  59.00True   田七  81.75True   趙六  92.00🔍 查詢:性別為 '女' 且 及格 的學生:姓名     成績
    性別 是否及格           
    女  True  李四  81.75True  田七  81.75True  趙六  92.00📊 pivot_table 統計性別 + 是否及格下的平均成績:
    是否及格  False      True 
    性別                    
    女       NaN  85.16666759.0  88.000000🔄 使用 melt 變長表結構(指標列合并):姓名 性別 variable  value
    0  張三  男       成績   88.0
    1  李四  女       成績  81.75
    2  王五  男       成績   59.0
    3  田七  女       成績  81.75
    4  趙六  女       成績   92.0🔁 使用 pivot 將 melt 數據還原回寬表:
    variable     成績 是否及格
    姓名 性別               
    張三 男       88.0  1.0
    李四 女      81.75  1.0
    王五 男       59.0  0.0
    田七 女      81.75  1.0
    趙六 女       92.0  1.0📚 使用 stack 增加層級結構(列 → 行):
    姓名  性別      
    張三  男   成績       88.0是否及格     True
    李四  女   成績      81.75是否及格     True
    王五  男   成績       59.0
    dtype: object📂 使用 unstack 還原結構(行 → 列):成績   是否及格
    姓名 性別              
    張三 男    88.0   True
    李四 女   81.75   True
    王五 男    59.0  False
    田七 女   81.75   True
    趙六 女    92.0   True
    

🧾 今日總結

  • 索引是 Pandas 操作效率與表達力的核心
  • 多級索引可構建靈活的數據結構,適合多維度聚合分析
  • pivot_table 是強大而高效的“表格重建”工具
  • melt / pivot / stack / unstack 是數據“變形”關鍵方法

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/86450.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/86450.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/86450.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring Boot整合百度AI人臉比對實戰

目錄 一、簡述 二、依賴 三、代碼步驟 3.1 實體注入 3.2 服務實現 3.3 其它實現 四、小結 歡迎來到 盹貓(>^ω^<)的博客 本篇文章主要介紹了 [Spring Boot整合百度AI人臉比對實戰] ?博主廣交技術好友&#xff0c;喜歡文章的可以關注一下? 一、簡述 人臉識別在日…

使用 pip 安裝 numpy 包卡在 Preparing metadata 階段問題解決

TOC 1 問題描述 使用 pip 安裝numpy卡在下面最后一行的階段&#xff1a; Collecting numpy1.26.4 (from -r requirements.txt (line 2))Using cached https://mirrors.aliyun.com/pypi/packages/65/6e/09db70a523a96d25e115e71cc56a6f9031e7b8cd166c1ac8438307c14058/numpy-…

新手向:Anaconda3的安裝與使用方法

我們在剛開始接觸Python時使用的是Python的直接編譯器,如果我們需要進行其他的項目編寫往往需要使用另一個版本的Python ,這樣反復的下載很是麻煩并且還會造成系統變量的紊亂.這次我們引入Anaconda3,可創建虛擬的Python環境,滿足不同項目的需要,當不用的時候可以直接放心刪除不…

C#中的設計時構造函數

以下是關于設計時構造函數的詳細整理&#xff0c;包括定義、適用場景、相關概念和實際應用&#xff1a; 一、設計時構造函數的定義 設計時構造函數&#xff08;Design-time Constructor&#xff09;是專門為開發工具&#xff08;如Visual Studio、Blazor Designer等&#xff0…

Spring Boot 2.x 項目搭建 (一)

以下是基于Spring Boot 2.x&#xff08;兼容JDK 1.8&#xff09;的項目搭建指南及Markdown文檔生成方案&#xff0c;整合了多個搜索結果中的最佳實踐&#xff1a; 一、項目初始化 1. 使用Spring Initializr創建項目 步驟&#xff1a; 訪問 start.spring.io 或通過IDE&#x…

Kotlin作用域函數:掌握apply/let/run/with/also精髓

一、作用域函數詳解 1. apply&#xff1a;對調用對象進行配置或操作&#xff0c;并返回該對象本身。 接收者引用&#xff1a;this&#xff08;可省略&#xff0c;直接調用接收者成員&#xff09;返回值&#xff1a;接收者對象本身&#xff08;T&#xff09;核心用途&#xff…

Spring Boot監視器:應用監控終極指南

Spring Boot 監視器詳解 Spring Boot 監視器(Monitor)是用于監控和管理 Spring Boot 應用程序運行狀態的核心組件,主要通過 Spring Boot Actuator 和 Spring Boot Admin 兩大工具實現。 一、核心監視器組件 1. Spring Boot Actuator 功能定位:提供應用程序內部運行狀態的原…

SpringBoot 中 @Transactional 的使用

SpringBoot 中 Transactional 的使用 一、Transactional 的基本使用二、Transactional 的核心屬性三、使用避坑&#xff08;失效場景&#xff09;3.1 自調用問題3.2 異常處理不當3.3 類未被 Spring 管理3.4 異步方法內使用失效 四、工作實踐4.1 事務提交之后執行一些操作4.2 事…

6.26_JAVA_微服務_Elasticsearch

1、ES文檔中keyword意思是&#xff1a;字符串&#xff0c;但不需要分詞 2、ES細節CreateIndexRequest request new CreateIndexRequest("items");會讓你導包&#xff0c;會有兩個選擇&#xff1a; import org.elasticsearch.action.admin.indices.create.CreateInd…

Java 大視界 -- 基于 Java 的大數據可視化在智慧城市能源消耗動態監測與優化決策中的應用(324)

Java 大視界 -- 基于 Java 的大數據可視化在智慧城市能源消耗動態監測與優化決策中的應用&#xff08;324&#xff09; 引言&#xff1a;正文&#xff1a;一、Java 驅動的能源數據采集與預處理基建1.1 多源異構數據合規接入層&#xff08;ISO 50001IEC 61850 雙標準適配&#x…

C++ 快速回顧(二)

C 快速回顧&#xff08;二&#xff09; 前言一、友元類二、友元函數三、深淺拷貝淺拷貝深拷貝 前言 用于快速回顧之前遺漏或者補充C知識 一、友元類 友元的優點是可以快速的輕松的訪問的原本由于私有保護的字段和函數&#xff0c;同時這也是它的缺點這樣破壞了原本封裝性。 …

ldl-DeserializationViewer一款強大的序列化數據可視化工具

ldl-DeserializationViewer 一款強大的序列化數據可視化工具&#xff0c;能夠將Java序列化的緩存數據轉換為可讀的JSON格式&#xff0c;無需原始DTO類定義。 A powerful visualization tool for serialized data that converts Java serialized cache data to readable JSON f…

NetworkSecurity SIG成立,助力國產操作系統安全生態發展

近期&#xff0c;ZeroOnes實驗室團隊成員在OpenAtom openKylin&#xff08;簡稱“openKylin”&#xff09;社區發起成立NetworkSecurity SIG&#xff0c;負責基于openKylin系統開展網絡安全工具的研發與適配&#xff0c;助力國產操作系統安全生態發展。 ZeroOnes實驗室專注于網…

回歸任務與分類任務的區別

回歸任務&#xff08;Regression&#xff09;與分類任務&#xff08;Classification&#xff09;是機器學習的兩大核心任務類型&#xff0c;其根本區別在于輸出變量的性質和任務目標。以下是系統性對比&#xff1a; 1. 本質區別&#xff1a;輸出變量類型 任務類型輸出&#xf…

Webshell工具的流量特征分析(菜刀,蟻劍,冰蝎,哥斯拉)

Webshell工具的流量特征分析&#xff08;菜刀&#xff0c;蟻劍&#xff0c;冰蝎&#xff0c;哥斯拉&#xff09; 0x00 前言 使用各種的shell工具獲取到目標權限&#xff0c;即可進行數據操作&#xff0c;今天來簡要分析一下目前常使用的各類shell管理工具的流量特診&#xff…

【linux】全志Tina配置swupdate工具進行分區打包

一、文件路徑 1、描述文件&#xff1a; .\build\swupdate\sw-description-ab 2、鏡像打包文件&#xff1a; .\build\swupdate\sw-subimgs-ab.cfg 二、文件作用 1、sw-description-ab 用于描述版本信息和ab區中要打包的分區信息以及掛載點。 2、sw-subimgs-ab.cfg 用于…

MicroPython網絡編程:AP模式與STA模式詳解

文章目錄 1. MicroPython網絡模塊概述2. 熱點AP模式詳解2.1 什么是AP模式?2.2 AP模式特點2.3 AP模式設置代碼2.4 AP模式適用場景3. 客戶端STA模式詳解3.1 什么是STA模式?3.2 STA模式特點3.3 STA模式設置代碼3.4 STA模式適用場景4. AP與STA模式對比分析5. 實際應用場景與選擇建…

Ubuntu網絡數據包發送工具大全

在Ubuntu系統中&#xff0c;有多種工具可以用于發送網絡數據包&#xff0c;包括UDP、TCP、ICMP等協議。以下是一些常用的工具及其簡要介紹&#xff1a; 1. Packet Sender 功能&#xff1a;支持發送和接收TCP、UDP和SSL數據包&#xff0c;提供圖形界面和命令行工具。安裝&…

小學期前端三件套學習(更新中)

第一階段 HTML 基礎結構 <!DOCTYPE html> <html><head><title>頁面標題</title></head><body>頁面內容</body> </html>常用內容標簽 文本類標簽 ? <h1>~<h6>&#xff1a;標題&#xff08;h1 每個頁面建…

高斯混合模型(Gaussian Mixture Model, GMM)

高斯混合模型&#xff08;Gaussian Mixture Model, GMM&#xff09; 是一種 概率模型&#xff0c;用于表示數據點由多個高斯分布&#xff08;Gaussian Distribution&#xff09;混合生成的過程。它廣泛應用于 聚類分析、密度估計、圖像分割、語音識別 等領域&#xff0c;尤其適…