Python 數據建模與分析項目實戰預備 Day 4 - EDA(探索性數據分析)與可視化

? 今日目標

  • 使用 Pandas + Matplotlib/Seaborn 對簡歷數據進行探索性分析
  • 分析不同字段與目標變量的相關性
  • 通過可視化呈現簡歷篩選的潛在規律

🧾 一、建議分析內容

🔹 分類字段分析

字段圖表建議說明
degree柱狀圖(分組通過率)分析學歷與通過率關系
university_type條形圖是否為雙一流影響篩選?

🔹 數值字段分析

字段圖表建議說明
work_years箱型圖 / 小提琴圖工齡 vs 通過率分布
project_count, desc_len散點圖項目數量/質量是否有利篩選

🔹 多變量交叉分析

  • 使用 hue="pass_screening" 對比不同特征組合
  • 相關系數熱力圖 sns.heatmap(df.corr())

📦 所需工具

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

?? 今日練習任務

編寫 eda_visualize.py 實現以下內容:

  • 讀取原始數據 resume_data.csv

  • 繪制多個字段與通過率之間的圖表

  • 可輸出為本地圖片或顯示圖形窗口

    # eda_visualize.py - 簡歷數據可視化分析腳本import pandas as pd
    import seaborn as sns
    import matplotlib.pyplot as pltplt.rcParams['font.family'] = 'Arial Unicode MS'  # Mac 用戶可用
    plt.rcParams['axes.unicode_minus'] = False# 設置風格
    sns.set(style="whitegrid")# 讀取數據
    df = pd.read_csv("./data/resume_data.csv")# 設置字體顯示中文(可選)
    plt.rcParams['font.family'] = ['Arial Unicode MS']  # macOS
    # plt.rcParams['font.sans-serif'] = ['SimHei']  # Windows
    # plt.rcParams['axes.unicode_minus'] = False# 學歷 vs 通過率
    plt.figure(figsize=(6, 4))
    sns.barplot(x="degree", y="pass_screening", data=df)
    plt.title("學歷 vs 簡歷通過率")
    plt.savefig("plot_degree_pass.png")# 學校類型 vs 通過率
    plt.figure(figsize=(6, 4))
    sns.barplot(x="university_type", y="pass_screening", data=df)
    plt.title("學校類型 vs 簡歷通過率")
    plt.savefig("plot_univ_pass.png")# 工齡分布對通過率影響
    plt.figure(figsize=(6, 4))
    sns.boxplot(x="pass_screening", y="work_years", data=df)
    plt.title("工齡 vs 簡歷通過情況")
    plt.savefig("plot_work_years_pass.png")# 項目描述長度 vs 篩選通過(散點圖)
    plt.figure(figsize=(6, 4))
    sns.scatterplot(x="project_desc_len", y="project_count", hue="pass_screening", data=df)
    plt.title("項目描述長度 & 數量 vs 篩選")
    plt.savefig("plot_project_scatter.png")# 相關系數熱力圖
    plt.figure(figsize=(10, 6))
    corr = df.corr(numeric_only=True)
    sns.heatmap(corr, annot=True, cmap="YlGnBu")
    plt.title("字段相關系數熱力圖")
    plt.savefig("plot_corr_heatmap.png")print("? 圖表已生成并保存為 PNG 文件。")
    

    在這里插入圖片描述
    在這里插入圖片描述
    在這里插入圖片描述
    在這里插入圖片描述
    在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/89231.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/89231.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/89231.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

力扣每日一題--2025.7.17

📚 力扣每日一題–2025.7.17 📚 3202. 找出有效子序列的最大長度 II(中等) 今天我們要解決的是力扣上的第 3202 題——找出有效子序列的最大長度 II。這道題是昨天 3201 題的擴展,需要我們處理更一般化的情況。 ??…

github不能訪問怎么辦

訪問:“github.com”國內多個地點網站測速結果_網站測速 - 站長工具訪問“github.global.ssl.fastly.net”國內多個地點網站測速結果_網站測速 - 站長工具復制紅框中的ip 打開“C:\Windows\System32\drivers\etc\hosts”文件輸入: 20.205.243.166 githu…

【深度學習新浪潮】AI在finTech領域有哪些值得關注的進展?

近年來,AI在金融科技(FinTech)領域的應用呈現爆發式增長,尤其在大模型技術突破和政策支持的雙重驅動下,多個關鍵領域取得了顯著進展。以下是值得關注的核心方向及具體案例: 一、大模型技術重塑金融服務范式 以DeepSeek為代表的國產大模型通過開源和低成本部署(本地化成…

【中等】題解力扣22:括號生成

題目詳情 數字 n 代表生成括號的對數,設計一個函數生成所有可能的并且有效的括號組合。 示例 1: 輸入:n 3 輸出:[“((()))”,“(()())”,“(())()”,“()(())”,“()()()”] 示例 2: 輸入:n 1 輸出&#…

【JEECG 組件擴展】JSwitch開關組件擴展單個多選框樣式

功能說明:基于JeecgBoot開源框架,JSwitch開關組件擴展,支持單個多選樣式。效果展示:使用示例:{field: JSwitch,component: JSwitch,label: JSwitch,},{field: JSwitchCheckBox,component: JSwitch,label: JSwitchCheck…

(轉)Kubernetes基礎介紹

Kubernetes是用于自動部署、擴展和管理容器化應用程序的開源系統。

vue 播放海康m3u8視頻流筆記

1、安裝hls.jsnpm i hls 2、使用<el-dialogtitle"監控"top"5vh":visible.sync"dialogVisible"width"30%"><video id"video" style"width:100%;height:300px" controls><sourcetype"applicati…

如何清除 npm 緩存

清除 npm 緩存&#xff1a;利弊分析與操作指南 在使用 Node.js 和 npm 進行項目開發時&#xff0c;我們經常會與 npm install 命令打交道。這個過程中&#xff0c;npm 會在本地建立一個緩存機制&#xff0c;用以存儲已下載的包&#xff0c;從而顯著提升后續安裝的速度。然而&am…

Java學習-----消息隊列

消息隊列是分布式系統中重要的組件之一。使用消息隊列主要是為了通過異步處理提高系統性能和削峰、降低系統耦合性。使用消息隊列主要有三點好處&#xff1a;&#xff08;1&#xff09;通過異步處理提高系統性能&#xff08;減少響應所需時間&#xff09;&#xff1a;用戶提交請…

玩轉Docker | 使用Docker部署TeamMapper思維導圖應用程序

玩轉Docker | 使用Docker部署TeamMapper思維導圖應用程序 前言 一、TeamMapper介紹 TeamMapper簡介 TeamMapper功能 二、系統要求 環境要求 環境檢查 Docker版本檢查 檢查操作系統版本 三、部署TeamMapper服務 下載TeamMapper鏡像 編輯部署文件 創建容器 檢查容器狀態 檢查服務…

深入解析Linux進程創建與fork機制

目錄 一、fork函數初識 二、fork函數返回值 思考&#xff1a; 1. fork函數為何給子進程返回0&#xff0c;而給父進程返回子進程的PID&#xff1f; 2. 關于fork函數為何有兩個返回值這個問題 三、寫時復制機制 寫時拷貝&#xff08;Copy-On-Write&#xff09;機制解析 1.…

【軟件開發】主流 AI 編碼插件

主流 AI 編碼插件1. GitHub Copilot 支持平臺&#xff1a;VS Code、Neovim、JetBrains 系列、Visual Studio 優點 深度語料庫&#xff1a;基于 OpenAI 的大規模模型訓練&#xff0c;能夠生成高質量、上下文相關的代碼補全。多語言支持&#xff1a;對 Python、JavaScript、TypeS…

實訓十一——網絡通信原理

補充如何解決IPv4地址不足的問題&#xff1f;使用專用的IPv4地址范圍&#xff08;如 10.0.0.0/8、172.16.0.0/12、192.168.0.0/16&#xff09;并通過NAT轉換與外部網絡通信&#xff0c;能有效節約公網IPv4地址。根據RFC 1918的定義&#xff0c;以下是保留的私有IPv4地址范圍&am…

Spring Cloud LoadBalancer 詳解

在分布式系統快速發展的當下&#xff0c;服務間的調用日益頻繁且復雜。如何合理分配請求流量&#xff0c;避免單個服務節點過載&#xff0c;保障系統的穩定性與高效性&#xff0c;成為關鍵問題。負載均衡技術便是解決這一問題的重要手段。Spring Cloud LoadBalancer 作為 Sprin…

Linux內核內存管理相關的配置參數

Linux內核內存管理相關的配置參數&#xff08;主要位于/proc/sys/vm/目錄下&#xff09;&#xff0c;用于調整內存分配、緩存管理、交換機制、OOM&#xff08;內存溢出&#xff09;策略等核心內存行為。以下是對每個參數的詳細解釋&#xff1a; admin_reserve_kbytes block_dum…

Web開發 01

先放一下自己寫的手敲的第一個網站代碼&#xff01;~雖然很簡單但還是有點成就感&#xff01;&#xff01;開心&#x1f60a;<!DOCTYPE html> <html><head><title>Title!</title><link rel "stylesheet"href "style.css"…

Redis 生產實戰 7×24:容量規劃、性能調優、故障演練與成本治理 40 條軍規

&#xff08;一&#xff09;寫在前面&#xff1a;為什么需要“軍規” Redis 在測試環境跑得飛快&#xff0c;一到線上就“莫名其妙”抖動&#xff1b;大促前擴容 3 倍&#xff0c;成本卻翻 5 倍&#xff1b;一次主從切換&#xff0c;緩存雪崩導致下游 DB 被打掛&#xff1b;開發…

【DOCKER】綜合項目 MonitorHub (監控中心)

文章目錄1、項目架構圖1.1 架構組件2、實際實施2.1 安裝docker2.2 編寫dockerfile文件2.2.1 Prometheus2.2.2 node_exporter2.2.3 nginxvts模塊2.2.4 nginx_exporeter 服務發現文件2.2.5 maridb dockerfile文件2.2.6 鏡像總數2.3 具體操作2.3.1 Prometheus組件2.3.2 nginx組件2…

Java List 集合詳解:從基礎到實戰,掌握 Java 列表操作全貌

作為一名 Java 開發工程師&#xff0c;你一定在項目中頻繁使用過 List 集合。它是 Java 集合框架中最常用、最靈活的數據結構之一。無論是從數據庫查詢出的數據&#xff0c;還是前端傳遞的參數列表&#xff0c;List 都是處理這些數據的首選結構。本文將帶你全面掌握&#xff1a…

SGMD辛幾何模態分解 直接替換Excel運行包含頻譜圖相關系數圖 Matlab語言!

SGMD辛幾何模態分解 直接替換Excel運行包含頻譜圖相關系數圖 Matlab語言算法近幾年剛提出&#xff0c;知網還沒幾個人用&#xff0c;你先用&#xff0c;你就是創新&#xff01;算法新穎小眾&#xff0c;用的人很少&#xff0c;包含分解圖、頻譜圖、相關系數圖&#xff0c;效果如…