Python CSV 數據分析:問題排查與解決全記錄

Python CSV 數據分析:問題排查與解決全記錄

前段時間,我接到一個任務,需要對公司的銷售數據進行分析。這些數據存儲在 CSV 文件里,本想著用 Python 處理起來會很輕松,結果卻狀況百出。下面,就跟大家講講我是如何一步步解決這些問題的。

數據讀取時的編碼問題

我打算用pandas庫來處理 CSV 文件,代碼如下:

import pandas as pdtry:data = pd.read_csv('sales_data.csv')
except FileNotFoundError:print("文件不存在")
except UnicodeDecodeError:print("編碼錯誤")

運行代碼后,程序報錯UnicodeDecodeError。我意識到,可能是 CSV 文件的編碼格式有問題。CSV 文件常用的編碼格式有utf - 8、gbk等。我通過查閱資料得知,pandas默認以utf - 8編碼讀取文件。于是,我猜測文件可能是gbk編碼,修改代碼如下:

import pandas as pdtry:data = pd.read_csv('sales_data.csv')
except FileNotFoundError:print("文件不存在")
except UnicodeDecodeError:print("編碼錯誤")

這次,成功讀取了數據。

數據清洗時的異常值問題

讀取數據后,我查看數據概況,發現 “銷售額” 這一列存在一些異常值,比如負數。我需要將這些異常值篩選出來并處理掉,代碼如下:

import pandas as pddata = pd.read_csv('sales_data.csv', encoding='gbk')
invalid_data = data[data['銷售額'] < 0]
print(invalid_data)

運行代碼,能看到具體的異常數據。為了修正這些數據,我跟業務部門溝通后得知,這些負數是錄入錯誤導致的,應該為 0。于是,我修改代碼進行數據修正:

import pandas as pddata = pd.read_csv('sales_data.csv', encoding='gbk')
data['銷售額'] = data['銷售額'].apply(lambda x: 0 if x < 0 else x)

數據分組統計時的類型問題

接下來,我想按 “銷售地區” 對銷售額進行分組統計,代碼如下:

import pandas as pddata = pd.read_csv('sales_data.csv', encoding='gbk')
data['銷售額'] = data['銷售額'].apply(lambda x: 0 if x < 0 else x)
grouped = data.groupby('銷售地區')['銷售額'].sum()
print(grouped)

結果運行后,發現統計結果不對。經過排查,我發現 “銷售地區” 這一列的數據類型是浮點數,而不是字符串,這導致分組統計出現錯誤。我通過以下代碼修正數據類型:

import pandas as pddata = pd.read_csv('sales_data.csv', encoding='gbk')
data['銷售額'] = data['銷售額'].apply(lambda x: 0 if x < 0 else x)
data['銷售地區'] = data['銷售地區'].astype(str)
grouped = data.groupby('銷售地區')['銷售額'].sum()
print(grouped)

這次,成功得到了正確的統計結果。

通過這次項目,我深切體會到,在數據分析過程中,遇到問題不可怕,只要掌握正確的排查方法,不斷嘗試,就能順利解決問題,完成任務。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/899533.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/899533.shtml
英文地址,請注明出處:http://en.pswp.cn/news/899533.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

一些常用開發軟件下載地址

1. Matlab官方下載地址 MATLAB Runtime 是運行由 MATLAB 編譯的應用程序&#xff08;如 .exe、.jar 或 .dll&#xff09;所必需的組件&#xff0c;無需安裝完整 MATLAB。 &#x1f517; MathWorks 官方下載頁面&#xff1a; https://www.mathworks.com/products/compiler/mat…

06-SpringBoot3入門-常見注解(簡介)

1、Controller ResponseBody Controller是Spring MVC 中的注解&#xff0c;負責處理 HTTP 請求。 ResponseBody是Spring MVC 中的注解&#xff0c;用于直接將方法的返回值作為 HTTP 響應體。 2、RestController RestController Controller ResponseBody 3、RequestMappin…

ubuntu24.04.2 NVIDIA GeForce RTX 4060筆記本安裝驅動

https://www.nvidia.cn/drivers/details/242281/ 上面是下載地址 sudo chmod x NVIDIA-Linux-x86_64-570.133.07.run # 賦予執行權限把下載的驅動復制到家目錄下&#xff0c;基本工具準備&#xff0c;如下 sudo apt update sudo apt install build-essential libglvnd-dev …

【數據庫相關MySql、Redis、MongoDB】

一、三種數據庫的對比 MongoDB、MySQL 和 Redis 是三種不同類型的數據庫系統&#xff0c;它們在數據模型、存儲方式、性能特點、適用場景等方面存在顯著區別。以下是它們的詳細對比&#xff1a; 1. 數據模型 MySQL 類型&#xff1a;RDBMS&#xff08;關系型數據庫&#xff0…

《Express:Node.js 里的 “閃電俠”》

“你就坐在我身邊&#xff0c;好不好” 什么是Express 官方給出的概念&#xff1a;Express 是基于 Node.js 平臺&#xff0c;快速、開放、極簡的 Web 開發框架。 通俗的理解&#xff1a;Express 的作用和 Node.js 內置的 http 模塊類似&#xff0c;是專門用來創建 Web 服務器…

vue遺漏的知識點(動態組件.組件庫的操作使用)

----動態組件&#xff08;vue2vue3通用&#xff09; <component :is"..."> 的作用 <component> 是 Vue 的內置組件&#xff0c;用于動態渲染其他組件。:is 屬性 用于指定要渲染的組件。它的值可以是&#xff1a; 組件的名稱&#xff08;字符串&#xf…

vue 項目啟動報錯可以讓 cursor啟動

vue 項目啟動報錯可以讓 cursor啟動

SQL EXISTS 與 NOT EXISTS 運算符

EXISTS 和 NOT EXISTS 是 SQL 中的邏輯運算符&#xff0c;用于檢查子查詢是否返回任何行。它們通常用在 WHERE 子句中&#xff0c;與子查詢一起使用。 EXISTS 運算符 EXISTS 運算符用于檢查子查詢是否返回至少一行數據。如果子查詢返回任何行&#xff0c;EXISTS 返回 TRUE&…

Android設計模式之模板方法模式

一、定義&#xff1a; 定義一個操作中的算法的框架&#xff0c;而將一些步驟延遲到子類中&#xff0c;使得子類可以不改變一個算法的結構即可重定義該算法的某些特定步驟。 二、結構&#xff1a; AbstractClass抽象類&#xff1a;定義算法的骨架&#xff0c;包含模板方法和若干…

Vue3當中el-tree樹形控件使用

tree懸停tooltip效果 文本過長超出展示省略號 如果文本超出懸停顯示tooltip效果 反之不顯示 這里直接控制固定寬度限制 試了監聽寬度沒效果<template><el-treeshow-checkbox:check-strictly"true":data"data"node-key"id":props"…

QScreen 捕獲屏幕(截圖)

一、QScreen核心能力解析 硬件信息獲取 // 獲取主屏幕對象 QScreen* primaryScreen QGuiApplication::primaryScreen();// 輸出屏幕參數 qDebug() << "分辨率:" << primaryScreen->size(); qDebug() << "物理尺寸:" << primar…

PDF處理控件Aspose.PDF教程:通過C#、Java 和 Python刪除 PDF中的水印

Aspose.PDF 是一個功能強大的庫&#xff0c;旨在以編程方式處理 PDF 文檔&#xff0c;提供創建、編輯、轉換和操作的廣泛功能。它支持 C#、Java 和 Python 等多種編程語言&#xff0c;使開發人員能夠精確高效地自動處理 PDF。 對于開發人員來說&#xff0c;由于自動化和定制化…

基于STC89C51的太陽自動跟蹤系統的設計與實現—單片機控制步進電機實現太陽跟蹤控制(仿真+程序+原理圖+PCB+文檔)

摘 要 隨著我國經濟的飛速發展&#xff0c;促使各種能源使用入不敷出&#xff0c;尤其是最主要的能源&#xff0c;煤炭石油資源不斷消耗與短缺&#xff0c;因此人類尋找其他替代能源的腳步正在加快。而太陽能則具有無污染﹑可再生﹑儲量大等優點&#xff0c;且分布范圍廣&…

【硬件測試】基于FPGA的16QAM+幀同步系統開發與硬件片內測試,包含高斯信道,誤碼統計,可設置SNR

目錄 1.算法硬件測試效果 2.算法涉及理論知識概要 2.1 16QAM調制解調原理 2.2 幀同步 3.Verilog核心程序 4.開發板使用說明和如何移植不同的開發板 5.完整算法代碼文件獲得 1.算法硬件測試效果 本文是之前寫的文章: 《基于FPGA的16QAM幀同步系統verilog開發,包含testb…

多路徑 TCP 調度的另一面

參考前面的文章 一個原教旨的多路徑 TCP 和 MP-BBR 公平性推演&#xff0c;一直都破而不立&#xff0c;不能光說怎樣不好&#xff0c;還得說說現狀情況下&#xff0c;該如何是好。 如果 receiver 亂序重排的能力有限(拜 TCP 所賜)&#xff0c;如果非要在多路徑上傳輸 TCP&…

大數據學習(92)-spark詳解

&#x1f34b;&#x1f34b;大數據學習&#x1f34b;&#x1f34b; &#x1f525;系列專欄&#xff1a; &#x1f451;哲學語錄: 用力所能及&#xff0c;改變世界。 &#x1f496;如果覺得博主的文章還不錯的話&#xff0c;請點贊&#x1f44d;收藏??留言&#x1f4dd;支持一…

RAG - 五大文檔切分策略深度解析

文章目錄 切分策略1. 固定大小分割&#xff08;Fixed-Size Chunking&#xff09;2. 滑動窗口分割&#xff08;Sliding Window Chunking&#xff09;3. 自然語言單元分割&#xff08;Sentence/Paragraph Segmentation&#xff09;4. 語義感知分割&#xff08;Semantic-Aware Seg…

微信小程序引入TDesign組件后報錯一直提示路徑不對(Component is not found in path)的解決方法

最近在做微信小程序的項目&#xff0c;創建好項目后&#xff0c;按官方方式引入TDesign組件&#xff0c;但還是一直提示報錯&#xff08;Component is not found in path "miniprogram_npm/tdesign-miniprogram/button/button" (using by "pages/login/login&qu…

攔截器和過濾器詳解

在 Java Web 開發中&#xff0c;攔截器&#xff08;Interceptor&#xff09;和過濾器&#xff08;Filter&#xff09;是兩種常見的請求處理機制&#xff0c;它們用于對請求和響應進行預處理和后處理 1. 過濾器&#xff08;Filter&#xff09; 1.1 作用 Filter 主要用于對 請求…

【機械視覺】C#+VisionPro聯合編程———【六、visionPro連接工業相機設備】

【機械視覺】C#VisionPro聯合編程———【六、visionPro連接工業相機設備】 目錄 【機械視覺】C#VisionPro聯合編程———【六、visionPro連接工業相機設備】 前言&#xff1a; 連接步驟說明 一. 硬件連接 支持的相機接口類型&#xff1a; 連接步驟 2. 軟件配置 Visio…