pandas filter_數據分析之Pandas操作(2)

接著數據分析之Pandas操作(1)的介紹,本次介紹在實際應用場景中幾個常用的函數。還是以titanic生存數據為例,本次需要導入pandas?、numpy?、scipy三個工具包。

import pandas as pdimport numpy as npfrom scipy.stats import zscoretrain_data?=?pd.read_csv("titanic/train.csv")

(1)查找及統計缺失值

使用函數:count,功能:統計非空個數
#統計非空個數train_data.count()#統計空值個數train_data.shape[0]-train_data.count()
75dd5ed8a4c1add7a96264cf3a9dc413.png使用函數:isnull,?功能:統計空值個數
#計算全部數據中空值的總數,與train_data.shape[0]-train_data.count() 一致np.count_nonzero(train_data.isnull())
fcd402d64e7e9ee979826a87a065ea98.png
#計算某一列中空值的個數np.count_nonzero(train_data['Age'].isnull())
0a34b12774138a73676d241935d2db1a.png

(2)通過apply統計缺失值

首先自定義函數,返回某個維度的空值個數
#通過定義函數 統計缺失值def missing_counts(vector):    null_vector=pd.isnull(vector)    null_counts=np.sum(null_vector)    return null_counts
將函數作用于數據集的每一行
count_missing_row=train_data.apply(missing_counts,axis=1) count_missing_row.head(10)
5e38a0b8f0c152a43f01905147a89a2f.png將函數作用于每一列
count_missing_col=train_data.apply(missing_counts)
(3)缺失值填充使用函數:fillna,功能:填充空值整個數據集填充
train_data.fillna(0)
具體某一列填充
train_data['Age'].fillna(0)
(4)缺失值刪除使用函數:dropna,功能:刪除空值
train_data.dropna().head(10)
注:缺失值填充及缺失中默認是False,即不替換原有的數據集,如果想保留原有的數據集,可以重新一個數據集來存放處理過的數據。(5)匯總統計情景1:統計單個字段,單個數字特征
#計算不同倉位的乘客平均年齡avg_age_by_pclass=train_data.groupby('Pclass').Age.mean()
724a655d7b20b125ce20ce98025a9050.png
#單獨計算1等倉位的平均年齡avg_age_by_pclass=train_data.loc[train_data.Pclass==1]['Age'].mean()
79aaa3c06d52225acc573b1404475781.png情景2:單個字段,多個數字特征,使用agg函數
avg_age_by_pclass=train_data.groupby('Pclass')['Age'].agg([np.count_nonzero,np.mean,np.std])
2e934f9c6737e5552df336e27cddd92b.png情景3:統計統計多個字段,多個數字特征
avg_age_by_pclass=train_data.groupby('Pclass').agg(    {'Age':'mean','Fare':'median'    })
241b4edf9126d6d4eaedd74323cdcd84.png情景4:重命名數字特征列,重新設置索引
avg_age_by_pclass=train_data.groupby('Pclass')['Age'].agg([    np.count_nonzero,    np.mean,    np.std]).rename(columns={'count_nonzero':'count','mean':'avg','std':'std_dev'}).reset_index()
c9e801a6560bbb7a619fce9a80fc7fce.png(6)過濾,類似SQL的having
#按照倉位分組,篩選倉位人數大于200的數據,過濾倉位等級為2的數據train_data.groupby('Pclass').filter(lambda?x:x['Pclass'].count()>=200)['Pclass'].value_counts()?
50cdee656c816cbaa06757736650ce56.png
#按照倉位分組,篩選年齡均值大于29的數據,過濾倉位等級為2的數據train_data.groupby('Pclass').filter(lambda?x:x['Age'].mean()>=29)['Pclass'].value_counts()
ab15e92ef1f7f9d9bc8c8b2f8ff52c7c.png(7)轉換:transform定義一個正態標準化函數
#標準化函數def zscore_count(x):????return?((x-x.mean())/x.std())
按照倉位分組后對年齡字段標準化
#按照倉位分組后對年齡字段標準化z_transf=train_data.groupby('Pclass').Age.transform(zscore_count)z_transf.shape,train_data.shape
05f88a5b25385610b46e1c6a96858c7d.png不分組,對全量數據標準化
all_z_score=zscore(train_data.Age)
66b0f3fe30aa46309fb0004d84a75040.png總結:通過兩次對pandas常用操作的介紹,希望能幫助大家起到一個入門的作用,但是,pandas功能強大,還有很多細節需要在實際應用中去查閱官方文檔,不要拒絕閱讀英文官方文檔,查字典,慢慢讀。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/529068.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/529068.shtml
英文地址,請注明出處:http://en.pswp.cn/news/529068.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ios 隱藏app的插件_等了5年終于復活,iPhone上最干凈好用的微博App

來,先跟小虎妞一起回憶下2013年的微博客戶端。(圖源水印)那時候,首頁還是按時間順序來的,也沒有赴美產子、老爺夫人知道錯了的廣告。后來,隨著微博一次次改版,客戶端越來越臃腫,第三方微博客戶端像雨后春筍…

html高度為零,html中父div高度為0的原因

問題:在chrome中看到父div高度為0,但里面明明有內容。原因:簡單的講原因就是子元素如果設了float屬性,這些子元素就脫離了父div容器的控制,所以父容器認為里面沒內容,高度自然變成了0.解決辦法:…

算法訓練營Day23

#Java #回溯 #組合問題 開源學習資料 Feeling and experiences: 組合總和III:力扣題目鏈接 找出所有相加之和為 n 的 k 個數的組合,且滿足下列條件: 只使用數字1到9每個數字 最多使用一次 返回 所有可能的有效組合的列表 。…

matlab調用python_從MATLAB調用Python函數

嘗試使用此MEX文件從MATLAB實際調用Python,而不是像其他人建議的那樣。它提供了相當不錯的集成:http : //algoholic.eu/matpy/ 您可以輕松地執行以下操作: [X,Y]meshgrid(-10:0.1:10,-10:0.1:10); Zsin(X)cos(Y); py_export(X,Y,Z) stmt spr…

macbook配置java環境變量_配置mac上Java環境變量

從ubuntu上轉到mac上來做開發,一切配置都要重新開始1. 下載jrehttp://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html選擇合適的版本和安裝包2. 一鍵安裝3. 查看是否安裝成功scarlettdeMacBook-Air:~ scarlettxu$ java -versionjava vers…

地圖 插件 html 經緯度,如何往地圖位置(經緯度)選擇插件頁面傳遞經緯度

查看了一下代碼,發現了解決辦法;在edit.html中:{:__(Longitude)}:{:__(Latitude)}:在對應的js代碼中:edit: function () {$("[data-toggleaddresspicker]").data("lat-id",c-latitude);$("[data-togglea…

python調用node_在node中執行python腳本

Node.js多進程基礎 Node.js 是以單線程的模式運行的,但它使用的是事件驅動來處理并發。這樣有助于我們在多核 cpu 的系統上創建多個子進程,從而提高性能。 每個子進程總是帶有三個流對象:child.stdin, child.stdout 和child.stderr。他們可能…

idea 自動生成mybaits_IDEA利用mybatis-generator自動生成dao和mapper

pom.xml配置1 2 1.83 1.3.74 5.1.465 1.1.96 1.3.27 89 10 11 org.springframework.boot12 spring-boot-starter-web13 1415 16 org.springframework.boot17 spring-boot-starter-test18 test19 20 21 org.junit.vintage22 junit-vintage-engine23 24 25 26 27 28 org.mybatis.…

計算機專業個人工作總結,年底個人工作總結計算機專業材料

《年底個人工作總結計算機專業材料.doc》由會員分享,可免費在線閱讀全文,更多與《年底個人工作總結計算機專業材料》相關文檔資源請在幫幫文庫(www.woc88.com)數億文檔庫存里搜索。1、定的進步,但我深知自己還存在些缺點和不足,理論基礎還不扎實,業務知識…

docker配置 nacos_Nacos - 阿里開源配置中心

這里是喵了個咪的后端技術分享,覺得寫的不錯。點個贊,轉發一下,關注一下。本文載于個人原創技術博客http://w-blog.cn,轉載請注明出處,非法轉載抄襲將追究其責任。配置中心相信大家都有聽過,zookeeper、apo…

樂高機器人骨奧_樂高機器人這個大坑,為啥大家都拽著孩子往里跳?

上學期我們在美國經常湊一起玩的幾家家長給自己挖了個大坑,因為孩子們平時都很喜歡玩樂高積木,而且年齡也差不多大剛升了四年級, 感覺是時候可以整點兒“大事”了,于是把他們動員起來組成了一個樂高機器人團隊,還任命我…

微型計算機內存主要,微型計算機的內存容量主要指 ( ) 的容量 (7.0分)

【判斷題】青藏高壓又稱南亞高壓,是暖季出現在亞洲大陸南部青藏高原上空對流層頂部的大型暖高壓系統。【問答題】電路如圖 10 所示,已知: u i1 2V,u i2 1V ,計算電路中 u o1 、u o2 、u o3 、u o 的值。【問答題】您認為大學生階段的學習生活主要由哪幾個部分構成?【判斷題】發…

jdbc獲取mysql第二行表信息_【奇技淫巧】MySQL另類方法獲取元數據信息

問:在進行MySQL注入時,我們通常是通過information_schema元數據來獲取表名、字段名信息,從而讀取相應數據。但是如果waf或其它過濾了information_schema關鍵字,那么還有什么方法可以讀取元數據信息呢?答:從…

vscode使用sass_推薦7 個 極好用的VS Code 插件

你知道將高級開發人員與普通開發人員區分的條件是什么嗎?沒錯,是所使用的工具,俗話說,"工欲善其事必先利其器", 擁有正確的工作工具可以讓開發人員的生活變得更加輕松,甚至想寫一輩子代碼。巧的的…

劍指offer python實現_劍指Offer第2題詳解(附Python、Java代碼實現)

題目描述 請實現一個函數,將一個字符串中的每個空格替換成“%20”。例如,當字符串為We Are Happy.則經過替換之后的字符串為We%20Are%20Happy。 這個題較為簡單 1. Python實現 1.1 使用replace直接實現def replaceSpace(s): # return s.replace(" &…

挖掘城市ip_不斷挖掘IP價值,緊抓樂園經濟新機遇!

當一個國家的人均GDP達到5,000美元時,其旅游度假經濟將進入成熟階段。按照2018年末人口總數計算,我國人均GDP接近1萬美元,近年來,越來越多的主題樂園落戶中國。樂園的選址、運營有頗多講究。對主題樂園而言,依托大中型…

pixel和毫米怎么換算_趕緊收藏!小學階段所有公式、單位換算、數量關系

小學階段會接觸到很多公式,這些公式都是學習中必須要記憶的,筆者特意總結了小學一到六年級所有的公式、單位換算、數量關系、難題知識。孩子只要掌握了這四大知識重點,考試輕輕松松拿高分!一、數量關系計算公式1、單價數量&#x…

相冊權限_手機相冊太亂?1分鐘教你快速管理自己的照片,非常好用!

喜歡拍照的朋友們是不是有這樣一個煩惱,那就是手機里拍了很多照片,當你想找某一張照片時你得在手機里翻半天,費時費力,那么今天我就來給大家解決這個煩惱,手機相冊是手機中必不可少的,那當我們手機照片太多…

學校計算機數據采集處理系統,中學化學計算機數據采集處理系統實驗室裝備

中學化學計算機數據采集處理系統實驗室裝備配置方案一、基礎型配置(31套:教師1套,學生30套(2學生/組,以每班60學生分組)),每套配置標準如下:序號 名稱 型號1 數據采集器 SJ-SJCJQ2 南師大分析軟件 NJSFDX-V33 電流傳感…

python爬蟲知識大全_Python爬蟲入門有哪些基礎知識點

1、什么是爬蟲 爬蟲,即網絡爬蟲,大家可以理解為在網絡上爬行的一直蜘蛛,互聯網就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那么它就會抓取下來。想抓取什么?這個由你…