列出所有的python 庫和 api
import pandas as pd
import numpy as np
就這兩個庫
pandas 庫 - api | numpy 庫 - api | matplotlib.pyplot - api |
pd.read_csv() | np.where(condition,x,y) | fillna(method='ffill',inplace=True) method='bfill', |
pd.read_excel() | np返回結果 series 對象 data['A列'].value_counts() | data.drop(colums=['數組字段A']) |
data.to_csv('xxx.csv',Index=False) 這個data 通常是之前處理過的數據,比如cleaned_data | 統計缺失值 data.isnull().sum | |
統計具體某列 pd.cut(data[列名], bins=bmi_bins, labels=bmi_labels) | 統計重復值 data.duplicated().sum() | |
1. groupby().apply(lambda) data.groupby(data['需要計算的源數據列名'])['過濾條件的列名'] (data['BMIRange'])['RiskLevel'].apply(lambda x: (x == '高風險患者').mean()) | 數據標準化 公式standard_A = (A - A.mean()) / A.std() data['PurchaseAmount'] = (data['PurchaseAmount'] - | |
2. groupby().agg(['數組元素A','數組元素B']) data.groupby('SensorType')['Value'].agg(['count', 'mean']) 寫法2,gender_stats = data.groupby('Gender').agg({'Speed':'mean','TravelDistance':'mean','TravelTime':'mean'}) | 數據類型轉換 data['Age'].astype(int) ?? | |
3 groupby 過濾方式使用isin . isin(['數組元素A','數組元素B'])] groupby 之前是數據,所以這里要補全 [] | data['Age'].between(18, 70) |