一、實操
1)通用語法(常見于實操題第一塊代碼塊)
1.讀取文件數據或加載數據集等描述時
一般為以下結構:Data=pd.read_文件格式('文件名')??注意:文件名需要用‘ ’框起來,必須要有引號
文件格式有以下內容csv、txt、xlsx、json、html、sql、parquet、sas、spss、stata、hdf5,替代文件格式的位置
2.讀取前幾行數據
使用.head()方法
head( n ) 方法用于讀取前面的 n 行,如果不填參數 n ,默認返回 5 行。
使用句法:print(data.head(n))如果要求返回5行數據,n可不填
3.保存數據到對應文件
使用.to_文件類型方法
例如data.to_csv('文件名.csv',index = False) 即將data中的數據保存到csv格式的文件 文件名.csv文件中
4.刪除空值或異常值
使用drop或dropna語法
drop
是按 行標簽(index)或列標簽(columns) 刪除整行/整列,你必須告訴它"刪掉第幾行或第幾列"。dropna
是按 缺失值的位置 刪除行/列,你只需告訴它"哪一列有缺失就刪哪一行",不需要知道具體行號。dropna(subset=['列名'])
= "只要這一列缺值就刪該行,別的列缺不缺我不管"。
2)實操題看到關鍵字常用語法
關鍵字:歸一化,標準化,或scaler
看到歸一化,標準化,或scaler這些關鍵字,寫如下格式的代碼
scaler.fit_transform(data[numerical_features])
其中scaler是抄上文,fit_transform是固定用法,括號里的參數是被標準化的對象,抄前文。
關鍵字:轉換數據類型
看到將什么轉換成數據類型時,迅速想到pandas.to_numeric(轉換的數據)
類似以下格式
df['horsepower'] = pd.to_numeric(df['horsepower'], errors='coerce')
這里我要轉換的數據是加載的數據集df中的horsepower列 注:多關注使用的符號例如[]和''
關鍵字:劃分為訓練集和測試集
看到劃分數據集想到train_test_split語法例如以下語句
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42)
這里定義了X為訓練集,y為測試集,使用train_test_split語法劃分,test_size=0.2代表測試集占比20%
關鍵字訓練模型
如果出現訓練模型等關鍵字,使用 數據.fit(訓練集,測試集)例如以下代碼
pipline.fit(X_train,y_train)
訓練pipline數據,使用fit方法訓練,訓練數據為X_train,y_train
關鍵字:保存模型
pickle.dump(model,文件名)
文件名為題目命名文件
關鍵字:預測并保存結果
model.predict(X_test)02
過擬合,欠擬合通用改進點;
1 清洗數據,清洗空值,重復值和異常值。
2 擴充訓練樣本數,增多訓練次數
3 調整特征值,加入和目標值有關的字段,去掉和目標值無關的字段
4 對樣本進行標準化處理(湊數)