人工智能訓練師三級備考筆記

一般為以下結構：Data=pd.read_文件格式('文件名')??注意：文件名需要用‘ ’框起來，必須要有引號

文件格式有以下內容csv、txt、xlsx、json、html、sql、parquet、sas、spss、stata、hdf5，替代文件格式的位置

使用.head()方法

head( n ) 方法用于讀取前面的 n 行，如果不填參數 n ，默認返回 5 行。

使用句法：print（data.head(n)）如果要求返回5行數據，n可不填

使用.to_文件類型方法

例如data.to_csv('文件名.csv',index = False) 即將data中的數據保存到csv格式的文件文件名.csv文件中

使用drop或dropna語法

看到歸一化，標準化，或scaler這些關鍵字，寫如下格式的代碼
scaler.fit_transform(data[numerical_features])
其中scaler是抄上文，fit_transform是固定用法，括號里的參數是被標準化的對象，抄前文。

看到將什么轉換成數據類型時，迅速想到pandas.to_numeric(轉換的數據)

類似以下格式

df['horsepower'] = pd.to_numeric(df['horsepower'], errors='coerce')

這里我要轉換的數據是加載的數據集df中的horsepower列注：多關注使用的符號例如[]和''

看到劃分數據集想到train_test_split語法例如以下語句

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2, random_state=42)

這里定義了X為訓練集，y為測試集，使用train_test_split語法劃分，test_size=0.2代表測試集占比20%

如果出現訓練模型等關鍵字，使用數據.fit（訓練集，測試集）例如以下代碼

pipline.fit(X_train,y_train)

訓練pipline數據，使用fit方法訓練，訓練數據為X_train,y_train

pickle.dump(model,文件名)

文件名為題目命名文件

model.predict(X_test)02

過擬合，欠擬合通用改進點；
1 清洗數據，清洗空值，重復值和異常值。
2 擴充訓練樣本數，增多訓練次數
3 調整特征值，加入和目標值有關的字段，去掉和目標值無關的字段
4 對樣本進行標準化處理（湊數）

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/99120.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/99120.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/99120.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！