機器學習knnlearn5

import numpy as np
from os import listdir
from sklearn.neighbors import KNeighborsClassifier as kNN# 此函數用于將一個32x32的文本文件轉換為一個1x1024的一維向量
def img2vector(filename):"""將32x32的文本文件轉換為1x1024的向量:param filename: 要轉換的文本文件的文件名:return: 轉換后的1x1024向量，如果出現錯誤則返回None"""try:# 初始化一個1x1024的零向量，用于存儲轉換后的數據returnVect = np.zeros((1, 1024))# 以只讀模式打開指定的文件with open(filename) as fr:# 遍歷文件的前32行，因為圖像是32x32的for i in range(32):# 讀取當前行的內容lineStr = fr.readline()# 遍歷當前行的前32個字符for j in range(32):# 將當前字符轉換為整數，并存儲到向量的相應位置returnVect[0, 32 * i + j] = int(lineStr[j])# 返回轉換后的向量return returnVectexcept FileNotFoundError:# 若文件未找到，打印錯誤信息print(f"錯誤：文件 {filename} 未找到。")return Noneexcept Exception as e:# 若發生其他未知錯誤，打印錯誤信息print(f"錯誤：處理文件 {filename} 時發生未知錯誤：{e}")return None# 此函數用于加載訓練數據，返回訓練數據矩陣和對應的標簽列表
def load_training_data():"""加載訓練數據:return: 訓練數據矩陣和對應的標簽列表，如果出現錯誤則返回None, None"""# 用于存儲訓練數據的標簽hwLabels = []try:# 獲取訓練數據文件夾下的所有文件名trainingFileList = listdir('trainingDigits')# 計算訓練數據的數量m = len(trainingFileList)# 初始化一個m行1024列的零矩陣，用于存儲訓練數據trainingMat = np.zeros((m, 1024))# 遍歷訓練數據文件夾下的所有文件for i in range(m):# 獲取當前文件名fileNameStr = trainingFileList[i]# 從文件名中提取出對應的數字標簽classNumber = int(fileNameStr.split('_')[0])# 將標簽添加到標簽列表中hwLabels.append(classNumber)# 調用img2vector函數將當前文件轉換為向量vector = img2vector(f'trainingDigits/{fileNameStr}')if vector is not None:# 將轉換后的向量存儲到訓練數據矩陣的相應行trainingMat[i, :] = vector# 返回訓練數據矩陣和標簽列表return trainingMat, hwLabelsexcept FileNotFoundError:# 若訓練數據文件夾未找到，打印錯誤信息print("錯誤：訓練數據文件夾未找到。")return None, Noneexcept Exception as e:# 若發生其他未知錯誤，打印錯誤信息print(f"錯誤：加載訓練數據時發生未知錯誤：{e}")return None, None# 此函數用于加載測試數據，返回測試數據矩陣和對應的標簽列表
def load_test_data():"""加載測試數據:return: 測試數據矩陣和對應的標簽列表，如果出現錯誤則返回None, None"""try:# 獲取測試數據文件夾下的所有文件名testFileList = listdir('testDigits')# 計算測試數據的數量mTest = len(testFileList)# 初始化一個mTest行1024列的零矩陣，用于存儲測試數據testMat = np.zeros((mTest, 1024))# 用于存儲測試數據的標簽testLabels = []# 遍歷測試數據文件夾下的所有文件for i in range(mTest):# 獲取當前文件名fileNameStr = testFileList[i]# 從文件名中提取出對應的數字標簽classNumber = int(fileNameStr.split('_')[0])# 將標簽添加到標簽列表中testLabels.append(classNumber)# 調用img2vector函數將當前文件轉換為向量vector = img2vector(f'testDigits/{fileNameStr}')if vector is not None:# 將轉換后的向量存儲到測試數據矩陣的相應行testMat[i, :] = vector# 返回測試數據矩陣和標簽列表return testMat, testLabelsexcept FileNotFoundError:# 若測試數據文件夾未找到，打印錯誤信息print("錯誤：測試數據文件夾未找到。")return None, Noneexcept Exception as e:# 若發生其他未知錯誤，打印錯誤信息print(f"錯誤：加載測試數據時發生未知錯誤：{e}")return None, None# 此函數用于進行手寫數字識別測試，打印分類結果和錯誤率
def handwritingClassTest():"""手寫數字識別測試"""# 調用load_training_data函數加載訓練數據trainingMat, hwLabels = load_training_data()if trainingMat is None or hwLabels is None:# 若加載訓練數據失敗，直接返回return# 創建一個K近鄰分類器對象，設置鄰居數量為3，算法為自動選擇neigh = kNN(n_neighbors=3, algorithm='auto')# 使用訓練數據和標簽對分類器進行訓練neigh.fit(trainingMat, hwLabels)# 調用load_test_data函數加載測試數據testMat, testLabels = load_test_data()if testMat is None or testLabels is None:# 若加載測試數據失敗，直接返回return# 初始化錯誤計數為0errorCount = 0.0# 計算測試數據的數量mTest = len(testLabels)# 遍歷測試數據for i in range(mTest):# 使用訓練好的分類器對當前測試數據進行預測classifierResult = neigh.predict(testMat[i].reshape(1, -1))# 打印分類結果和真實標簽print(f"分類返回結果為 {classifierResult[0]}\t真實結果為 {testLabels[i]}")if classifierResult[0] != testLabels[i]:# 若分類結果與真實標簽不一致，錯誤計數加1errorCount += 1.0# 打印錯誤的數量和錯誤率print(f"總共錯了 {int(errorCount)} 個數據\n錯誤率為 {errorCount / mTest * 100:.2f}%")# 程序入口，當腳本作為主程序運行時，調用handwritingClassTest函數進行測試
if __name__ == '__main__':handwritingClassTest()

# 首先導入鳶尾花數據載入工具
from sklearn.datasets import load_iris
#導入KNN分類模型
from sklearn.neighbors import KNeighborsClassifier
#為了方便可視化，我們再導入matplotlib和seaborn
import matplotlib.pyplot as plt
import seaborn as sns
#加載鳶尾花數據集，賦值給iris變量
iris = load_iris()
#查看數據集的鍵名
iris.keys()
#查看數據集的特征名稱
iris.feature_names
# 查看數據集中的樣本分類
iris.target 
#將樣本的特征和標簽分別賦值給X和y
x, y = iris.data, iris.target 
#查看是否成功
x.shape
#導入數據集拆分工具
from sklearn.model_selection import train_test_split
#將X和y拆分為訓練集和驗證集
x_train, x_test, y_train, y_test = train_test_split(x,y)
#查看拆分情況
x_train.shape
#創建KNN分類器,參數保持默認設置
knn_clf = KNeighborsClassifier(n_neighbors=6)
#使用訓練集擬合模型
knn_clf.fit(x_train,y_train)
#查看模型在訓練集和驗證集中的準確率print('訓練集準確率：%.2f'%knn_clf.score(x_train, y_train))
print('驗證集準確率：%.2f'%knn_clf.score(x_test, y_test))# 導入網格搜索
from sklearn.model_selection import GridSearchCV
# 定義一個從1到10的n_neighbors
n_neighbors = tuple(range(1,11,1))
# 創建網格搜索示例，estimator 用knn分類器
# 把剛剛定義的n_neighbors 傳入param_grid參數
# cv參數指交叉驗證次數為5
cv = GridSearchCV(estimator=KNeighborsClassifier(),param_grid = {'n_neighbors':n_neighbors},cv = 5)
# 使用網絡搜索你和數據集
cv.fit(x,y)
# 查看最優參數
cv.best_params_

訓練集準確率：0.96
驗證集準確率：0.95{'n_neighbors': 6}

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/74896.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/74896.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/74896.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！