Python中常用的庫-sklearn的介紹和代碼案例
關注B站查看更多手把手教學:
肆十二-的個人空間-肆十二-個人主頁-嗶哩嗶哩視頻 (bilibili.com)
今天我們來一起說下最近python中常用的機器學習庫-sklearn。
Scikit-learn是一個基于Python的開源機器學習庫,提供了廣泛的監督學習和無監督學習算法。這些算法幾乎覆蓋了機器學習的所有領域,從分類、回歸、聚類到降維等。Scikit-learn的接口統一、使用方便,并且基于NumPy和SciPy等庫,使得其在處理大規模數據時也能保持高效。
常用代碼案例及解析
- 線性回歸
線性回歸是預測連續值的最簡單方法。以下是一個使用scikit-learn進行線性回歸的示例:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import datasets # 加載數據集
X, y = datasets.load_diabetes(return_X_y=True) # 劃分訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 創建線性回歸模型
model = LinearRegression() # 訓練模型
model.fit(X_train, y_train) # 預測測試集結果
predictions = model.predict(X_test)
在這個例子中,我們首先加載了內置的糖尿病數據集,并將其劃分為訓練集和測試集。然后,我們創建了一個線性回歸模型,并用訓練數據擬合它。最后,我們使用測試數據進行預測。
- 決策樹分類
決策樹是一種常用的分類算法。以下是一個使用scikit-learn進行決策樹分類的示例:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier # 加載數據集
iris = load_iris()
X = iris.data
y = iris.target # 劃分訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 創建決策樹分類器
clf = DecisionTreeClassifier() # 訓練模型
clf.fit(X_train, y_train) # 預測測試集結果
y_pred = clf.predict(X_test)
在這個例子中,我們加載了內置的鳶尾花數據集,并將其劃分為訓練集和測試集。然后,我們創建了一個決策樹分類器,并用訓練數據擬合它。最后,我們使用測試數據進行預測。注意,這里的預測結果是類別標簽,而不是連續值。因此,我們可以使用準確率等指標來評估模型的性能。但是,為了簡化示例,這里并沒有展示評估過程。在實際應用中,你應該始終評估你的模型性能。