一、Sklearn介紹
scikit-learn是Python語言開發的機器學習庫,一般簡稱為sklearn,目前算是通用機器學習算法庫中實現得比較完善的庫了。其完善之處不僅在于實現的算法多,還包括大量詳盡的文檔和示例。其文檔寫得通俗易懂,完全可以當成機器學習的教程來學習。
二、Sklearn數據集種類sklearn 的數據集有好多個種自帶的小數據集(packaged dataset):sklearn.datasets.load_
可在線下載的數據集(Downloaded Dataset):sklearn.datasets.fetch_
計算機生成的數據集(Generated Dataset):sklearn.datasets.make_
svmlight/libsvm格式的數據集:sklearn.datasets.load_svmlight_file(...)
從買了http://data.org在線下載獲取的數據集:sklearn.datasets.fetch_mldata(...)
三、Sklearn數據集
1.有關數據集的工具類
clearn_data_home 清空指定目錄
get_data_home 獲取sklearn數據根目錄
load_files 加載類目數據
dump_svmlight_file 轉化文件格式為svmlight/libsvm
load_svmlight_file 加載文件并進行格式轉換
load_svmlight_files 加載文件并進行格式轉換
2.有關文本分類聚類數據集
fetch_20newsgroups 新聞文本分類數據集
fetch_20newsgroups_vectorized 新聞文本向量化數據集
fetch_rcv1 路透社英文新聞文本分類數據集
有關人臉識別的數據集 fetch_lfw_pairs 人臉數據集
fetch_lfw_people 人臉數據集
fetch_olivetti_faces 人臉數據集
3.有關圖像的數據集
load_sample_image 圖像數據集
load_sample_images 圖像數據集
load_digits 手寫體數據集
4.有關醫學的數據集
load_breast_cancer 乳腺癌數據集
load_diabetes 糖尿病數據集
load_linnerud 體能訓練數據集
5.其他數據集
load_wine 葡萄酒數據集
load_iris 鳶尾花數據集
load_boston 波士頓房屋數據集
fetch_california_housing 加利福尼亞房屋數據集
fetch_kddcup99 入侵檢測數據集
fetch_species_distribution 物種分布數據集
fetch_covtype 森林植被數據集
load_mldata http://mldata.org 在線下載的數據集