前言
如果你對這篇文章感興趣,可以點擊「【訪客必讀 - 指引頁】一文囊括主頁內所有高質量博客」,查看完整博客分類與對應鏈接。
表格數據
- Sklearn 提供了 13 個表格型數據,且數據處理接口統一;
- LIBSVM 提供了 131 個表格型數據,整體數據格式比較統一;
- UCI 提供了 565 個表格型數據,但未提供統一的數據集處理接口;
- 或許可使用該倉庫的代碼進行統一處理:ucimlrepo
- OpenML 提供了 5393 個表格型數據,且數據可按照下述代碼統一處理:
import openmlopenml.config.apikey = "your api key"dataset_id = 43466
dataset = openml.datasets.get_dataset(dataset_id, download_all_files=False)
X, y, _, _ = dataset.get_data(target=dataset.default_target_attribute)print(dataset.description)
print(X.shape, X.columns)
print(len(y), y.name)
圖像數據
- torchvision 提供了大量圖像數據集,包括 37 個圖像分類數據集;
- huggingface 包含大量圖像數據集,其中圖像分類至少有 636 個,并提供了統一的數據集調用接口;
- deeplake 提供了 1262 個圖像數據集,有統一的數據集下載接口;
- UCI 中包含 4 個較小的圖像數據集。