除了常見的load_dataset(<hf上的dataset名>)這種方式加載HF上的所有數據外,還有其他custom的選項。
- 加載HF上部分數據
from datasets import load_dataset
c4_subset = load_dataset("allenai/c4", data_files="en/c4-train.0000*-of-01024.json.gz")
c4_subset = load_dataset("allenai/c4", data_dir="en")# 還可以通過 split=xxx 來切分為train or validation
data_files = {"validation": "en/c4-validation.*.json.gz"}
c4_validation = load_dataset("allenai/c4", data_files=data_files, split="validation")
- 加載本地的數據
本地的數據可以是本地自己構建的,也可以是從HF上下載的
https://huggingface.co/docs/datasets/loading#local-and-remote-files
from datasets import load_dataset
dataset = load_dataset("csv", data_files="my_file.csv")
以csv為例,需要在第一個選項指定 'csv’格式,其他格式的數據也需要指定其他格式,HF上的格式基本在HF官網點進去可以知道,如: