數據集(Data set),又稱為資料集、數據集合或資料集合,是一種由數據所組成的集合。它通常以表格形式出現,其中每一列代表一個特定變量,每一行對應于某一成員的數據集的問題。數據集列出的價值觀為每一個變量,如身高和體重的一個物體或價值的隨機數,每個數值被稱為數據資料。對應于行數,該數據集的數據可能包括一個或多個成員。
數據集的類型有多種,包括記錄數據、事務數據或購物籃數據、數據矩陣、稀疏數據矩陣、基于圖形的數據、有序的數據(如時序數據、序列數據、時間序列數據、空間數據)等。數據集還可以分為類型化數據集與非類型化數據集。類型化數據集先從基DataSet類派生,然后使用XML架構文件(.xsd文件)中的信息生成新類;而非類型化數據集沒有相應的內置架構,需要通過Tables集合引用列。
數據集在計算機視覺、自然語言處理、醫療、金融、交通等領域都有廣泛的應用。一個高質量的數據集應該具有準確的標簽和干凈的數據。例如,在計算機視覺領域,通過大規模的圖像數據集,計算機視覺算法可以學習到圖像的特征和語義信息,實現圖像分類、目標檢測、人臉識別等任務。在自然語言處理領域,通過大規模的文本數據集,自然語言處理算法可以學習到語言的語法和語義規律,實現文本分類、情感分析、機器翻譯等任務。