文章目錄
- 1. 524MB中文維基百科語料(需要下載的數據集)
- 2. 下載 hugging face 網站上的數據集
- 3. 讀取 .arrow 文件報錯代碼
- 4. 糾正后代碼
1. 524MB中文維基百科語料(需要下載的數據集)
2. 下載 hugging face 網站上的數據集
要將Hugging Face網站上的數據集下載到本地,可以使用Hugging Face提供的Python庫 datasets
。以下是下載數據集的基本步驟:
- 確保你已經安裝了
datasets
庫。你可以使用以下命令安裝它:
pip install datasets
- 導入
datasets
庫:
from datasets import load_dataset
- 使用
load_dataset
函數加載你感興趣的數據集。例如,如果你想下載上面網頁的數據集,你可以這樣做:
dataset = load_dataset('pleisto/wikipedia-cn-20230720-filtered')
- 下載完成后,你可以指定一個本地目錄來保存數據集文件。可以使用以下代碼來指定保存路徑:
dataset.save_to_disk(r'E:\DL\CSDN-blog\pyqt5_ui')
請將 括號中的字符串替換為你想要保存數據集文件的實際目錄。這樣,你就可以將Hugging Face網站上的數據集下載到本地指定的目錄中了。
請注意,某些數據集可能需要進行身份驗證或同意使用條款才能下載。確保你遵守數據集提供者的規定和許可要求。
- 下載后的結果
3. 讀取 .arrow 文件報錯代碼
import pyarrow as pa# 讀取.arrow文件
table = pa.ipc.open_file(r'E:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow').read_pandas()
print('打印數據:\n', table)
報錯輸出
C:\ProgramData\Anaconda3\python.exe E:/DL/CSDN-blog/pyqt5_ui/gen_data.py
Traceback (most recent call last):File "E:/DL/CSDN-blog/pyqt5_ui/gen_data.py", line 8, in <module>table = pa.ipc.open_file(r'E:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow').read_pandas()File "C:\ProgramData\Anaconda3\lib\site-packages\pyarrow\ipc.py", line 236, in open_fileoptions=options, memory_pool=memory_pool)File "C:\ProgramData\Anaconda3\lib\site-packages\pyarrow\ipc.py", line 111, in __init__options=options, memory_pool=memory_pool)File "pyarrow\ipc.pxi", line 942, in pyarrow.lib._RecordBatchFileReader._openFile "pyarrow\error.pxi", line 144, in pyarrow.lib.pyarrow_internal_check_statusFile "pyarrow\error.pxi", line 100, in pyarrow.lib.check_status
pyarrow.lib.ArrowInvalid: Not an Arrow file
4. 糾正后代碼
參考鏈接: Python : Arrow、Pyarrow庫、以及與Julia互讀
import pyarrow as pa
import json
# from datasets import load_dataset
# dataset = load_dataset('pleisto/wikipedia-cn-20230720-filtered')
# dataset.save_to_disk(r'E:\DL\CSDN-blog\pyqt5_ui')# 讀取.arrow文件
# table = pa.ipc.open_file(r'E:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow').read_pandas()
# 可以讀出julia對應的test.arrow文件
def read_arrow_to_df_julia_ok(path):with open(path,"rb") as f:r = pa.ipc.RecordBatchStreamReader(f)df = r.read_pandas()return df
table = read_arrow_to_df_julia_ok(r'E:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow')
# 打印數據
print('打印數據:\n', table)
正確結果輸出
C:\ProgramData\Anaconda3\python.exe E:/DL/CSDN-blog/pyqt5_ui/gen_data.py
打印數據:source completion
0 wikipedia.zh2307 昭通機場(ZPZT)是位于中國云南昭通的民用機場,始建于1935年,1960年3月開通往返航...
1 wikipedia.zh2307 我的英雄學院:英雄新世紀\n《我的英雄學院劇場版:英雄新世紀》(仆のヒーローアカデミア TH...
2 wikipedia.zh2307 黃大仙文化公園(Wong Tai Sin Culture Park)是香港一個公園,位于九龍...
3 wikipedia.zh2307 佐洛奇夫(Zolochiv),或按俄語譯為佐洛喬夫(Золочев),是烏克蘭西部利沃夫州佐...
4 wikipedia.zh2307 陳準,字道基,潁川郡許昌(今河南許昌)人。西晉官員。官至太尉。出身潁川陳氏,青州刺史陳佐之子...
... ... ...
127269 wikipedia.zh2307 五個為什么(英文:5 Whys),又稱為“五個為何”、“五問”或“五問法”,是一種提出問題的...
127270 wikipedia.zh2307 熱凝膠多糖,又名可得然膠、卡德蘭膠,是一種β-1,3-葡聚糖,是由葡萄糖組合而成的高分子聚合...
127271 wikipedia.zh2307 尤寧縣 (阿肯色州)\n尤寧縣(Union County)是美國阿肯色州南部的一個縣,南鄰路...
127272 wikipedia.zh2307 超粒方,本名邱奕淳,臺灣百萬訂閱YouTuber,國立交通大學(今國立陽明交通大學)外文系肄...
127273 wikipedia.zh2307 《切爾諾貝利·禁區》是由“SineLab Production”(第1季)和RatPack ...[127274 rows x 2 columns]Process finished with exit code 0