下載huggingface數據集到本地并讀取.arrow文件遇到的問題

文章目錄

    • 1. 524MB中文維基百科語料(需要下載的數據集)
    • 2. 下載 hugging face 網站上的數據集
    • 3. 讀取 .arrow 文件報錯代碼
    • 4. 糾正后代碼

1. 524MB中文維基百科語料(需要下載的數據集)

在這里插入圖片描述

2. 下載 hugging face 網站上的數據集

要將Hugging Face網站上的數據集下載到本地,可以使用Hugging Face提供的Python庫 datasets。以下是下載數據集的基本步驟:

  1. 確保你已經安裝了 datasets 庫。你可以使用以下命令安裝它:
pip install datasets
  1. 導入 datasets 庫:
from datasets import load_dataset
  1. 使用 load_dataset 函數加載你感興趣的數據集。例如,如果你想下載上面網頁的數據集,你可以這樣做:
dataset = load_dataset('pleisto/wikipedia-cn-20230720-filtered')
  1. 下載完成后,你可以指定一個本地目錄來保存數據集文件。可以使用以下代碼來指定保存路徑:
dataset.save_to_disk(r'E:\DL\CSDN-blog\pyqt5_ui')

請將 括號中的字符串替換為你想要保存數據集文件的實際目錄。這樣,你就可以將Hugging Face網站上的數據集下載到本地指定的目錄中了。

請注意,某些數據集可能需要進行身份驗證或同意使用條款才能下載。確保你遵守數據集提供者的規定和許可要求。

  1. 下載后的結果

在這里插入圖片描述

3. 讀取 .arrow 文件報錯代碼

import pyarrow as pa# 讀取.arrow文件
table = pa.ipc.open_file(r'E:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow').read_pandas()
print('打印數據:\n', table)

報錯輸出


C:\ProgramData\Anaconda3\python.exe E:/DL/CSDN-blog/pyqt5_ui/gen_data.py
Traceback (most recent call last):File "E:/DL/CSDN-blog/pyqt5_ui/gen_data.py", line 8, in <module>table = pa.ipc.open_file(r'E:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow').read_pandas()File "C:\ProgramData\Anaconda3\lib\site-packages\pyarrow\ipc.py", line 236, in open_fileoptions=options, memory_pool=memory_pool)File "C:\ProgramData\Anaconda3\lib\site-packages\pyarrow\ipc.py", line 111, in __init__options=options, memory_pool=memory_pool)File "pyarrow\ipc.pxi", line 942, in pyarrow.lib._RecordBatchFileReader._openFile "pyarrow\error.pxi", line 144, in pyarrow.lib.pyarrow_internal_check_statusFile "pyarrow\error.pxi", line 100, in pyarrow.lib.check_status
pyarrow.lib.ArrowInvalid: Not an Arrow file

4. 糾正后代碼

參考鏈接: Python : Arrow、Pyarrow庫、以及與Julia互讀

import pyarrow as pa
import json
# from datasets import load_dataset
# dataset = load_dataset('pleisto/wikipedia-cn-20230720-filtered')
# dataset.save_to_disk(r'E:\DL\CSDN-blog\pyqt5_ui')# 讀取.arrow文件
# table = pa.ipc.open_file(r'E:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow').read_pandas()
# 可以讀出julia對應的test.arrow文件
def read_arrow_to_df_julia_ok(path):with open(path,"rb") as f:r = pa.ipc.RecordBatchStreamReader(f)df = r.read_pandas()return df
table = read_arrow_to_df_julia_ok(r'E:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow')
# 打印數據
print('打印數據:\n', table)

正確結果輸出


C:\ProgramData\Anaconda3\python.exe E:/DL/CSDN-blog/pyqt5_ui/gen_data.py
打印數據:source                                         completion
0       wikipedia.zh2307  昭通機場(ZPZT)是位于中國云南昭通的民用機場,始建于1935年,19603月開通往返航...
1       wikipedia.zh2307  我的英雄學院:英雄新世紀\n《我的英雄學院劇場版:英雄新世紀》(仆のヒーローアカデミア TH...
2       wikipedia.zh2307  黃大仙文化公園(Wong Tai Sin Culture Park)是香港一個公園,位于九龍...
3       wikipedia.zh2307  佐洛奇夫(Zolochiv),或按俄語譯為佐洛喬夫(Золочев),是烏克蘭西部利沃夫州佐...
4       wikipedia.zh2307  陳準,字道基,潁川郡許昌(今河南許昌)人。西晉官員。官至太尉。出身潁川陳氏,青州刺史陳佐之子...
...                  ...                                                ...
127269  wikipedia.zh2307  五個為什么(英文:5 Whys),又稱為“五個為何”、“五問”或“五問法”,是一種提出問題的...
127270  wikipedia.zh2307  熱凝膠多糖,又名可得然膠、卡德蘭膠,是一種β-1,3-葡聚糖,是由葡萄糖組合而成的高分子聚合...
127271  wikipedia.zh2307  尤寧縣 (阿肯色州)\n尤寧縣(Union County)是美國阿肯色州南部的一個縣,南鄰路...
127272  wikipedia.zh2307  超粒方,本名邱奕淳,臺灣百萬訂閱YouTuber,國立交通大學(今國立陽明交通大學)外文系肄...
127273  wikipedia.zh2307  《切爾諾貝利·禁區》是由“SineLab Production”(第1季)和RatPack ...[127274 rows x 2 columns]Process finished with exit code 0

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/711502.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/711502.shtml
英文地址,請注明出處:http://en.pswp.cn/news/711502.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MATLAB環境下一種新穎的類脈沖信號的高分辨率時頻分析方法

一般情況下&#xff0c;機械振動信號或地震信號是非平穩的。而傳統傅立葉變換只能應用于平穩信號分析&#xff0c;故不適用于非平穩信號。所以&#xff0c;我們需要采用時頻分析方法。時頻分析方法能達到同時在時間域和頻率域對信號進行分析的目的&#xff0c;得到信號在不同時…

Python爬取網站視頻資源

思路&#xff1a; 在界面找到視頻對應的html元素位置&#xff0c;觀察發現視頻的url為https://www.pearvideo.com/video_視頻的id&#xff0c;而這個id在html中的href中&#xff0c;所以第一步需要通過xpath捕獲到所需要的id 在https://www.pearvideo.com/video_id的頁面&…

線程池學習

github看到一個項目&#xff08;GitHub - markparticle/WebServer: C Linux WebServer服務器&#xff09;&#xff0c;內部使用的一個線程池看著不錯&#xff0c;拿來學習一下。 /** Author : mark* Date : 2020-06-15* copyleft Apache 2.0*/ #ifndef THREADPO…

Windows系統搭建VisualSVN并結合內網穿透實現遠程訪問本地服務

文章目錄 前言1. VisualSVN安裝與配置2. VisualSVN Server管理界面配置3. 安裝cpolar內網穿透3.1 注冊賬號3.2 下載cpolar客戶端3.3 登錄cpolar web ui管理界面3.4 創建公網地址 4. 固定公網地址訪問 前言 SVN 是 subversion 的縮寫&#xff0c;是一個開放源代碼的版本控制系統…

js實現轉義、反轉義

兩種思路&#xff0c;一種是列出需要用到的轉義項&#xff0c;通過正則來轉化&#xff1b;另一種通過轉化為html語言&#xff0c;通過瀏覽器幫助我們翻譯&#xff0c;然后獲取innerText var HtmlUtil {/*1.用瀏覽器內部轉換器實現html編碼&#xff08;轉義&#xff09;*/html…

Spring 事務常見錯誤(上)

通過上一章的學習&#xff0c;我們了解了 Spring Data 操作數據庫的一些常見問題。這一章我們聊一聊數據庫操作中的一個非常重要的話題——事務管理。 Spring 事務管理包含兩種配置方式&#xff0c;第一種是使用 XML 進行模糊匹配&#xff0c;綁定事務管理&#xff1b;第二種是…

洗澡、泡腳真的能養生? 皮膚科醫生來科普

現如今人們越來越注重健康與養生&#xff0c;除了枸杞、生姜等食補外&#xff0c;各種保健方法和保健產品也層出不窮&#xff0c;還有泡腳、洗涼水澡等養生延緩衰老的方式也廣泛流行&#xff0c;那么泡腳與洗涼水澡真的有用嗎?西安國際醫學中心醫院皮膚科主任高鵬程特意進行了…

Timeplus-proton流處理器調研

概念 Timeplus是一個流處理器。它提供強大的端到端功能&#xff0c;利用開源流引擎Proton來幫助數據團隊快速直觀地處理流數據和歷史數據&#xff0c;可供各種規模和行業的組織使用。它使數據工程師和平臺工程師能夠使用 SQL 釋放流數據價值。 Timeplus 控制臺可以輕松連接到不…

K8S相關小技巧《一》

在實際使用Kubernetes的時候有一些常用的小技巧&#xff0c;在此分享給大家&#xff1a; 獲取用于拉取docker的密鑰的原本值&#xff0c;k8s docker registry pull secret decode&#xff1a; kubectl get secret/registry-pull-secret -n kube-iapply-qa -o json | jq .data…

女性三八節禮物攻略:她無法抗拒的五大禮物

隨著春風的溫柔拂面&#xff0c;我們即將迎來一年一度的三八國際婦女節。這個特別的日子&#xff0c;不僅是對女性貢獻的認可和慶祝&#xff0c;也是向我們生命中的女性表達感激和愛意的絕佳時機。在這個充滿溫馨和敬意的時刻&#xff0c;我們常常在思考&#xff0c;如何用一份…

信息學奧賽一本通1310:【例2.2】車廂重組

1310&#xff1a;【例2.2】車廂重組 時間限制: 1000 ms 內存限制: 65536 KB 提交數: 48051 通過數: 28919 【題目描述】 在一個舊式的火車站旁邊有一座橋&#xff0c;其橋面可以繞河中心的橋墩水平旋轉。一個車站的職工發現橋的長度最多能容納兩節車廂&#xff0c…

elementUI el-table中的對齊問題

用elementUI時&#xff0c;遇到了一個無法對齊的問題&#xff1a;代碼如下&#xff1a; <el-table :data"form.dataList" <el-table-column label"驗收結論" prop"checkResult" width"200"> <template slot-sco…

0005TS函數類型詳解

TypeScript 中的函數類型用于為函數定義參數類型和返回值類型。這提供了一個清晰的契約&#xff0c;指明函數應該如何被調用和期望返回什么類型的結果。以下是 TypeScript 中函數類型的一些基本用法和概念&#xff1a; 函數聲明 在 TypeScript 中&#xff0c;你可以為函數的參…

揭秘!Excel如何成為職場中的價值創造利器

文章目錄 一、Excel在生產力提升中的作用二、Excel在創造價值方面的應用案例三、Excel實用技巧分享四、Excel與其他工具的協同應用五、Excel學習的建議與展望《Excel函數與公式應用大全》亮點內容簡介作者簡介目錄 在當今信息爆炸的時代&#xff0c;數據處理和分析能力已成為職…

AI智能分析網關V4智慧商場方案,打造智慧化商業管理生態

AI智能視頻檢測技術在商場樓宇管理中的應用越來越廣泛。通過實時監控、自動識別異常事件和智能預警&#xff0c;這項技術為商場管理提供了更高效、更安全的保障。今天我們以TSINGSEE青犀視頻AI智能分析網關為例&#xff0c;給大家介紹一下AI視頻智能分析技術如何應用在商場樓宇…

搶單情況下的均衡分配機制

背景&#xff1a; 1、工單有多種類型。 2、客戶提交工單。 3、不同客服受理不同類型工單&#xff0c;受理工單類型存在交叉。 4、按照類型維度實現均衡分配。 方案&#xff1a; 1、為每種類型創建一個工單池&#xff0c;使用隊列&#xff0c;左進右出&#xff1b;客戶提交…

Android AIDL RemoteCallbackLIst

RemoteCallbackLIst 參考地址 RemoteCallbackList 是 Android SDK 中的一個類&#xff0c;用于幫助管理進程之間的回調。它專為進程間通信 (IPC) 場景而設計&#xff0c;在該場景中&#xff0c;應用程序的不同部分甚至不同的應用程序可能在不同的進程中運行。 以下是其關鍵功能…

將所有字母轉化為該字母后的第三個字母,即A->D,B->E

//編寫加密程序&#xff0c;規則&#xff1a;將所有字母轉化為該字母后的第三個字母&#xff0c;即A->D,B->E,C->F,…Y->B,Z->C //小寫字母同上&#xff0c;其他字符不做轉化。輸入&#xff1a;I love 007 輸出&#xff1a;L oryh 007 代碼&#xff1a; #inc…

GVA快速使用

1. clone 代碼&#xff0c; 使用goland打開Server目錄&#xff0c; 使用vsc打開前端web目錄&#xff0c;運行后端&#xff0c;前端 gin-vue-admin后臺管理系統 - 知乎 (zhihu.com) 2.了解端口配置 參考&#xff0c; 基于Go的后臺管理框架Gin-vue-admin_go vue admin-CSDN博客…

配置MMDetection的solov2攻略整理

目錄 一、MMDetection 特性 常見用法 二、ubuntu20.04配置solov2 三、Windows11配置solov2 一、MMDetection MMDetection是一個用于目標檢測的開源框架&#xff0c;由OpenMMLab開發和維護。它提供了豐富的預訓練模型和模塊&#xff0c;可以用于各種目標檢測任務&#xff…