hugging-face數據集快速下載

開發機配置外網代理并使用 git lfs 高速下載 Hugging Face 數據集流程

本文檔將介紹如何配置開發機的代理,登錄 Hugging Face,并使用 git-lfs (Git Large File Storage)進行數據集的高速下載。


1. 配置代理連接外網

開發機在某些網絡環境下可能無法直接訪問外網,因此需要配置代理以保證能夠訪問外部資源(如 Hugging Face 數據集)。執行以下步驟來配置 HTTP 和 HTTPS 代理:

步驟 1.1:編輯系統的 /etc/profile 文件

首先,我們需要在 /etc/profile 文件中添加代理配置:

sudo vim /etc/profile

在文件末尾添加以下內容:

# 設置 HTTP 和 HTTPS 代理
export http_proxy="http://xxxxxx"
export https_proxy="http://xxxxxx"

請根據實際的代理地址替換 xxxxxx 部分。

步驟 1.2:使配置生效

修改完 /etc/profile 文件后,需要執行以下命令使配置生效:

source /etc/profile

2. 安裝 git-lfs 并進行設置

git-lfs 是用于管理和下載大文件的 Git 擴展,特別適用于存儲在 Git 倉庫中的大型文件。在本步驟中,我們將安裝 git-lfs 并進行相關設置。

步驟 2.1:安裝 git-lfs

使用 yum 包管理器來安裝 git-lfs

sudo yum install git-lfs
步驟 2.2:初始化 git-lfs

安裝完成后,我們需要初始化 git-lfs

git lfs install

此命令將設置 Git LFS 的必要配置,確保它能夠正確工作。

3. 登錄 Hugging Face 并配置 Git

為了能夠從 Hugging Face 下載數據集,我們需要進行認證。下面是登錄過程:

步驟 3.1:安裝 huggingface-cli

huggingface-cli 是 Hugging Face 提供的命令行工具,可以用來進行認證和訪問數據集。

pip install huggingface-cli
步驟 3.2:登錄 Hugging Face

使用 huggingface-cli login 命令登錄 Hugging Face:

huggingface-cli login

系統會要求輸入 token,復制并粘貼你的 Hugging Face 賬戶的 token。你可以通過以下鏈接獲取 token:

Hugging Face 賬戶頁面

4. 配置 Git 存儲憑據

為避免每次推送或拉取時都需要輸入密碼,可以配置 Git 存儲憑據:

git config --global credential.helper store

這將使 Git 保存憑據信息,避免頻繁地要求輸入認證信息。

5. 克隆并下載數據集

步驟 5.1:克隆數據集倉庫

使用 git clone 命令來克隆數據集倉庫。為了提高下載速度,執行 git-lfs 拉取大文件時使用 GIT_LFS_SKIP_SMUDGE=1 跳過初始化文件下載,避免速率限制:

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/mlfoundations/MINT-1T-PDF-CC-2024-18

該命令將克隆指定的 Hugging Face 數據集倉庫。

步驟 5.2:進入克隆后的倉庫目錄

進入數據集倉庫的目錄:

cd MINT-1T-PDF-CC-2024-18
步驟 5.3:使用 git lfs pull 拉取大文件

接下來,使用 git lfs pull 命令觸發大文件的下載,并完成數據集的下載。這個操作會確保通過 Git LFS 完成大文件的下載:

git lfs pull

下載完成后,你將能夠使用這些大文件。

6. 完成

git lfs pull 完成后,數據集將下載完畢,輸出如下信息:

echo "pull done"

此時,你已經成功下載了 Hugging Face 上的 MINT-1T 數據集,并能夠在本地進行使用。


總結

  1. 配置代理:通過修改 /etc/profile 配置 HTTP 和 HTTPS 代理。
  2. 安裝 git-lfs:使用 yum install git-lfs 安裝 Git LFS,并初始化它。
  3. 登錄 Hugging Face:通過 huggingface-cli login 登錄 Hugging Face 賬戶。
  4. 克隆和下載數據集:使用 git clonegit lfs pull 克隆數據集并下載大文件。

通過這些步驟,你能夠順利配置開發機的代理、登錄 Hugging Face 賬戶并使用 git-lfs 下載大數據集。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/84172.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/84172.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/84172.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

17、Python對象操作全解析:同一運算符、成員運算符與整數緩存機制實戰

適合人群:零基礎自學者 | 編程小白快速入門 閱讀時長:約8分鐘 文章目錄 一、問題:Python 同一運算符的本質與實戰?1、例子1:雙胞胎身份證驗證2、答案:(1)is 同一運算符介紹&#xff…

使用auto-coder將kotti項目的pyramid依賴從1.x升級到2.x,將SQLALchemy從1.x升級到2.x

緣起 kotti是一個非常好的基于pyramid框架的web搭建項目,但是由于作者離世,已經3年沒有更新了。 嘗試使用auto-coder將kotti項目的pyramid依賴從1.x升級到2.x,同時發現SQLALchemy依賴也有問題,將SQLALchemy從1.x升級到2.x 開始…

luckysheet的使用——17.將表格作為pdf下載到本地

luckysheet源碼里面自帶有打印按鈕,但是功能是無法使用的,所以我把該功能重寫了一遍 1.在menuButton.js文件中找到源碼打印按鈕的觸發事件: $("#luckysheet-icon-print").click(function () {}2.使用自己寫的掛載方法 window.pr…

仿真APP助力提升卡車駕駛室駕乘舒適度與安全性

駕駛室作為卡車的重要組成部分,其振動特性對于駕駛員的舒適度和長期健康具有至關重要的影響。振動不僅會導致駕駛員疲勞、分散注意力,還可能引發一系列健康問題。為了確保卡車在復雜路面工況下駕駛室結構不受破壞,并保持良好的NVH性能&#x…

功能強大且易于使用的 JavaScript 音頻庫howler.js 和AI里如何同時文字跟音頻構思想法

howler.js 是一個功能強大且易于使用的 JavaScript 音頻庫,它提供了跨瀏覽器的音頻播放功能,支持多種音頻格式,并且具有豐富的 API,可以方便地控制音頻的播放、暫停、循環、音量等。下面是如何在 Vue 項目中使用 howler.js 實現音…

JUC入門(七)

14、ForkJoin ForkJoin框架是Java中用于并行執行任務的框架,特別適合處理可以分解為多個子任務的復雜計算。它基于“分而治之”的思想,將一個大任務分解為多個小任務,這些小任務可以并行執行,最后將結果合并。 ForkJoin框架的核…

第 7 章:綜合回顧與性能優化

本章目標: 系統化地回顧各類外設接口選型原則 深入探討多接口并存時的資源沖突與管理策略 掌握軟硬件協同的性能分析方法,快速定位并消除瓶頸 總結一整套從架構設計到現場調試的最佳實踐與防坑指南 7.1 綜合選型決策矩陣(深度分析) 除了前文的基礎矩陣,這里引入兩個更細化…

交換機的連接方式堆疊和級聯

以下是交換機的堆疊和級聯各自的優缺點總結,幫助快速對比選擇: ?一、堆疊(Stacking)? ?優點 ?高性能 堆疊鏈路帶寬高(如10G/40G/100G),成員間數據通過背板直連,無帶寬瓶頸。支…

C++高效求解非線性方程組的實踐指南

非線性方程組的求解是科學與工程計算中的核心問題之一,涉及物理建模、機器學習、金融分析等多個領域。C因其高性能和底層控制能力成為此類問題的首選語言,但如何高效實現求解仍存在諸多挑戰。本文從算法選擇、工具應用、穩定性優化及性能提升四個維度&am…

2025年- H42-Lc150 --146. LRU緩存(哈希表,雙鏈表)需二刷--Java版

1.題目描述 2.思路 LRU(最近最少使用):如果緩存的容量為2,剛開始的兩個元素都入棧。之后該2元素中有其中一個元素(重點元素)被訪問。把最近訪問過的重點元素保留,另一個邊緣元素就得離開緩存了。 下面是l…

5G 網絡中 DNN 的深度解析:從基礎概念到核心應用

摘要 本文深度剖析 5G 網絡中 DNN(數據網絡名稱)的核心作用與運行機制,從基礎概念入手,詳細闡述 DNN 在會話管理、用戶面資源分配、切片選擇等方面的關鍵功能。通過實際應用場景分析與技術實現細節探討,揭示 DNN 如何助力 5G 網絡滿足多樣化業務需求,為 5G 網絡部署、優…

MLpack 開源庫介紹與使用指南

MLpack 開源庫介紹與使用指南 1. MLpack 簡介 MLpack 是一個快速、靈活的 C 機器學習庫,專注于可擴展性、速度和易用性。它提供了大量經典的機器學習算法實現,包括: 監督學習(分類、回歸)無監督學習(聚類…

Python版scorecardpy庫woebin函數使用

scorecardpy 是一款專門用于評分卡模型開發的 Python 庫,由謝士晨博士開發,該軟件包是R軟件包評分卡的Python版本。量級較輕,依賴更少,旨在簡化傳統信用風險計分卡模型的開發過程,使這些模型的構建更加高效且易于操作。…

英語寫作中“假設”suppose, assume, presume 的用法

一、suppose 是給出推理的前提,與事實無關,例如: Suppose x >0. Then the square root of x is a real number. (假設x大于0,則x的平方根是實數。) Suppose Jack and Alice share a private channel. …

CAD標注樣式如何設置?詳細教程來了

CAD中有很多的標注,比如線性標注,對齊標注,坐標標注,面積標注,直徑標注,弧長標注等等,標注的種類多,標注的樣式也多,今天來給大家介紹一下浩辰CAD看圖王中如何設置不同的…

vscode include總是報錯

VSCode 的 C/C 擴展可以通過配置 c_cpp_properties.json 來使用 compile_commands.json 文件中的編譯信息,包括 include path、編譯選項等。這樣可以確保 VSCode 的 IntelliSense 與實際編譯環境保持一致。 方法一:直接指定 compile_commands.json 路徑…

自動化立體倉庫WCS與PLC通訊設計規范

導語 大家好,我是社長,老K。專注分享智能制造和智能倉儲物流等內容。歡迎大家使用我們的倉儲物流技術AI智能體。 新書《智能物流系統構成與技術實踐》 新書《智能倉儲項目出海-英語手冊,必備!》 完整版文件和更多學習資料&#xf…

【window QT開發】簡易的對稱密鑰加解密工具(包含圖形應用工具和命令行工具)

前言 項目開發時,配置文件中某些信息不適合直接明文顯示,本文提供基于對稱密鑰的AES-256算法的加解密工具,可集成到項目中。 AES講解 以下是我分享的一個在國產信創系統(Linux)下使用openssl實現AES加解密的博文 對稱加密--AES加解密 本文…

「極簡」扣子(coze)教程 | 小程序UI設計進階(二)!讓系統動起來,“禁用”,“加載”狀態設置

大家好,上一期大師兄通過一個例子來介紹一下扣子界面中“可見性”的應用。今天大師兄想再進一步介紹控件中的其他一些重要的屬性。 扣子(coze)編程 「極簡」扣子(coze)教程 | 小程序UI設計進階!控件可見性設置 「極簡」扣子(coze…

前端三件套之html詳解

目錄 一 認識 二 標簽的分類 三 標簽 body標簽 標題標簽 段落標簽 換行標簽 水平分割線 文本格式化標簽 圖片標簽 音頻標簽 鏈接標簽 列表標簽 表格標簽 表單標簽 input標簽 下拉菜單標簽 textarea文本域標簽 label標簽 語義化標簽 button標簽 字符實體 …