開發機配置外網代理并使用 git lfs
高速下載 Hugging Face 數據集流程
本文檔將介紹如何配置開發機的代理,登錄 Hugging Face,并使用 git-lfs
(Git Large File Storage)進行數據集的高速下載。
1. 配置代理連接外網
開發機在某些網絡環境下可能無法直接訪問外網,因此需要配置代理以保證能夠訪問外部資源(如 Hugging Face 數據集)。執行以下步驟來配置 HTTP 和 HTTPS 代理:
步驟 1.1:編輯系統的 /etc/profile
文件
首先,我們需要在 /etc/profile
文件中添加代理配置:
sudo vim /etc/profile
在文件末尾添加以下內容:
# 設置 HTTP 和 HTTPS 代理
export http_proxy="http://xxxxxx"
export https_proxy="http://xxxxxx"
請根據實際的代理地址替換 xxxxxx
部分。
步驟 1.2:使配置生效
修改完 /etc/profile
文件后,需要執行以下命令使配置生效:
source /etc/profile
2. 安裝 git-lfs
并進行設置
git-lfs
是用于管理和下載大文件的 Git 擴展,特別適用于存儲在 Git 倉庫中的大型文件。在本步驟中,我們將安裝 git-lfs
并進行相關設置。
步驟 2.1:安裝 git-lfs
使用 yum
包管理器來安裝 git-lfs
:
sudo yum install git-lfs
步驟 2.2:初始化 git-lfs
安裝完成后,我們需要初始化 git-lfs
:
git lfs install
此命令將設置 Git LFS 的必要配置,確保它能夠正確工作。
3. 登錄 Hugging Face 并配置 Git
為了能夠從 Hugging Face 下載數據集,我們需要進行認證。下面是登錄過程:
步驟 3.1:安裝 huggingface-cli
huggingface-cli
是 Hugging Face 提供的命令行工具,可以用來進行認證和訪問數據集。
pip install huggingface-cli
步驟 3.2:登錄 Hugging Face
使用 huggingface-cli login
命令登錄 Hugging Face:
huggingface-cli login
系統會要求輸入 token,復制并粘貼你的 Hugging Face 賬戶的 token。你可以通過以下鏈接獲取 token:
Hugging Face 賬戶頁面
4. 配置 Git 存儲憑據
為避免每次推送或拉取時都需要輸入密碼,可以配置 Git 存儲憑據:
git config --global credential.helper store
這將使 Git 保存憑據信息,避免頻繁地要求輸入認證信息。
5. 克隆并下載數據集
步驟 5.1:克隆數據集倉庫
使用 git clone
命令來克隆數據集倉庫。為了提高下載速度,執行 git-lfs
拉取大文件時使用 GIT_LFS_SKIP_SMUDGE=1
跳過初始化文件下載,避免速率限制:
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/datasets/mlfoundations/MINT-1T-PDF-CC-2024-18
該命令將克隆指定的 Hugging Face 數據集倉庫。
步驟 5.2:進入克隆后的倉庫目錄
進入數據集倉庫的目錄:
cd MINT-1T-PDF-CC-2024-18
步驟 5.3:使用 git lfs pull
拉取大文件
接下來,使用 git lfs pull
命令觸發大文件的下載,并完成數據集的下載。這個操作會確保通過 Git LFS 完成大文件的下載:
git lfs pull
下載完成后,你將能夠使用這些大文件。
6. 完成
當 git lfs pull
完成后,數據集將下載完畢,輸出如下信息:
echo "pull done"
此時,你已經成功下載了 Hugging Face 上的 MINT-1T 數據集,并能夠在本地進行使用。
總結
- 配置代理:通過修改
/etc/profile
配置 HTTP 和 HTTPS 代理。 - 安裝
git-lfs
:使用yum install git-lfs
安裝 Git LFS,并初始化它。 - 登錄 Hugging Face:通過
huggingface-cli login
登錄 Hugging Face 賬戶。 - 克隆和下載數據集:使用
git clone
和git lfs pull
克隆數據集并下載大文件。
通過這些步驟,你能夠順利配置開發機的代理、登錄 Hugging Face 賬戶并使用 git-lfs
下載大數據集。