HDFS 常用基礎命令詳解——快速上手分布式文件系統

簡介:
本文面向剛接觸 Hadoop HDFS(Hadoop 分布式文件系統)的讀者,結合 CSDN 博客風格,系統梳理最常用的 HDFS 客戶端命令,并配以示例和注意事項,幫助你在開發和運維中快速掌握 HDFS 的文件管理能力。


一、前置條件與環境準備

  1. 安裝 Hadoop
    已完成 Hadoop 單節點或偽分布式集群安裝,并能正常啟動 HDFS(start-dfs.sh)。

  2. 配置環境變量
    確保 HADOOP_HOMEPATH 已包含 Hadoop 可執行文件路徑。例如在 ~/.bashrc 中:

    export HADOOP_HOME=/opt/hadoop
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    
  3. 驗證 HDFS 服務

    jps
    # 應至少看到 NameNode、DataNode、SecondaryNameNode 等進程
    hdfs dfsadmin -report
    

二、HDFS 文件系統目錄操作

操作命令示例說明
創建目錄hdfs dfs -mkdir /user/yourname/input支持 -p 遞歸創建父目錄
列出目錄hdfs dfs -ls /user/yournamehadoop fs -ls
遞歸列出hdfs dfs -ls -R /user/yourname列出子目錄及文件
刪除文件/目錄hdfs dfs -rm /path/to/filehdfs dfs -rm -r /path/to/dir-r 遞歸,-skipTrash 直刪
重命名/移動hdfs dfs -mv /src /dstsrc 與 dst 必須同屬 HDFS
復制文件hdfs dfs -cp /src /dst從 HDFS 到 HDFS

三、HDFS 與本地文件互轉

操作命令示例說明
本地 → HDFS(上傳)hdfs dfs -put local.txt /user/yourname/input/-copyFromLocal
強制覆蓋上傳hdfs dfs -put -f local.txt /user/yourname/input/覆蓋已存在同名文件
HDFS → 本地(下載)hdfs dfs -get /user/yourname/input/data01.txt ./-copyToLocal
本地重命名后上傳hdfs dfs -copyFromLocal local.txt /user/yourname/input/new.txt可以在 HDFS 端指定新文件名

四、查看與讀取文件內容

  • 查看完整內容

    hdfs dfs -cat /user/yourname/input/data01.txt
    
  • 查看開頭或結尾

    hdfs dfs -cat /user/yourname/input/data01.txt | head -n 20   # 前 20 行
    hdfs dfs -tail /user/yourname/input/data01.txt             # 末尾 1KB
    
  • 統計行數、字節數

    hdfs dfs -count -q /user/yourname/input   # 行數、文件數、目錄數
    hdfs dfs -du -h /user/yourname/input      # 各文件和目錄的大小
    

五、權限與空間管理

  1. 修改文件權限

    hdfs dfs -chmod 755 /user/yourname/input/data01.txt
    
  2. 修改文件屬主/屬組

    hdfs dfs -chown yourname:yourgroup /path/to/file
    
  3. 查看使用情況

    hdfs dfsadmin -report
    hdfs dfs -df -h
    

六、最佳實踐與注意事項

  • 避免在小文件大量場景下使用:HDFS 更適合存儲大文件,千萬級小文件會導致 NameNode 內存壓力增大。

  • 合理設置副本數:開發環境可用副本數 1,生產應至少 2~3。

  • 頻繁讀寫使用中間目錄:避免在同一目錄下反復 putrm,可按日期或業務類型分區。

  • 使用 hadoop fshdfs dfshadoop fs 功能等價,可根據習慣任選。


七、結語

以上涵蓋了 HDFS 最常用的基礎命令,包含目錄管理、文件上傳下載、內容查看及權限調整等。掌握這些命令后,你就可以在開發、調試和運維環節高效地與 HDFS 交互。更多高級用法(如 DistCp、HDFS Shell 腳本批量化操作、WebHDFS 接口等),可在后續文章中繼續分享,歡迎關注與留言討論!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/80477.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/80477.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/80477.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

VUE CLI - 使用VUE腳手架創建前端項目工程

前言 前端從這里開始,本文將介紹如何使用VUE腳手架創建前端工程項目 1.預準備(編輯器和管理器) 編輯器:推薦使用Vscode,WebStorm,或者Hbuilder(適合剛開始練手使用),個…

make和makefile的使用,以及寫一個簡單的進度條程序

1.自動化構建-make/makefile 1.1 背景 一個工程文件中的文件不計其數,其按類型、功能、模塊放在若干目錄中,makefile定義了一系列規則來指定哪些文件需要先編譯,哪些文件需要后編譯,哪些文件需要重新編譯,甚至于過呢…

數據結構中的棧與隊列:原理、實現與應用

前言:棧和隊列是計算機科學中兩種最基礎的線性數據結構,它們的獨特操作規則和廣泛的應用場景使其成為每一位開發者必須掌握的核心知識。本文將通過生活案例、代碼實現和實際應用場景,帶您深入理解這兩種數據結構的精髓。 1.棧(Sta…

如何選擇自己喜歡的cms

選擇內容管理系統cms what is cms1.whatcms.org2.IsItWP.com4.Wappalyzer5.https://builtwith.com/6.https://w3techs.com/7. https://www.netcraft.com/8.onewebtool.com如何在不使用 CMS 檢測器的情況下手動檢測 CMS 結論 在開始構建自己的數字足跡之前,大多數人會…

SDC命令詳解:使用all_outputs命令進行查詢

相關閱讀 SDC命令詳解https://blog.csdn.net/weixin_45791458/category_12931432.html all_outputs命令用于創建一個輸出端口對象集合,關于設計對象和集合的更詳細介紹,可以參考下面的博客。 Synopsys:設計對象https://chenzhang.blog.csdn…

vue 中的ref

vue 中的ref vue 中的ref 1. ??ref?? ** 的基本作用** 在 Vue 中&#xff0c;ref 是用來獲取 DOM 元素或者組件實例的一種方式。對于 <el-form> 組件&#xff0c;通過 ref 可以獲取到該表單組件的實例&#xff0c;進而調用表單組件提供的各種方法和訪問其屬性。 …

數據庫版本控制工具--flyway

一. 什么是Flyway Flyway 是一款開源的數據庫遷移工具。它采用簡單直觀的方式管理數據庫變更&#xff0c;通過版本化的遷移腳本確保數據庫結構的一致性和可重復性。無論是開發環境、測試環境還是生產環境&#xff0c;Flyway 都能確保數據庫變更按照預期順序執行&#xff0c;避…

C++使用PoDoFo庫處理PDF文件

&#x1f4da; PoDoFo 簡介 PoDoFo 是一個用 C 編寫的自由開源庫&#xff0c;專用于 讀取、寫入和操作 PDF 文件。它適用于需要程序化處理 PDF 文件的應用程序&#xff0c;比如批量生成、修改、合并、提取元數據、繪圖等。 &#x1f31f; 核心特點 特性說明&#x1f4c4; P…

論文分享? arXiv2025 | TTRL: Test-Time Reinforcement Learning

TTRL: Test-Time Reinforcement Learning TTRL&#xff1a;測試時強化學習 https://github.com/PRIME-RL/TTRL &#x1f4d6;導讀&#xff1a;本篇博客有&#x1f9a5;精讀版、&#x1f407;速讀版及&#x1f914;思考三部分&#xff1b;精讀版是全文的翻譯&#xff0c;篇幅較…

dify插件接入fastmcp示例

文章目錄 1. 使用python完成mcp服務1.1 準備環境&#xff08;python安裝fastmcp&#xff09;1.2 mcp服務端示例代碼1.3 啟動mcp服務端 2. dify接入2.1 安裝MCP SSE和 Agent 策略&#xff08;支持 MCP 工具&#xff09; 插件2.2 dify agent插件配置mcp:2.3 mcp服務配置&#xff…

Linux 挖礦木馬排查命令清單

Linux 挖礦木馬排查命令清單 1. 系統資源使用情況檢查 # 查看CPU、內存使用情況 top -c# 檢查CPU占用最高的進程 ps aux --sort-%cpu# 查找可疑進程名 ps -ef | grep -i miner\|cpu\|GPU\|xmr# 檢查網絡連接情況 lsof -i2. 可疑進程和隱藏進程檢查 # 檢查僵尸進程 ps -ef | …

PyTorch 中如何針對 GPU 和 TPU 使用不同的處理方式

一個簡單的矩陣乘法例子來演示在 PyTorch 中如何針對 GPU 和 TPU 使用不同的處理方式。 這個例子會展示核心的區別在于如何獲取和指定計算設備&#xff0c;以及&#xff08;對于 TPU&#xff09;可能需要額外的庫和同步操作。 示例代碼&#xff1a; import torch import tim…

自主shell命令行解釋器

目標 能處理普通命令能處理內建命令 實現原理 用下面的時間軸來表示時間發生次序。時間從左向右。shell由標識為sh的方塊&#xff0c;它隨著時間從左向右移動。 shell從用戶讀入字符串“ls”。shell建立一個新的進程&#xff0c;然后等待進程中運行ls程序并等待進程結束。 …

如何在sheel中運行Spark

啟動hdfs集群&#xff0c;打開hadoop100:9870&#xff0c;在wcinput目錄下上傳一個包含很多個單詞的文本文件。 啟動之后在spark-shell中寫代碼。 // 讀取文件&#xff0c;得到RDD val rdd1 sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt") // 將單詞進行切…

【入門】數字走向II

描述 輸入整數N&#xff0c;輸出相應方陣。 輸入描述 一個整數N。&#xff08; 0 < n < 10 ) 輸出描述 一個方陣&#xff0c;每個數字的場寬為3。 #include <bits/stdc.h> using namespace std; int main() {int n;cin>>n;for(int in;i>1;i--){for(…

Python自動化-python基礎(下)

六、帶參數的裝飾器 七、函數生成器 運行結果&#xff1a; 八、通過反射操作對象方法 1.添加和覆蓋對象方法 2.刪除對象方法 通過使用內建函數: delattr() # 刪除 x.a() print("通過反射刪除之后") delattr(x, "a") x.a()3 通過反射判斷對象是否有指定…

重新定義高性能:Hyperlane —— Rust生態中的極速HTTP服務器

重新定義高性能&#xff1a;Hyperlane —— Rust生態中的極速HTTP服務器 &#x1f680; 為什么選擇Hyperlane&#xff1f; 在追求極致性能的Web服務開發領域&#xff0c;Hyperlane 憑借其獨特的Rust基因和架構設計&#xff0c;在最新基準測試中展現出令人驚艷的表現&#xff…

通俗的理解MFC消息機制

1. 消息是什么&#xff1f; 想象你家的門鈴響了&#xff08;比如有人按門鈴、敲門、或者有快遞&#xff09;&#xff0c;這些都是“消息”。 在 MFC 中&#xff0c;消息就是系統或用戶觸發的各種事件&#xff0c;比如鼠標點擊&#xff08;WM_LBUTTONDOWN&#xff09;、鍵盤輸入…

騰訊開源SuperSonic:AI+BI如何重塑制造業數據分析?

目錄 一、四款主流ChatBI產品 二、ChatBI應用案例與實際落地情況 三、SuperSonic底層原理 3.1、Headless?BI 是什么 3.2、S2SQL?是什么 3.3、SuperSonic 平臺架構 四、ChatBI應用細節深挖 五、與現有系統的集成方案 六、部署和安全 七、開源生態、可擴展性與二次開…

AI生成視頻推薦

以下是一些好用的 AI 生成視頻工具&#xff1a; 國內工具 可靈 &#xff1a;支持文本生成視頻、圖片生成視頻&#xff0c;適用于廣告、電影剪輯和短視頻制作&#xff0c;能在 30 秒內生成 6 秒的高清視頻&#xff08;1440p&#xff09;&#xff0c;目前處于免費測試階段。 即…