【數倉】Hadoop集群配置常用參數說明

Hadoop集群中,需要配置的文件主要包括四個

  1. 配置核心Hadoop參數

    • 編輯core-site.xml文件,設置Hadoop集群的基本參數,如文件系統、Hadoop臨時目錄等。
  2. 配置HDFS參數

    • 編輯hdfs-site.xml文件,設置HDFS的相關參數,如數據塊大小、副本數等。
  3. 配置MapReduce參數(如果使用):

    • 編輯mapred-site.xml文件,設置MapReduce的相關參數。
  4. 配置YARN參數(如果使用):

    • 編輯yarn-site.xml文件,設置YARN的相關參數。

核心Hadoop參數 core-site.xml

參考官網

Hadoop的core-site.xml文件包含了許多重要的配置參數,這些參數用于定義Hadoop集群的全局設置。以下是一些常見的core-site.xml配置參數:

配置項默認值說明
fs.defaultFSHadoop集群的NameNode的URI。這是HDFS的入口點。
io.file.buffer.size4096SequenceFiles在讀寫過程中可以使用的緩存大小(以字節為單位)。
hadoop.tmp.dir/tmp/hadoop-${user.name}Hadoop的臨時目錄,用于存儲臨時文件和目錄。
fs.trash.interval0垃圾箱中文件的保留時間(以分鐘為單位)。設置為大于0的值將啟用垃圾箱功能。
hadoop.proxyuser.${username}.hosts允許代理用戶從哪些主機連接到Hadoop集群。
hadoop.proxyuser.${username}.groups允許代理用戶屬于哪些用戶組連接到Hadoop集群。
fs.trash.checkpoint.interval0檢查垃圾箱并刪除過期文件的間隔時間(以分鐘為單位)。
fs.automatic.closetrue是否在讀取文件后自動關閉文件系統。
fs.dummy.implorg.apache.hadoop.fs.DummyFileSystem一個假的文件系統實現,用于測試。

請注意,上述表格中的默認值可能會因Hadoop版本和特定環境而有所不同。此外,還有許多其他可用的配置參數,具體取決于您的Hadoop集群的需求和配置。

在實際配置中,您應該根據您的Hadoop集群的具體要求和網絡環境來設置這些參數。一些關鍵參數(如fs.defaultFS)在集群設置中是必需的,而其他參數則可以根據需要進行調整。在修改core-site.xml文件之前,請確保您已經充分了解每個參數的含義和潛在影響。

HDFS參數 hdfs-site.xml

參考官網

hdfs-site.xml 是 Hadoop 分布式文件系統(HDFS)的配置文件,它包含了許多參數,用于定義 HDFS 的行為和特性。以下是一些常見的 hdfs-site.xml 配置參數:

配置項默認值說明
dfs.namenode.name.dirfile://${hadoop.tmp.dir}/dfs/nameNameNode 存儲其持久化元數據的本地文件系統路徑。
dfs.datanode.data.dirfile://${hadoop.tmp.dir}/dfs/dataDataNode 存儲其塊的本地文件系統路徑。
dfs.replication3數據的默認副本數。
dfs.permissions.enabledtrue是否啟用 HDFS 權限檢查。
dfs.block.size134217728 (128 MB)HDFS 塊的大小。
dfs.namenode.handler.count10NameNode 服務器可以同時處理的客戶端請求數。
dfs.datanode.handler.count10DataNode 服務器可以同時處理的客戶端請求數。
dfs.client.read.shortcircuitfalse允許 DFS 客戶端繞過 DataNode 直接讀取本地文件。
dfs.client.read.shortcircuit.skip.checksumfalse在短路讀取時跳過校驗和檢查。
dfs.https.address0.0.0.0:50470NameNode HTTPS 服務的地址和端口。
dfs.http.address0.0.0.0:50070NameNode HTTP 服務的地址和端口。
dfs.datanode.http.address0.0.0.0:50075DataNode HTTP 服務的地址和端口。
dfs.datanode.ipc.address0.0.0.0:50020DataNode IPC 服務的地址和端口。
dfs.namenode.http-address0.0.0.0:50070NameNode HTTP 服務的地址和端口(用于 Web UI)。
dfs.namenode.secondary.http-address0.0.0.0:50090Secondary NameNode HTTP 服務的地址和端口。

請注意,這些默認值可能會因 Hadoop 的版本和特定環境而有所不同。此外,還有許多其他可用的配置參數,具體取決于您的 HDFS 集群的需求和配置。

在實際配置中,您應該根據您的 HDFS 集群的具體要求和網絡環境來設置這些參數。一些關鍵參數(如 dfs.namenode.name.dirdfs.datanode.data.dir)在集群設置中是必需的,而其他參數則可以根據需要進行調整。在修改 hdfs-site.xml 文件之前,請確保您已經充分了解每個參數的含義和潛在影響。

此外,請注意 hdfs-site.xml 文件通常還包含一些高級參數,用于調優 HDFS 的性能和可靠性,例如設置 NameNode 和 DataNode 的堆大小、調整各種超時設置等。這些參數的具體設置應該基于您的集群規模和工作負載進行調整。

MapReduce參數 mapred-site.xml

參考官網

mapred-site.xml 是 Hadoop MapReduce 的配置文件,它包含了許多參數,用于定義 MapReduce 作業的行為和特性。以下是一些常見的 mapred-site.xml 配置參:

配置項默認值說明
mapreduce.framework.namelocal執行框架設置為本地模式(單機模式),在集群上應設置為 yarn
mapreduce.jobhistory.address0.0.0.0:10020MapReduce JobHistory Server 的地址和端口。
mapreduce.jobhistory.webapp.address0.0.0.0:19888MapReduce JobHistory Server 的 Web UI 地址和端口。
mapreduce.jobtracker.addresslocalMapReduce JobTracker 的地址和端口(舊版 API,YARN 中不再使用)。
mapreduce.tasktracker.address0.0.0.0:50060MapReduce TaskTracker 的地址和端口(舊版 API,YARN 中不再使用)。
mapreduce.map.output.compressfalse是否壓縮 Map 任務的輸出。
mapreduce.map.output.compress.codecorg.apache.hadoop.io.compress.DefaultCodecMap 任務輸出壓縮使用的編解碼器。
mapreduce.task.io.sort.mb100排序時使用的內存緩沖區大小(以 MB 為單位)。
mapreduce.task.io.sort.factor10合并小文件時一次合并的流的數量。
mapreduce.reduce.shuffle.parallelcopies5從 Map 到 Reduce 拷貝數據的并行度。
mapreduce.reduce.shuffle.fetch.retry.enabledtrue是否啟用 shuffle 階段獲取數據的重試機制。
mapreduce.reduce.shuffle.retry-delay.ms1000shuffle 階段重試之間的延遲時間(以毫秒為單位)。
mapreduce.reduce.shuffle.input.buffer.percent0.7shuffle 階段用于存儲數據的內存比例。
mapreduce.job.reduces1每個作業的默認 Reduce 任務數。
mapreduce.job.maps無默認值每個作業的 Map 任務數(通常由 AM 根據數據自動計算)。
mapreduce.map.speculativetrue是否啟用 Map 任務的推測執行。
mapreduce.reduce.speculativetrue是否啟用 Reduce 任務的推測執行。

請注意,這些默認值可能會因 Hadoop 的版本和特定環境而有所不同。此外,還有許多其他可用的配置參數,具體取決于您的 MapReduce 作業的需求和配置。

在實際配置中,您應該根據您的 MapReduce 作業的具體要求和網絡環境來設置這些參數。一些關鍵參數(如 mapreduce.framework.name)在集群設置中是必需的,以指定執行框架,而其他參數則可以根據需要進行調整。在修改 mapred-site.xml 文件之前,請確保您已經充分了解每個參數的含義和潛在影響。

另外,值得注意的是,隨著 Hadoop 的發展,MapReduce 已經被 YARN 和其他框架(如 Spark、Flink)所取代,因此在新版本的 Hadoop 中,mapred-site.xml 文件可能不再存在,或者其重要性已經降低。在使用新版本的 Hadoop 時,請確保查看相關文檔以了解最新的配置方法和最佳實踐。

YARN參數 yarn-site.xml

參考官網

yarn-site.xml 是 Apache Hadoop YARN 的配置文件,它包含了許多參數,用于定義 YARN 集群的行為和特性。以下是一些常見的 yarn-site.xml 配置參數:

配置項默認值說明
yarn.resourcemanager.hostnameResourceManager 的主機名。
yarn.resourcemanager.scheduler.address${yarn.resourcemanager.hostname}:8030ResourceManager 調度器服務的地址和端口。
yarn.resourcemanager.resource-tracker.address${yarn.resourcemanager.hostname}:8031ResourceManager 資源追蹤服務的地址和端口。
yarn.resourcemanager.address${yarn.resourcemanager.hostname}:8032ResourceManager RPC 服務的地址和端口。
yarn.resourcemanager.webapp.address${yarn.resourcemanager.hostname}:8088ResourceManager Web UI 的地址和端口。
yarn.resourcemanager.admin.address${yarn.resourcemanager.hostname}:8033ResourceManager 管理服務的地址和端口。
yarn.scheduler.minimum-allocation-mb1024單個容器可申請的最小內存(以 MB 為單位)。
yarn.scheduler.maximum-allocation-mb8192單個容器可申請的最大內存(以 MB 為單位)。
yarn.nodemanager.resource.memory-mb8192NodeManager 可用的總物理內存(以 MB 為單位)。
yarn.scheduler.minimum-allocation-vcores1單個容器可申請的最小虛擬 CPU 個數。
yarn.scheduler.maximum-allocation-vcores32單個容器可申請的最大虛擬 CPU 個數。
yarn.nodemanager.vmem-pmem-ratio2.1虛擬內存與物理內存的比例。
yarn.nodemanager.local-dirs${hadoop.tmp.dir}/nm-local-dirNodeManager 存儲本地化資源的目錄列表。
yarn.nodemanager.log-dirs${yarn.log.dir}/userlogsNodeManager 存儲容器日志的目錄列表。
yarn.nodemanager.aux-servicesmapreduce_shuffleNodeManager 提供的輔助服務列表。
yarn.nodemanager.remote-app-log-dir/tmp/logs存儲應用程序日志的遠程目錄(通常用于日志聚合)。
yarn.nodemanager.recovery.enabledfalse是否啟用 NodeManager 恢復功能。
yarn.nodemanager.recovery.dir用于存儲 NodeManager 恢復數據的目錄。

請注意,這些默認值可能會因 Hadoop 的版本和特定環境而有所不同。此外,還有許多其他可用的配置參數,具體取決于您的 YARN 集群的需求和配置。在實際配置中,您應該根據您的 YARN 集群的具體要求和網絡環境來設置這些參數。在修改 yarn-site.xml 文件之前,請確保您已經充分了解每個參數的含義和潛在影響。

參考

  • https://hadoop.apache.org/docs/r3.3.6/index.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/714601.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/714601.shtml
英文地址,請注明出處:http://en.pswp.cn/news/714601.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

策略開發:EMA如何計算

EMA的計算原理 EMA 是MA(平滑移動平均線)的另一種形式。全名“加權指數移動平均線”。 2/13就是12日移動平均線的平滑因子,他的意思是指:給予新價格 2/13的權重,給予過去的EMA 11/13的權重。 在計算的時候第一天的M…

Linux使用基礎命令

1.常用系統工作命令 (1).用echo命令查看SHELL變量的值 qiangziqiangzi-virtual-machine:~$ echo $SHELL /bin/bash(2).查看本機主機名 qiangziqiangzi-virtual-machine:~$ echo $HOSTNAME qiangzi-virtual-machine (3).date命令用于顯示/設置系統的時間或日期 qiangziqian…

Linux多線程服務端編程:使用muduo C++網絡庫 學習筆記 附錄B 從《C++ Primer(第4版)》入手學習C++

這是作者為《C Primer(第4版)(評注版)》寫的序言,文中“本書”指的是這本書評注版。 B.1 為什么要學習C 2009年本書作者Stanley Lippman先生應邀來華參加上海祝成科技舉辦的C技術大會,他表示人們現在還用…

MySQL存儲過程和Function

一、存儲過程 MySQL中提供存儲過程和存儲函數機制,將其統稱為存儲程序。 SQL語句要先編譯,然后執行,存儲程序是一組為了完成特定功能的SQL語句,編譯后存到數據庫中。 用戶通過指定存儲程序的名字并給定參數來調用才會執行。 存…

擴展學習|大數據分析的現狀和分類

文獻來源:[1] Mohamed A , Najafabadi M K , Wah Y B ,et al.The state of the art and taxonomy of big data analytics: view from new big data framework[J].Artificial Intelligence Review: An International Science and Engineering Journal, 2020(2):53. 下…

藍橋杯(3.2)

1209. 帶分數 import java.io.*;public class Main {static BufferedReader br new BufferedReader(new InputStreamReader(System.in));static PrintWriter pw new PrintWriter(new OutputStreamWriter(System.out));static final int N 10;static int n, cnt;static int[…

LabVIEW流量控制系統

LabVIEW流量控制系統 為響應水下航行體操縱舵翼環量控制技術的試驗研究需求,通過LabVIEW開發了一套小量程流量控制系統。該系統能夠滿足特定流量控制范圍及精度要求,展現了其在實驗研究中的經濟性、可靠性和實用性,具有良好的推廣價值。 項…

tritonserver學習之八:redis_caches實踐

tritonserver學習之一:triton使用流程 tritonserver學習之二:tritonserver編譯 tritonserver學習之三:tritonserver運行流程 tritonserver學習之四:命令行解析 tritonserver學習之五:backend實現機制 tritonserv…

【C++初階】內存管理

目錄 一.C語言中的動態內存管理方式 二.C中的內存管理方式 1.new/delete操作內置類型 2.new和delete操作自定義類型 3.淺識拋異常 (內存申請失敗) 4.new和delete操作自定義類型 三.new和delete的實現原理 1.內置類型 2.自定義類型 一.C語…

C++學習筆記:二叉搜索樹

二叉搜索樹 什么是二叉搜索樹?搜索二叉樹的操作查找插入刪除 二叉搜索樹的應用二叉搜索樹的代碼實現K模型:KV模型 二叉搜索樹的性能怎么樣? 什么是二叉搜索樹? 二叉搜索樹又稱二叉排序樹,它或者是一棵空樹,或者是具有以下性質的二叉樹: 若它的左子樹…

Linux安裝Nginx詳細步驟

1、創建兩臺虛擬機,分別為主機和從機,區別兩臺虛擬機的IP地址 2、將Nginx素材內容上傳到/usr/local目錄(pcre,zlib,openssl,nginx) 附件 3、安裝pcre庫   3.1 cd到/usr/local目錄 3.2 tar -zxvf pcre-8.36.tar.gz 解壓 3.3 cd…

MATLAB圖像噪聲添加與濾波

在 MATLAB 中添加圖像噪聲和進行濾波通常使用以下函數: 添加噪聲:可以使用imnoise函數向圖像添加各種類型的噪聲,如高斯噪聲、椒鹽噪聲等。 濾波:可以使用各種濾波器對圖像進行濾波處理,例如中值濾波、高斯濾波等。 …

前端學習、HTML

html是由一些標簽構成的,標簽之間可以嵌套,每個標簽都有開始標簽和結束標簽,也有部分標簽只有開始標簽,沒有結束標簽。html的標簽也可以成為元素。(樹形結構) html文件的最頂層標簽就是html。 head用來放…

**藍橋OJ 178全球變暖 DFS

藍橋OJ 178全球變暖 思路: 將每一座島嶼用一個顏色scc代替, 用dx[]和dy[]判斷他的上下左右是否需要標記顏色,如果已經標記過顏色或者是海洋就跳過.后面的淹沒,實際上就是哪個塊上下左右有陸地,那么就不會被淹沒,我用一個tag標記,如果上下左右一旦有海洋,tag就變為false.如果tag…

用冒泡排序模擬C語言中的內置快排函數qsort!

目錄 ?編輯 1.回調函數的介紹 2. 回調函數實現轉移表 3. 冒泡排序的實現 4. qsort的介紹和使用 5. qsort的模擬實現 6. 完結散花 悟已往之不諫,知來者猶可追 創作不易,寶子們!如果這篇文章對你們有幫助的話,別忘了給個免…

機器學習:模型評估和模型保存

一、模型評估 from sklearn.metrics import accuracy_score, confusion_matrix, classification_report# 使用測試集進行預測 y_pred model.predict(X_test)# 計算準確率 accuracy accuracy_score(y_test, y_pred) print(f"Accuracy: {accuracy*100:.2f}%")# 打印…

整數和浮點數在內存中的存儲(大小端字節序,浮點數的存取)

目錄 1.整數在內存中的存儲 2.大小端字節序和字節序判斷 2.1什么是大小端? 2.2為什么會有大小端 3.浮點數在內存中的存儲 3.1浮點數的存儲 3.1.1 浮點數存的過程 3.1.2 浮點數取的過程 3.2 解析 3.3 驗證浮點數的存儲方式 1.整數在內存中的存儲 整數的二進…

PAT (Basic Level) Practice | 朋友數

如果兩個整數各位數字的和是一樣的,則被稱為是“朋友數”,而那個公共的和就是它們的“朋友證號”。例如 123 和 51 就是朋友數,因為 123 51 6,而 6 就是它們的朋友證號。給定一些整數,要求你統計一下它們中有多少個不…

億道信息輕工業三防EM-T195,零售、制造、倉儲一網打盡

厚度僅10.5mm,重量僅0.65千克的EM-T195,其緊湊而纖薄的設計為以往加固型平板帶來了全新的輕薄概念。盡管設計時尚、輕薄,但經過軍用認證的強固性仍然能夠承受所有具有挑戰性的環境條件。隨身攜帶無負擔的輕便性加上抗震功能使其成為餐廳、酒店…

C++_數據類型_字符型

作用 字符型變量用于顯示單個字符 語法 char ch a;注意 在顯示字符型變量時,用單引號將字符括起來,不要用雙引號單引號只能有一個字符,不可以是字符串 C和C中字符型變量只占用一個字節字符型變量并不是把字符本身放到內存中存儲&#xf…