建立Hadoop集群的步驟指南
建立Hadoop集群需要系統規劃和多個步驟的配置。以下是詳細的建立流程:
一、前期準備
-
硬件需求
-
多臺服務器(至少3臺,1主2從)
-
每臺建議配置:至少4核CPU,8GB內存,100GB硬盤
-
穩定的網絡連接(千兆網絡推薦)
-
-
軟件需求
-
Linux操作系統(推薦CentOS或Ubuntu Server)
-
Java JDK (推薦JDK 8或11)
-
Hadoop軟件包(從Apache官網下載)
-
二、環境設置
-
在所有節點上操作
bash
復制
下載
# 創建hadoop用戶 sudo useradd -m hadoop sudo passwd hadoop# 安裝Java sudo apt-get install openjdk-8-jdk # 或 sudo yum install java-1.8.0-openjdk# 驗證Java安裝 java -version
-
配置SSH免密登錄
bash
復制
下載
# 在主節點生成密鑰 ssh-keygen -t rsa# 將公鑰復制到所有節點(包括自己) ssh-copy-id hadoop@master ssh-copy-id hadoop@slave1 ssh-copy-id hadoop@slave2
三、Hadoop配置
-
解壓并設置環境變量
bash
復制
下載
tar -xzf hadoop-3.x.x.tar.gz mv hadoop-3.x.x /usr/local/hadoop# 編輯~/.bashrc export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64source ~/.bashrc
-
配置核心文件
-
core-site.xml
xml
復制
下載
運行
<configuration><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop/tmp</value></property> </configuration>
-
hdfs-site.xml
xml
復制
下載
運行
<configuration><property><name>dfs.replication</name><value>2</value></property><property><name>dfs.namenode.name.dir</name><value>/usr/local/hadoop/hdfs/namenode</value></property><property><name>dfs.datanode.data.dir</name><value>/usr/local/hadoop/hdfs/datanode</value></property> </configuration>
-
mapred-site.xml
xml
復制
下載
運行
<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property> </configuration>
-
yarn-site.xml
xml
復制
下載
運行
<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>master</value></property> </configuration>
-
workers文件?(列出所有從節點)
復制
下載
slave1 slave2
-
四、分發配置到所有節點
bash
復制
下載
scp -r /usr/local/hadoop hadoop@slave1:/usr/local/ scp -r /usr/local/hadoop hadoop@slave2:/usr/local/ scp ~/.bashrc hadoop@slave1:~/ scp ~/.bashrc hadoop@slave2:~/
五、啟動集群
-
在主節點格式化HDFS
bash
復制
下載
hdfs namenode -format
-
啟動HDFS
bash
復制
下載
start-dfs.sh
-
啟動YARN
bash
復制
下載
start-yarn.sh
-
驗證集群狀態
bash
復制
下載
jps # 查看Java進程 hdfs dfsadmin -report # 查看HDFS狀態