Hadoop發行版本較多,Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,簡稱CDH)收費版本通常用于生產環境,這里用開源免費的Apache Hadoop原始版本。
下載:Apache Hadoop
版本下載:Index of /hadoop/common
Hadoop基礎知識可查看本專欄其它篇章:Apache Hadoop的核心組成及其架構_hadoop的核心架構是怎樣-CSDN博客
環境準備
準備三臺虛擬機,并安裝JDK1.8,時間需要同步。
集群規劃
應用 | hadoop01 | hadoop02 | hadoop03 |
---|---|---|---|
HDFS | NameNode、DataNode | DataNode | SecondaryNameNode、DataNode |
YARN | NodeManager | NodeManager | NodeManager、ResourceManager |
ntpd | ntpd | ntpd | ntpd |
主機名與域名設置
hostnamectl --static set-hostname hadoop01
修改/etc/hosts
192.168.43.101 hadoop01
192.168.43.102 hadoop02
192.168.43.103 hadoop03
ssh免密登錄
在三臺主機執行下面兩句命令,一直回車即可,不需要輸入密碼,確保三臺主機都可免密登錄,后續使用hadoop集群批量啟動腳本時會特別方便。
ssh-keygen
ssh-copy-id root@192.168.43.101
ssh-copy-id root@192.168.43.102
ssh-copy-id root@192.168.43.103
Hadoop集群安裝
hadoop安裝
解壓安裝包
tar -zxvf hadoop-2.9.2.tar.gz -C /opt/
將hadoop添加到環境變量,/etc/profile
export HADOOP_HOME=/opt/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
使環境變量生效
source /etc/profile
驗證版本
hadoop version
Hadoop目錄介紹
drwxr-xr-x 2 root root 194 Nov 13 2018 bin
drwxr-xr-x 3 root root 20 Nov 13 2018 etc
drwxr-xr-x 2 root root 106 Nov 13 2018 include
drwxr-xr-x 3 root root 20 Nov 13 2018 lib
drwxr-xr-x 2 root root 239 Nov 13 2018 libexec
-rw-r--r-- 1 root root 106210 Nov 13 2018 LICENSE.txt
-rw-r--r-- 1 root root 15917 Nov 13 2018 NOTICE.txt
-rw-r--r-- 1 root root 1366 Nov 13 2018 README.txt
drwxr-xr-x 3 root root 4096 Nov 13 2018 sbin
drwxr-xr-x 4 root root 31 Nov 13 2018 share
?
1.bin目錄:對Hadoop進行操作的相關命令,如hadoop,hdfs等
2.etc目錄:Hadoop的配置文件目錄,入hdfs-site.xml,core-site.xml等
3.lib目錄:Hadoop本地庫(解壓縮的依賴)
4.sbin目錄:存放的是Hadoop集群啟動停止相關腳本,命令
5.share目錄:Hadoop的一些jar,官方案例jar,文檔等
集群配置
Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置
HDFS集群配置
-
配置jdk路徑,etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0_231