hadoop2.x linux集群部署

hadoop2.x 集群部署

下載hadoop
需要提前準備好jdk1.8 和rsync 和ssl
集群信息
解壓安裝
- 配置環境變量
- 配置site配置文件(/hadoop/etc/hadoop目錄下)
- - core-site.xml
  - hdfs-site.xml
  - yarn-site.xml
  - mapred-site.xml
  - hadoop-env.sh要追加java_home!
  - 配置節點slaves
- 配置免密ssh訪問
- - 沒有ssh-copy-id腳本的情況下,免密登錄
- 編寫xsync腳本
- 分發到其他集群
啟動集群
查看集群啟動情況

接收到一個項目需要進行hadoop的數據遷移.舊版本使用的是hadoop2.x的,所以這里記錄一下hadoop2.x的集群部署. 以便于后續數據通過distcp來遷移

linux版本是centos7

下載hadoop

我這里下的是這個版本hadoop-2.10.2.tar.gz. 去清華鏡像或者阿里華為都可以

需要提前準備好jdk1.8 和rsync 和ssl

jdk hadoop環境的需要
rsync 同步集群分發的時候需要
ssl 免密登陸訪問集群,便于分發

集群信息

我這里有12臺機,其中2臺要部署hive.這里一定要使用hostname來進行配置,只通過ip來配置的話,總有一些奇奇怪怪的問題.

涉及的hadoop服務集群如下

hadoop98
hadoop99
hadoop100
hadoop102
hadoop103
hadoop104
hadoop105
hadoop106
hadoop107
hadoop108
hive97
hive101
------以上服務器 都是hadoop節點涉及hive服務器 
hive97  主要用這個 ,這臺配置了mysql
hive101

解壓安裝

需要提前安裝好jdk 并配置好java_home
然后把hadoop的壓縮包扔到服務器 tar -zxvf 解壓就行.解壓后,我是放置在/usr/local目錄下面

配置環境變量

接下來配置一下hadoop的環境變量
/etc/profile

export HADOOP_HOME=/usr/local/hadoop-2.10.2
export PATH=$PATH:$REDIS_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

記得 source /etc/profile

配置site配置文件(/hadoop/etc/hadoop目錄下)

core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://hadoop98:9000</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop-2.10.2/tmp</value></property><property><name>fs.trash.interval</name><value>1440</value></property>
</configuration>

hdfs-site.xml

<configuration> <property><name>dfs.namenode.http-address</name><value>hadoop98:50070</value></property><property><name>dfs.namenode.secondary.http-address</name><value>hadoop98:50090</value></property><property><name>dfs.namenode.name.dir</name><value>file:/opt/hadoop/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/opt/hadoop/dfs/data</value></property><property><name>dfs.webhdfs.enabled</name><value>true</value></property>  <property><name>dfs.replication</name><value>1</value></property><property><name>dfs.permissions</name><value>false</value></property>
</configuration>

yarn-site.xml


<configuration><property><name>yarn.resourcemanager.hostname</name><value>hadoop98</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>20480</value></property><property><name>yarn.scheduler.minimum-allocation-mb</name><value>2048</value></property><property><name>yarn.nodemanager.vmem-pmem-ratio</name><value>2.1</value></property>
</configuration>

mapred-site.xml

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>hadoop98:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop98:19888</value></property>
</configuration>

hadoop-env.sh要追加java_home!

export HADOOP_IDENT_STRING=$USER
export JAVA_HOME=/usr/local/jdk1.8.0_281

配置節點slaves

[root@hadoop98 hadoop]# cat slaves
hadoop98
hadoop99
hadoop100
hadoop102
hadoop103
hadoop104
hadoop105
hadoop106
hadoop107
hadoop108
hive97
hive101
[root@hadoop98 hadoop]#

配置免密ssh訪問

先到 ~/.ssh目錄下生產密鑰對
ssh-keygen -t rsa
然后路徑會生成公鑰(id_rsa.pub)和私鑰(id_rsa)

然后通過ssh-copy-id 服務器名(ip),將公鑰分發給其他集群中的服務器.然后就可以ssh 免密登錄了

沒有ssh-copy-id腳本的情況下,免密登錄

通過指令

cat ~/.ssh/id_*.pub|ssh root@待訪問的主機IP 'cat>>.ssh/authorized_keys'

解釋

當前主機位 ,需要免密登錄待訪問的主機.則執行上面那一條命令
執行后會提示輸入一此,待訪問的主機的密碼,隨后成功后即可

但是,在執行上述之前,要確保待訪問的主機的~目錄下有.ssh文件夾,如果報錯要提前執行以下

ssh 待訪問的主機 'mkdir .ssh'

編寫xsync腳本

xsync這里就是一個名稱, 你想改成什么都可以.
他的原理就是通過使用 rsync同步增量覆蓋分發而已
這里測試 hadoop98-100 3臺機器,要全部分發的話自行修改 for的循環即可

這里除了 for 的循環設備,其他都不用改,直接抄就行.你有時間的話可以自行理解一下
為了方便使用xsync,建議在/usr/bin目錄下新建這個文件,并授權chmod 777.這樣無論到哪個位置都可以直接使用了
使用方法: xsync 需要同步的目錄或者文件即可

#!/bin/bash#1. 判斷參數個數
if [ $# -lt 1 ]
thenecho Not Enough Arguement!exit;
fi#2. 遍歷集群所有機器
for host in hadoop98 hadoop99 hadoop100
doecho ====================  $host  ====================#3. 遍歷所有目錄，挨個發送for file in $@do#4. 判斷文件是否存在if [ -e $file ]then#5. 獲取父目錄pdir=$(cd -P $(dirname $file); pwd)#6. 獲取當前文件的名稱fname=$(basename $file)ssh $host "mkdir -p $pdir"rsync -av $pdir/$fname $host:$pdirelseecho $file does not exists!fidone
done

分發到其他集群

同步hadoop   xsync /usr/local/hadoop
同步環境變量  xsync /etc/profile
這里在集群機器上,還要執行source /etc/profile .這里直接通過ssh 服務器來 遠程執行也是可以的----以下 看自己的需求------------
當前,也需要同步jdk  xsync /usr/local/jdk

啟動集群

這里意識hadoop98作為主服務器,在這上面執行 start-all.sh即可(這里沒有這個命令的話,檢查一下環境變量是否配置)
或者執行 start-dfs.sh

查看集群啟動情況

hadoop dfsadmin -report

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/165309.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/165309.shtml
英文地址，請注明出處：http://en.pswp.cn/news/165309.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！