1.基礎知識介紹?
Flume采集日志。Sqoop采集結構化數據,比如采集數據庫。
存儲到HDFS上。
YARN資源調度,每臺服務器上分配多少資源。
Hive是基于Hadoop的一個數據倉庫工具,提供SQL查詢功能,能將SQL語句轉變成MapReduce任務來執行。MapReduce將HDFS數據分割,整合鍵值對,再整到HDFS。
Spark是一款大數據處理框架,其開發初衷是改良Hadoop MapReduce的編程模型和提高運行速度。Spark主要面向批處理需求,但也支持流處理,因其優異的性能和易用的接口,Spark已經是批處理界絕對的王者。
Kafka也是一種面向大數據領域的消息隊列框架,一個企業經常拆分出很多不同的應用系統,系統之間需要建立數據流管道。
?2.具體流程
?使用虛擬機新建了centos7的linux系統,在上面部署的
一、環境準備
1.上傳下載的jdk包
?2.解壓JDK安裝包
3.配置環境變量
4.配置免密登錄,ip改成自己的ip
?二、配置Hadoop
?1.上傳下載的Hadoop包
2.進入/opt/server/hadoop-3.1.0/etc/hadoop 目錄下,修改以下配置,都是vim打開修改
?
?3.初始化并啟動HDFS
?
?
?我的是http://192.168.59.100:9870/
三、Hadoop(YARN)環境搭建
1.修改配置文件,進入/opt/server/hadoop-3.1.0/etc/hadoop 目錄下,修改以下配置
?2.啟動服務
在這個文件夾下面cd /opt/server/hadoop-3.1.0/sbin/
?
?在當前目錄下啟動
?
訪問地址為:http://192.168.59.100:8088/