搭建大數據學習的平臺

一、基礎環境準備

1.?硬件配置

物理機：建議 16GB 內存以上，500GB 硬盤，多核 CPU
虛擬機：至少 3 臺（1 主 2 從），每臺 4GB 內存，50GB 硬盤

2.?操作系統

Ubuntu 20.04 LTS 或 CentOS 7/8

3.?網絡配置

靜態 IP 分配（例如：192.168.1.101~103）

主機名映射（/etc/hosts）：

plaintext

192.168.1.101 hadoop-master
192.168.1.102 hadoop-slave1
192.168.1.103 hadoop-slave2

二、核心組件安裝

1.?Hadoop 分布式系統

安裝步驟參考之前的回答
配置高可用（HA）模式（可選）

2.?Hive 數據倉庫

bash

# 下載和解壓
wget https://downloads.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz
tar -xzf apache-hive-3.1.3-bin.tar.gz -C /opt/
mv /opt/apache-hive-3.1.3-bin /opt/hive# 配置環境變量
echo 'export HIVE_HOME=/opt/hive' >> ~/.bashrc
echo 'export PATH=$PATH:$HIVE_HOME/bin' >> ~/.bashrc
source ~/.bashrc

3.?Spark 計算引擎

bash

# 下載和解壓
wget https://downloads.apache.org/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.tgz
tar -xzf spark-3.3.2-bin-hadoop3.tgz -C /opt/
mv /opt/spark-3.3.2-bin-hadoop3 /opt/spark# 配置環境變量
echo 'export SPARK_HOME=/opt/spark' >> ~/.bashrc
echo 'export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin' >> ~/.bashrc
source ~/.bashrc

4.?HBase 分布式數據庫

bash

# 下載和解壓
wget https://downloads.apache.org/hbase/2.5.7/hbase-2.5.7-bin.tar.gz
tar -xzf hbase-2.5.7-bin.tar.gz -C /opt/
mv /opt/hbase-2.5.7 /opt/hbase# 配置環境變量
echo 'export HBASE_HOME=/opt/hbase' >> ~/.bashrc
echo 'export PATH=$PATH:$HBASE_HOME/bin' >> ~/.bashrc
source ~/.bashrc

三、服務集成與配置

1.?Hive 與 Hadoop 集成

修改?$HIVE_HOME/conf/hive-site.xml：

xml

<configuration><property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value></property><property><name>hive.metastore.uris</name><value>thrift://hadoop-master:9083</value></property>
</configuration>

2.?Spark 與 Hadoop 集成

修改?$SPARK_HOME/conf/spark-env.sh：

bash

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_MASTER_HOST=hadoop-master
export SPARK_WORKER_MEMORY=2g

3.?HBase 與 Hadoop 集成

修改?$HBASE_HOME/conf/hbase-site.xml：

xml

<configuration><property><name>hbase.rootdir</name><value>hdfs://hadoop-master:9000/hbase</value></property><property><name>hbase.cluster.distributed</name><value>true</value></property>
</configuration>

四、服務啟動與驗證

1.?啟動順序

bash

# 啟動 Hadoop
start-dfs.sh
start-yarn.sh# 啟動 Hive Metastore
hive --service metastore &# 啟動 Spark
start-master.sh
start-workers.sh# 啟動 HBase
start-hbase.sh

2.?驗證服務

Hadoop：http://hadoop-master:9870（HDFS）和 http://hadoop-master:8088（YARN）
Spark：http://hadoop-master:8080
HBase：http://hadoop-master:16010

五、可視化工具安裝

1.?Zeppelin 數據探索

bash

# 下載和解壓
wget https://downloads.apache.org/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz
tar -xzf zeppelin-0.10.1-bin-all.tgz -C /opt/
mv /opt/zeppelin-0.10.1-bin-all /opt/zeppelin# 啟動 Zeppelin
/opt/zeppelin/bin/zeppelin-daemon.sh start

訪問：http://hadoop-master:8081

2.?Superset 數據可視化

bash

# 安裝依賴
sudo apt install python3-pip python3-venv# 創建虛擬環境
python3 -m venv superset
source superset/bin/activate# 安裝 Superset
pip install apache-superset
superset db upgrade# 創建管理員用戶
superset fab create-admin# 初始化
superset init# 啟動 Superset
superset run -p 8088 --with-threads --reload --debugger

訪問：http://hadoop-master:8088

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/79617.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/79617.shtml
英文地址，請注明出處：http://en.pswp.cn/web/79617.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！