Spark集群搭建之Yarn模式

配置集群

1.上傳并解壓spark-3.1.2-bin-hadoop3.2.tgz，重命名解壓之后的目錄為spark-yarn。

2. 修改一下spark的環境變量，/etc/profile.d/my_env.sh 。
# spark 環境變量
export?SPARK_HOME=/opt/module/spark-yarn
export?PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

同步給其他的設備: xsync ?/etc/profile.d/

3.修改hadoop的配置。/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml。因為測試環境虛擬機內存較少，防止執行過程進行被意外殺死，添加如下配置。

<property>

?????<name>yarn.nodemanager.pmem-check-enabled</name>

?????<value>false</value>

</property>

<property>

?????<name>yarn.nodemanager.vmem-check-enabled</name>

?????<value>false</value>

</property>

把這個設置分發到其他節點。使用xsync /opt/module/hadoop-3.1.3/etc/hadoop/同步一下。

4.修改spark配置。把三個文件的名字重新設置一下。

workers.tempalte 改成 workers,spark-env.sh.template 改成 spark-env.sh,

spark-defaults.conf.template 改成 spark-defaults.conf。

然后，在workers文件中添加

hadoop100

hadoop101
hadoop102

在spark-env.sh文件中添加

HADOOP_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

在spark-defaults.conf文件中添加

spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop100:8020/directory
spark.yarn.historyServer.address=hadoop100:18080
spark.history.ui.port=18080

5.同步配置文件到其他設備。

使用spark-submit提交任務

spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster ?/opt/module/spark-standalone/examples/jars/spark-examples_2.12-3.1.1.jar 10

代碼說明：

spark-submit：這是 Spark 提供的用于提交 Spark 應用程序的腳本。
2. --class org.apache.spark.examples.SparkPi：指定了應用程序

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/78310.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/78310.shtml
英文地址，請注明出處：http://en.pswp.cn/web/78310.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！