Kafka
Kafka基本概念
卡夫卡是一個分布式、分布訂閱的消息系統,作為消息中間件使用。
設計上是一個分布式的、分區的和可復制的提交日志服務。
Kafka的優勢
分布式系統,易于擴展。
高吞吐量,支持發布和訂閱模式。
支持多地復制,自動平衡消費者。
消息持久化到磁盤,支持批量消費。
消息隊列模式
點對點模式:一對一的消費方式,消費者主動拉取消息。
發布訂閱模式:一對多的消費方式,消息可以被多個消費者使用。
卡夫卡的角色與特性
主要角色
卡夫卡特性
高吞吐量低延遲:每秒處理幾十萬條數護,延遲最低幾毫秒。
可擴展性;支持集解擴展。
持久性和可靠性:消息持久化到本地破盤,支持數據備份。
容錯性:允許集群中節點失敗(若副本數量為n,則允許n-1個節點失敗)。
高并發性,支持數千個客戶端同時讀寫。
Kafka集群的安裝
登錄Kafka的官網Apache Kafka。
Kafka是Java和Scala語言開發的。所以安裝Kafka之前必須要保證先安裝JDK。
Kafka依賴于Zookeeper的選舉機制,所以安裝Kafka之前還要保證Zookeeper已經被安裝好了。
首先進到software目錄當中,如下圖所示:
Kafka常用的配置解釋
安裝部署Spark
步驟
解壓縮文件,并重命名為spark-yarn。
修改配置文件