kafka的部署

一、kafka簡介

1.1、概述

1.2、消息系統介紹

1.3、點對點消息傳遞模式

1.4、發布-訂閱消息傳遞模式

二、kafka術語解釋

2.1、結構概述

2.2、broker

2.3、topic

2.4、producer

2.5、consumer

2.6、consumer group

2.7、leader

2.8、follower

2.9、partition

2.10、offset

2.11、replica

2.12、message

2.13、zookeeper

三、kafka架構

四、kafka的部署

4.1、軟件下載

4.1.1、jdk的安裝

4.1.2、zookeeper安裝

4.1.3、kafka的安裝

4.2、單機模式

4.3、集群部署

4.3.1、針對每一個節點的hosts文件添加節點的ip映射信息

4.3.2、時間同步

4.3.3、zookeeper配置?

4.3.4、創建對應的服務id

4.3.5、zoo.cfg參數解析

4.3.6、集群kafka配置

一、kafka簡介

1.1、概述

kafka是由linkedin公司開發，是一個分布式、分區、多副本、多生產者、多消費者，基于zookeeper的分布式日志系統（也可以作為MQ系統），常見可以用于web/nginx日志、訪問日志、消息服務等，Linkedin2010年將項目貢獻給了Apache基金會并成為頂級開源項目。

主要應用場景是：日志收集系統和消息詳細。

設計目標如下：

1. 一時間復雜度為O(1)的方式提供消息持久能力，即使對TB級以上的數據也能保證常數時間的訪問性能。

2. 高吞吐率：即使在非常廉價的商用機器上也能做到單機支持每秒100k條消息的傳輸。

3. 支持Kafka Server間的消息分布，以及分布式消費，同時保證每個partition內的消息順序傳輸。

4. 同時支持離線數據和實時數據處理。

5. Scale out：支持在線水平擴展。

1.2、消息系統介紹

一個消息系統負責將數據從一個應用傳遞到另外一個應用，應用只需要關注數據，無需要關系數據再兩個或者多個應用間是如何傳遞的。分布式消息傳遞基于可靠的消息隊列，在客戶端應用和消息系統之間異步傳遞消息，有兩種主要的消息傳遞模式：點對點傳遞模式、發布-訂閱模式。大部分的消息系統選用發布-訂閱模式。

kafka無疑也是一種消息訂閱模式的系統。

1.3、點對點消息傳遞模式

在點對點消息系統中，消息持久化到一個隊列中。此時，將有一個或多個消費隊列中的數據。但是一條消息只能被消費一次，當一個消費者消費了隊列中的某條數據之后，該條數據則從消息隊列中刪除。該模式及時有多個消費者同時消費數據，也能保證數據處理的順序，架構示意圖如下

1.4、發布-訂閱消息傳遞模式

在該模式中，消息唄持久化到一個topic中。與點對點消息系統不同的是，消費者可以訂閱一個或者多個 topic，消費者可以消費topic中所有的數據，同一條數據可以被多個消費者消費，數據被消費后不會立馬刪除。在該模式下，消息的生產者稱為發布者，消費者稱為訂閱這，架構示意圖如下：

二、kafka術語解釋

2.1、結構概述

上圖中一個topic配置了3個partition。Partition1有兩個o?set：0和1。Partition2有4個o?set。Partition3有1個o?set。副本的id和副本所在的機器的id恰好相同。

如果一個topic的副本數為3，那么Kafka將在集群中為每個partition創建3個相同的副本。集群中的每個broker存儲一個或多個partition。多個producer和consumer可同時生產和消費數據。

2.2、broker

一臺Kafka服務器就是一個Broker，一個集群由多個Broker組成，一個Broker可以容納多個Topic，Broker和Broker之間沒有Master和Standy的概念，他們之間的地位基本是平等的。

Kafka集群包含一個或者多個服務器，服務器節點成為broker。

broker存儲topic的數據，如果某topic有N個partion,集群有N個broker。

broker存儲topic的數據。如果某topic有N個partition，集群有N個broker，那么每個broker存儲該topic的一個partition。

如果某topic有N個partition，集群有(N+M)個broker，那么其中有N個broker存儲該topic的一個partition，剩下的M個broker不存儲該topic的partition數據。

如果某topic有N個partition，集群中broker數目少于N個，那么一個broker存儲該topic的一個或多個 partition。在實際生產環境中，盡量避免這種情況的發生，這種情況容易導致Kafka集群數據不均衡。

2.3、topic

每條發布到Kafka集群的消息都有一個類別，這個類別被稱為Topic。（物理上不同Topic的消息分開存儲，邏輯上一個Topic的消息雖然保存于一個或多個broker上但用戶只需指定消息的Topic即可生產或消費數據而不必關心數據存于何處）

類似于數據庫的表名。

2.4、producer

topic中的數據分割為一個或多個partition。每個topic至少有一個partition。每個partition中的數據使用多個 segment文件存儲。partition中的數據是有序的，不同partition間的數據丟失了數據的順序。如果topic有多個partition，消費數據時就不能保證數據的順序。在需要嚴格保證消息的消費順序的場景下，需要將partition數目設為1。

2.5、consumer

消費者可以從broker中讀取數據。消費者可以消費多個topic中的數據。

2.6、consumer group

每個Consumer屬于一個特定的Consumer Group（可為每個Consumer指定group name，若不指定groupname則屬于默認的group）。

2.7、leader

每個partition有多個副本，其中有且僅有一個作為Leader，Leader是當前負責數據的讀寫的partition。

2.8、follower

Follower跟隨Leader，所有寫請求都通過Leader路由，數據變更會廣播給所有Follower，Follower與Leader保持數據同步。如果Leader失效，則從Follower中選舉出一個新的Leader。當Follower與Leader掛掉、卡住或者同步太慢，leader會把這個follower從“in sync replicas”（ISR）列表中刪除，重新創建一個Follower。

2.9、partition

為了實現可擴展性，一個非常大的Topic可以被分為多個Partion,從而分布到多臺Broker上。Partion中的每條消息都會被分配一個自增Id(O?set)。Kafka只保證按一個Partion中的順序將消息發送給消費者，但是不保證單個Topic中的多個Partion之間的順序。

2.10、offset

消息在Topic的Partion中的位置，同一個Partion中的消息隨著消息的寫入，其對應的O?set也自增，結構圖如下：

2.11、replica

副本。Topic的Partion含有N個replica,N為副本因子。其中一個Replica為Leader,其他都為Follower,Leader處理Partition的所有讀寫請求，與此同時，Follower會定期去同步Leader上的數據。

2.12、message

通訊的基本單位，消息

2.13、zookeeper

存放Kafka集群相關元數據的組件。在ZK集群中會保存Topic的狀態消息，例如分區的個數，分區的組成，分區的分布情況等；保存Broker的狀態消息；報錯消費者的消息等。通過這些消息，Kafka很好的將消息生產，消息存儲，消息消費的過程結合起來。

三、kafka架構

在Kafka集群中生產者將消息發送給以Topic命名的消息隊列Queue中，消費者訂閱發往以某個Topic命名的消息隊列Queue中的消息。其中Kafka集群由若干個Broker組成，Topic由若干個Partition組成，每個Partition里面的消息通過O?set來獲取。

一個典型的Kafka集群中包含若干個Producer(可以是某個模塊下發的Command,或者是Web前端產生的 PageView，或者是服務器日志，系統CPU,Memor等)，若干個Broker（Kafka集群支持水平擴展，一般Broker數量越多，整個Kafka集群的吞吐率也就越高），若干個ConsumerGroup, 以及一個Zookeeper集群。Kafka通過zookeeper管理集群配置。Producer使用Push模式將消息發不到Broker上，consumer使用Pull模式從Broker上訂閱并消費消息。

四、kafka的部署

4.1、軟件下載

無論單機部署還是集群，這一步都不能省

4.1.1、jdk的安裝

由于帶GUI界面的安裝，是自帶jdk版本的，我們可以選擇使用默認jdk

自帶JDK，這種JDK可以使用java -version檢查，如果使用javac就不行了，所以進行安裝sudo yum install java-1.8.0-openjdk-devel -y

4.1.2、zookeeper安裝

Apache ZooKeeper

選擇3.5.7版本

上傳服務器，安裝

解壓
tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz
mv apache-zookeeper-3.5.7-bin zookeeper3.5.7
mv zookeeper3.5.7/ /opt創建軟鏈接
ln -s /opt/zookeeper3.5.7/ /opt/zookeeper配置環境變量
vim /etc/profile添加
export ZK_HOME=/opt/zookeeper
export PATH=$PATH:$ZK_HOME/binsource /etc/profile將Zookeeper提供的配置文件復制一份，復制成Zookeeper默認尋找的文件
cd /opt/zookeeper/conf
ls
cp zoo_sample.cfg zoo.cfg
cd ..創建數據存放目錄
mkdir data
chmod 755 /opt/zookeeper/data修改數據存放位置
cd conf/
vim zoo.cfg##修改以下配置
dataDir=/opt/zookeeper/data啟動 Zookeeper，Zookeeper的bin目錄下
cd ..
./bin/zkServer.sh start zoo.cfg

檢測zookeeper是否正常

jps # 看到控制臺成功輸出 QuorumPeerMain，表示啟動成功./bin/zkServer.sh status zoo.cfg ## Mode: standalone表示ok

4.1.3、kafka的安裝

?https://kafka.apache.org/downloads

選擇?kafka_2.12-3.8.0.tgz?進行下載，Scala 2.12 和 Scala 2.13 主要是使用Scala編譯的版本不同，兩者皆可

上傳服務器，安裝

解壓
tar -zxvf kafka_2.12-2.7.0.tgz
mv kafka_2.12-2.7.0 /opt
cd /opt創建軟鏈接
ln -s /opt/kafka_2.12-2.7.0/ /opt/kafka
ls配置環境變量
vim /etc/profile添加
export KAFKA_HOME=/opt/kafka
export PATH=:$PATH:${KAFKA_HOME}source /etc/profile

4.2、單機模式

在Kafka的config目錄下存在相關的配置信息——本次我們只想讓Kafka快速啟動起來只關注server.properties文件即可cd ${KAFKA_HOME}/config
ls
#connect-console-sink.properties    connect-file-source.properties   consumer.properties  server.properties
#connect-console-source.properties  connect-log4j.properties         kraft                tools-log4j.properties
#connect-distributed.properties     connect-mirror-maker.properties  log4j.properties     trogdor.conf
#connect-file-sink.properties       connect-standalone.properties    producer.properties  zookeeper.properties打開配置文件，并主要注意以下幾個配置
vim server.propertiesbroker.id=0 #kafka服務節點的唯一標識，這里是單機不用修改
#     listeners = PLAINTEXT://host1:9092  別忘了設置成自己的主機名
listeners=PLAINTEXT://host1:9092 #kafka底層監聽的服務地址，注意是使用主機名，不是ip。
# log.dirs 指定的目錄 kafka啟動時可以自動創建，因此不要忘了讓kafka可以有讀寫這個目錄的權限。
log.dirs=/opt/kafka/data ##kafka的分區以日志的形式存儲在集群中（其實就是broker數據存儲的目錄）log.retention.hours=168 #日志的留存策略，默認168小時也就是一周
# zookeeper 的連接地址 ，別忘了設置成自己的主機名，單機情況下可以使用 localhost
zookeeper.connect=host1:2181

啟動kafka

./bin/kafka-server-start.sh -daemon config/server.properties #后臺啟動kafka使用 jps 查看是否成功啟動kafka
jps
34843 QuorumPeerMain
21756 Jps
116076 Kafka