logstash 吞吐量優化_1002-談談ELK日志分析平臺的性能優化理念

在生產環境中,我們為了更好的服務于業務,通常會通過優化的手段來實現服務對外的性能最大化,節省系統性能開支;關注我的朋友們都知道,前段時間一直在搞ELK,同時也記錄在了個人的博客篇章中,從部署到各個服務應用的采集都做了詳細的介紹,但是并沒有關于ELK方面的優化,那么,我們對于這些日志分析平臺,我們如何去優化呢?優化的手段又有哪些呢?下面請聽我娓娓道來~

【ES優化】

ES在前面的部署環節(https://www.cnblogs.com/bixiaoyu/p/9460554.html)已經簡單了提到調優,但是不全;Elasticsearch作為數據持久化存儲環節,主要就是接受采集端發送過來的數據,執行寫磁盤,建立索引庫,最后將結構化的數據存儲到ES集群上,這是ES所需要完成的工作

1.1:JVM內存的優化

首先我們需要了解什么是jvm內存?作用是什么?

jvm內存其實就是java內存堆,也是jvm需要管理的最大的一塊內存空間,主要就是存放各種類型的實例對象;在java中,堆的概念被劃分為,新生代和老年代,這樣更有利于jvm管理內存堆中的對象,分配和回收

我們設置堆內存主要就是創建實例對象,讓所有對象實例和數據都在堆上進程分配,可以動態的分配內存大小;

-Xms1g? ? ?#設置堆最小的內存

-Xmx1g? ? #設置堆最大的內存

如何設置最合理呢?

首先我們要知道堆內存設置的越大,ES可用的堆就越大,同時呢,可用的緩存空間就越大,但是不能無限大,因為這樣會浪費大量的內存,太多的堆內存可能會系統垃圾回收機制異常;

優化準則:

將最小堆(xms)和最大堆(xmx)設置為相同值即可,這樣可以防止內存堆運行的有所變動;

內存堆的值不要超過系統物理內存的50%(可以等于實際物理內存的一半),以確保有足夠的物理內存給內核文件系統使用;

ES堆內存大小為什么不能超過物理 內存的50%?

除了堆內存設置過大會造成資源浪費之后,還有一個原因,

堆內存對于ES來說是個不可缺少的部分,能夠對提高數據的執行效率,還有一個內存使用者,那就是是-lucene

Lucene是一個開源的全文檢索引擎工具 ,而我們的ES底層是基于Lucene來實現的豐富的檢索功能;Lucene的性能依賴于操作系統之間的交互,如何說我們把可用的內存都給了ES的話,那么Lucene還有剩余的內存空間嗎?這將會嚴重的影響性能;因此,我們最多只能將50%的可用內存資源分配給ES堆內存,剩下的50%留給Lucene了

ps:這里注意一下,我們的Luceen使用的是物理內存剩余的50%,它并不使用堆內存;切記不要與ES堆內存混淆

1.2:ES所在操作系統的內存優化

可通過禁用swap·分區,如果是混合服務器的話可通過減低swap分區的使用積極性;

/dev/mapper/centos-swap swap swap defaults 0 0? ? #進入/etc/fstab/.將其注釋,永久生效;臨時生效直接swapoff -a即可

降低swao分區使用積極性,這句話是什么意思呢?首先我們要知道,系統的內存使用空間到達一定的閥值時候,便會占用swap空間,這個時候我們是可以控制這個閥值的;swappiness=0表示最大限度使用物理內存,也就是說,當物理內存使用100%之后,才去使用swap交換分區;

如何設置呢?

比如說,我們現在需要設置系統內存大小閥值,當物理內存使用90%的時候,只剩10%的物理內存,再去使用swap空間

100-10=90%

# vim /etc/sysctl.conf

vm.swappiness = 10

#修改之后執行sysctl -p生效

#cat /proc/sys/vm/swappiness

10

1.3:·硬件優化(硬盤類型/raid類型)

服務器硬盤選用SSD硬盤,配置成raid 0陣列以獲得更佳的IO性能;

【Logstash優化】

logstash.yml配置優化:

1)pipline.workers:控制output或filter插件的工作線程數(只能設置為正整數),因為logstash中的grok正則及其消耗系統計算字眼,同時filte也會存在瓶頸,此時增加工作線程,以提高性能

2)pipeline.batch.size:批量執行event的最大值,該值用于input批量處理事件值,再打包發送給filter和output.可以提高性能,但是會增加額外的內存開銷

3)pipeline.batch.delay:批量處理事件的最大等待值(input需要按照batch處理的最大發送到消息隊列,需要設置一個超時事件)

Logstash同樣運行在JVM內存中,關于jvm內存的配置原則不在述說和,和上述ES一樣;

堆內存一般要求初始值和最大值設置一致,防止動態調整堆內存大小的消耗;jvm內存的分配設置太大會拖慢系統,浪費資源,設置太小的話Logstash無法啟動

【Kafka的性能優化】

既然我們在ELK中用到了Kafka,那么優化也是必須的,先來回顧一下,kafka是一個高吞吐分布式消息系統,并且提供了持久化,高性能主要表現在以下兩點:

第一,磁盤的連續讀寫性能遠遠高于隨機讀寫

第二:拆分一個topic主題分配多個partition分區,這樣可以提供并發和吞吐量;

另外,我們的kafka消息讀寫為什么這么高效?原因何在?

我們要知道linux系統內核為文件設置一個緩存機制,所有對文件讀寫的數據內容都會存在著緩存中,稱之為:page cache(頁緩存)

緩存 機制:

當一個文件發生讀操作時,系統會先去page cache頁緩存中讀取,如果找到,便會直接返回,沒有緩存中沒有需要讀取的數據內容,那么會去磁盤中讀取,此時系統寫入一份到緩存中。,最終返回數據;

當有寫操作時,亦是如此,數據會首先寫入緩存并進行標識,等待批量保存到文件系統,減少了磁盤的操作次數和系統額外開銷

我們的kafka就是依賴于這種機制,數據的讀寫交互便是在緩存中完成接力,不會因為kafka寫入磁盤數據影響吞吐量,這就是為什么kafka非常高效的根本原因

降低文件系統頁面緩存

主要針對于下面兩個參數

vm.dirty_background_ratio:? #指定了當文件系統緩存頁數量達到系統內存的百分比閥值的時候,便會觸發pdflush/flush/kdmflush后臺運行寫進程,將一定的緩存數據寫入磁盤中

vm.dirty_ratio:? ? ? ? ? ? ?#指定了當文件系統緩存頁熟練達到系統設定的百分比閥值時候,為了保證避免數據丟失,系統不得不開始處理緩存頁面,在這個過程中,可能很多應用會因為系統刷新內存數據,導致應用IO進程阻塞;這個時候呢,系統就會轉入同時處理頁緩存和堵塞應用

ps:建議將vm.dirty_background_ratio設置為5%,vm.diry_ratio設置為10%;根據不同環境,需要進行測試而定

topic的拆分:

kafka讀寫單位是partition,將一個topic分配到多個partition可以提高系統的吞吐量,但前提是將不同的partition分配到不同的磁盤上,如果多個partition位于一個磁盤上就會出現多個進程同時對磁盤上多個文件進行讀寫,這樣造成了磁盤的頻繁調度,破壞了磁盤讀寫的連續性

如何實現將不同的partition分配到不同的磁盤上呢?

我們可以將磁盤上的多個目錄配置到broker的log.dirs上

# vim /usr/local/kafka/config/server.properties

log.dirs=/disk1/logs,/disk2/logs/,/disk3/logs#kafaka在新建partition時,會將partition分布在paritition最少的目錄上面,因此,不能將同一個磁盤上的多個目錄設置到logs.dirs上

kafka配置參數優化:

num.network.threads=3? #broker處理消息的最大線程數

num.io.threads=8? ? ?#broker處理磁盤IO的線程數

一般num.network.threads主要就是處理網絡IO,讀寫緩沖區數據,基本沒有IO等待,配置線程數量為CPU核數n+1

num.io.threads主要進行磁盤IO操作,高峰期可以能有些等待,因此配置較大一點,配置線程數量為CPU核數的2~3倍即可

日志保留策略優化:

kafka被打量的寫入日志消息后,會生成打量的數據文件,也就是日志消息,這樣會占用大量的磁盤空間。

減少日志保留時間,通過log.retention.hours設置,單位是小時

log.retention.hours=72? ? #保留日志數據的時間范圍,過后便會刪除

段文件大小優化

段文件配置大小為1GB,這樣有利于快速的回收磁盤空間,重啟kafka加載也會更快,如果說文件過小,那么文件數量就會較多,kafka啟動的時候回單線掃描(log.dir)下的所有文件,文件較多啟動較慢,會影響性能,

log.segment.bytes=1073741824? ? #段文件最大大小,超過該閥值,會自動創建新的日志段

Logs數據文件寫盤策略優化

為了大幅度提高producer寫入吞吐量,需要制定定期批量寫入文件磁盤的計劃

每當producer寫入10000條消息事,便會將數據寫入磁盤,

#log.flush.interval.messages=10000? ?#強行將數據刷新到磁盤之前所能接受的消息數

#log.flush.interval.ms=1000 ?#在強制刷新之前,消息可以停留在日志中最長的時間(單位毫秒,每間隔1秒時間,刷數據到磁盤中)

【Filebeat優化】

還記得我們為什么要使用filebeat采集日志數據嗎?那是因為Logstash功能雖然強大,但是它依賴于java,在海量日志環境中,logstash進程會消耗更多的系統資源,這將嚴重的影響業務系統的性能,而我們說的filebeat是基于go語言,沒有任何依賴,配置簡單,占用系統資源少,比logstash更加的輕量級;但是有點還是需要注意。在日志量比較大的情況下或者日志異常突發時,filebeat也會占用大量的系統內存開銷,所以說這方面的優化,也是至關重要的

內存優化,Filebeat內存收到兩種模式的限制,一種是內存模式,第二種是文件緩存模式,任選其一即可

queue.mem:

events:4096#表示隊列可以存儲的事件數量。默認值是4096個事件。

flush.min_events:512#發布所需的最小事件數量。 默認值是0,表示可以直接輸出發布事件,而無需額外的等待時間。 如果設置為非0,必須等待,在滿足指定的事件數量后才能輸出發布事件。

flush.timeout: 5s #表示最早的可用事件在隊列中等待的最長時間,超過這個時間,立即輸出發布事件,默認值是0s,表示立即可以輸出發布事件

配置含義:該隊列能夠存儲4096個事件數量,如果超過512個可用的事件則在隊列中等待5秒之后,將事件轉發至output輸出

文件緩存模式調優

此模式可以限制最大的使用內存

ueue.spool:

file:

path:"${path.data}/spool.dat"#Spool file的路徑

size: 512MiB #Spool file的大小,也就是緩沖區的大小。

page_size: 16KiB #文件的頁面大小。默認值為4096(4KiB)。

write:

buffer_size: 10MiB #寫緩沖區大小。一旦超過緩沖區大小,就刷新寫緩沖區。

flush.timeout: 5s #寫緩沖區中最舊事件的最長等待時間。如果設置為0,則在write.flush.events或write.buffer_size滿足時寫入緩沖區僅刷新一次。

flush.events:1024 #緩沖事件的數量。一旦達到上限,就刷新寫緩沖區。

文件系統資源的優化:

fliebeat對日志的采集有一個弊端,那就是只要發現日志就會堅持把日志收集完,否則的話就會永久鎖住文件句柄不放手,就算日志文件被刪除,也不會放手,這就導致了文件系統大量的文件句柄被filebeat占用,導致收集日志異常,故此對其進行優化

1)close_inactive:1m? ?#表示沒有新日志采集后,多長時間關閉文件句柄;(也就是說無數據采集時候,等待多長時間便會自動關閉文件句柄),這里設置1分鐘

2)close_timeout:3h? ? #限定的數據傳輸時間,這里是指傳輸了三小時就強行關閉文件句柄,該配置解決了文件句柄耗盡的問題,但也存在著數據丟失的風險,需要綜合考慮

3)clean_inactive:72h? ?#表示多久會清理一次文件描述符在registry文件,默認值0表示不清理,如果不清理,registry會變大,帶來性能問題

4)ignore_older:70h? ? #設置了clean_inactive,就需要設置ignore_older,并且保證該值小于clean_inactive

[小結]

關于ELK綜合方面的優化,也就介紹這么多了,其實ELK的優化方面很少,我個人覺得已經足夠了,主要就是針對不同的環境和業務需求進行調參,調整適合自己的才是最好的,當然前提是你要知參數的各個含義;優化也是一個綜合的技術,

無論什么服務,我們能做到的優化點無非就是硬件,系統以及服務配置的調參;逐步測試,一步步達到最優的狀態;這是進行優化的基本策略和思路(ps:本章可能還有很多優化策略沒有寫到,歡迎大佬填坑補充~)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/370039.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/370039.shtml
英文地址,請注明出處:http://en.pswp.cn/news/370039.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

spark SQL(三)數據源 Data Source----通用的數據 加載/保存功能

Spark SQL 的數據源------通用的數據 加載/保存功能 Spark SQL支持通過DataFrame接口在各種數據源上進行操作。DataFrame可以使用關系變換進行操作,也可以用來創建臨時視圖。將DataFrame 注冊為臨時視圖允許您對其數據運行SQL查詢。本節介紹使用Spark Data Sou…

sqlserver日期函數

SQLServer時間日期函數詳解,SQLServer,時間日期, 1. 當前系統日期、時間 select getdate() 2. dateadd 在向指定日期加上一段時間的基礎上,返回新的 datetime 值 例如:向日期加上2天 select dateadd(day,2,2004-10-15) --返回&#xff1a…

榮耀鴻蒙系統開機動畫,榮耀趙明:鴻蒙系統首發設備欲屏蔽開機廣告

來源:硅谷分析獅余承東表示8月9日會發布鴻蒙系統,而從他透露的一些細節看,鴻蒙系統將首先運用在智慧屏終端上,其配合大屏幕和自研芯片(麒麟AI芯片,鴻鵠智慧顯示芯片,凌霄WIFI芯片),將實現生態上…

編寫Maven插件的提示

最近,我花了很多時間來編寫或為Maven開發插件。 它們簡單,有趣且有趣。 我以為我會分享一些技巧,使他們在編寫時變得更輕松。 提示1:將任務與Mojo分開 最初,您將把mojo的所有代碼放入mojo的類(即&#xf…

oracle通信通道的文件結尾_ORA-03113:通信通道的文件結尾解決

提示ORA-03113:通信通道的文件結尾解決事情原由:oracle安裝到win7下,以為都是直接sqlplus / as sysdba,使用數據庫,但最近連接時頻繁報錯,提示ORA-03113:通信通道的文件結尾進程 ID &#xff1a…

Python_迭代器與生成器

迭代器 迭代是Python最強大的功能之一,是訪問集合元素的一種方式。。 迭代器是一個可以記住遍歷的位置的對象。 迭代器對象從集合的第一個元素開始訪問,直到所有的元素被訪問完結束。迭代器只能往前不會后退。 迭代器有兩個基本的方法:iter()…

JSOI 2009 BZOJ 1444 有趣的游戲

題面 題目描述 小陽陽發明了一個有趣的游戲:有n個玩家,每一個玩家均有一個長度為 l 的字母序列,任何兩個玩家的字母序列不同。共有m種不同的字母,所有的字母序列都由這m種字母構成,為了方便,我們取大寫字母…

html語言dl與ul,HTML中DL、UL、OL用哪個比較好

大家好~ 我是一枚正直純潔的苦逼程序員!!!!!ul,ol,dl標簽是CSS網頁布局中常用的列表元素。 列表將具有相似特征或先后順序的內容按照從上到下的順序排列起來。1.ul標簽:無序列表始于…

slot多作用域 vue_詳解Vue.js 作用域、slot用法(單個slot、具名slot)

作用域HEi免費資源網在介紹slot前&#xff0c;需要先知道一個概念&#xff1a;編譯的作用域。比如父組件中有如下模板&#xff1a;HEi免費資源網{{message}}這里的message就是一個slot&#xff0c;但是它綁定的是父組件的數據&#xff0c;而不是組件< child-component >的…

Java – JDK 8的遠景

世界正在緩慢但肯定地發生變化。 經過更改后&#xff0c;Java有了JDK 7的全新外觀&#xff0c;Java社區期待JDK 8&#xff08;可能還有JDK 9&#xff09;所帶來的其余改進。 JDK 8的目標目的是填補JDK 7實施中的空白-該實施中剩下的部分難題&#xff0c;應該在2013年底之前為廣…

CSS 學習路線(一)元素

元素(element) 類型:替換和非替換元素 替換元素(replaced element): 用來替換元素內容的部分并非由文檔內容直接顯示. eg:img input 非替換元素(nonreplaced element): 其內容由用戶代理在元素本身生成的框顯示. eg:絕大多數都是非替換元素 基本元素類型:塊級(block-lev…

[urllib]urlretrieve在python3

python3下面要使用&#xff1a;urllib.request.urlretrieve()這種形式的調用 1 from urllib.request import urlretrieve 2 3 4 urlretrieve(url, path) 轉載于:https://www.cnblogs.com/sigai/p/8178375.html

使用Gulp壓縮CSS/JS

一、安裝 1.安裝gulp npm install -g gulp2.檢查gulp 版本 gulp -v3.在項目文件夾下安裝gulp npm install --save-dev gulp二、壓縮JS 1.安裝gulp-uglify模塊 npm install gulp-uglify2.在項目根目錄創建gulpfile.js文件 3.在gulpfile.js文件中寫入代碼 // 獲取 gulpvar gulp …

android活動開始,android – 點擊谷歌地圖標記infoWindow開始活動

我建議使用HashMap或類似的東西.當您遍歷對象列表并為它們創建標記時,還要將標記添加到列表中,使用對象的ID作為鍵,將標記作為值&#xff1a;private HashMap markerMap new HashMap();…for(MarkerObject obj : this.markerObjects){//If the marker isnt already being disp…

Hamcrest包含匹配器

與Hamcrest 1.2相比 &#xff0c;針對Matchers類的Hamcrest 1.3 Javadoc文檔為該類的幾種方法添加了更多文檔。 例如&#xff0c;四個重載的contains方法具有更具描述性的Javadoc文檔&#xff0c;如下面所示的兩個比較屏幕快照所示。 盡管僅通過嘗試就可以弄清楚“包含”匹配器…

華為cor—al10_cor al10是華為什么型號 cor al10是華為啥型號

cor al10是華為榮耀Play。外觀方面&#xff0c;榮耀Play提供有星云紫&#xff0c;極光藍&#xff0c;幻夜黑三種基礎配色&#xff0c;以及幻夜黑與魅焰紅的酷玩版配色&#xff1b;拍照方面&#xff0c;榮耀Play具有1600萬AI雙攝像頭&#xff0c;前置攝像頭為1600萬像素&#xf…

函數 (四) 迭代器和生成器

一 迭代器 一 迭代的概念 #迭代器即迭代的工具&#xff0c;那什么是迭代呢&#xff1f;#迭代是一個重復的過程&#xff0c;每次重復即一次迭代&#xff0c;并且每次迭代的結果都是下一次迭代的初始值 while True: #只是單純地重復&#xff0c;因而不是迭代print(>) l[1,2,3]…

進階-JMS 知識梳理

JMS 一、 概述與介紹 ActiveMQ 是Apache出品&#xff0c;最流行的、功能強大的即時通訊和集成模式的開源服務器。ActiveMQ 是一個完全支持JMS1.1和J2EE 1.4規范的 JMS Provider實現。提供客戶端支持跨語言和協議&#xff0c;帶有易于在充分支持JMS 1.1和1.4使用J2EE企業集成模式…

android藍牙pair,Android向更多藍牙設備開放Fast Pair功能 配對更輕松了

原標題&#xff1a;Android向更多藍牙設備開放Fast Pair功能 配對更輕松了 來源&#xff1a;cnBeta.COM藍牙是一項應用非常廣泛的無線技術&#xff0c;在無線音頻配件、智能手表和智能家電中都廣泛使用。不過藍牙設備的配對體驗并不優秀&#xff0c;而且無法實現跨平臺的一致性…

用CSS讓DIV上下左右居中的方法

例如 一個父div(w:100%;h:400px)中有一個子div(w:100px;100px;)。讓其上下左右居中。 方法一&#xff08;varticle-align&#xff09; 理念 利用表格單元格的居中屬性。 步驟 父div外層配置一個div&#xff0c;同時設置為表格元素 (display: table)&#xff0c;寬度為100%父…