注:Pagerduty作為報警系統,出鏡率很高。
雖然收費,但對于企業來說很便宜。
一個月幾十美金
不太支持中文,主要是語音方面。
Prometheus
查詢語句 , 基于數學運算模式的監控查詢
我們計算一下一天多少秒
1 * 24 * 60 * 60
Console 會出現 86400
假如我想一分鐘一次數據的模式獲取監控數據
( 1 * 24 * 60 * 60 ) / 60
采集會是1440次
加入我想 5 秒中采集一次。
( 1 * 24 * 60 * 60 ) /5
17280
優缺點
集群搭建速度塊,并且周邊插件豐富。
可以嵌入到其他開源工具的內部,進行監控,數據更準確,更可信。
數據量如果特別大,那么成圖的時候也會出現性能的瓶頸。
目前不支持集群化,只能自定義持久化。本身性能有一定的瓶頸。
要求硬盤消耗量比較大,和監控數據的保存周期也是關聯的。
監控重點研究
監控系統設計
監控系統搭建
》監控穩定測試
數據采集編寫
》監控自動化集成
》監控部署上線
》監控圖形化工作
數據采集編寫
監控數據分析/算法
業務監控
- 用戶訪問的QPS 每秒查詢率(Queries Per Second)
它是對一個特定的查詢服務器在規定時間內所處理流量多少的衡量標準。
通過曲線的變化去記錄QPS的狀態。業務級別監控的難點。 - 用戶DAU指的是日活躍用戶數量(Daily Active User)
- 訪問狀態(http code)
- 業務接口(登錄、注冊、聊條、上傳、留言、短信、搜索)
- 產品轉化率
- 充值額度
- 用戶投訴
系統監控
- CPU
- 內存
- 硬盤
- I/O
- TCP鏈接
- 流量
網絡監控
1.丟包率。
2.延遲。
3.IDC內網和外網的訪問性(可用區)。
日志監控
ELK
往往是單獨設計和搭建。
程序監控
一般需要與開發人員配合,程序中嵌入各種接口 直接獲取數據或者特質的日志格式。
程序中嵌入各種接口,直接獲取數據或者特質的日志格式。
數據采集編寫
shell / python / awk / lua(nginx安全控制) / go 等
優點:后臺采集程序,數據準確性高,采集密度精細 管理方便。
缺點:后臺采集程序,如果開發過程不夠仔細,可能會出現內存泄漏,僵尸進程,性能瓶頸等問題。
監控自動化
Puppet 配置文件部署
Jenkins CI持續集成部署
用戶哭護短 -> 公網DNS域名 -> CDN技術 -> 云計算入口(入口機) -> 負載均衡 -> 智能負載均衡 -> 主程序集群 -> 緩存 -> 數據庫。
數據庫鍵值類型
K / V 模型
T-S 時間序列的組成方式。(prometheus命令行 可以支持 四則運算, -> 微積分 -> 代數 -> 數論)
數據采集是從 /proc 下獲取數據