使用Prometheus監控systemd服務并可視化

在這里插入圖片描述

實訓背景

你是一家企業的運維工程師,需將服務器的systemd服務監控集成到Prometheus,并通過Grafana展示實時數據。需求如下:

  1. 數據采集:監控所有systemd服務的狀態(運行/停止)、資源占用(CPU、內存)。
  2. 可視化展示:在Grafana中創建儀表盤,實時查看服務健康狀態。
  3. 告警集成:當關鍵服務(如Nginx)停止時觸發郵件告警。

環境準備

  1. 操作系統:Ubuntu 22.04 LTS。
  2. 安裝依賴
    sudo apt install prometheus prometheus-node-exporter grafana
    
  3. 目錄結構
    • Prometheus配置目錄:/etc/prometheus/
    • Grafana數據目錄:/var/lib/grafana

實訓步驟


任務1:配置Node Exporter收集systemd指標

目標:啟用Node Exporter的systemd模塊,暴露服務狀態數據。

操作步驟
  1. 修改Node Exporter配置

    sudo nano /etc/default/prometheus-node-exporter
    

    添加以下參數:

    ARGS="--collector.systemd"
    
  2. 重啟Node Exporter

    sudo systemctl restart prometheus-node-exporter
    
  3. 驗證指標采集
    訪問 http://localhost:9100/metrics,搜索 systemd 開頭的指標(如 systemd_units)。


任務2:配置Prometheus抓取數據

目標:讓Prometheus從Node Exporter拉取數據。

操作步驟
  1. 編輯Prometheus配置文件

    sudo nano /etc/prometheus/prometheus.yml
    

    scrape_configs 部分添加:

    - job_name: 'node'static_configs:- targets: ['localhost:9100']
    
  2. 重啟Prometheus

    sudo systemctl restart prometheus
    
  3. 驗證數據抓取
    訪問 http://localhost:9090,進入 Status > Targets,確認 node 任務狀態為 UP


任務3:創建Grafana儀表盤

目標:導入預設儀表盤,可視化監控數據。

操作步驟
  1. 啟動Grafana并設置開機自啟

    sudo systemctl enable grafana-server
    sudo systemctl start grafana-server
    
  2. 登錄Grafana
    瀏覽器訪問 http://localhost:3000,默認賬號/密碼:admin/admin

  3. 添加Prometheus數據源

    • 左側菜單 Configuration > Data Sources > Add data source
    • 選擇 Prometheus,URL填寫 http://localhost:9090,點擊 Save & Test
  4. 導入官方儀表盤

    • 左側菜單 Dashboards > Import
    • 輸入儀表盤ID 8919(Node Exporter Full),點擊 Load
    • 選擇數據源為Prometheus,點擊 Import
  5. 查看監控數據
    在儀表盤中找到 Systemd Units 面板,查看各服務狀態。


任務4:監控關鍵服務(如Nginx)

目標:當Nginx服務停止時觸發告警。

操作步驟
  1. 創建告警規則文件

    sudo nano /etc/prometheus/alert_rules.yml
    

    內容:

    groups:
    - name: service_alertsrules:- alert: NginxDownexpr: systemd_unit_state{name="nginx.service", state="active"} != 1for: 1mlabels:severity: criticalannotations:summary: "Nginx服務異常停止!"
    
  2. 更新Prometheus配置

    sudo nano /etc/prometheus/prometheus.yml
    

    添加:

    rule_files:- "alert_rules.yml"
    
  3. 重啟Prometheus

    sudo systemctl restart prometheus
    
  4. 模擬故障測試

    sudo systemctl stop nginx          # 手動停止Nginx
    # 訪問 http://localhost:9090/alerts 查看告警狀態
    

實訓總結

通過本次實訓,你實現了以下功能:

  1. 集中監控:通過Prometheus實時采集systemd服務狀態。
  2. 可視化展示:利用Grafana儀表盤直觀查看服務健康度。
  3. 智能告警:關鍵服務異常時自動觸發告警。

知識要點

  1. 核心工具鏈

    • Node Exporter:暴露系統和服務指標。
    • Prometheus:存儲和查詢監控數據。
    • Grafana:數據可視化與告警配置。
  2. 關鍵配置

    • --collector.systemd:啟用systemd指標收集。
    • PromQL查詢示例:systemd_unit_state{name="nginx.service"}
  3. 調試命令

    curl http://localhost:9100/metrics | grep systemd  # 驗證指標暴露
    journalctl -u prometheus -f          # 查看Prometheus日志
    

擴展挑戰

  • 自定義指標:編寫腳本監控服務日志錯誤次數,通過 textfile 收集器暴露給Prometheus。
    # 示例腳本 /opt/scripts/error_counter.sh
    echo "service_errors_total $(grep 'ERROR' /var/log/myapp.log | wc -l)" > /var/lib/node_exporter/errors.prom
    
  • 多節點監控:修改Prometheus配置,監控多臺服務器的systemd服務。
  • 告警通知:集成Alertmanager,將告警發送至Slack或釘釘。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/77057.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/77057.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/77057.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

OpenCV--圖像邊緣檢測

在計算機視覺和圖像處理領域,邊緣檢測是極為關鍵的技術。邊緣作為圖像中像素值發生急劇變化的區域,承載了圖像的重要結構信息,在物體識別、圖像分割、目標跟蹤等眾多應用場景中發揮著核心作用。OpenCV 作為強大的計算機視覺庫,提供…

Rollup詳解

Rollup 是一個 JavaScript 模塊打包工具,專注于 ES 模塊的打包,常用于打包 JavaScript 庫。下面從它的工作原理、特點、使用場景、配置和與其他打包工具對比等方面進行詳細講解。 一、 工作原理 Rollup 的核心工作是分析代碼中的 import 和 export 語句…

Chapter 7: Compiling C++ Sources with CMake_《Modern CMake for C++》_Notes

Chapter 7: Compiling C Sources with CMake 1. Understanding the Compilation Process Key Points: Four-stage process: Preprocessing → Compilation → Assembly → LinkingCMake abstracts low-level commands but allows granular controlToolchain configuration (c…

5分鐘上手GitHub Copilot:AI編程助手實戰指南

引言 近年來,AI編程工具逐漸成為開發者提升效率的利器。GitHub Copilot作為由GitHub和OpenAI聯合推出的智能代碼補全工具,能夠根據上下文自動生成代碼片段。本文將手把手教你如何快速安裝、配置Copilot,并通過實際案例展示其強大功能。 一、…

謝志輝和他的《韻之隊詩集》:探尋生活與夢想交織的詩意世界

大家好,我是謝志輝,一個扎根在文字世界,默默耕耘的寫作者。寫作于我而言,早已不是簡單的愛好,而是生命中不可或缺的一部分。無數個寂靜的夜晚,當世界陷入沉睡,我獨自坐在書桌前,伴著…

Logo語言的死鎖

Logo語言的死鎖現象研究 引言 在計算機科學中,死鎖是一個重要的研究課題,尤其是在并發編程中。它指的是兩個或多個進程因爭奪資源而造成的一種永久等待狀態。在編程語言的設計與實現中,如何避免死鎖成為了優化系統性能和提高程序可靠性的關…

深入理解矩陣乘積的導數:以線性回歸損失函數為例

深入理解矩陣乘積的導數:以線性回歸損失函數為例 在機器學習和數據分析領域,矩陣微積分扮演著至關重要的角色。特別是當我們涉及到優化問題,如最小化損失函數時,對矩陣表達式求導變得必不可少。本文將通過一個具體的例子——線性…

real_time_camera_audio_display_with_animation

視頻錄制 import cv2 import pyaudio import wave import threading import os import tkinter as tk from PIL import Image, ImageTk # 視頻錄制設置 VIDEO_WIDTH = 640 VIDEO_HEIGHT = 480 FPS = 20.0 VIDEO_FILENAME = _video.mp4 AUDIO_FILENAME = _audio.wav OUTPUT_…

【Pandas】pandas DataFrame astype

Pandas2.2 DataFrame Conversion 方法描述DataFrame.astype(dtype[, copy, errors])用于將 DataFrame 中的數據轉換為指定的數據類型 pandas.DataFrame.astype pandas.DataFrame.astype 是一個方法,用于將 DataFrame 中的數據轉換為指定的數據類型。這個方法非常…

Johnson

理論 全源最短路算法 Floyd 算法,時間復雜度為 O(n)跑 n 次 Bellman - Ford 算法,時間復雜度是 O(nm)跑 n 次 Heap - Dijkstra 算法,時間復雜度是 O(nmlogm) 第 3 種算法被 Johnson 做了改造,可以求解帶負權邊的全源最短路。 J…

Exce格式化批處理工具詳解:高效處理,讓數據更干凈!

Exce格式化批處理工具詳解:高效處理,讓數據更干凈! 1. 概述 在數據分析、報表整理、數據庫管理等工作中,數據清洗是不可或缺的一步。原始Excel數據常常存在格式不統一、空值、重復數據等問題,影響數據的準確性和可用…

(三十七)Dart 中使用 Pub 包管理系統與 HTTP 請求教程

Dart 中使用 Pub 包管理系統與 HTTP 請求教程 Pub 包管理系統簡介 Pub 是 Dart 和 Flutter 的包管理系統,用于管理項目的依賴。通過 Pub,開發者可以輕松地添加、更新和管理第三方庫。 使用 Pub 包管理系統 1. 找到需要的庫 訪問以下網址&#xff0c…

代碼隨想錄算法訓練營第三十五天 | 416.分割等和子集

416. 分割等和子集 題目鏈接:416. 分割等和子集 - 力扣(LeetCode) 文章講解:代碼隨想錄 視頻講解:動態規劃之背包問題,這個包能裝滿嗎?| LeetCode:416.分割等和子集_嗶哩嗶哩_bilibi…

HTTP 教程 : 從 0 到 1 全面指南 教程【全文三萬字保姆級詳細講解】

目錄 HTTP 的請求-響應 HTTP 方法 HTTP 狀態碼 HTTP 版本 安全性 HTTP/HTTPS 簡介 HTTP HTTPS HTTP 工作原理 HTTPS 作用 HTTP 與 HTTPS 區別 HTTP 消息結構 客戶端請求消息 服務器響應消息 實例 HTTP 請求方法 各個版本定義的請求方法 HTTP/1.0 HTTP/1.1 …

spring功能匯總

1.創建一個dao接口,實現類;service接口,實現類并且service里用new創建對象方式調用dao的方法 2.使用spring分別獲取dao和service對象(IOC) 注意 2中的service里面獲取dao的對象方式不用new的(DI) 運行測試: 使用1的方式創建servic…

Vue.js 實現下載模板和導入模板、數據比對功能核心實現。

在前端開發中,數據比對是一個常見需求,尤其在資產管理等場景中。本文將基于 Vue.js 和 Element UI,通過一個簡化的代碼示例,展示如何實現“新建比對”和“開始比對”功能的核心部分。 一、功能簡介 我們將聚焦兩個核心功能&…

volatile關鍵字用途說明

volatile 關鍵字在 C# 中用于指示編譯器和運行時系統,某個字段可能會被多個線程同時訪問,并且該字段的讀寫操作不應被優化(例如緩存到寄存器或重排序),以確保所有線程都能看到最新的值。這使得 volatile 成為一種輕量級…

【區塊鏈安全 | 第三十五篇】溢出漏洞

文章目錄 溢出上溢示例溢出漏洞溢出示例漏洞代碼代碼審計1. deposit 函數2. increaseLockTime 函數 攻擊代碼攻擊過程總結修復建議審計思路 溢出 算術溢出(Arithmetic Overflow),簡稱溢出(Overflow),通常分…

百度的deepseek與硅基模型的差距。

問題: 已經下載速度8兆每秒,請問下載30G的文件需要多長時間? 關于這個問題。百度的回答如下: ?30GB文件下載時間計算? ?理論計算?(基于十進制單位): ?單位換算? 文件大小:3…

車載診斷架構 --- 特殊定義NRC處理原理

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 周末洗了一個澡,換了一身衣服,出了門卻不知道去哪兒,不知道去找誰,漫無目的走著,大概這就是成年人最深的孤獨吧! 舊人不知我近況,新人不知我過…