k8s監控方案實踐補充(二):使用kube-state-metrics獲取資源狀態指標

k8s監控方案實踐補充(二):使用kube-state-metrics獲取資源狀態指標

文章目錄

  • k8s監控方案實踐補充(二):使用kube-state-metrics獲取資源狀態指標
  • 一、Metrics Server簡介
  • 二、kube-state-metrics實戰部署
    • 1. 創建RBAC(kube-state-metrics-rbac.yaml)
    • 2. 創建Service(kube-state-metrics-svc.yaml)
    • 3. 創建Deployment(kube-state-metrics-deploy.yaml)
    • 4. 部署所有資源
  • 總結


隨著容器化和微服務架構的不斷發展,系統的復雜性與日俱增,構建一套完善的監控與資源管理體系已成為保障系統穩定運行的關鍵。在前幾篇文章中,我們已經介紹了如何部署 Prometheus、Node Exporter、Grafana 以及 Alertmanager,并通過釘釘 Webhook 實現了監控告警的閉環。

在本篇補充文章中,我們將部署 Kubernetes 官方提供的資源對象狀態采集組件 —— kube-state-metrics。它通過訪問 API Server,實時導出 Pod、Deployment、StatefulSet、PVC 等 Kubernetes 對象的詳細狀態指標,為 Prometheus 提供更豐富的監控數據支持,幫助我們全面掌握集群運行狀態、資源對象的變化情況,并為告警配置和可視化展示打下基礎。

一、Metrics Server簡介

kube-state-metrics 是 Kubernetes 官方維護的 Exporter,專門用于收集集群中各類資源對象的狀態信息(如 Deployment 副本狀態、Pod 準備情況、PVC 是否綁定等),并以 Prometheus 支持的格式對外暴露。
它與 Metrics Server 的區別在于:

項目kube-state-metricsMetrics Server
指標類型對象狀態指標資源使用率指標
示例指標Deployment 副本數、Pod 狀態、PVC 狀態等Pod/Node 的 CPU、內存使用率
數據持久化否(需 Prometheus 拉取)
適用場景狀態監控、結構化分析、告警配置實時資源監控、HPA 自動擴縮容

Metrics Server 不同,kube-state-metrics 不提供節點或 Pod 的實時資源使用數據(如 CPU、內存),而是專注于資源對象的狀態變更,例如:

  • 某個 Pod 是否處于 Ready 狀態
  • Deployment 的實際副本數是否滿足期望
  • PVC 是否成功綁定
  • Node 是否處于 NotReady 狀態

部署 kube-state-metrics 后,能夠實現以下功能:

  • 為 Prometheus 提供更豐富的集群狀態指標來源
  • 輔助構建針對 K8s 對象狀態的 Grafana 可視化面板
  • 支持告警規則配置,如 “某 Deployment 副本不足” 或 “某 Node 不可用”

?? 需要注意的是,kube-state-metrics 只是將數據導出為指標,它本身不存儲數據,需要配合 Prometheus 進行拉取、存儲和查詢。

g.cn/direct/31da7451a2e34431b7ce7606e6722ebf.png)

二、kube-state-metrics實戰部署

1. 創建RBAC(kube-state-metrics-rbac.yaml)

為 kube-state-metrics 配置必要的權限,允許其訪問集群中資源對象的狀態信息

---
apiVersion: v1
kind: ServiceAccount
metadata:name: kube-state-metricsnamespace: kube-system
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:name: kube-state-metrics
rules:
- apiGroups: [""]resources: ["nodes", "pods", "services", "resourcequotas", "replicationcontrollers", "limitranges", "persistentvolumeclaims", "persistentvolumes", "namespaces", "endpoints", "secrets"]verbs: ["list", "watch"]
- apiGroups: ["extensions"]resources: ["daemonsets", "deployments", "replicasets"]verbs: ["list", "watch"]
- apiGroups: ["apps"]resources: ["statefulsets"]verbs: ["list", "watch"]
- apiGroups: ["batch"]resources: ["cronjobs", "jobs"]verbs: ["list", "watch"]
- apiGroups: ["autoscaling"]resources: ["horizontalpodautoscalers"]verbs: ["list", "watch"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:name: kube-state-metrics
roleRef:apiGroup: rbac.authorization.k8s.iokind: ClusterRolename: kube-state-metrics
subjects:
- kind: ServiceAccountname: kube-state-metricsnamespace: kube-system

2. 創建Service(kube-state-metrics-svc.yaml)

暴露 kube-state-metrics 服務端口,并添加 Prometheus 自動抓取注解

apiVersion: v1
kind: Service
metadata:annotations:prometheus.io/scrape: 'true'  # 開啟 Prometheus 抓取name: kube-state-metricsnamespace: kube-systemlabels:app: kube-state-metrics
spec:ports:- name: kube-state-metricsport: 8080protocol: TCPselector:app: kube-state-metrics

3. 創建Deployment(kube-state-metrics-deploy.yaml)

部署 kube-state-metrics,使用前面創建的 ServiceAccount

apiVersion: apps/v1
kind: Deployment
metadata:name: kube-state-metricsnamespace: kube-system
spec:replicas: 1selector:matchLabels:app: kube-state-metricstemplate:metadata:labels:app: kube-state-metricsspec:serviceAccountName: kube-state-metricscontainers:- name: kube-state-metricsimage: harbor.local/k8s/kube-state-metrics:2.7.0ports:- containerPort: 8080

4. 部署所有資源

kubectl apply -f kube-state-metrics-rbac.yaml
kubectl apply -f kube-state-metrics-svc.yaml
kubectl apply -f kube-state-metrics-deploy.yaml

總結

🚀 本篇文章補充了 Kubernetes 集群監控的重要組成部分 —— kube-state-metrics 的部署與配置。通過該組件,解決了僅依賴 Metrics Server 無法全面反映集群資源狀態的問題,增強了 Prometheus 對 Kubernetes 對象(如 Deployment、Pod、Node 等)狀態指標的采集能力。
? 至此,基于 Metrics Server 和 kube-state-metrics 的 Kubernetes 集群監控方案已基本完善。結合 Prometheus、Alertmanager 和 Grafana,這套監控體系能夠幫助運維團隊全面掌控集群運行狀況,及時響應故障,提升整體運維效率和系統穩定性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/80716.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/80716.shtml
英文地址,請注明出處:http://en.pswp.cn/web/80716.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Manus 全面開放注冊,OpenAI 發布 Codex,ChatGPT 上線 GPT-4.1!| AI Weekly 5.12-18

📢本周 AI 快訊 | 1 分鐘速覽🚀 1?? 📝 Manus 全面開放注冊 :無需邀請碼即可注冊,新用戶免費獲得 1000 積分,每日 300 積分免費任務。 2?? 🔍 阿里 Qwen 推出「深入研究」 :Qw…

代理(主要是動態)和SpringAOP

代理 靜態代理基于繼承實現動態代理是基于接口實現 業務層每次實現轉賬都需要執行,可以把他們拿出來當成一個切面,自己寫出一個代理類,讓業務層只執行業務的邏輯,重復的代碼代理類來完成,然后調用代理類來執行。 代理類…

uniapp打包H5,輸入網址空白情況

由于客戶預算有限,最近寫了兩個uniapp打包成H5的案例,總結下面注意事項 1. 發行–網站-PCWeb或手機H5按鈕,輸入名稱,網址 點擊【發行】,生成文件 把這個給后端,就可以了 為什么空白呢 最重要一點&#xf…

uniapp-商城-63-后臺 商品列表(分類展示商品的刪除)

商品列表中的數據需要進行狀態管理,如上架、下架、刪除和修改等操作。對于存在錯誤或后期需要重新上傳的商品,可以通過刪除操作進行處理。 具體到商品刪除功能的實現,其基本流程如下:用戶在前端頁面點擊刪除按鈕后,系統…

學習設計模式《十》——代理模式

一、基礎概念 代理模式的本質【控制對象訪問】; 代理模式的定義:為其他對象提供一種代理以控制對這個對象的訪問; 代理模式的功能:代理模式是通過創建一個代理對象,用這個代理對象去代表真實的對象;客戶端得…

阿里云web端直播(前端部分)

阿里云&#xff1a;Web播放器快速接入_視頻點播(VOD)-阿里云幫助中心 import Aliplayer from aliyun-aliplayerimport aliyun-aliplayer/build/skins/default/aliplayer-min.css<div id"J_prismPlayer" style"width: 300px; height: 300px;" />var …

深入解析OrientDB:多模型數據庫的技術優勢與實際應用

OrientDB 是一款開源的多模型 NoSQL 數據庫&#xff0c;融合了文檔數據庫、圖數據庫和對象數據庫的特性。它不僅支持靈活的數據建模&#xff0c;還提供了高性能的查詢能力&#xff0c;適用于社交網絡、物聯網、內容管理等場景。本文詳細探討 OrientDB 的核心特性、應用場景&…

STM32控制電機

初始化時鐘&#xff1a;在 STM32 的程序中&#xff0c;初始化系統時鐘&#xff0c;一般會使用 RCC&#xff08;Reset and Clock Control&#xff09;相關函數來配置時鐘。例如&#xff0c;對于 STM32F103 系列&#xff0c;可能會使用 RCC_APB2PeriphClockCmd 函數來使能 GPIO 和…

(05)數字化轉型之生產制造:從通常的離散制造到柔性化生產的全景指南

當今制造業正經歷著前所未有的數字化變革&#xff0c;從傳統的離散制造到流程制造&#xff0c;再到新興的項目制造和柔性制造&#xff0c;各種生產模式都在加速向智能化方向演進。本文將系統性地介紹制造業生產管理的完整體系&#xff0c;為企業數字化轉型提供全面的方法論和實…

龍虎榜——20250520

上證指數今天縮量向上&#xff0c;個股漲多跌少&#xff0c;大盤股和小盤股總體表現都還可以。 深證同樣縮量上漲&#xff0c;向上補缺口的概率增大。 2025年5月20日龍虎榜行業方向分析 寵物經濟&#xff08;消費升級政策催化&#xff09; ? 代表標的&#xff1a;天元寵物、…

CVE-2022-22978源碼分析與漏洞復現

漏洞概述 CVE-2022-22978 是 Spring Security 框架中的一個高危認證繞過漏洞&#xff0c;影響版本包括 Spring Security 5.5.x < 5.5.7、5.6.x < 5.6.4 及更早的不受支持版本。攻擊者可通過構造包含換行符&#xff08;如 %0a&#xff09;的 URL 路徑&#xff0c;繞過正則…

PostGIS實現柵格數據入庫【raster2pgsql】

raster2pgsql使用與最佳實踐 一、工具概述 raster2pgsql是PostGIS提供的命令行工具,用于將GDAL支持的柵格格式(如GeoTIFF、JPEG、PNG等)導入PostgreSQL數據庫,支持批量加載、分塊切片、創建空間索引及金字塔概覽,是柵格數據入庫的核心工具。 二、核心功能與典型用法 1…

Redis企業級開發實戰:核心應用場景與最佳實踐

引言 Redis&#xff08;Remote Dictionary Server&#xff09;作為一款高性能的內存數據庫&#xff0c;在企業級開發中扮演著至關重要的角色。無論是緩存加速、分布式鎖、實時統計&#xff0c;還是消息隊列&#xff0c;Redis都能以極低的延遲和極高的吞吐量滿足業務需求。本文…

深入解析Spring Boot與Spring Cloud在微服務架構中的實踐

深入解析Spring Boot與Spring Cloud在微服務架構中的實踐 引言 隨著云計算和分布式系統的快速發展&#xff0c;微服務架構已成為現代軟件開發的主流模式。Spring Boot和Spring Cloud作為Java生態中微服務開發的核心框架&#xff0c;為開發者提供了強大的工具和組件&#xff0…

AI量化交易是什么?它是如何重塑金融世界的?

第一章&#xff1a;證券交易的進化之路 1.1 從喊價到代碼&#xff1a;交易方式的革命性轉變 在電子交易普及之前&#xff0c;證券交易依賴于交易所內的公開喊價系統。交易員通過手勢、喊話甚至身體語言傳遞買賣信息&#xff0c;這種模式雖然直觀&#xff0c;但效率低下且容易…

芯馳科技與安波福聯合舉辦技術研討會,深化智能汽車領域合作交流

5月15日&#xff0c;芯馳科技與全球移動出行技術解決方案供應商安波福&#xff08;Aptiv&#xff09;在上海聯合舉辦以“芯智融合&#xff0c;共贏未來”為主題的技術研討會。會上&#xff0c;雙方聚焦智能座艙與智能車控的發展趨勢&#xff0c;展開深入交流與探討&#xff0c;…

大數據Spark(五十九):Standalone集群部署

文章目錄 Standalone集群部署 一、節點劃分 二、搭建Standalone集群 1、將下載好的Spark安裝包上傳解壓 2、配飾spark-env.sh 3、配置workers 4、將配置好的安裝包發送到node2、node3節點上 5、啟動Standalone集群 三、提交任務測試 Standalone集群部署 Standalone 模…

Feign異步模式丟失上下文問題

Feign異步模式丟失上下文問題 問題描述 當我們使用異步對我們代碼進行操作優化時&#xff0c;代碼中使用了RequestContextHolder去獲取上下文的數據&#xff0c;當我們執行原來可以執行的業務時發現報了空指針異常或數據為空&#xff0c;這是為什么呢&#xff1f; 原理解釋 …

JavaScript作用域和作用域鏈

在JavaScript中&#xff0c;作用域和作用域鏈是理解代碼執行和變量訪問的關鍵概念。它們決定了變量和函數在代碼中的可見性和生命周期。 一、作用域&#xff08;Scope&#xff09; &#xff08;一&#xff09;什么是作用域&#xff1f; 作用域是在運行時代碼中的某些特定部分…

人工智能的“歧視”:“她數據”在算法運行中隱形

縱觀人類的發展史&#xff0c;每一次科技進步都將對性別平等產生深刻影響。尤其是當下&#xff0c;人們對于借助人工智能技術快速發展來彌合性別不平等寄予厚望。 但很多人沒想過&#xff0c;人工智能技術本身是客觀中立、不存在“算法歧視”“性別偏見的嗎&#xff1f; 弗吉…