阿里云監控及運維常見問題

云監控介紹:

阿里云的云監控服務(CloudMonitor)是一款簡單易用、功能強大的監控工具,主要用來幫助用戶實時監控阿里 云上的各種資源(比如服務器、數據庫、網絡等),并在出現問題時及時發出警報,確保業務穩定運行。

1.打開阿里云,找到對應服務

點擊立即開通

2.在控制臺找到云監控服務

開通云主機監控策略

為需要監控的主機安裝Agent,點擊自動安裝Agent

等待片刻, 重新刷新對應的CPU使用率、內存使用率、磁盤使用率的數據即可出現

系統報警服務配置

云監控中的報警服務規則配置的主要目的是幫助用戶實時監控阿里云資源、線下IDC、其他云廠商產品或自定義監 控數據的運行狀態,并在監控指標達到預設條件時,自動觸發報警通知。通過這種方式,用戶可以及時獲取異常信息 并 快速采取措施,確保業務系統的穩定性和可靠性。

1:設置報警聯系人

報警聯系人: 當觸發條件后,需要通知相關人員, 這些對應的人員信息需要提前錄入

2:設置報警聯系組

報警聯系組:多個聯系人合并為一個組, 不同的類型可以單獨設置為組,告警的時候可以直接針對多個用戶同時告警

3:設置報警規則

報警規則:幫助用戶監控運行狀態,并在監控指標達到預設條件時,自動觸發報警通知

?

系統運維常見問題

問題一:CPU負載

1: 確認是否存在負載過高使用top或htop命令查看系統的平均負載值。

注意:如果負載值持續高于CPU核心數的0.5倍,則可能存在負載過高問題。如果超過1則負載已經較高了, 當超過2~3倍意味著負載超高,需要立即解決

這三個值即表示CPU分別1分鐘、5分鐘和15分鐘的平均負載情況

2: 排查CPU負載過高的原因

原因具體表現如何解決
異常進程或服務占用大量 CPU 資源單個進程或服務占用大量 CPU 資源,導致整體 CPU 使用率升高。使用 top 或 htop 命令查看具體占用 CPU 資源的進程。
按 Shift+P 按鍵,按 CPU 使用率排序定位異常進程,然后通過 Kill -9 終止異常進程。
系統資源不足實例的 CPU 性能不足以支撐當前業務需求升級實例規格或者優化業務邏輯
磁盤或網絡 I/O 瓶頸CPU 負載高但實際 CPU 使用率較低,可能是磁盤或網絡 I/O 瓶頸導致優化磁盤讀寫,比如升級高性能云盤
優化網絡帶寬:增加公網帶寬或調整內網流量分布
僵尸進程或不可中斷的睡眠狀態通過 top 命令觀察,CPU 使用率不高但負載值較高ps -axjf|grep "D+" 查看是否存在僵尸進程或不可中斷的睡眠狀態, 如果存在,建議恢復其對應依賴資源或重啟系統
系統遭遇病毒或惡意程序攻擊CPU 使用率高但無法通過 top 等命令找到異常進程通過云監控監測異常時間點,檢查是否存在異常域名或 IP 的網絡通信, 如果確認,建議先備份數據,然后回滾實例并進行病毒掃描

?問題二:內存爆滿

1: 確認是否存在內存爆滿 使用top或htop命令查看,或者直接云監控查看均可。

注意:如果內存使用率持續接近或達到100%,則定義為內存爆滿

當Mem行的 free值幾乎為0時, 表示剩余內存幾乎沒有了

2: 排查內存過高的原因

原因具體表現如何解決
異常進程占用大量內存單個進程或程序長時間占用大量內存資源使用 top 或 htop 命令查看具體占用內存資源的進程。
按 M 按鍵,按內存使用率排序,定位異常進程,然后通過 Kill - 9 終止異常進程。
系統內存不足實例的物理內存不足以支撐當前業務需求升級實例規格或者優化業務邏輯
內存泄漏或代碼缺陷應用程序在運行過程中不斷消耗內存,導致內存使用率持續升高使用內存分析工具(如 Valgrind、jprofiler、jmap 等)分析應用程序的內存占用情況
根據分析結果優化業務代碼,修復內存泄漏問題
已刪除未釋放的僵尸文件磁盤空間充足,但內存使用率仍然很高lsof|grep deleted 查找已刪除但未釋放的文件,然后重啟相關進程以釋放內存
系統緩存或虛擬內存不足系統緩存占用過多內存,或虛擬內存配置不足設置 Swap 分區,增加虛擬內存大小

ECS服務器巡檢報告介紹

ECS服務器巡檢報告一般是用于評估云服務器ECS實例及其相關資源(如磁盤、網絡等)的健康狀態和運行性能。 該報告基于對ECS實例的全面檢查,包括性能指標、安全風險、配置合規性等多個維度的分析。通過巡檢報告可以提高 系統的穩定性、安全性、優化資源配置和支持合規性審計工作

巡檢報告主要內容:

內容說明
性能監控數據包括 CPU 使用率、內存使用率、磁盤 I/O、網絡流量等關鍵性能指標
異常問題診斷列出 ECS 實例在運行過程中發現的異常問題,例如高 CPU 利用率、磁盤 I/O 異常、網絡連接問題等。
每個異常項需要附帶嚴重等級(如 Info、Warn、Critical)
安全風險評估檢查 ECS 實例是否受到 DDoS 攻擊或其他安全威脅,并提供防護建議
資源使用與配置分析檢查 ECS 實例的資源配置是否合理,例如磁盤空間是否充足、帶寬是否滿足業務需求,并提供優化建議
事件記錄與處理建議監測到云盤性能達到上限或未創建快照備份等風險事件,確保系統的穩定性和數據的安全性

云服務器監控可視化大屏

2:打開自定義大盤,創建大盤

2:根據需求添加對應監測指標

如: 添加CPU使用率(折線圖) 其他類似

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/915562.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/915562.shtml
英文地址,請注明出處:http://en.pswp.cn/news/915562.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深入解析 vLLM 分布式推理與部署策略

在當今人工智能快速發展的時代,大型語言模型(LLM)的推理和部署面臨著諸多挑戰,尤其是當模型規模日益龐大時,如何高效地利用硬件資源成為關鍵問題。vLLM 作為一種強大的工具,為分布式推理和部署提供了多種策…

PostgreSQL 終端命令詳解及實際應用案例

PostgreSQL 作為一款功能強大的開源關系型數據庫,其終端命令是數據庫管理員、開發人員日常操作的核心工具。這些命令覆蓋數據庫連接、對象管理、數據操作、備份恢復、權限控制等多個維度,掌握其實際應用場景能顯著提升工作效率。本文結合不同行業的實操案…

步進電機基礎

1、ENABLE ̄\overline{ENABLE}ENABLE 的意思: ENABLE上面的橫線表示這是一個低電平有效的信號:當ENABLE信號為低電平(0V或邏輯0)時,芯片被使能(激活)當ENABLE信號為高電平(VDD或邏輯…

Redis進階--緩存

目錄 一、引言 二、介紹 1.為什么Mysql的速度慢呢? 2.緩存更新策略 1.定期生成 2.實時生成 3.redis的內存淘汰機制 4.注意事項 1.緩存預熱 2.緩存穿透 3.緩存擊穿 4.緩存雪崩 三、總結 一、引言 本篇文章將介紹Redis其中一個重要的作用,作為…

微軟原版系統下載的幾個好用網站

“不要因為走得太遠,而忘記為什么出發。” 愿每一位Windows用戶,都能在這份情懷中找到屬于自己的小確幸!滿滿的情懷! 微軟官方渠道 微軟官網提供純凈的ISO鏡像下載,適用于Windows 10/11等系統。訪問Microsoft官網下…

kotlin Flow快速學習2025

其實,第一章節,只是讓你了解下Flow的基本情況。我們開發中,基本很少使用這種模式。所以來講,我們甚至可以直接使用StateFlow和SharedFlow才是正途。這是很多教程沒有說明的點。所以第一章隨便瀏覽下即可。日后再補充理解都是可以的…

【人工智能99問】什么是教師強制?(16/99)

文章目錄什么是教師強制?教師強制(Teacher Forcing)的定義原比例(Original Proportion)教師強制的舉例說明(一)教師強制的舉例說明(二)優點和缺點解決曝光偏差的方法什么…

【WPF】WPF 自定義控件之依賴屬性

📦 WPF 自定義控件之依賴屬性 在開發 WPF 應用時,自定義控件能幫助我們復用邏輯和樣式,但我很快會遇到一個問題:在控件內部如何支持數據綁定和屬性變更通知?特別是我們繼承自 Control 的時候,已經不能再繼承…

DOM型XSS破壞

目錄 首先 然后 第一種 第二種&#xff08;DOM&#xff09; HTMLCollection HTML Relationships Custom 解 首先 <script>//urlencode解碼 //location接口的hash屬性是一個字符串&#xff0c;包含一個“#”后跟位置URL的片段標識符。如果URL沒有片段標識符&#…

Linux C 多線程基本操作

我們已經了解進程的基本概念&#xff1a;進程是正在執行的程序&#xff0c;并且是系統資源分配的基本單位。當用戶需要在一臺計算機上去完成多個獨立的工作任務時&#xff0c;可以使用多進程的方式&#xff0c;為每個獨立的工作任務分配一個進程。多進程的管理則由操作系統負責…

C語言基礎:二維數組練習題

1. 一個二維數組賦了初值&#xff0c;用戶輸入一個數&#xff0c;在該二維數組中查找。找到則返回行列位置&#xff0c;沒找到則提示。#include <stdio.h>int main() {int arr[3][3] {{1, 2, 3},{4, 5, 6},{7, 8, 9}};int t;printf("要查找的數&#xff1a;")…

Java面試題034:一文深入了解MySQL(6)

Java面試題029&#xff1a;一文深入了解MySQL&#xff08;1&#xff09; Java面試題030&#xff1a;一文深入了解MySQL&#xff08;2&#xff09; Java面試題031&#xff1a;一文深入了解MySQL&#xff08;3&#xff09; Java面試題032&#xff1a;一文深入了解MySQL&#x…

Java基礎教程(011):面向對象中的構造方法

10-面向對象-構造方法 構造方法也叫做構造器、構造函數。 作用&#xff1a;在創建對象的時候給成員變量進行初始化的。 ? 一、構造方法的特點特點說明與類同名構造方法的名稱必須與類名相同沒有返回類型構造方法沒有返回值&#xff0c;甚至不能寫 void自動調用使用 new 創建對…

Adobe Photoshop:數字圖像處理的終極工具指南

Hi&#xff0c;我是布蘭妮甜 &#xff01;Adobe Photoshop自1990年問世以來&#xff0c;已經成為數字圖像處理領域的標桿和代名詞。這款強大的軟件不僅徹底改變了攝影、設計和藝術創作的方式&#xff0c;還深刻影響了我們消費和感知視覺內容的文化方式。從專業攝影師到社交媒體…

本期來講講什么是LVS集群?

集群和分布式 集群&#xff08;Cluster&#xff09;&#xff0c;解決某個問題將多臺計算機組合形成的系統群。 常見的集群類型&#xff1a; 負載均衡(LoadBalancing&#xff0c;簡稱LB)&#xff1a;由多個相同配置的主機組成&#xff0c;每個主機經過調度承擔部分訪問&#…

JVM 類加載過程筆記

一、概述 JVM&#xff08;Java Virtual Machine&#xff09;在運行 Java 程序時&#xff0c;需要將 .class 字節碼文件加載到內存中&#xff0c;并轉換成可以被 JVM 執行的數據結構&#xff0c;這一過程就是 類加載過程&#xff08;Class Loading Process&#xff09;。 JVM 的…

基于爬蟲技術的電影數據可視化系統 Python+Django+Vue.js

本文項目編號 25002 &#xff0c;文末自助獲取源碼 \color{red}{25002&#xff0c;文末自助獲取源碼} 25002&#xff0c;文末自助獲取源碼 目錄 一、系統介紹二、系統錄屏三、啟動教程四、功能截圖五、文案資料5.1 選題背景5.2 國內外研究現狀 六、核心代碼6.1 查詢數據6.2 新…

如何用 LUKS 和 cryptsetup 為 Linux 配置加密

在信息安全愈發重要的今天&#xff0c;為 Linux 系統盤配置全盤加密已經成為很多企業和個人的選擇。LUKS&#xff08;Linux Unified Key Setup&#xff09;配合工具 cryptsetup 可以在不犧牲性能的前提下實現高強度加密。本文將通過一個故事化的場景&#xff0c;介紹整個配置過…

VIVADO技巧_BUFGMUX時序優化

1.版本說明日期作者版本說明2025xxxx風釋雪初始版本 2.概述 基于VIVADO時序約束&#xff0c;BUFGMUX多路時鐘選擇原語的設計3.原語介紹 7系列FPGA/UltraSCale/UltraSCaleBUFGMUX_CTRL BUFGMUX_CTRL_inst (.O(O), // 1-bit output: Clock output.I0(I0), // 1-bit input: Cloc…