AWS OpenSearch 可觀測最佳實踐

AWS OpenSearch 介紹

OpenSearch 是一種全面開源搜索和分析引擎,使用案例包括日志分析、實時應用程序監控、點擊流分析等。Amazon OpenSearch Service 是一項托管服務,讓用戶能夠在 AWS 云中輕松部署、運行并擴展 OpenSearch 集群。

觀測云

觀測云是一款專為 IT 工程師打造的全鏈路可觀測產品,它集成了基礎設施監控、應用程序性能監控和日志管理,為整個技術棧提供實時可觀察性。這款產品能夠幫助工程師全面了解端到端的用戶體驗追蹤,了解應用內函數的每一次調用,以及全面監控云時代的基礎設施。此外,觀測云還具備快速發現系統安全風險的能力,為數字化時代提供安全保障。

采集器配置

  1. 登陸觀測云控制臺
  2. 點擊【集成】菜單,選擇【云賬號管理】
  3. 點擊【添加云賬號】,選擇【AWS】,填寫界面所需的信息,如之前已配置過云賬號信息,則忽略此步驟
  4. 點擊【測試】,測試成功后點擊【保存】,如果測試失敗,請檢查相關配置信息是否正確,并重新測試
  5. 點擊【云賬號管理】列表上可以看到已添加的云賬號,點擊相應的云賬號,進入詳情頁
  6. 點擊云賬號詳情頁的【集成】按鈕,在未安裝列表下,找到AWS OpenSearch,點擊【安裝】按鈕,彈出安裝界面安裝即可。

關鍵指標

指標名稱描述單位
ClusterStatus_green值為 1 指示將所有索引分片分配給集群中的節點,表示集群處于健康狀態Int
ClusterStatus_yellow值為 1 指示將所有索引的主要分片分配給集群中的節點,但是至少有一個索引的分片副本不是如此Int
ClusterStatus_red值為 1 指示至少一個索引的主分片和副本分片未分配給集群中的節點Int
Shards_activePrimary活動主分區數Int
Shards_unassigned未分配給集群中節點的分區數Int
Shards_initializing正在初始化的分區數Int
SearchableDocuments跨集群中所有數據節點的可搜索文檔的總數Int
Shards_active活動主分區和副本分區的總數Int
Shards_delayedUnassigned其節點分配因超時設置已延遲的分區數Int
Shards_relocating正在重新定位的分區數Int
DeletedDocuments跨集群的所有數據節點已標記為刪除的文檔總數Int
NodesOpenSearch 集群中的節點數Int
CPUUtilization集群中數據節點的 CPU 利用率百分比Int
FreeStorageSpace集群中各數據節點的可用空間Int
ClusterUsedSpace集群的已使用空間總量Int
2xx指定的 HTTP 響應代碼 2xx 的對域的請求數Int
3xx指定的 HTTP 響應代碼 3xx 的對域的請求數Int
4xx指定的 HTTP 響應代碼 4xx 的對域的請求數Int
5xx指定的 HTTP 響應代碼 5xx 的對域的請求數Int
ThroughputThrottle指示磁盤是否受到節流Int
IopsThrottle指示該域每秒進行讀寫操作的次數(IOPS)是否已被節流Int
JVMMemoryPressure用于集群中所有數據節點的 Java 堆的最大百分比Int
JVMGCYoungCollectionCount“年輕代”垃圾回收的運行次數Int
JVMGCOldCollectionCount“年老代”垃圾回收的運行次數Int
OldGenJVMMemoryPressure集群中所有數據節點上用于“上一代”的 Java 堆的最大百分比Int
JVMGCYoungCollectionTime集群執行“年輕代”垃圾回收所花費的時間,以毫秒為單位Int
JVMGCOldCollectionTime集群執行“年老代”垃圾回收所花費的時間,以毫秒為單位Int
IndexingLatency節點中所有索引操作所用的總時間差(以毫秒為單位)Int
IndexingRate每分鐘的索引操作數Int
SearchLatency節點中所有搜索的總時間差(以毫秒為單位)Int
SearchRate數據節點上所有分片的每分鐘搜索請求總數Int
SegmentCount數據節點上的分段數。您擁有的分段越多,每次搜索所花費的時間就越長Int
SysMemoryUtilization使用中的實例內存的百分比。此指標的值較高是正常的,通常不表示集群存在問題Int
ThreadpoolForce_mergeQueue強制合并線程池中的排隊任務數。如果隊列大小一直很大,請考慮擴展您的集群Int
ThreadpoolForce_mergeRejected強制合并線程池中的已拒絕任務數。如果此數字持續增長,請考慮擴展您的集群Int
ThreadpoolForce_mergeThreads強制合并線程池的大小Int
ThreadpoolSearchQueue搜索線程池中的排隊任務數。如果隊列大小一直很大,請考慮擴展您的集群Int
ThreadpoolSearchRejected搜索線程池中的已拒絕任務數。如果此數字持續增長,請考慮擴展您的集群Int
ThreadpoolSearchThreads搜索線程池的大小Int
Threadpoolsql-workerQueueSQL 搜索線程池中的排隊任務數。如果隊列大小一直很大,請考慮擴展您的集群Int
Threadpoolsql-workerRejectedSQL 搜索線程池中的已拒絕任務數。如果此數字持續增長,請考慮擴展您的集群Int
Threadpoolsql-workerThreadsSQL 搜索線程池的大小Int
ThreadpoolWriteQueue寫入線程池中的排隊任務數Int
ThreadpoolWriteRejected寫入線程池中的已拒絕任務數Int
ThreadpoolWriteThreads寫入線程池的大小Int
CoordinatingWriteRejected由于索引壓力而在協調節點上發生的拒絕總數Int
PrimaryWriteRejected由于索引壓力而在主分區上發生的拒絕總數Int
ReplicaWriteRejected由于索引壓力而在副本分區上發生的拒絕總數Int
ReadLatencyEBS 卷上讀取操作的延遲(以秒為單位)Int
WriteLatencyEBS 卷上寫入操作的延遲(以秒為單位)Int
ReadThroughputEBS 卷上讀取操作的吞吐量(以字節/秒為單位)Int
WriteThroughputEBS 卷上寫入操作的吞吐量(以字節/秒為單位)Int
ReadIOPS針對 EBS 卷上的讀取操作的每秒輸入和輸出 (I/O) 操作數Int
WriteIOPS針對 EBS 卷上的寫入操作的每秒輸入和輸出 (I/O) 操作數Int
BurstBalance一個 EBS 卷的可爆發存儲桶中剩余輸入和輸出(I/O)積分的百分比。值為 100 表示該卷積累的積分數量已達最大數量Int
AsynchronousSearchInitializedRate過去 1 分鐘內初始化的異步搜索數Int
AsynchronousSearchRunningCurrent當前正在運行的異步搜索數Int
AsynchronousSearchCompletionRate過去 1 分鐘內成功完成的異步搜索數Int
AsynchronousSearchFailureRate最后一分鐘內完成和失敗的異步搜索數Int
AsynchronousSearchPersistRate過去 1 分鐘內持續存在的異步搜索數Int
AsynchronousSearchRejected自節點啟動時間以來拒絕的異步搜索總數Int
AsynchronousSearchCancelled自節點啟動時間以來取消的異步搜索總數Int
SQLRequestCount對 _sql API 的請求數Int
SQLUnhealthy值為 1 表示 SQL 插件將返回 5xx 響應代碼或將無效的查詢 DSL 傳遞到 OpenSearch 來響應特定請求。其他請求將繼續成功。值為 0 表示最近未失敗。如果您看到持續值為 1,請排查您的客戶端對插件發出的請求的問題。Int
SQLDefaultCursorRequestCount類似于 SQLRequestCount,但僅統計分頁請求Int
SQLFailedRequestCountByCusErr由于客戶端問題而失敗的對 _sql API 的請求數Int
SQLFailedRequestCountBySysErr由于服務器問題或功能限制而失敗的對 _sql API 的請求數Int

場景視圖

登錄觀測云控制臺,點擊「場景」 -「新建儀表板」,輸入 “opensearch”, 選擇 “AWS OpenSearch 監控視圖”,點擊 “確定” 即可添加視圖。

監控器(告警)

觀測云內置了監控器模板,可以選擇從模版創建監控器,并開啟適合業務的監控器以及時通知相關成員關注問題,觸發條件、頻率等信息可以依據實際業務進行調整。

登錄觀測云控制臺,點擊「監控」 -「新建監控器」,輸入 “aws opensearch”, 選擇對應的監控器,點擊 “確定” 即可添加。

搜索線程池已拒絕任務數突增

ThreadpoolSearchRejected_Average:表示在一定時間內,OpenSearch 集群中搜索線程池中被拒絕的任務數量的平均值。該指標反映了搜索請求由于線程池隊列已滿而被拒絕的情況。最近 15 分鐘被拒絕數大于等于 100 時,發出嚴重告警。

主分片和副分片分配異常

ClusterStatus_red_Average:表示 OpenSearch 集群處于紅色狀態的平均時間占比,紅色狀態意味著集群中至少有一個主分片及其副本未分配給任何節點,值為 0 表示集群運行正常,值大于 0 表示集群有部分時間處于紅色狀態。當集群完全處于紅色狀態時發出嚴重告警。

節點 CPU 使用率過高

CPUUtilization_Average 用于衡量 OpenSearch 集群中節點的平均 CPU 使用率,當節點的 CPU 使用率大于等于 90% 時,發出嚴重告警,當 CPU 使用率大于等于 80% 小于 90% 時,發出重要告警。

總結

通過將 AWS OpenSearch 的原生監控數據集成到觀測云平臺,用戶可以實現對 OpenSearch 的實時性能監控、資源使用分析以及安全事件的可視化。觀測云的高級分析和可視化功能,如實時儀表板、智能告警和根因分析,能夠幫助用戶快速定位問題、優化成本,并確保數據的高可用性和安全性。這種結合不僅提升了監控的效率和準確性,還通過集中管理的方式簡化了運維流程,使用戶能夠更好地應對復雜的云環境挑戰。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/920484.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/920484.shtml
英文地址,請注明出處:http://en.pswp.cn/news/920484.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

HTML5七夕節網站源碼

一,網站概述 本七夕節主題網站采用HTML5、CSS3與JavaScript技術棧構建,響應式設計適配多終端設備,通過模塊化開發實現豐富交互體驗。以下從架構設計、功能實現和視覺效果三方面概述: 1.1、架構設計 采用單頁應用(SPA)架構&…

以技術賦能強化消費者信任,助推餐飲服務質量提質增效的明廚亮灶開源了

AI 視頻監控平臺簡介 AI 視頻監控平臺是一款兼具強大功能與便捷操作的實時算法視頻監控系統。其核心愿景在于打破各大芯片廠商間的技術壁壘,省去冗余重復的適配流程,構建 “芯片 - 算法 - 應用” 的全流程組合體系。這一體系可幫助企業級應用降低約 95%…

【NJU-OS-JYY筆記】操作系統:設計與實現

1. 緒論 1.1. 程序的執行與狀態機 在計算機科學中,任何程序都可以被抽象為一個狀態機,無論是我們熟知的日常工具(LibreOffice,Chrome)還是開發工具(IDE,GCC,GDB)&#…

GaussDB 修改schema屬主時報:must be member of role “dtest“

1 問題現象schema的屬主為root,客戶需要修改對應的業務用戶,在使用root用戶登入postgres庫時修改schema屬主時報:ERROR:dn_6007_6008_6009:must be member of role "dtest"執行命令為:alter schema dtest owner to dtes…

好?真題資源+專業練習平臺=高效備賽2025年初中古詩文大會(0829)

2025年初中生古詩文大會的初選11月2日-9日正式開賽,還有兩個多月。快來做真題,吃透題目背后的知識點,舉一反三不但對比賽有用,對于課內的語文學習也有很大促進。【好消息】2025年古詩文大會閱讀專輯的模擬題好真題獨家超詳細完整解…

Pointer--Learing MOOC-C語言第九周指針

2、指針運算1.指針運算(本節內容詳細請登錄中國大學MOOC官網查詢)指針是可計算的112?指針計算*p指針比較0地址指針的類型用指針來做什么2.動態內存分配輸入數據:1.如果輸入數據時候,先告訴你個數,然后再輸入…

升級DrRacket8.10到8.18版本@Ubuntu24.04

升級DrRacket8.10到8.18版本 安裝參考:在FreeBSD、Windows、Ubuntu24三種平臺下安裝Racket多范式編程語言_racket安裝-CSDN博客 Ubuntu24.04里面的版本是8.10,所以無法使用apt upgrade升級,最終是使用下載升級軟件,手工升級完成&#xff01…

亞馬遜季節性產品運營策略:從傳統到智能化的演進

"季節性產品如何在有限銷售窗口內實現收益最大化?" "面對劇烈波動的市場需求,廣告投放該如何靈活應對?" "如何避免旺季斷貨或淡季資源浪費的庫存難題?" "傳統人工運營方式能否跟上季節性產品的…

解析xml文件并錄入數據庫

主函數:參數處理、信號處理、打開日志、解析參數到結構體、添加進程心跳、處理業務函數業務處理函數:將規則xml加載到結構體(xml文件名、對應表名、更新標志、預先執行語句)、打開源文件夾并匹配10000個xml文件、判斷數據庫是否開…

mongoDB學習(docker)

docker 命令創建mongoDBdocker pull mongo docker run -d --name my-mongo \-e MONGO_INITDB_ROOT_USERNAMEroot \-e MONGO_INITDB_ROOT_PASSWORD123456 \-v /my/data/mongo:/data/db \-p 27017:27017 \mongodocker run -d --name my-mongo -e MONGO_INITDB_ROOT_USERNAMEroot…

軟件測試(四):等價類和判定表

1.等價類劃分表例:qq號等價類測試用例:無論有效無效,對應的用例都只舉一個數據例子(例子在其對應的用例情況區間任選一個即可)自測案例寫完測試用例后執行測試用例驗證(借助工具DDSP)實際結果與…

week5-[二維數組]翻轉

week5-[二維數組]翻轉 題目描述 給定一個 nnn\times nnn 的正方形二維數組,將它旋轉 180180180 度后輸出。 輸入格式 輸入共 n1n 1n1 行。 第 111 行 111 個正整數 nnn。 接下來 nnn 行,每行 nnn 個正整數 aija_{ij}aij? 表示這個二維數組。 輸出格式 …

微調大模型并部署服務提供外部調用

微調大模型并部署服務提供外部調用1.背景知識介紹說明LoRA 微調算法LoRA原理:微調常見框架2. 環境搭建下載并使用docker compose部署 LLaMA-Factory3. 微調微調結束之后導出模型4. 本地運行模型5. 服務http調用驗證應用到的技術 微調框架( LLama-Factory…

命令行操作:邏輯運算符、重定向與管道

命令行操作:邏輯運算符、重定向與管道前言一、邏輯運算符1.1. 邏輯運算符 && (AND)1.2. 邏輯運算符 || (OR)1.3. 標準文件描述符 (FD)二、重定向2.1 重定向: > 與 >>2.2 重定向錯誤輸出: 2>/ 與 2>>2.3 POSIX 推薦(經常使用)三、管道 (順…

IDA Pro 逆向安卓 SO 庫實戰指南:從靜態分析到動態調試

IDA Pro 逆向安卓 SO 庫是一個系統性的工程。下面我將為你提供一個從環境準備、基礎靜態分析到高級動態調試的完整實戰指南。一、 準備工作與環境搭建 所需工具IDA Pro: 主力逆向工具,建議使用 7.7 或更高版本,對 ARM/ARM64 架構支持更好。目標 APK:…

Python爬蟲(47)Python異步爬蟲與K8S彈性伸縮:構建百萬級并發數據采集引擎

目錄一、背景與行業痛點二、核心技術架構解析2.1 異步爬蟲引擎設計2.2 K8S彈性伸縮架構三、生產環境實踐數據3.1 性能基準測試3.2 成本優化效果四、高級優化技巧4.1 協程級熔斷降級4.2 預測式擴容五、總結🌈Python爬蟲相關文章(推薦)一、背景…

處理器的雙發射是什么?

處理器的雙發射是什么? 這是一個處理器微架構層面的概念,對于理解現代高性能CPU(包括一些Cortex-M7/M55/M85等高端MCU內核)如何提升性能至關重要。 核心摘要 雙發射 是一種處理器設計技術,允許CPU的譯碼器在一個時鐘周期內,同時解碼并派發兩條指令到不同的執行單元中去…

麒麟操作系統掛載NAS服務器

前言:因信創整改,需將原服務器的服務全部遷移到信創服務器,在部署完應用后,發現外掛了NAS服務(可用df -h查看掛載文件),于是在信創服務器上需要掛載NAS服務器。在Linux上掛載NAS服務器可以通過多…

qt配置ros2環境,簡單版本

因為不同的系統環境會有差異,先把我的環境介紹如下: 系統:Ubuntu22.04 ROS版本:ros2 humble Qt版本:qt-5.14.2 要配置Qt中的ros環境,需要在Qt的系統環境中添加2個變量,一個是編譯環境變量、一個…

【基于C# + HALCON的工業視覺系統開發實戰】三十六、PCB焊點缺陷檢測:0漏檢的局部變形匹配技術

摘要:針對PCB焊點檢測中虛焊、錫珠、偏移三大核心缺陷,本文提出基于局部變形匹配與黃金模板的工業級解決方案。系統采用"同軸光源+四向可調支架"的硬件布局消除器件陰影,結合HALCON 24.11的局部變形匹配算法適應PCB熱膨脹形變。通過多尺度模板庫自學習機制實現8秒…