SRE - 定位與能力

僅為個人知識總結與記錄

Site Reliability Engineer:站點可靠性工程(SRE = 軟件工程師 + 運維專家 + 可靠性專家)
相對傳統的運維工程師,SER 注重開發,效率,追求自動化。對于 SRE 工程師,追究的就是利用或者使用開發工具,來降低開發或者運維的手動處理任務的時間。

一. SRE的核心職責與目標

1. 確保系統的可靠性

這是首要目標。通過設計、構建工具和流程來最大化服務的可用性(Uptime)、性能、延遲和容錯能力。

2. 自動化運維任務

SRE厭惡重復性手工操作。他們會編寫代碼(通常是Python、Go等)來自動化部署、配置管理、監控告警響應、故障恢復等任務,消除“Toil”(枯燥、重復、手動、戰術性、無持久價值的工作)。

3. 容量規劃與管理

預測系統未來的資源需求(計算、存儲、網絡),確保在業務增長時系統能平滑擴展,同時優化資源利用率,控制成本。

4. 監控與可觀測性

  • 監控: 建立全面的監控系統(Metrics、Logs、Traces),實時了解系統健康狀態。
  • 告警: 設計精準、可操作的告警策略,避免告警疲勞。
  • 可觀測性: 深入理解系統內部狀態,快速定位和診斷復雜問題。

5. 應急響應與事后復盤

  • On-Call: 參與輪值待命,快速響應和處理線上故障。
  • 故障處理: 領導或參與故障排查、恢復和根因分析。
  • 事后復盤: 組織并撰寫事后報告,坦誠分析故障原因,制定切實可行的改進措施(Action Items),并跟蹤落實,防止同類故障再次發生。強調“不指責文化”。

6. 性能優化

識別系統瓶頸(應用、數據庫、網絡、基礎設施等),進行優化以提升效率和用戶體驗。

7. 變更管理

8. 定義和跟蹤SLO/SLI/SLA:

  • SLI: 服務等級指標(量化衡量服務可靠性的指標,如請求延遲、錯誤率)。
  • SLO: 服務等級目標(SLI應達到的目標值或范圍)。
  • SLA: 服務等級協議(對客戶承諾的SLO,通常帶有業務層面的后果)。

9. 平衡可靠性與創新速度

SRE的關鍵哲學之一是管理“錯誤預算”。如果服務可靠性(滿足SLO)很高,說明有“預算”可以承受一定的風險,可以允許開發團隊進行更激進的發布或變更,推動創新。反之,如果預算耗盡,則需要優先提升可靠性。

二. SRE工程師的核心技能棧

三. SRE 的地位

1. 支撐業務增長

2. 提升研發效率

3. 控制成本

4. 數據驅動決策

5. 促進DevOps文化

附錄:
  1. SRE和運維的區別是什么?

  2. 什么是站點可靠性工程 (SRE)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/94149.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/94149.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/94149.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

StarRocks學習4-查詢優化與性能調優

? 1. 執行計劃分析(EXPLAIN) 🌟 作用: 用于查看 SQL 的執行路徑,判斷是否命中索引、物化視圖、Join 策略、并行度等。 📌 常用命令: EXPLAIN SELECT ...; EXPLAIN VERBOSE SELECT ...;&#x1…

CentOS系統安裝Git全攻略

文章目錄? 方法一:使用 yum 或 dnf 包管理器安裝(推薦)1. 更新系統軟件包(非必須)[^1]2. 安裝 Git3. 驗證安裝? 方法二:從源碼編譯安裝(適用于需要自定義版本或配置)1. 安裝依賴包2. 下載 Git 源碼3. 編譯…

VR交通安全學習機-VR交通普法體驗館方案

VR交通安全學習機是一種基于虛擬現實技術的互動式教育設備,旨在通過虛擬環境模擬真實的交通場景,幫助用戶深入了解交通規則、交通信號、道路安全等知識,并通過沉浸式的體驗讓他們親身感受到不遵守交通規則的后果。無論是駕駛員、行人還是騎行…

算法題(188):團伙

審題: 本題需要我們通過解析所有人之間的關系,從而判斷出朋友團體的總個數并輸出 思路: 方法一:擴展域并查集 由于這里涉及對朋友/敵人等關系集合的頻繁操作,所以我們需要使用并查集來操作,但是普通的并查集…

C++開發/Qt開發:單例模式介紹與應用

單例模式是軟件設計模式中最簡單也是最常用的一種創建型設計模式。它的核心目標是確保一個類在整個應用程序生命周期中只有一個實例,并提供一個全局訪問點。筆者白話版理解:你創建了一個類,如果你希望這個類對象在工程中應用時只創建一次&…

Linux筆記---策略模式與日志

1. 設計模式設計模式是軟件開發中反復出現的問題的通用解決方案,它是一套套被反復使用、多數人知曉、經過分類編目的代碼設計經驗總結。設計模式并非具體的代碼實現,而是針對特定問題的抽象設計思路和方法論。它描述了在特定場景下,如何組織類…

關于多個el-input的自動聚焦,每輸入完一個el-input,自動聚焦到下一個

講解原理或者思路:如果你有多個el-input,想要實現每輸入完一個輸入框,然后自動聚焦到下一個輸入框,同理,如果每刪除一個輸入框的值,自動聚焦到上一個輸入框。條件那么首先要做的就是,設置條件,在…

AI 賦能教育變革:機遇、實踐與展望

引言說明教育在社會發展中的重要地位,以及傳統教育面臨的困境。引出 AI 技術為教育變革帶來新機遇,闡述研究其在教育中應用的價值。AI 為教育帶來的機遇個性化學習支持:講解 AI 通過分析學生學習數據,如答題情況、學習時間等&…

(一)八股(數據庫/MQ/緩存)

文章目錄 項目地址 一、數據庫 1.1 事務隔離級別 1. 事務的四大特性 2. Read Uncommited臟讀(未提交讀) 3. Read Commited幻讀(sql默認已提交讀) 4. Repeatable Read 5. Serializable 6. Snapshot(快照隔離) 7. 代碼開啟 8. For update和Repeatable Read的區別 1.2 各種鎖 …

STM32H750 CoreMark跑分測試

STM32H750 CoreMark跑分測試🔎CoreMark跑分測試查詢網站:https://www.eembc.org/coremark/scores.php📜 CoreMark源碼:https://www.github.com/eembc/coremarkCoreMark移植和配置參考:https://community.st.com/t5/stm…

RabbitMQ如何確保消息發送和消息接收

消息發送確認 1 ConfirmCallback方法 ConfirmCallback 是一個回調接口,消息發送到 Broker 后觸發回調,確認消息是否到達 Broker 服務器,也就是只 確認是否正確到達 Exchange 中。 2 ReturnCallback方法 通過實現 ReturnCallback 接口&#xf…

Linux:進程間通信-管道

Linux:進程間通信-管道 前言:為什么需要進程間通信? 你有沒有想過,當你在電腦上同時打開瀏覽器、音樂播放器和文檔時,這些程序是如何協同工作的?比如,瀏覽器下載的文件,為什么能被文…

Jmeter + FFmpeg 直播壓測遇到的問題及解決方案

1、壓測機安裝FFmpeg,下載安裝步驟可見:https://zhuanlan.zhihu.com/p/692019886 2、Jmeter與FFmpeg位數要一致,不允許在32位的進程中運行一個64位的程序,反之亦然 3、OS進程取樣器(Thread Group -> Add -> Sa…

安卓app、微信小程序等訪問多個api時等待提示調用與關閉問題

安卓app、微信小程序訪問webapi,將需要一時間,我們稱之為耗時操作,其它諸如密集型計算、訪問文件與設備等亦是如此。在這個期間我們應該跳出提示,告知用戶正在等待,并且很多時候,在等待時不允許用戶再對UI進…

一個狀態機如何啟動/停止另一個狀態機

一個狀態機如何啟動/停止另一個狀態機 這個過程主要依賴于動作列表(Action List) 中的特定動作項和狀態管理服務(ARA::SM)提供的API。 1. 通過動作列表(Action List)進行預配置控制 這是最常見的方式&#…

基于IPO智能粒子優化的IIR濾波器參數識別算法matlab仿真

目錄 1.程序功能描述 2.測試軟件版本以及運行結果展示 3.部分程序 4.算法理論概述 5.完整程序 1.程序功能描述 IIR(Infinite Impulse Response)濾波器即無限沖激響應濾波器,其輸出不僅與當前和過去的輸入有關,還與過去的輸出…

歐州服務器String 轉 double 有BUG?

string 轉 double 的常見問題通常與文化差異、格式解析或特殊值處理相關,而非框架本身的 “BUG”。以下是可能導致轉換異常的常見場景及解決方案: 文化差異導致的解析問題 現象:同樣的字符串(如 “1.23” 或 “1,23”)…

鴻蒙中網絡診斷:Network分析

上面的圖很熟悉吧 Network 面板的表格列出了所有請求,每一列都提供了關鍵信息: Name: 請求的資源名稱和路徑。 Status: HTTP 狀態碼(診斷核心)。200成功,304未修改(緩存),404找不到…

HarmonyOS 實戰:6 種實現實時數據更新的方案全解析(含完整 Demo)

摘要 在當下的應用開發中,用戶體驗越來越依賴“實時性”。消息要第一時間送達、訂單狀態要立刻刷新、數據變化不能延遲……這些需求推動了“實時數據更新”成為應用的必備功能。在鴻蒙系統(HarmonyOS)中,我們既可以用系統內置的數…

第十六屆藍橋杯青少組C++省賽[2025.8.10]第二部分編程題(4、矩陣圈層交錯旋轉)

參考程序&#xff1a;#include <bits/stdc.h> using namespace std;const int MAXN 105; int a[MAXN][MAXN];int main() {int n;if (!(cin >> n)) return 0;for (int i 0; i < n; i)for (int j 0; j < n; j)cin >> a[i][j];int layers n / 2; // 每…