目錄
項目名稱
項目背景
項目目標
項目成果
我的角色與職責
我主要完成的工作內容
本次項目涉及的技術
本次項目遇到的問題與解決方法
本次項目中可能被面試官問到的問題
1、什么是ELK?
2、什么是Elasticsearch、Logstash 和Kibana?
3、ELK 三個組件 如何協同工作?
4、你們公司采用的虛擬化平臺是哪一個?
5、你們本次項目共多少人?
6、你們本次項目共使用了多少臺虛擬機,配置分別是什么樣的?
經驗教訓與自我提升
展望未來
項目名稱
項目簡稱或代號:CUO(這個可以自己隨便編一個,每個公司的每個項目簡稱或代號都是內部任意起名的,顯得專業一點,一般是項目關鍵詞的首拼,比如這個CUO是:comprehensive upgrade and optimization)
項目全名:高可用性云基礎設施部署與升級項目
項目背景
隨著公司業務的迅速擴張,對數據中心的可靠性和性能要求越來越高。為了應對這一挑戰,公司決定對現有的IT基礎設施進行升級,構建一個基于云計算的高可用性平臺。作為運維團隊的一員,我深度參與了這一項目的規劃、實施和優化工作。
項目目標
-
構建一個穩定、可靠、可擴展的云計算平臺,支持公司業務的快速增長。
-
實現自動化部署和監控,提高運維效率。(比如日志監控采用ELK,服務器性能及網絡流量等監控采用Prometheus+grafana監控,對于這兩個監控平臺的部署和相面試官考察時候只需要能大概說一下這兩個監控平臺的原理、功能就可以了)
-
優化系統性能,確保關鍵業務應用的穩定運行。
項目成果
-
成功構建了一個基于云計算的高可用性平臺,為公司業務的快速增長提供了有力支持。
-
實現了自動化部署和監控,提高了運維效率,降低了人力成本。
-
通過對系統性能的優化,確保了關鍵業務應用的穩定運行,提高了客戶滿意度。
我的角色與職責
-
需求分析:與業務團隊緊密合作,了解業務需求和技術要求,為云平臺的規劃和設計提供有力支持。
-
架構設計:參與云平臺的整體架構設計,包括網絡、存儲、計算和安全等方面的規劃。
-
系統部署:負責云平臺的搭建和部署工作,包括虛擬化環境的配置、操作系統的安裝、應用軟件的部署等。
-
自動化腳本編寫:編寫自動化腳本,實現服務器的批量部署、配置和更新,提高運維效率。
-
監控與告警:配置和管理監控系統,實時監控云平臺的運行狀態,及時發現并處理潛在問題。同時,設置告警機制,確保關鍵業務應用的穩定運行。
-
性能優化:分析系統性能瓶頸,制定優化方案并實施,提高系統的整體性能。
-
文檔編寫:編寫運維手冊、操作指南等文檔,為團隊成員提供技術支持和參考。
我主要完成的工作內容
-
需求分析與文檔編寫
:
-
與業務團隊和開發團隊進行深入溝通,明確業務需求和技術要求。
-
編寫項目需求文檔,明確項目目標、范圍、時間表和關鍵里程碑。
-
-
云平臺架構設計
:
-
根據業務需求和技術要求,設計云平臺的整體架構,包括網絡、存儲、計算和安全等方面的規劃。
-
制定詳細的架構圖和設計文檔,為后續的部署和運維提供指導。
-
-
系統部署與配置
:
-
負責云平臺的服務器、網絡設備和存儲設備的部署和配置工作。
-
安裝和配置虛擬化環境,包括虛擬機管理器和虛擬機模板的創建。
-
部署操作系統和應用軟件,并進行必要的配置和優化。
-
-
自動化腳本編寫
:
-
編寫自動化腳本,實現服務器的批量部署、配置和更新。
-
開發自動化監控和告警腳本,確保系統穩定運行。
-
-
性能監控與優化
:
-
配置和管理監控系統,實時監控云平臺的運行狀態和性能指標。
-
分析系統性能瓶頸,制定優化方案并實施,如調整系統參數、優化數據庫查詢等。
-
-
文檔編寫與技術支持
:
-
編寫運維手冊、操作指南等文檔,為團隊成員提供技術支持和參考。
-
參與內部培訓和知識分享活動,提升團隊整體技能水平。
-
本次項目涉及的技術
-
虛擬化技術:使用VMware或KVM等虛擬化技術搭建和管理虛擬機環境。
-
自動化工具:利用Ansible、Shell腳本等實現自動化部署、配置和監控。
-
監控工具:使用Zabbix、Prometheus等監控工具實時監控系統的運行狀態和性能指標。
-
存儲技術:涉及NFS、SAN、NAS等存儲技術的配置和管理。
-
網絡技術:包括VLAN、VPN、負載均衡等網絡技術的配置和優化。
(關于這些技術知識點,只需要網上搜索各個技術點的基本原理等就可以了。面試官提問時候能回答上個一二三基本就差不多了,面試官也不會深入提問的,如果有些技術被提問了你不會回答,就說這一部分工作內容是另一個同事做的)
本次項目遇到的問題與解決方法
-
問題
:虛擬機性能不足,影響業務應用運行。
-
解決方法:調整虛擬機資源配置,如增加CPU、內存和存儲資源。同時,對虛擬機進行優化,如關閉不必要的服務和應用,減少資源消耗。
-
-
問題
:監控系統告警頻繁,導致誤報率較高。
-
解決方法:對監控系統的閾值進行調整和優化,減少誤報率。同時,對告警進行分類和優先級劃分,確保重要告警能夠及時得到處理。
-
-
問題
:自動化腳本執行失敗,導致部署和配置失敗。
-
解決方法:對自動化腳本進行調試和修改,確保腳本的正確性和健壯性。同時,對執行環境進行排查和修復,確保腳本能夠正常運行。
-
-
問題
:網絡延遲較高,影響業務應用性能。
-
解決方法:對網絡設備和配置進行排查和優化,如調整路由策略、優化網絡帶寬等。同時,與網絡團隊緊密合作,確保網絡環境的穩定性和可靠性。
-
-
問題
:存儲資源不足,無法滿足業務需求。
-
解決方法:擴展存儲資源,如增加存儲設備、優化存儲架構等。同時,對存儲資源進行合理規劃和分配,確保資源的充分利用和高效運行。
-
本次項目中可能被面試官問到的問題
1、什么是ELK?
答:ELK 是三個開源項目的首字母縮寫:Elasticsearch、Logstash 和 Kibana。這些項目通常一起使用來構建一個集中的日志管理和分析系統
2、什么是Elasticsearch、Logstash 和Kibana?
答:
-
Elasticsearch:
-
Elasticsearch 是一個基于 Lucene 的搜索和分析引擎。它提供了全文搜索、結構化搜索、分析以及實時分析的能力。
-
Elasticsearch 是一個分布式系統,設計用于處理大規模數據,支持水平擴展和容錯。
-
它通常用于存儲、搜索和分析日志、監控數據、時間序列數據等。
-
-
Logstash:
-
Logstash 是一個數據收集、處理和轉發的管道。它可以接收來自各種來源的數據(如文件、數據庫、網絡等),然后對其進行處理(如解析、轉換、過濾等),最后將處理后的數據發送到其他系統(如 Elasticsearch)。
-
Logstash 使用靈活的配置文件來定義數據流,可以輕松地修改和擴展以處理各種數據格式和場景。
-
Logstash 也可以與 Elasticsearch 和 Kibana 一起使用,形成一個完整的日志管理解決方案。
-
-
Kibana:
-
Kibana 是一個數據可視化和分析平臺,專門為 Elasticsearch 設計。它提供了一個用戶友好的界面,用于瀏覽、搜索、分析和可視化存儲在 Elasticsearch 中的數據。
-
Kibana 提供了各種可視化選項,如圖表、表格、地圖等,可以幫助用戶更好地理解數據。
-
Kibana 還支持自定義儀表板,允許用戶根據自己的需求創建和保存復雜的可視化布局。
-
3、ELK 三個組件 如何協同工作?
-
Logstash 負責從各種來源收集日志數據,并進行必要的處理和轉換。
-
處理后的數據被發送到 Elasticsearch 進行存儲和索引。
-
Kibana 從 Elasticsearch 中檢索數據,并提供用戶友好的界面進行搜索、分析和可視化。
通過這種方式,ELK Stack 提供了一個完整的日志管理解決方案,可以幫助組織更好地理解和利用他們的日志數據。
4、你們公司采用的虛擬化平臺是哪一個?
答:VMware ESXI虛擬化平臺,部署簡單、可視化界面對虛擬機管理方便。
流程:購買物理服務器,然后下載VMware ESXI的iso鏡像包,找VMware官方購買授權證書。通過U盤將VMware ESX鏡像刻一個啟動盤,用U盤給服務器裝VMware ESXI虛擬化系統,然后在配置ip地址。這樣就可以通過筆記本上下載個VMware ESXI客戶端連接上這臺服務器,在這臺服務器上安裝多個虛擬機。
5、你們本次項目共多少人?
答:共5人
一個項目經理、1個業務開發工程師、1個測試工程師、2個運維工程師
6、你們本次項目共使用了多少臺虛擬機,配置分別是什么樣的?
答:共44臺虛擬機
23臺虛擬機:用來部署公司業務服務的。公司的服務是分布式部署的(就是一個軟件由多個組件組成,然后每個組件都是拆開單獨部署在一臺虛擬機上,然后通過ip端口或其他策略來實現把這些組件都串起來組成完整的服務,大概就是這么個意思),公司有兩個服務,一個是C開發的服務共10個組件,分別部署在10臺虛擬機上,每臺服務器2核心4G配置。還有一個是JAVA開發的服務共13個組件,分別部署在13臺虛擬機上,因為JAVA服務比較吃內存,所以每臺虛擬機為2核8G配置。
8臺mysql虛擬機:用來存儲數據、公司服務數據一共存儲在4個庫中,每臺mysql中創建了一個庫。每個庫中有幾十上百張表。每個數據庫都做了主備架構,分別為8核16G
3臺redis虛擬機:用來做mysql的中間件,進行數據緩存的,以減輕mysql壓力分別為8核16G
2臺LB負載均衡虛擬機,用來負責流量分發分別為8核心16G
2臺nginx虛擬機:用來搭建web頁面,代理后端業務虛擬機。分別為4核8G
3臺ELK虛擬機:Elasticsearch 消耗兩臺,因為Elasticsearch 主要用來存儲數據,LK兩個服務部署在同一臺機器上分別為2核4G
1臺性能監控虛擬機:用來部署Prometheus和grafana服務.4核心8G。
7、本次升級項目中你們你們數據備份是通過什么命令實現的?
mysql數據是通過mysqldump命令進行數據備份的
Elasticsearch 是通過elasticdump命令進行數據備份的
8、你們數據量有多大?是怎么遷移的?
總數據量大概有10TB左右,用linux命令進行遷移太過耗時,可能得好幾天。所以是用的第三方工具。
經驗教訓與自我提升
-
在項目過程中,我深刻體會到了團隊協作的重要性。與業務團隊、開發團隊等成員的緊密合作是項目成功的關鍵。
-
不斷學習和掌握新技術是運維工程師的必修課。通過參與這個項目,我深入了解了云計算、自動化運維等前沿技術,并不斷提升自己的技能水平。
-
在遇到問題時,保持冷靜和耐心是解決問題的關鍵。同時,及時總結和分享經驗教訓也是提高團隊整體能力的重要途徑。
展望未來
隨著云計算、大數據等技術的不斷發展,運維工程師的角色和職責也在不斷變化。未來,我將繼續學習和掌握新技術,提高自己的專業技能和綜合素質,為公司的發展貢獻更多力量。同時,我也期待與更多優秀的團隊成員一起合作,共同推動公司IT基礎設施的升級和優化工作。