作者:SmartX 金融團隊 祝志剛
在前兩期“超融合常見誤區解讀”中,我們分別解讀了如何以超融合建云并進行大規模部署。而對于生產業務場景,部分行業用戶和業界人士可能還會有這樣的認知:
- “超融合管理簡單、成本也低,但這種技術,只能在測試環境使用。”
- “超融合用來跑一般的運維辦公類系統還行,不適合跑交易類的生產系統。”
- “數據庫用來存放我們最核心的業務數據,不敢把這么重要的生產數據庫放在超融合上。”
這些“誤區”在過去很長一段時間里都普遍存在,不過隨著越來越多的企業用戶基于 SmartX 企業云平臺推進 IT 基礎設施轉型,很多企業用戶也逐漸認識到,基于超融合架構的 SmartX 企業云平臺,以其穩定可靠以及高性能的優勢,不僅在生產系統上得到了充分的驗證,甚至可以用來承載用戶最核心的應用系統和數據庫。以下,我們將針對上述超融合“誤區”逐一梳理并進行澄清!
厘清誤區
看法一:超融合虛擬化算力開銷大,無法承載計算密集型的業務
??誤區成因 |
不少用戶認為超融合使用的 x86 服務器算力不僅要提供給虛擬機,還需要額外提供給存儲功能使用;另外虛擬化層也會有也算力開銷,無法承載算力密集型的業務。事實上,超融合確實有一小部分算力會在虛擬化和存儲層消耗,但是隨著各種技術特性的加入,算力消耗已經得到了充分的優化。 |
??基于 SmartX 企業云的真實情況 |
SmartX 企業云平臺引入了各種算力優化方案,盡量減少虛擬化層面帶來的算力消耗。 –NUMA 調度:盡可能讓虛擬機的 CPU 和內存使用同一 NUMA node/socket,提升數據庫等業務場景的計算性能。 –指令集:SmartX 企業云平臺能提供豐富的 CPU 兼容性模型,其中一些 CPU 兼容性模型包含 AVX 等指令集,這樣既能提供用戶所需的高效指令集,又能維持熱遷移的有效性。 –CPU QoS:通過 CPU QoS 對 CPU 進行預留和限制,最大程度地復用資源,降低成本,同時保證重要虛擬機的性能。 –CPU 獨占:配置 CPU 獨占功能可以達到獨占使用 pCPU 的效果,給計算性能要求高的應用或者數據庫提供更高的 CPU 性能。 |
看法二:超融合存儲性能和可靠性跟傳統架構采用的集中式存儲相比還有很大差距
??誤區成因 |
在傳統印象中,集中式存儲的性能和可靠性經過了多年驗證,得到了用戶的充分信任,而超融合的分布式存儲性能和穩定性還不足以支持重要生產應用。 |
??基于 SmartX 企業云的真實情況 |
事實上,SmartX 企業云平臺中的超融合模塊采用分布式架構,其可靠性已經經過金融用戶多年生產環境驗證,在性能方面更是可以媲美中高端集中式存儲。SmartX 企業云平臺還通過多種技術優化,進一步提升存儲可靠性與性能。 –副本機制:采用副本機制保證數據安全,可以支持兩副本和三副本策略。對于安全性要求更高的應用,可以選擇使用三副本來提高數據安全級別。 –智能數據分層:利用冷熱數據分層算法,自動將熱數據緩存至 SSD,冷數據下沉至 HDD,兼顧性能與成本。 –I/O 本地化:通過智能數據放置策略,將虛擬機數據優先存儲在本節點,減少跨節點讀操作,降低延遲。 –Boost 模式:SMTX OS 的高性能模式,該模式下將通過 vhost 內存共享技術提升虛擬機性能,降低 I/O 延遲。 –RDMA:RDMA(RoCE v2)技術能夠繞過傳統的內核協議棧,以極低的延遲和高帶寬實現數據的遠程傳輸,使以太網網絡充分發揮其性能潛力。SmartX 企業云平臺的高性能分布式存儲結合 RDMA(RoCE v2)無損網絡技術可有效支撐高性能數據庫跑批和交易等場景。 |
看法三:超融合網絡損耗非常大,不適合要求低延遲的業務場景
??誤區成因 |
一些用戶認為,在證券、期貨等行業的低延遲業務場景,超融合由于網絡損耗過大,無法支持此類業務。 |
??基于 SmartX 企業云的真實情況 |
事實上,測試數據表明,超融合完全可以支撐低延遲類、對網絡要求非常高的業務場景。SmartX 企業云平臺還通過直通 PCI 網卡、支持 SR-IOV 等技術特性,降低虛擬網絡帶來的性能損耗,為網絡延遲要求高的業務場景提供網絡高性能支持。 –直通 PCI 網卡:通過 PCI 直通(pass-through),可將主機上的 PCI 網卡設備直接分配給虛擬機使用,相比于虛擬化硬件來說,具有更高的性能和更低的延遲。 –SR-IOV 支持:SmartX 企業云平臺支持 SR-IOV 網卡直通,虛擬機的網絡延遲可以得到明顯的降低,如果配置使用低延遲網卡及其所提供的 library,則可進一步降低延遲。新版本也即將支持 HA 技術,進一步保證該技術的高可用特性。同時,后續會引入 DPDK 等技術棧,在網卡層面進一步降低網絡損耗。 –網絡流量 QoS:SmartX 企業云平臺允許為虛擬網絡設定優先級、預留帶寬、限制帶寬和突發通信值,以滿足不同虛擬網絡所需的帶寬要求。 |
看法四:超融合只能用來承載開發測試和邊緣生產環境,無法在生產環境支撐關鍵業務(如數據庫)
??誤區成因 |
傳統上,很多用戶對超融合的認知局限在“計算與存儲融合”的初級階段,因此一些用戶認為超融合只能部署在開發測試和邊緣生產環境,不具備承載關鍵業務系統和數據庫的能力。 |
??基于 SmartX 企業云的真實情況 |
事實上,經過多年的發展,超融合技術已逐漸成熟,已有很多客戶經過充分驗證后以超融合承載關鍵業務,包括數據庫。尤其是 SmartX 企業云平臺,不僅提供完整的計算、存儲、網絡、數據保護、容器管理、網絡安全和集群管理能力,還可在多種技術棧的加持下,為數據庫等關鍵業務系統提供高性能、高可靠支撐。SmartX 企業云平臺也和主流國產數據庫廠商完成了兼容適配和優化的認證,滿足用戶的國產化轉型需要。 –高可靠:采用集群管理方式,不存在單點故障風險,靈活配置多數據副本,不同數據副本存放在不同的機架、服務器和硬盤上,單個物理設備故障不影響業務的使用,系統檢測到設備故障后可以自動重建數據副本。 –高性能:采用數據冷熱分層、I/O 本地化的數據分布策略,兼顧性能和成本。vhost 和 RDMA 技術棧的加入使得存儲性能獲得極大提升;CPU 獨占、NUMA 調度等特性提升了計算性能;PCI 直通、SR-IOV、網絡 QoS 保證了網絡性能。 –常駐緩存:將存儲卷的數據保留在緩存層中,以避免緩存擊穿導致的性能下降。可以將數據庫虛擬機或者存放數據庫的虛擬卷設置常駐緩存,充分利用緩存層 SSD 更高的性能。 –數據庫認證:目前 SmartX 企業云平臺已經和達夢、人大金倉、OceanBase、GBase、TDSQL、OpenGauss 等眾多集中式和分布式數據庫完成兼容認證。 |
企業實踐:以 SmartX 企業云平臺承載關鍵業務及數據庫
1. 某區域銀行使用 SmartX 企業云平臺構建高性能數據庫資源池
某區域銀行遵循“金融科技+場景金融=普惠金融”的經營邏輯,力爭成為所屬區域普惠金融客群最多、Fintech 應用最多的新型銀行。
隨著業務系統越來越互聯網化,用戶的傳統集中式架構難以滿足日益增長的業務需求,且多次遇到性能問題。與此同時,降本增效、控制人員增長、提升運維效率、滿足業務發展支撐、順應國產化趨勢等需求也不斷凸顯。
基于此,該銀行結合自身業務需求和技術發展趨勢,在生產中心打造基于 SmartX 企業云平臺 + 云管平臺的新型輕量私有云,承載 100+ 套核心業務系統的 MySQL 數據庫。
IT 基礎設施的演進與挑戰
用戶原有的傳統 IT 基礎架構已經無法滿足業務需求在性能、成本、運維等方面的要求。使用過程中遇到的主要痛點包括:
- 傳統集中式架構不能靈活擴展,且存在性能瓶頸,難以發揮新一代高性能存儲部件的效能,彈性差,不能滿足資源靈活交付的需求。
- 采用專用硬件,硬件體系與配套不開放,硬件升級緩慢,維護復雜且整體成本較高。集中式存儲架構擴展計算、存儲資源均需擴展相應的配套硬件,同時硬件兼容性要求嚴苛,給后期集群擴容帶來諸多不便。
- 集中式架構使用過程中問題難以排查,影響集群性能,影響業務系統的穩定運行。軟硬件綁定的情況也使得用戶無法自行選擇虛擬化平臺。
使用 SmartX 企業云平臺構建高性能數據庫資源池
超融合作為創新的融合部署的分布式架構,能夠滿足用戶在基礎架構性能、穩定性、擴展性等方面的需求。經過驗證評估,該銀行最終選擇 SmartX 企業云平臺構建數據庫資源池。
- 技術與服務優勢:產品技術迭代效率高,功能、性能、可靠性和服務等都得到高度認可,性能完全能夠滿足生產環境數據庫運行要求。
- 產品形態優勢:支持純軟件交付,100% 軟件定義,與服務器硬件完全解耦,并且支持同一資源池的異構兼容,極大方便了用戶未來擴容。
- 國產化優勢:分布式存儲完全自主研發,沒有采用 Ceph 等開源版本進行封裝,核心技術自主可控。KVM 虛擬化深度定制,功能豐富,上手容易,運維方便,經過培訓,用戶即可以自行部署、自行巡檢、自行升級、自行運維。
從 21 年開始,用戶陸續在生產環境中配置了 10 節點和 7 節點的兩個 SMTX OS 集群(采用原生的 ELF 虛擬化),承載了除核心賬務系統數據庫之外全部 100+ 生產業務系統的 MySQL 數據庫從庫并穩定運行,支撐的業務系統包括電子票據、企業網銀、賬戶系統、風險管理系統、核心柜面系統、個人信貸、指紋認證、智能營銷平臺、統一收單、人臉識別等。
在災備環境中,用戶配置了 6 個節點的 SMTX OS 集群(采用原生 ELF 虛擬化),承載災備業務系統(除核心賬務系統外)的 MySQL 數據庫單機,并通過 MySQL 的復制技術與主數據中心同步。
在生產數據庫環境進一步驗證 SmartX 企業云平臺的性能表現
在前述集群穩定運行近 4 年后,用戶進一步針對 SmartX 企業云平臺在核心貸款數據庫場景的支撐能力進行了驗證。在生產核心貸款數據庫環境,一套核心數據庫的三套 ADG 備庫同時監控 ADG Apply Delay(應用延遲)。用戶在日結批大數據量跑批場景下,基于 SmartX 企業云平臺部署并分別記錄三套 ADG 對比主庫的延遲情況*。
* Oracle ADG 的 Apply Delay 可能是由網絡傳輸延遲、日志應用速度不足或者備庫資源爭用等原因產生的非預期延遲。
測試結果表明,SmartX 企業云平臺承載的數據庫在 ADG Apply Delay 場景下的性能表現,與中高端全閃 NVMe 存儲表現相當。
后續規劃
基于上述實踐與驗證,客戶決定采用 SmartX 企業云平臺,基于更為開放的 x86 架構與信創服務器,全面、逐步替換生產環境的 VMware 虛擬化及相應的集中式存儲。
- 根據不同場景,使用 SmartX 超融合架構與存算分離架構,逐步擴展支撐現有數據庫主庫資源池。
- 逐步替換現有集中式存儲和 vSAN 數據庫資源池。
- 使用?SMTX 遷移工具完成全部 VMware 虛擬機遷移。
該用戶采用 SmartX 企業云平臺構建輕量私有云的實踐,滿足了區域銀行自身特點及使用需求,同時也充分說明 SmartX 企業云平臺不僅能運用于 VDI、開發測試等場景,也能承載重要生產應用及其配套的數據庫。
2. 某消費類金融公司使用 SmartX 企業云平臺支撐 BI 報表應用的測試與實踐
某金融客戶在生產環境中使用 x86 服務器和全閃集中式存儲 EMC PowerMax 支撐 Oracle 數據倉庫,為 BI 系統提供數據收集、整合、分析和呈現支持,幫助企業進行決策制定和業務洞察。而隨著業務開展,PowerMax 使用已超過 3 年,剩余存儲空間不足,難以應對未來數據增長。同時,由于存儲使用 8GB FC HBA 卡,難以充分發揮 NVMe 的性能優勢。基于這些問題,用戶考慮對生產環境存儲系統進行更換,以更先進的分布式存儲進行架構升級。
IT 基礎設施面臨的業務層面挑戰
BI 系統主要通過大量數據擷取、加工從而提取數據的價值,而數據倉庫的性能表現往往是影響 BI 系統效率的關鍵因素。隨著業務范圍擴大、數據量的增加,在存儲性能沒有隨之提升的狀況下,BI 系統的報表應用存在以下的問題:
- BI 報表應用在白天通過實時 SQL 語句處理并進行數據展示時效率變低,導致相關生產數據反饋的時效性變差;
- 晚間并行多個報表生成工作時,數據量的增加進一步加劇存儲性能不足的問題,影響后端數據倉庫的響應速度,導致報表生成時間過長;
- 部分報表需要在生成后進行手動加工處理,導致所有報表生成時間更長,可能超過允許的時間窗口(6 小時);甚至如果發現報表數據有誤,則需要重新生成,導致最終報表數據無法及時支撐后續的業務開展。
測試驗證
延伸思考
以上測試僅驗證了超融合架構支撐 BI 系統報表應用的可行性和性能,同時,以超融合支撐核心業務系統還具備如下優勢:
- 超融合架構基于軟件定義模式和通用服務器平臺,相對于小型機搭配傳統存儲方案,可以非常有效地降低系統運維復雜度以及投入成本;
- SmartX 超融合架構具有簡單、易操作的橫向擴容能力,在擴展容量及計算資源的同時也得到近乎線性的性能提升;
- 對于絕大多數金融客戶,超融合的計算虛擬化和分布式存儲可以有效整合各類 IT 系統的計算和存儲資源,進一步降低整體 IT 系統的復雜度和投入成本;
- 超融合架構的軟件定義模式支持快速引進先進的硬件技術,從而快速提升系統能力。例如,SmartX 企業云平臺采用基于 RoCE 的 RDMA 與 vhost 性能加速方案,能夠進一步提升系統交易處理能力;
- 針對核心業務系統最重要的可靠性問題,SmartX 企業云平臺也提供諸多容災加固方案,如存儲級雙活與異步復制,可在降本增效的同時,結合應用特點保證系統的高可用性與業務連續性。
落地實踐
目前,用戶已采用 SmartX 企業云平臺構建 9+9 全閃雙活集群作為生產 DB 資源池,穩定支撐新核心系統的 SQLServer Always-On 數據庫集群,Oracle RAC 形態承載 BI、零售庫存、ESP、影像等數據庫集群, 以及多套生產所需的 Oracle、MySQL 等數據庫。
欲了解完整驗證與實踐,請閱讀:BI 數倉跑批測試:vSAN、 緩存擊穿,SmartX 超融合縮短跑批時間近一半。
3.某基金客戶 O32/TA/CC 風控與跑批性能驗證
某基金客戶自 2022 年開始引入 SmartX 企業云平臺,用于支撐辦公生產 / 網站業務 / 開發測試的新一代計算存儲資源池,到目前為止,已交付的 2 個集群運行穩定。后續,客戶計劃將大部分核心生產、周邊生產、ToC 業務等系統(包括相關數據庫)也遷移至 SmartX 企業云平臺,包括 O32、TA、FA、CC、反洗錢、直銷、訂單等多個業務系統。
遷移前,客戶需要評估并驗證 SmartX 企業云平臺的性能表現,通過實際業務場景和真實數據量進行核心業務系統的模擬跑批,評估超融合架構對于基金多元化業務場景的適用性。
客戶生產環境現狀
該基金客戶 O32 / TA / FA 等核心應用及數據庫采用裸金屬服務器,三套系統后端存儲通過 NetApp 高端全閃集中式存儲提供數據持久化。CC 核心數據庫采用裸金屬服務器,以本地盤方式提供數據持久化。4 套核心系統相關的周邊生產以及直銷、訂單、網站、網上交易等各類系統的應用和數據庫組件,采用 Nutanix 超融合平臺(VMware 虛擬化)支撐運行。
核心生產系統數據庫硬件配置:
- O32 系統:Intel Xeon Gold 6128 3.4GHz * 2 / 512GB / HBA 16G
- TA & FA 系統:Intel Xeon E5 2643 V4 3.4GHz / 256GB / HBA 16G
- CC 系統:Intel Xeon E5 2650 V3 2.4GHz / 32GB / 數據持久化在本地磁盤(SAS HDD)
SmartX 企業云平臺驗證環境
通過對生產系統的資源配置分析,確定采用如下測試硬件以支撐本次跑批驗證:
- 測試集群由三臺服務器組成,超融合采用 SmartX 原生虛擬化 ELF,并開啟 Boost 存儲加速模式。
- 集群內服務器 CPU 異構,其中一節點配置 Intel Xeon Gold 6226R * 2,剩余兩節點配置 Intel Xeon
- Silver 4214R * 2。各節點硬件配置 256GB 內存 / NVMe SSD 1.6TB * 2 / HDD 2.4TB * 4 / 25GbE 網卡。
遷移 & 新建虛擬機共 7 臺,包括 O32、TA、CC 系統 3 套 Oracle 數據庫,以及相關的應用、中間件、客戶端系統 4 臺,存儲使用率達到 65% (3 副本)。
虛擬機資源配置:
- O32:Oracle 配置 16 vCPU / 128GB 內存 / 1TB 磁盤
- TA:Oracle 配置 16 vCPU / 32GB 內存 / 1TB 磁盤
- CC:Oracle 配置 16 vCPU / 32GB 內存 / 1TB 磁盤
測試結果
各測試庫數據量信息:O32 庫為 300GB,TA 庫為 480GB,CC 庫為 580GB。
通過多輪性能測試,SmartX 超融合的跑批性能相比生產環境顯著提升:
- 模擬 32 萬筆委托交易量的 O32 壓力測試,不帶風控委托平均單筆延時 40ms,相比恒生提供基準值500ms 縮短?92%。
- O32 靜態風控場景耗時縮短?67.5%?,TA 跑批耗時縮短?41.4%,CC 跑批耗時縮短?91.5%。
通過本次測試充分驗證了 SmartX 超融合架構的優勢以及對基金公司多元化場景的高性能支撐能力,順利完成跑批測試驗證目標,為后續客戶 IT 規劃提供量化參考依據。
總結:超融合已經逐步深入用戶的核心生產環境
憑借長期技術積累與持續創新,SmartX 企業云平臺能夠為金融機構重要生產應用和數據庫提供高效、彈性、敏捷的云底座,并支持金融機構基礎設施信創轉型與數據庫資源池容災加固,助力企業關鍵業務高效、穩定運行。超融合架構的靈活部署能力也可滿足金融機構新數據庫和業務系統快速上線的需求,為業務發展進一步提速。
【預告】相較傳統架構,超融合不夠穩定?
雖然我們在文章中提到,基于超融合架構的 SmartX 企業云平臺能為生產業務系統和數據庫提供穩定支持,但仍有用戶存在這樣的疑慮:“超融合系統一旦故障,就會造成大范圍影響,難以保證集群穩定性?”下一篇文章“常見誤區解讀:相較傳統架構,超融合不夠穩定?”將深入探討超融合在穩定性方面的技術與功能優化,并提供企業用戶業務運行與運維方面的實踐,敬請期待!
欲了解更多 SmartX 超融合功能特性,歡迎下載《超融合技術原理與特性解析合集》三冊電子書。
SmartX 超融合技術原理與特性解析合集(一)虛擬化與存儲
SmartX 超融合技術原理與特性解析合集(二)管理與運維
SmartX 超融合技術原理與特性解析合集(三)全棧能力