作者:吳岐詩,杭銀消費金融大數據應用開發工程師
本文整理自杭銀消費金融大數據應用開發工程師在StarRocks Summit Asia 2024的分享
引言:融合數據湖與數倉的創新之路
在數字金融時代,數據已成為金融機構的核心競爭力。杭銀消費金融作為一家持牌消費金融機構,雖以金融業務為核心,卻始終保持著強烈的科技創新精神,發明專利的話屈居行業第二。面對業務高速發展帶來的數據挑戰,公司開始了一場圍繞數據基礎設施的變革——構建基于鏡舟數據庫的 GLH 湖倉一體平臺。
GLH 代表了公司在湖倉一體化道路上的探索與實踐,是連接業務與技術的關鍵橋梁。
一、GLH 建設背景:數據痛點驅動創新
1. 業務場景需求
作為一家以“數據、場景、風控、技術”為核心的消費金融機構,公司業務發展迅速,但傳統數據處理架構已無法滿足日益增長的數據需求,這些需求不僅關系到日常運營,更直接影響公司戰略決策和合規底線。
??策略數據實時性:金融風控策略需要準時獲取數據支持決策,哪怕幾分鐘的延遲都可能導致風險控制失效;
??多表數據一致性:不同庫表間數據同步必須保持時間點一致性,一旦出現不一致,可能導致業務邏輯混亂;
??經營數據準確性:管理層關注的經營日報必須準確及時,這直接影響了公司戰略決策走向;
??業務對賬需求:日間數據支持業務對賬流程,而傳統?ETL?無法滿足這一時效性要求;
??監管合規要求:監管上報數據必須滿足時效性和準確性;
2. 核心痛點分析
在傳統數據架構下,公司遇到了幾個關鍵問題:
問題?1:數據回溯困難
數據傳輸過程出現異常,可能造成數據缺失,問題發現不及時,數據回溯成本高。
問題?2:變動明細缺失
監管報送場景下,生產系統中客戶信息一天內多次變更則需要報送每次的狀態,但生產系統沒有保存每次的變更信息,只能靠每日批量獲取日終最后一次狀態,無法滿足監管要求全量報送每次變更的需求
問題?3:時點數據不準
受資源限制,抽取任務執行時點也可能存在偏差或無法執行,導致跨表數據同步存在時間差,同一業務在不同表中的數據狀態不一致,造成業務邏輯混亂。
問題?4:跨系統日切問題
以交易對賬還款場景為例,交易系統和賬務系統等不同系統間對同一交易的處理時間不同,導致日切數據嚴重不準確,直接影響業務對賬。
這些痛點不僅僅是技術困擾,更直接威脅業務發展:無法實時同步數據影響業務策略執行效果;數據不一致導致業務對賬困難;數據質量無法保證使監管合規面臨風險;數據回溯困難使審計工作耗時且成本高昂。
二、融合鏡舟數據庫打造湖倉一體架構
1. GLH功能架構
這一架構不僅滿足功能需求,更兼顧了系統的穩定性、擴展性和可維護性,為湖倉一體平臺奠定了堅實基礎。
2. 為什么選擇鏡舟數據庫替代 GreenPlum
在數據倉庫選型這一關鍵決策上,團隊經過反復論證和實踐測試,最終選擇鏡舟數據庫(StarRocks?企業版)作為核心存儲引擎。團隊面臨的選擇并不容易——原有的?26?臺生產環境?GreenPlum?集群隨著業務量增加,性能日益下降,而擴容意味著高昂的投入:
(1)降本增效:GreenPlum?的授權費用高昂且橫向擴展成本高,而鏡舟數據庫提供了更具性價比的選擇,符合公司降本增效的戰略需求;
(2)實時寫入能力:相比?Hive?等傳統大數據工具,鏡舟數據庫支持實時數據寫入和事務查詢,在實時數據場景下有著天然優勢;
(3)統一數據平臺:數據分散在各個系統形成“數據孤島”,而鏡舟數據庫作為統一的數據存儲與計算平臺,能夠滿足需求。
3. 基于鏡舟數據庫的湖倉一體架構設計
在新架構中,GLH與鏡舟數據庫深度融合,共同構建了真正意義上的湖倉一體平臺。
??存算分離設計:底層采用?HDFS?存儲(規劃未來遷移至?S3),靈活應對數據規模增長,既保證性能又控制成本;
??多模型表設計:結合?StarRocks?的明細表和寬表能力,設計出支持時間序列、數據回溯等特性的自定義表結構,滿足各種業務場景需求;
??統一數據處理:采用“一次采集、多次加工”的理念,所有數據只需維護單一處理流程,避免重復開發,顯著提升了開發效率和數據一致性;
??靈活數據分發:支持通過?Kafka?向其他系統分發數據,滿足?Flink CDC?等場景需求,打造了開放、靈活的數據生態。
三、顯著成效:業務性能與成本效益兼顧
在實際部署過程中,團隊積累了寶貴的經驗:
??批次時間優化:團隊根據業務需求靈活調整數據同步批次時間,有的表需要?5秒同步一次,有的則是幾分鐘,這種差異化策略既滿足了業務需求,又平衡了系統性能;
??分區分桶調優:分析業務特點,重新設計了分區策略,以減少小文件合并開銷,大幅提升了系統性能;
??資源合理分配:計算節點與存儲節點資源配比優化,監控顯示,18個CN?節點和FE?節點組成的集群運行穩定,CPU利用率常年保持在50%以下,在下午和凌晨的業務高峰期也能從容應對,確保系統穩定運行;
業務成效
建成后取得了顯著成效:
??全面數據覆蓋:已實接入?3,800+?表,涵蓋公司所有業務系統;
??分鐘級同步:從數據產生到可用,實現了分鐘級無延遲同步,與傳統T+1?模式相比,業務響應速度提升了數十倍;
??批處理能力提升:支持每日運行?6,500+?個任務,包括?800+?個數倉任務,與原有架構相比,處理效率提升顯著;
??業務應用深化:打破了原有只允許批量查詢的限制,開放實時查詢接口,使業務系統能夠直接獲取實時數據;
這些成效不僅僅是數字上的提升,更轉化為了業務響應速度的提高和客戶體驗的改善,為公司核心競爭力的提升做出了實質性貢獻。
四、未來發展展望
GLH已完成核心功能建設,包括?API?服務、調度引擎、存儲接入引擎以及數據管理、節點管理、任務管理等基礎功能。未來發展方向包括:
1.?更開放的接口:支持接入更多計算引擎和存儲引擎;
2.?豐富的插件生態:開發更多數據處理插件,增強平臺數據處理能力;
3.?深化業務融合:進一步與業務系統深度融合,提供更精準的數據服務;
4.?技術持續演進:跟進存儲技術發展,規劃?S3?對象存儲遷移;
結語
基于鏡舟數據庫構建的?GLH?湖倉一體平臺,不僅解決了杭銀消費金融在數據管理中面臨的關鍵痛點,還為公司數字化轉型提供了堅實的數據基礎。通過構建“湖倉一體”的數據架構,公司實現了數據資產的整合與價值釋放,為業務創新提供了強有力的數據支撐。