從 GreenPlum 到鏡舟數據庫:杭銀消費金融湖倉一體轉型實踐

作者:吳岐詩,杭銀消費金融大數據應用開發工程師

本文整理自杭銀消費金融大數據應用開發工程師在StarRocks Summit Asia 2024的分享

引言:融合數據湖與數倉的創新之路

在數字金融時代,數據已成為金融機構的核心競爭力。杭銀消費金融作為一家持牌消費金融機構,雖以金融業務為核心,卻始終保持著強烈的科技創新精神,發明專利的話屈居行業第二。面對業務高速發展帶來的數據挑戰,公司開始了一場圍繞數據基礎設施的變革——構建基于鏡舟數據庫的 GLH 湖倉一體平臺。

GLH 代表了公司在湖倉一體化道路上的探索與實踐,是連接業務與技術的關鍵橋梁。

一、GLH 建設背景:數據痛點驅動創新

1. 業務場景需求

作為一家以“數據、場景、風控、技術”為核心的消費金融機構,公司業務發展迅速,但傳統數據處理架構已無法滿足日益增長的數據需求,這些需求不僅關系到日常運營,更直接影響公司戰略決策和合規底線。

??策略數據實時性:金融風控策略需要準時獲取數據支持決策,哪怕幾分鐘的延遲都可能導致風險控制失效;

??多表數據一致性:不同庫表間數據同步必須保持時間點一致性,一旦出現不一致,可能導致業務邏輯混亂;

??經營數據準確性:管理層關注的經營日報必須準確及時,這直接影響了公司戰略決策走向;

??業務對賬需求:日間數據支持業務對賬流程,而傳統?ETL?無法滿足這一時效性要求;

??監管合規要求:監管上報數據必須滿足時效性和準確性;

2. 核心痛點分析

在傳統數據架構下,公司遇到了幾個關鍵問題:

問題?1:數據回溯困難

數據傳輸過程出現異常,可能造成數據缺失,問題發現不及時,數據回溯成本高。

問題?2:變動明細缺失

監管報送場景下,生產系統中客戶信息一天內多次變更則需要報送每次的狀態,但生產系統沒有保存每次的變更信息,只能靠每日批量獲取日終最后一次狀態,無法滿足監管要求全量報送每次變更的需求

問題?3:時點數據不準

受資源限制,抽取任務執行時點也可能存在偏差或無法執行,導致跨表數據同步存在時間差,同一業務在不同表中的數據狀態不一致,造成業務邏輯混亂。

問題?4:跨系統日切問題

以交易對賬還款場景為例,交易系統和賬務系統等不同系統間對同一交易的處理時間不同,導致日切數據嚴重不準確,直接影響業務對賬。

這些痛點不僅僅是技術困擾,更直接威脅業務發展:無法實時同步數據影響業務策略執行效果;數據不一致導致業務對賬困難;數據質量無法保證使監管合規面臨風險;數據回溯困難使審計工作耗時且成本高昂。

二、融合鏡舟數據庫打造湖倉一體架構

1. GLH功能架構

這一架構不僅滿足功能需求,更兼顧了系統的穩定性、擴展性和可維護性,為湖倉一體平臺奠定了堅實基礎。

2. 為什么選擇鏡舟數據庫替代 GreenPlum

在數據倉庫選型這一關鍵決策上,團隊經過反復論證和實踐測試,最終選擇鏡舟數據庫(StarRocks?企業版)作為核心存儲引擎。團隊面臨的選擇并不容易——原有的?26?臺生產環境?GreenPlum?集群隨著業務量增加,性能日益下降,而擴容意味著高昂的投入:

(1)降本增效:GreenPlum?的授權費用高昂且橫向擴展成本高,而鏡舟數據庫提供了更具性價比的選擇,符合公司降本增效的戰略需求;

(2)實時寫入能力:相比?Hive?等傳統大數據工具,鏡舟數據庫支持實時數據寫入和事務查詢,在實時數據場景下有著天然優勢;

(3)統一數據平臺:數據分散在各個系統形成“數據孤島”,而鏡舟數據庫作為統一的數據存儲與計算平臺,能夠滿足需求。

3. 基于鏡舟數據庫的湖倉一體架構設計

在新架構中,GLH與鏡舟數據庫深度融合,共同構建了真正意義上的湖倉一體平臺。

??存算分離設計:底層采用?HDFS?存儲(規劃未來遷移至?S3),靈活應對數據規模增長,既保證性能又控制成本;

??多模型表設計:結合?StarRocks?的明細表和寬表能力,設計出支持時間序列、數據回溯等特性的自定義表結構,滿足各種業務場景需求;

??統一數據處理:采用“一次采集、多次加工”的理念,所有數據只需維護單一處理流程,避免重復開發,顯著提升了開發效率和數據一致性;

??靈活數據分發:支持通過?Kafka?向其他系統分發數據,滿足?Flink CDC?等場景需求,打造了開放、靈活的數據生態。

三、顯著成效:業務性能與成本效益兼顧

在實際部署過程中,團隊積累了寶貴的經驗:

??批次時間優化:團隊根據業務需求靈活調整數據同步批次時間,有的表需要?5秒同步一次,有的則是幾分鐘,這種差異化策略既滿足了業務需求,又平衡了系統性能;

??分區分桶調優:分析業務特點,重新設計了分區策略,以減少小文件合并開銷,大幅提升了系統性能;

??資源合理分配:計算節點與存儲節點資源配比優化,監控顯示,18個CN?節點和FE?節點組成的集群運行穩定,CPU利用率常年保持在50%以下,在下午和凌晨的業務高峰期也能從容應對,確保系統穩定運行;

業務成效

建成后取得了顯著成效:

??全面數據覆蓋:已實接入?3,800+?表,涵蓋公司所有業務系統;

??分鐘級同步:從數據產生到可用,實現了分鐘級無延遲同步,與傳統T+1?模式相比,業務響應速度提升了數十倍;

??批處理能力提升:支持每日運行?6,500+?個任務,包括?800+?個數倉任務,與原有架構相比,處理效率提升顯著;

??業務應用深化:打破了原有只允許批量查詢的限制,開放實時查詢接口,使業務系統能夠直接獲取實時數據;

這些成效不僅僅是數字上的提升,更轉化為了業務響應速度的提高和客戶體驗的改善,為公司核心競爭力的提升做出了實質性貢獻。

四、未來發展展望

GLH已完成核心功能建設,包括?API?服務、調度引擎、存儲接入引擎以及數據管理、節點管理、任務管理等基礎功能。未來發展方向包括:

1.?更開放的接口:支持接入更多計算引擎和存儲引擎;

2.?豐富的插件生態:開發更多數據處理插件,增強平臺數據處理能力;

3.?深化業務融合:進一步與業務系統深度融合,提供更精準的數據服務;

4.?技術持續演進:跟進存儲技術發展,規劃?S3?對象存儲遷移;

結語

基于鏡舟數據庫構建的?GLH?湖倉一體平臺,不僅解決了杭銀消費金融在數據管理中面臨的關鍵痛點,還為公司數字化轉型提供了堅實的數據基礎。通過構建“湖倉一體”的數據架構,公司實現了數據資產的整合與價值釋放,為業務創新提供了強有力的數據支撐。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/84390.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/84390.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/84390.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Bean 作用域有哪些?如何答出技術深度?

導語: Spring 面試繞不開 Bean 的作用域問題,這是面試官考察候選人對 Spring 框架理解深度的常見方式。本文將圍繞“Spring 中的 Bean 作用域”展開,結合典型面試題及實戰場景,幫你厘清重點,打破模板式回答&#xff0c…

基于 Spring Boot 策略模式的短信服務提供商動態切換實現

一、整體設計思路 為了實現在短信服務提供商變更時,不修改現有代碼就能無縫切換到新服務實現,可采用策略模式結合依賴注入以及配置中心化管理的方式來設計軟件系統。 二、 具體實現步驟 1. 定義統一接口(以短信服務為例,接口命名為 SmsService) 創建一個抽象的接口,用…

解決SQL Server SQL語句性能問題(9)——SQL語句改寫(1)

9.4. SQL語句改寫 目前主流關系庫的高版本中,特別是作為主流商業關系庫的SQL Server來講,大部分場景中,同一語義和結果集的SQL語句,其不同寫法并不會影響CBO為SQL語句生成和選擇最合適、最高效的查詢計劃。但少數情況下,不同寫法的同一語義和結果集的SQL語句,CBO也許會為…

設計模式復習小結

1.容易忘得設計原則 接口隔離:指接口中的功能太雜則可以拆分一下。防止實現類實現了接口后自動依賴了一些不需要的功能。不同功能拆分成不同的接口。 里氏代換:強調父類能出現的地方,子類一定能正常跑。 迪米特法則:又稱最少知…

昇騰CANN集合通信技術解讀——細粒度分級流水算法

隨著AI技術的演進,模型的計算復雜度和參數量呈現幾何級數增長,這使得傳統單機單卡部署在算力供給與顯存容量方面顯得力不從心,從而直接推動了分布式訓練/推理技術的快速發展。今年年初爆火的DeepSeek在訓練及推理Prefill階段采用了分級流水Al…

水泥廠自動化升級利器:Devicenet轉Modbus rtu協議轉換網關

在水泥廠的生產流程中,工業自動化網關起著至關重要的作用,尤其是JH-DVN-RTU疆鴻智能Devicenet轉Modbus rtu協議轉換網關,為水泥廠實現高效生產與精準控制提供了有力支持。 水泥廠設備眾多,其中不少設備采用Devicenet協議。Devicen…

使用Matplotlib創建炫酷的3D散點圖:數據可視化的新維度

文章目錄 基礎實現代碼代碼解析進階技巧1. 自定義點的大小和顏色2. 添加圖例和樣式美化3. 真實數據應用示例實用技巧與注意事項完整示例(帶樣式)應用場景在數據科學和可視化領域,三維圖形能為我們提供更豐富的數據洞察。本文將手把手教你如何使用Python的Matplotlib庫創建引…

Copilot for Xcode (iOS的 AI輔助編程)

Copilot for Xcode 簡介Copilot下載與安裝 體驗環境要求下載最新的安裝包安裝登錄系統權限設置 AI輔助編程生成注釋代碼補全簡單需求代碼生成輔助編程行間代碼生成注釋聯想 代碼生成 總結 簡介 嘗試使用了Copilot,它能根據上下文補全代碼,快速生成常用…

React 進階特性

1. ref ref 是 React 提供的一種機制,用于訪問和操作 DOM 元素或 React 組件的實例。它可以用于獲取某個 DOM 元素的引用,從而執行一些需要直接操作 DOM 的任務,例如手動設置焦點、選擇文本或觸發動畫。 1.1. 使用 ref 的步驟 1. 創建一個 ref:使用 React.createRef 或 …

基于PHP的連鎖酒店管理系統

有需要請加文章底部Q哦 可遠程調試 基于PHP的連鎖酒店管理系統 一 介紹 連鎖酒店管理系統基于原生PHP開發,數據庫mysql,前端bootstrap。系統角色分為用戶和管理員。 技術棧 phpmysqlbootstrapphpstudyvscode 二 功能 用戶 1 注冊/登錄/注銷 2 個人中…

【大廠機試題解法筆記】報文響應時間

題目 IGMP 協議中,有一個字段稱作最大響應時間 (Max Response Time) ,HOST收到查詢報文,解折出 MaxResponseTime 字段后,需要在 (0,MaxResponseTime] 時間 (s) 內選取隨機時間回應一個響應報文,如果在隨機…

邏輯回歸暴力訓練預測金融欺詐

簡述 「使用邏輯回歸暴力預測金融欺詐,并不斷增加特征維度持續測試」的做法,體現了一種逐步建模與迭代驗證的實驗思路,在金融欺詐檢測中非常有價值,本文作為一篇回顧性記錄了早年間公司給某行做反欺詐預測用到的技術和思路。百度…

Python爬蟲實戰:研究demiurge框架相關技術

1. 引言 在當今數字化時代,互聯網上蘊含著海量的有價值信息。爬蟲技術作為獲取這些信息的重要手段,被廣泛應用于學術研究、商業分析、輿情監測等多個領域。然而,構建一個高效、穩定且可維護的爬蟲系統面臨諸多挑戰,如網頁結構復雜多變、反爬機制日益嚴格、數據處理流程繁瑣…

Jenkins | Jenkins構建成功服務進程關閉問題

Jenkins構建成功服務進程關閉問題 1. 原因2. 解決 1. 原因 Jenkins 默認會在構建結束時終止所有由構建任務啟動的子進程,即使使用了nohup或后臺運行符號&。 2. 解決 在啟動腳本中加上 BULID_IDdontkillme #--------------解決jenkins 自動關閉進程問題-----…

深度學習習題2

1.如果增加神經網絡的寬度,精確度會增加到一個特定閾值后,便開始降低。造成這一現象的可能原因是什么? A、即使增加卷積核的數量,只有少部分的核會被用作預測 B、當卷積核數量增加時,神經網絡的預測能力會降低 C、當卷…

猜字符位置游戲-position gasses

import java.util.*;public class Main {/*字符猜位置游戲;每次提交只能被告知答對幾個位置;根據提示答對的位置數推測出每個字符對應的正確位置;*/public static void main(String[] args) {char startChar A;int gameLength 8;List<String> ballList new ArrayList&…

解析兩階段提交與三階段提交的核心差異及MySQL實現方案

引言 在分布式系統的事務處理中&#xff0c;如何保障跨節點數據操作的一致性始終是核心挑戰。經典的兩階段提交協議&#xff08;2PC&#xff09;通過準備階段與提交階段的協調機制&#xff0c;以同步決策模式確保事務原子性。其改進版本三階段提交協議&#xff08;3PC&#xf…

Towards Open World Object Detection概述(論文)

論文&#xff1a;https://arxiv.org/abs/2103.02603 代碼&#xff1a;https://github.com/JosephKJ/OWOD Towards Open World Object Detection 邁向開放世界目標檢測 Abstract 摘要 Humans have a natural instinct to identify unknown object instances in their environ…

QT3D學習筆記——圓臺、圓錐

類名作用Qt3DWindow3D渲染窗口容器QEntity場景中的實體&#xff08;對象或容器&#xff09;QCamera控制觀察視角QPointLight點光源QConeMesh圓錐幾何網格QTransform控制實體的位置/旋轉/縮放QPhongMaterialPhong光照材質&#xff08;定義顏色、反光等&#xff09;QFirstPersonC…

CSS | transition 和 transform的用處和區別

省流總結&#xff1a; transform用于變換/變形&#xff0c;transition是動畫控制器 transform 用來對元素進行變形&#xff0c;常見的操作如下&#xff0c;它是立即生效的樣式變形屬性。 旋轉 rotate(角度deg)、平移 translateX(像素px)、縮放 scale(倍數)、傾斜 skewX(角度…