眾所周知,金融行業對于數據有著極為嚴苛的標準和要求,尤其當在線化、實時化業務場景增多以后,金融行業也面臨著多重的挑戰:既要滿足實時數據分析的高性能、高效率需求,又要確保數據的安全性和完整性。基于此,金融行業對數據服務的選型也會格外謹慎與困難。尤其是在各類數據庫產品層出不窮的當下,金融行業到底應該如何選型?怎樣的產品才更加符合金融行業的未來發展?
在 FCon 全球金融大會的大會現場,InfoQ 也采訪到了飛輪科技 COO & 聯合創始人,他本人長期投身在大數據、基礎架構和云計算領域,過去 12 年一直在百度工作,曾擔任百度智能云副總裁、大數據與云存儲等部門總經理,從零到一開拓出數十款云產品及數十億營收。目前致力于推廣開源 Apache Doris,并基于 Apache Doris 內核打造了實時數倉產品 SelectDB ,助力中國郵政儲蓄銀行、銀聯商務、平安人壽等多家頭部金融企業升級了實時數據倉庫平臺。關于金融領域客戶對實時分析場景的痛點與解決方案,他在采訪過程中分享了自己的觀點。
InfoQ:金融行業對數據服務的需求主要集中在哪些方面?包括對實時數據倉庫的需求點主要是在哪些方面?
連林江:金融行業在數字化轉型上走得相對靠前,無論是技術力量的投入,還是對新技術的使用都非常深入,但聚焦于數字化轉型,依然面臨著很多訴求和挑戰。
從業務需求看,可以看到金融行業的業務更多地開始走向在線化,消費者金融業務、企業金融業務等都大量 APP 化,這些在線化的變化都帶來業務感知、風控、客戶洞察和決策等業務路徑的實時化要求,所以就需要做更實時的消費信貸、欺詐交易識別、客戶行為洞察等等動作。可以看到,金融行業服務客戶的時間、路徑都比以前更短了,也就需要更快的數據分析和響應速度。
從技術角度看,新技術給金融業務帶來了更多業務變革的可能性,對技術的超前建設、對前沿技術趨勢的預判也尤其重要,所以我們看到很多行業客戶都開始設立金融科技部、信息科技部這樣的戰略組織,來全盤推進金融科技的戰略。
但很多金融行業在大數據建設上,普遍還存在滯后性、復雜性。舉例來說,很多的金融企業在一定程度上復刻了原來互聯網公司走過的大數據建設路徑,基于 Hadoop 構建了大數據平臺,并在此之上建設了大量的系統以應對不同業務的挑戰,比如有批量處理分析系統、實時處理分析系統等等,少則十來個,多則可能幾十個。所以從技術規劃和發展趨勢的角度來說,金融行業的大數據系統需要化繁為簡,架構需要更簡單、更高效。
此外,大數據的技術發展是日新月異的,如何能夠緊跟時代變化也是金融行業面臨的另一挑戰。
InfoQ:那么,金融領域的企業如何找到一款適合自身業務的數據庫產品?您能否從實時數據倉庫選型的角度給一些建議?
連林江:第一,從需求出發。剛剛也提到了金融行業的業務開始走向在線化,更需要一個實時的數據庫應對業務挑戰,同時還需要解決一系列隨之而來的如何用好的問題,比如數據如何集成、如何治理、如何面向業務進一步調優等;第二,看清楚未來的技術趨勢。技術的日新月異往往帶來不斷的更新換代,這其實是一個不斷迭代的過程,因為系統的建設是滯后于技術發展的,可能造成的局面是今天投入力量進行系統升級了,過一兩年又在新技術的沖擊下需要迭代。而我們對大數據未來趨勢的判斷是朝三個方向發展:實時化、統一化以及云原生化,所以也建議金融領域的企業用戶能夠選擇面向未來、符合技術趨勢的產品;第三,關注產品的開放性。所謂開放性指的是盡量選擇能夠代表行業標準的產品,類似像數據庫領域的 SQL 這種標準接口語言,這類標準性帶來的是更開放的選擇,以及未來歷史資產的繼承性。縱觀大數據技術,開源其實一直在引領大數據產業發展,開源能夠非常好地促進標準,也能夠帶來開放性。
InfoQ:剛好連總也講到了開源這個因素,我們知道 SelectDB 是基于開源的 Apache Doris 來開發的,對于金融行業而言,開源是否是企業選型的重要考慮點之一?
連林江:我今天看到很多金融領域的企業,他們普遍對前沿技術有非常強的敏感性和開放性。從實際的交流觀點來看,大家對于開源技術的認可和采用也是普遍趨同的。為什么呢?
第一,如剛剛提到的,開源本身能夠很好地帶來標準性,因為開源在開發者群體里是一種市場經濟化的行為。一個好的開源產品如果被大家認可了,便能夠引發更大范圍、更廣泛的使用,這個過程天然具有很大的可信度和標準性,所以優秀的開源產品一定有它的獨特優勢和普遍適應性;第二,一個開源項目要想發展好,它一定要有持續的先進性,這也會給產品帶來持續的、蓬勃的生機;第三,金融對自主可控的要求比較高,而由于開源的代碼可以共享,使其具備了自主可控的特性,如果企業有能力就可以很好地掌控、投入建設,便能在這個社區里得到一加一大于二的效益。
我認為開源是對金融企業來說是一個非常有前景的平臺建設路徑,它能提供更強的生命力和正向循環。通過開源也可以讓我們的產品得到錘煉,對我們自身而言也是一個機會。就像 Apache Doris 是從百度的海量數據場景里錘煉出來的,通過開源又廣泛地吸收了多行業、多場景的需求,讓其能夠更快地蓬勃發展。所以我們可以看到,金融領域的企業以及開發者對開源是非常認可的,也是很愿意投入,并且是在持續做建設的過程。
InfoQ:眾所周知,金融是對數據要求極高的行業,因此也是不少數據庫廠商的競爭高地,相比于其他金融級數據庫,SelectDB 的核心優勢是什么?
連林江:從公司設立的第一天起,我們就非常清楚自己的定位——實時數倉,實時性是產品的第一要求。
要對數據做到實時分析,最重要的是解決好兩個延遲問題,數據集成的低延遲和數據查詢的低延遲。換而言之,數倉必須能滿足數據進得足夠快、同時能夠實時可見支持秒級的查詢。
因此我們在實時性上進行了大量的技術創新,包括支持毫秒級的實時數據寫入、實時增刪改的主鍵存儲模型、實時追加的明細和聚合存儲模型以及毫秒級輕量化表結構更新等,可以實現數據的實時導入與實時可見。而在實時查詢方面,SelectDB 在高并發點查詢、大寬表查詢、復雜多表關聯等多種查詢負載上都擁有極速性能。在全球分析型數據庫測評榜單 ClickBench 中,SelectDB 更是憑借在多種場景下的卓越性能表現,占據性能全球排名第一的位置。
在定位之外,還要進一步看清大數據的發展形勢,當前企業普遍使用典型的湖倉并行架構方案,既有面向批量的多個組件、也有面向交互分析的多個組件,甚至不止一個湖一個倉。基于此,我們提出了統一化的理念,簡化當前復雜的架構,盡可能減少數據組件;特別值得一提的是,我們也在不斷地完善湖倉一體方案,采用了 SelectDB 的現代化數據平臺方案將數據倉庫和數據湖進行融合統一,在一套架構中為 BI 報表、Adhoc 分析,以及批量和增量 ETL 等多種業務負載提供統一的數據處理和分析能力。
此外,針對有上云需求的客戶,會更加在意云服務的性價比和資源彈性。SelectDB 也是從開始就把云產品當成核心來做,在去年 10 月份我們就推出了第一款云原生產品,也是國內第一款立足于多云之上、完全 SaaS 化的云原生數據倉庫 SelectDB Cloud,目前已經支持阿里云、華為云、騰訊云和亞馬遜云科技等國內外主要云廠商。
除了上述提到的優勢以外,SelectDB 還有架構簡單和生態豐富的特點。當金融客戶要將歷史資產遷移到 SelectDB 上時,能夠很好地保障企業用戶數據的遷移以及集成。考慮到很多金融客戶的大數據系統上、下層都有聯動,所以 SelectDB 也與數十家合作伙伴做了產品互兼容、互認證以及方案打通。
最后一點,由于金融客戶的特殊性,持續的陪伴和服務能力也是更為重要的。在這一點上,我們其實也做了很多的建設和投入,目前在國內有 7 個分支機構,會安排售前、售后等支持人員,為他們提供可靠的服務保障。
InfoQ:相比于其他實時分析的需求場景,金融行業的應用軟件是否有哪些額外的關注點?SelectDB 會采用哪些方案進行保障?
連林江:對于互聯網行業而言,他們更喜歡在云上一站式地選購 SaaS 化的產品,既能做到開箱即用,產品之間也有很好的聯動性。但對于金融企業而言,出于對可靠性或監管的要求,大量系統建設都是私有化獨立部署的。對此,我們做了大量金融企業級產品的工作:
首先,我們為金融行業打造了企業版,可以私有化部署在各種環境下,比如虛擬機、物理機、云原生基礎設施或者私有云,我們都能為其提供非常高效的部署,以及簡單、易用、易運維的能力。其次,金融客戶對數據以及整個 IT 基礎設施的安全性要求是非常高的,我們除了保證單一軟件系統的高可靠性、高可用性以及完整的權限系統外,我們尤其加強了容災備份的能力,提供了本地雙集群和多地多中心集群之間 CCR 的能力,一旦有服務斷掉了,馬上能夠秒級分鐘級的啟動。
InfoQ:是否方便分享一個 SelectDB 在金融場景的落地案例?
連林江:SelectDB 在整個金融行業服務的客戶非常多,包括銀行、證券、基金等等。這里我可以分享一個國有大行在金融反欺詐上的實踐案例。
因為國有大行本身有非常多的網點和客戶,在這基礎上做業務的在線化,就需要在事前、事中、事后做很多的風控判斷和處理。尤其對于反欺詐行為來說,過了一天可能損失是追不回來的,所以基本上要達到秒級,最差分鐘級的反饋閉環。此外,由于反欺詐行為更多發生在終端,國有大行有數萬個網點、億級的用戶,需要有幾萬甚至幾十萬的并發來支撐,這對于技術有非常強的要求。另外,作為一個建設的平臺方,它還需要管理起來更簡單、數據高可靠,而且每次數據統計都是精確無誤的。這些特性決定了它的選型非常苛刻,所以他們也做了非常多的評測,最后整體認為 SelectDB 的技術是最符合要求的,比業內同款產品的性能要高出幾倍、幾十倍。
現在客戶實際落地用下來效果非常好,如果用以前的老架構去實施,效果可能是小時級甚至是 T+1,現在做到了秒級的實時性,所以也在大力推廣更大規模使用。他們也在規劃更多的落地場景,也想讓日志分析用到我們的技術,把原來做指標觀測、訂單分析查詢的系統都替換掉,而且整體的成本投入只需要以前方案的三分之一到五分之一。這個客戶整體上講,SelectDB 不僅很好地滿足了業務方需求,也更好地滿足了建設方需求。
InfoQ:后續,SelectDB 將如何服務好更多金融領域的客戶,基于此,我們是否有相應的規劃?
連林江:從技術角度,我們會在實時化、統一化、云原生化三個方向上持續投入和邁進,這很好地滿足廣大企業客戶的需求;今天,大量的金融客戶也已經從中獲得了收益,我們也會齊頭并進繼續做深技術創新。
從業務場景,我們會沿著用戶的業務場景做深入的優化。比如針對畫像行為分析,我們進行函數的設計、業務流程優化;針對數據分析,做實時報表、輔助決策、日志分析,甚至 AI 的數據分析,這些都是更加深入的場景化思考和落地實踐。這就意味著我們的技術和業務是雙向迭代的過程。
在金融領域,當前數據分析的技術和業務場景是非常多的,這其中對于數據的存儲和數據的處理其實是一個非常基礎性的要求,在這之上應用場景的需求滿足更需要端到端的解決方案能力落地,這就需要和領域內的廣大生態廠商一起努力。比如,我們跟一些 BI 廠商聯合做指標分析,效果就比以前提升了好多倍,這些場景方案能力最后都會在廣大的金融客戶場景中釋放出效益。后續,我們也希望和更多的合作伙伴一起提供更多端到端的場景化方案
寫在最后
作為全球數據庫和大數據領域最活躍的開源社區之一 Apache Doris 的商業化公司,我們看到了 SelectDB 在實時化、統一化、云原生化方向上的堅定投入。我們也期待隨著 SelectDB 在金融領域商用化程度的不斷加深,以及端到端金融聯合解決方案的持續補充,未來將幫助更多金融領域的企業釋放數據價值。