實時智能全托管-云器Lakehouse重新定義多維數據分析

導讀

本文將分享云器Lakehouse如何重新定義實時多維分析,幫助客戶實現實時、智能、全托管的數據平臺。主要內容包括以下幾大部分:

  • 多維數據分析的發展趨勢和場景解析

  • 技術解析:新一代數平臺Lakehouse如何支持實時分析需求

  • 價值解析:讓 BI+AI 分析高新鮮度,可智能優化,可面向并發的彈縮

  • 對比傳統實時數倉產品的收益對比,參考案例

本文探討企業如何在高時效性業務進程中構建高效靈活的數據應用體系。我們將介紹實時數據應用的關鍵特點和發展趨勢,總結優秀數據平臺的核心特征。文章還將具體展示應用下一代數據平臺的效果,實現降本增效、并構筑結合 AI 的數據分析,打造 BI+AI 基礎設施。最后,我們將展望實時數據分析領域的前沿技術與行業發展趨勢。

實時智能分析不可或缺,但企業面對實施的挑戰和阻礙很多

瞬息萬變的商業環境,數據是生命線

在當前數據驅動的瞬息萬變的商業環境下,每個公司都需要理解數據的本質,做好數據分析逐漸變成企業發展的基礎,做好高時效性的數據分析與決策成為企業發展的驅動力和生存的生命線。

圖片

例如,在直播時代之前,人們可能只關注前一個小時或前一天的數據。而今天的直播運營總監希望了解五分鐘內直播間銷量情況,判斷庫存備貨并即時決策促銷策略。業務模式推動數據分析的需求演進,要更實時的分析數據,更實時決策業務。

其次,許多數據團隊不僅為公司內部運營人員提供分析結果,為公司高管提供數據報表,還要整合及建設數據報表給自己的產品用戶,越來越多的數據價值被呈現給最終用戶。千萬個用戶的不規則峰谷的查詢需求且短時間內高并發查詢分析使得后臺系統面臨巨大壓力。

再次,非結構化數據的分析需求凸顯,ML/AI 為非結構化數據分析開辟了新的可能性。

因此,我們應思考新一代的數據分析范式,補充傳統的數據分析體系的短板,亦或重構新的數據架構及模式。

全新的實時數據分析范式

圖片

我們設想一種全新的實時數據分析范式,它具備三個主要特征:

  • 更實時:業務決策需要更實時的數據分析支撐。傳統離線數據是 T+1 更新,既每天刷新一次。而更實時的數據分析意味著數據的整體更新頻率加速到一小時甚至一分鐘。

  • 更智能:更智能的分析能夠開拓洞察數據的方式,囊括更多不同類型的數據。創新的場景包括報表的智能化展示,基于 ML/A I的數據挖掘,非結構化數據的內容歸類與提取,等等。

  • 更普惠:大數據分析將不再是個別大廠的專屬能力,而可以成為一個普惠的工具。簡化數據工程,數據分析和開發人員構建數據平臺的復雜度,也讓數據用戶更簡便獲得洞察。

傳統數據架構成為實現多維實時智能分析場景的阻礙

圖片

阻礙一:傳統架構下,業務需求的多樣性導致了數據架構復雜,進而限制了整體平臺的能力上限。舉個例子,很多數據平臺維護團隊增加了 20% 新機器資源加到集群中,但是所拿到的性能提升效果還不足 10% 。

阻礙二:傳統的數據湖和實時數據平臺不可兼得,會帶來效能瓶頸。如數據湖的查詢并發能力不足,數據新鮮度和寫入并發度低,嚴重依賴緩存;集成困難,例如成千上萬張異構的表,需要為每個不同的數據庫編寫腳本進行處理;數據實時同步和業務 schema 變化導致的運維復雜,數據整合的成本非常高。

阻礙三:傳統架構通常需要預置資源,閑時浪費,忙時又不夠用。即便有擴展機器的方式,但彈性能力和時效性達不到要求。

總結:企業或組織經常陷入性能-成本陷阱,即把性能不足的問題歸結為資源預算不足。要知道傳統的擴展方式由于上述復雜性原因,提升性能對應成本的增加是成倍的,而非線形增加。企業或許不得不因成本因素決策砍掉一些“非必要”功能,導致數據方向的創新在成本約束下難以成勢。

什么原因造成了傳統數據架構的成本約束,讓我們詳細拆解一下性能與成本。

拆解數據分析效能與成本,為什么成本這么難控

圖片

高成本是由于全鏈路積累的連鎖反應,綜合導致的高成本。數據的處理場景,包括數據采集、集成、預處理、存儲、流轉、并發、治理和運維。我們對每個環節進行問題拆解,詳見上圖。

根本原因在于組裝數據工具盡管各有“專長”,但也有“合成謬誤”

圖片

當前主流數據架構在提供數據服務或搭建數據分析平臺時,存在數據處理和服務割裂、鏈路冗長等問題,導致高延遲和數據冗余。同時上一代流計算產品需要預留大量 CPU 資源,成本高昂。傳統的?Hadoop?架構不適用于頻繁更新的業務庫場景,而新的實時數據分析工具如 Presto 、?ClickHouse?等在規模支持上有限制。

盡管每個組件都能夠單獨工作,也各有所長,但是對于使用工具的企業來說,合在一起使用,就會出現上述談到的許多阻礙和問題。

總結下一代可支撐實時多維分析的數據平臺需要具備哪些功能

圖片

  1. 多租戶場景下的分庫分表與合庫合表:在多租戶產品中,數據平臺需要支持分庫分表,同時又要能夠靈活地進行合庫合表操作,以滿足行業分析的需求。此外,為了讓管理層能夠實時掌握業務變化,數據庫與大數據系統之間需要實現極低延遲的數據同步,要求大數據系統具備快速計算和數據推送的能力。

  2. 歷史數據與實時數據的無縫整合

  3. 自然語言查詢和多數據源支持。

  4. 多云環境下的一致性體驗:數據平臺需要隨著業務平臺一起部署到多個云服務上,如阿里云、騰訊云或 AWS 。在這種情況下,如何在不同的云環境中提供一致的用戶體驗,是數據平臺需要考慮和解決的重要問題。

  5. 開放湖倉一體架構,支持 AI 應用:為了更好地支持 AI 應用的發展,數據平臺的架構應采用開放湖倉一體的設計,實現結構化數據和非結構化數據的統一管理。同時,數據分析作業和 AI 模型調用作業也需要進行統一的工作流編排,并通過統一的元數據管理來實現高效的數據治理和權限分配。

  6. 彈性資源管理,降低成本。

全新Lakehouse技術解密

如何實時分析海量數據,即取即用

圖片

云器Lakehouse做了全新的設計。

  • 在數據集成部分,實現了實時同步和產品化操作,例如常見的 MySQL 、 SQL Server 數據庫、 PostgreSQL 數據庫都可以通過平滑配置化方式實現分秒級的數據同步。

  • 在數據處理部分,我們使用統一的數據管理,支持增量計算的單一引擎 SingeEngine 來解決實時、離線和不同類型的檢索工作負載問題。

  • 在資源控制和資源供應模式方面,采用全托管方式,并通過彈性并發方式提供相關資源,做到毫秒級的資源彈性,以及資源供給的水平份數和規格兩個維度的擴縮。

Lakehouse如何支持實時 BI 及多維分析整體架構

圖片

云器提供了面向多維分析的整體架構方案。

當前的數據平臺是一個多云數據平臺,伴隨許多客戶出海,跨越多個數據平臺,賬戶即開即用,一天內就能完成交付,并支持異構云。

  • 從查詢實時性來看,數據新鮮度從原來的 T+1 、 H+1 達到了秒級新鮮度。

  • 查詢并發度達到千級別以上,并在這種并發度基礎上, BI 工具自動生成的復雜 SQL 查詢,也能控制在 P99 1 秒以內。

  • 從降低成本的角度來看,這是一個零運維的全托管產品,使大家能將更多精力放在數據本身的建設以及業務的考慮上,并提供非常高的?SLA?。

云器Lakehouse的三個重點功能能力解密

在低成本限定情況下全面提升數據新鮮度

圖片

  • 采用了完全的白屏化無代碼配置方式,支持異構數據源兩兩組合,上百種離線和實時的同步鏈路;

  • 支持海量千萬級別的數據庫表進行整庫遷移,增量同步,單表或多表同步,多實例合并同步等等一系列策略和功能,這些都是通過配置化方式即可一鍵同步,同步后即可查詢;

  • 支持 Schema Evolution ,提供了一體化的運維和監控工具,可以監控流量情況、延遲數據、同步條數、是否存在問題等情況;

  • 業務庫的動態變化能夠實時反映在大數據中。根據多位客戶的使用反饋,整體數據延遲在 0 到 20 秒左右,這是一個顯著的提升,為實時業務提供了堅實的基礎。

全托管彈性能力支持業務峰谷并發變化

圖片

云器產品構建了一個強大的?Serverless?庫存資源池,使集群能夠毫秒級地按需啟動,根據并發量和 SQL 復雜度自動進行擴縮容。

用戶使用時按量計費,前端查詢的 JDBC 流量無需感知。

研究顯示, APP 查詢存在明顯的峰谷模式。每天 9-11 點、 15-17:30 以及 20-21:30 是查詢高峰,而月末月初是銀行類 APP 數據賬務查詢的高峰。高峰時期的并發查詢量可達低谷時期的百倍至千倍。

智能優化減少彈性并發

圖片

  • 自動優化能力,簡化用戶操作;

  • 采用 AI 技術應用于數據布局優化、緩存策略和智能數據模型優化;

  • 自助化產品提供分庫、分區、分桶、索引等操作的作業管理;

  • 全托管減少運維負擔,讓開發者專注于數據業務創新。

實時分析場景用例介紹Case Study

下面簡單介紹幾個典型的應用場景。

電商

圖片

在電商領域,具體的包括推薦系統的實時化應用場景:進行實時用戶行為分析、內容特征分析以及 A/B 測試等,會涉及不同類型的組件,包括 Spark 、 Hive 、 ClickHouse 、?Druid?等,以及一些基礎服務。圖中每條黃色的線代表一個獨立的分析場景,構成了一個典型的 Lambda 架構。

多種引擎和這個系統組合起來建設成本是比較高的,和業務上對齊難度也比較大。云器Lakehouse的產品作為一體化平臺,將實時和離線部分整合到一個數據倉庫中,使用一個引擎來滿足不同類型的數據分析和處理需求,提高效率并簡化數據處理流程。這樣有幾點優勢:

  • 讓中型電商企業可以一步到位獲得完整的大型電商的數據底座能力;

  • 數據平臺無啟動門檻,按量低成本實現基于數據的商品的實時推薦能力;

  • 多云可擴展運行的數據平臺,不用為云底座的切換額外適配。

金融風控

圖片

金融風控場景的數據綜合性要求高,需要跨數據業務域進行數據分析,需要近實時的計算和多維度的數據做綜合計算。

例如基于新數據或用戶新行為觸發規則計算,要做到迅速響應,這就要求高數據新鮮度。實時架構需要結合用戶標簽、購物行為標簽和金融行為標簽,其中金融行為標簽通常是離線標簽,這就要求離線與實時標簽一起進行關聯查詢。

此外,查詢并發量較高,在高并發下的數據的秒級延遲和千級別查詢并發有嚴格要求。

云器Lakehouse的產品作為一體化平臺在這個場景下,有如下優勢:

  • 產品化數據集成,可實現海量多數據源的實時集成,并且有易配置的方式,批量對相同類型的分庫分表進行合并集成;

  • 100% Serveless ,全托管存算分離架構,保障資源的高峰和低谷需求;

  • 優化多表關聯查詢,離線和實時數據鏈路實現融合;

  • 高并發高響應度的實時即時查詢支持企業級多用戶使用;

  • 企業級數據資源權限管理機制和用戶權限管理機制。

SaaS CRM

圖片

SaaS CRM 場景中,需要支持成百上千甚至上萬個多租戶。這些租戶分散在不同類型的 Pod 中。傳統的 BI 工具需要查詢 Greenplum 或 Clickhouse 等系統,而底層服務能力是分散的,這給運維帶來了許多問題。多套系統的組合使得架構變得極其復雜,數據量膨脹至兩到三倍。由于每塊資源較小,進行擴展時,支持的查詢并發不足,資源被隔離在不同的 Pod 中,這是一個標準的 SaaS 軟件數據架構。

此外,租戶級別可能達到幾萬、幾十萬甚至上百萬的量級,每個租戶可能擁有幾個到幾十個表,需要同步的表就會達到千萬級,實時數據同步成為了一大挑戰。解決這一問題,可以進行多項優化,如之前提到的產品化數據集成方式,采用一體化模型建倉,嵌入式 BI ,以及自動優化生成的 SQL 和支持高并發查詢。

圖片

某頭部 SaaS CRM 企業,對接數百個數據庫和數萬張表,利用云器Lakehouse的實時數據集成能力,將數據新鮮度從原來的 15 分鐘提升至秒級。此外,查詢時間也變得更穩定,不再受限于 Greenplum 等資源隔離模式。從成本角度來看,實現了接近零運維成本的模式,使用成本也降低了約 50% 。更為重要的是,為客戶提供多云一致性的體驗。

云器Lakehouse目前在阿里云、騰訊云和 AWS 上均有服務,客戶能夠在不同的云平臺上使用同一款產品進行數據處理和分析。企業內部在進行產研架構設計時,只需設計一套系統,無需熟悉多款產品,從而大大縮短了業務上線周期。

展望AI時代的數據平臺架構

圖片

前文中介紹了云器Lakehouse數據平臺架構的一些關鍵特性。綜合來看,組裝式的數據架構會導致數據語義處理不統一、數據倉庫維護不統一,以至增加了數據開發和維護的成本。異構存儲和多套元數據的存在,導致了大量計算和存儲資源的冗余。此外,數據架構的復雜性使得在增加新的業務場景時,需要涉及到多個數據庫或其他數據類產品的變動。

云器Lakehouse提供了一體化的數據架構解決方案,其底層是湖倉一體的架構,以統一的元數據和統一的數據管理作為基礎,在此之上,采用單一引擎(single engine)的方式來支持不同場景下的數據變化和數據處理需求,包括批處理計算、流處理計算、交互式檢索以及點查詢等場景。

為了面向 AI 和機器學習的未來處理需求,該架構設計允許多種引擎直接集成進來,共同完成 AI 的處理、訓練和服務。

從實時數倉到Lakehouse

圖片

展望未來,尤其是在 AI 時代,單純從數據處理角度來考慮數據平臺建設是不夠的。業務創新需要更實時、更智能、更普惠的數據分析能力,需要新型的數據倉庫模式的支持。新型數據倉庫模式包括一體化的數據倉庫,支持 Schema Evolution 演進、自動刷新,以及結構化數據和非結構化數據的統一管理。

從實時數倉到 Lakehouse ,保持不變的是,在 BI 方向上引入更多交互和場景化,實現更貼合業務高峰和低谷的資源供給,進一步 SaaS 化,從而降低成本;實現全鏈路實時化的同時保持成本可控,實現實時性和成本的平衡,實現一個低成本、全鏈路實時化的數據架構;另外,追求一體化、精簡的數據倉庫,從而將更多資源和能力投入在業務創新上。

變化的部分則包括,大語言模型將逐步深入企業應用,而 AI 相關應用需要全新的數據基礎設施,AI infra 將從自行組裝轉變為依靠全托管平臺。從數據管理和組織的角度來看,湖倉一體技術能夠讓管理更加一致化、多元化,同時管理結構化數據、非結構化數據、文本數據、 JSON 數據和圖片數據。數據平臺本身的技術也將借助智能化方式加速發展和迭代,如何利用 AI 迭代數據平臺技術,也是云器重點研究的方向之一。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/37070.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/37070.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/37070.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【打工日常】docker部署一個開源、跨平臺、又低資源運行的監控平臺

一、項目介紹1.項目簡述Netdata是一個開源、跨平臺、又低資源運行的監控平臺。Netdata每秒收集指標,并將它們呈現在漂亮的低延遲儀表板中。它旨在在所有物理和虛擬服務器、云部署、Kubernetes集群和邊緣/IoT設備上運行,以監控您的系統、容器和應用程序。2.項目功能收集數據:…

Matlab中數組詳解

在MATLAB中,數組是最基本的數據類型,幾乎所有的數據運算都涉及數組操作。下面是對MATLAB中數組的詳細解釋和操作示例: 數組的創建 一維數組(向量): 行向量:用方括號 [ ] 包含元素,元…

git log 過濾

git log命令主要用于查看Git版本演變歷史(也就是提交歷史),同時根據追加的參數和選項不同,也會有不同的展示效果。 git log命令說明 git log官方文檔說明 git log用于查詢版本的歷史,命令形式如下: git…

嵌入式linux系統中面試過程經驗分享

大家好,今天主要給分享一下,如何在面試中介紹自己的項目經驗,希望對大家有所幫助。 在面試時,經過寒暄后,一般面試官會讓介紹項目經驗。常見的問法是,說下你最近的(或最拿得出手的)一個項目。 根據我們的面試經驗,發現有不少候選人對此沒準備,說起來磕磕巴巴,甚…

vscode在windows系統上進行C/C++環境配置

隨手筆記前言 vscode在windows系統上進行C/C環境配置 步驟如下 第一步 下載安裝VSCode 這應該是最簡單的一步,相信大家自己就可以完成。如果在vscode官網感覺下載特別慢的話,可以去試一下騰訊軟件中心,我都是在這個網頁上下載的。下載好之…

26、 MySQL數據庫基礎練習系列股票交易系統基礎查詢和復雜查詢

5、基礎查詢 -- 1、查詢用戶信息僅顯示姓名與手機號 SELECT username as 姓名,phone as 手機號 from users;-- 2、模糊查詢和explain語句 alter table stocks add index stock_name_index(stock_name); explain SELECT * from stocks where stock_name like %東吳證券%; -- 3、…

【AIGC X UML 落地】從UML語句到UML圖形的生成,來看Agent插件的制作

上篇我們講到如何通過多智能體實現自然語言繪制UML圖。 沒有看過的,可以去看下原文:《【AIGC X UML 落地】通過多智能體實現自然語言繪制UML圖》 其中有一個實現重點,就是如何將 PlantUML 語句生成 UML 圖片。在這里筆者是通過自定義 Agent 插件來實現這一流程。 本文,就此…

面試-javaIO機制

1.BIO BIO:是傳統的javaIO以及部分java.net下部分接口和類。例如,socket,http等,因為網絡通信同樣是IO行為。傳統IO基于字節流和字符流進行操作。提供了我們最熟悉的IO功能,譬如基于字節流的InputStream 和OutputStream.基于字符流…

Vue 項目運行時,報錯Error: Cannot find module ‘node:path‘

Vue 項目運行時,報錯Error: Cannot find module ‘node:path’ internal/modules/cjs/loader.js:883throw err;^Error: Cannot find module node:path Require stack: - D:\nodejs\node_modules\npm\node_modules\node_modules\npm\lib\cli.js - D:\nodejs\node_mo…

問題解決:python安裝依賴時網絡問題報錯

進行 pip install 時,安裝輪子訪問過慢而造成安裝失敗,有時候配置鏡像源仍會出現莫名其妙的問題,包括網絡代理問題等。看了一些解決方案,找出了一個最適合的方式,如下所示: pip install -i https://pypi.t…

linux 離線安裝docker

測試服務器:銀河麒麟V10 x86_64 注意:推薦使用國內的鏡像站下載,因為官網不掛梯子無法訪問,我用的是清華大學開源軟件鏡像站 一、下載離線包: 官網下載docker離線包 下載地址:https://download.docker.c…

使用VisualStudio2022制作安裝包

總體介紹 解決方案里面需要有三個項目: Winform程序, Setup Project , 自定義配置項目(安裝程序類) 1, Winform程序 就是你要打包的程序 2, Setup Project 就是制作安裝包的 3, 自定義配置項目(安裝程序類): 一個命令行項目里面只有一個安裝程序類,用來控制安裝后自動打開程序…

Windows USB設備驅動開發 - 常見概念的解釋

我們聽到許多 USB 術語幾乎交替拋出。 它們都是什么意思?假設我們看到類似 “多虧了 USB 3.0,我可以將 SuperSpeed U 盤連接到電腦的 xHCI 主機控制器,并更快地復制文件。” 讓我們了解該句子中的 USB 術語。 USB 3.0、USB 2.0 和 USB 1.0 請…

Winform 樹形控件的開發實戰

在Windows Forms(WinForms)開發中,樹形控件(TreeView)是非常常用的一種控件,用于展示層級結構的數據,如文件系統、組織結構、菜單等。下面,我將通過一個實戰示例,向你展示如何在WinForms中開發和…

計網實訓——不相同網段的PC相互通信

目錄 提前準備APP路由器指令 實驗一1、實驗需求(1)實現同網段的PC相互通信。(2)實現不相同網段的PC相互通信。(3)分析相同和不同網段PC通信時MAC地址的變化。 2、實驗拓撲3、實驗步驟及實驗截圖&#xff08…

rk3588 debian系統配置AP6275S ap模式

rk3588 debian配置AP6275S ap模式 文章目錄 rk3588 debian配置AP6275S ap模式前言一、內置開啟ap模式的系統工具1.1、內置hostapd工具1.2、內置dhcp工具二、熱點配置2.1、 /etc/hostapd/hostapd.conf 配置2.2、/etc/dhcp/dhcpd.conf 配置三、測試3.1、運行dhcpd3.2、運行hostap…

[數據結構】——七種常見排序

文章目錄 前言 一.冒泡排序二.選擇排序三.插入排序四.希爾排序五.堆排序六.快速排序hoare挖坑法前后指針快排遞歸實現:快排非遞歸實現: 七、歸并排序歸并遞歸實現:歸并非遞歸實現: 八、各個排序的對比圖 前言 排序:所謂…

uni-app 微信小程序開發到發布流程

1. uni-app 微信小程序開發到發布流程 1.1. 新建一個uni-app 項目 1.2. 發行微信小程序 1.3. 微信開發者平臺的微信小程序appid 復制進來(點擊發行) 1.4. IDE may already started at port xxxx, trying to connect (1)關閉微信…

小白上手AIGC-基于FC部署stable-diffusion

AIGC AIGC(人工智能創造內容)作為一種基于人工智能技術生成內容的新型創作模式。打破了過去大家對于AI的理解都是說只能涉足部分領域而無法涉足藝術或者是其他的創作領域的定律,現在的AIGC也能夠創作內容了,而不再只是單純的返回…

動手學深度學習(Pytorch版)代碼實踐 -計算機視覺-45多尺度目標檢測

45多尺度目標檢測 # 多尺度錨框 """ 減少圖像上的錨框數量并不困難。 比如,我們可以在輸入圖像中均勻采樣一小部分像素, 并以它們為中心生成錨框。 此外,在不同尺度下,我們可以生成不同數量和不同大小的錨框。 直…