新一代湖倉集存儲,多模型統一架構,高效挖掘數據價值

星環科技TDH一直致力于給用戶帶來高性能、高可靠的一站式大數據基礎平臺,滿足對海量數據的存儲和復雜業務的處理需求。

同時在易用性方面持續深耕,降低用戶開發和運維成本,讓數據處理平民化,助力用戶以更便捷、高效的方式去挖掘數據價值。

基于這樣的宗旨,星環科技TDH正式發布了9.3版本。

推出了新一代湖倉集存儲格式Holodesk,一份數據滿足數據湖的離線實時接入、數倉的復雜加工以及數據集市的分析需求。

避免數據冗余,減少數據流轉,提升業務綜合性能與時效性。

同時,分布式計算引擎實現了向量化升級,綜合性能大幅度提升。

此外,TDH 9.3對多模型統一技術架構進行了迭代升級,全新發布分布式向量數據庫Transwarp Hippo。

共支持11種模型數據統一存儲管理,用統一查詢處理語言完成跨模型數據流轉與關聯分析,讓業務開發更加便捷。

新一代湖倉集一體架構

打破湖倉集邊界

傳統湖倉集混合架構,需要部署多個平臺進行數據存儲,造成數據冗余和存儲資源浪費。

其次,數據需要跨平臺ETL流轉,流轉開銷高,時效性較差。數據跨平臺流轉中還容易導致不?致,影響業務正確性。

此外,多平臺的開發標準不一致,存在一定的技術門檻,權限管理復雜。

當需要跨層數據時,嚴重依賴其他部門的數據?程師、數據科學家來加?數據,對數據分析師來說,數據分析探索的效率大大降低。

TDH9.3 打破數據湖、數據倉庫、數據集市的邊界,基于湖倉集一體平臺,所有人都可以訪問實時的數據、歷史的數據、原始的數據、加工過的數據。

如業務分析師可以直接訪問最原始的數據,數據工程師可以更高效地建模,數據科學家可以橫跨不同的數據源進行數據分析和挖掘。

基于TDH9.3湖倉集一體架構,各種類型的數據通過數據集成工具,通過離線或者實時的方式加載到TDH中,結構化數據統?由Holodesk來承載湖倉集的存儲。

通過統?SQL引擎和統?計算引擎,實現湖倉集數據的統?處理、查詢、加工,支撐多種應?場景。

配合統?的運維、審計、權限、告警等功能實現平臺的統?管理,避免重復建設。

一種存儲格式,滿足湖倉集關系型數據存儲需求

TDH 9.3將之前的?性能存儲格式Holodesk進行了重構,只需一個存儲格式即可同時滿足湖倉集的數據接入、數倉加工和高性能數據分析。

在全新的存儲引擎下,可以將湖倉集的所有數據都放在統一的存儲格式里,不需要針對不同的建設去使用不同的存儲引擎。

能夠同時?持離線批量數據和實時數據的接入,同時也支持高性能的模型加工、批處理、在線分析等計算需求。

相比ORC,更多功能、更高性能?相比于之前版本的ORC事務表,TDH9.3的Holodesk具有更多的功能和更高的性能。

  • 無需手工分桶:ORC事務表需要手動分桶,對開發和運維人員是非常大的挑戰。TDH9.3 Holodesk不需要手動分桶,存儲引擎自動做數據切片和分布式,用戶無需關注分桶數,大幅簡化了建表流程和成本。
  • 非分桶文件自動合并:Holodesk具有更靈活,更多策略的文件管理系統,自動將任意的非分桶文件按照合適的大小進行合并,避免桶文件過大或過小的情況,減少運維上的投入。
  • 高頻實時數據寫入:實時場景下,Holodesk支持實時流計算引擎Slipstream的實時數據寫入和Batch Insert批量寫入,滿足數據湖的實時數據接入需求。
  • 性能數倍提升:Holodesk的IO性能是ORC事務表的10倍以上,在TPC-DS 1TB數據集測試中,相?于ORC事務表,TDH 9.3 Holodesk的性能提升了3倍。

相比開源湖倉,創新技術降本增效?相比于開源湖倉技術,如Hudi / Iceberg等,TDH湖倉集一體在多項技術方面實現了提升和創新,幫助用戶降低開發運維成本,提高開發分析效率,提升數據處理分析性能。

  • 四種事務隔離級別:開源湖倉技術一般是基于快照的事務隔離,而TDH支持完整四種事務隔離級別,特別是在復雜的高并發比數倉業務場景下,用戶可以根據業務需求調整事務隔離級別,滿足不同事務處理的要求。
  • 小文件靈活、自動合并:開源湖倉技術小文件需要手工合并管理,需要通過代碼來調?,維護成本較?。TDH具備靈活的多策略、獨?資源來自動合并小文件,維護成本更低,讀取性能更好。
  • 實時數據快速讀寫:開源湖倉技術的實時數據寫入基于Merge on Read,雖然寫得快,但讀起來很慢。TDH9.3優化了實時數據寫入的合并邏輯,避免大量文件在讀時再合并,實現寫快讀快,具有更好的分析和加工性能。
  • 無需流轉,湖倉集一體化存儲:開源湖倉技術在集市分析場景下需要流轉到外部分析引擎中,而基于TDH9.3的湖倉集一體架構,實現了湖倉集統一存儲格式,數據?體化存儲不冗余,也無額外數據流轉開銷,整體系統復雜度更低,綜合時效性和性能更強。

向量化計算引擎升級,引入CodeGen技術

TDH9.3在存儲升級的同時,向量化計算引擎引入了CodeGen代碼生成技術,將復雜的、高開銷的算?代碼?成為能更?效調?GPU指令集的Native Code。生成的Native Code邏輯更簡單。

避免了多余的運算和函數調?,運?更?效,同時Native引擎也不會GC(垃圾回收),避免因GC導致性能降低。

綜合性能大幅提升,再破TPC性能巔峰

TDH是全球首個通過TPC-DS基準測試并經官方審計的產品,此次存儲和計算引擎的雙重升級,在TPC標準測試集中,TDH再?次突破了TPC-DS、TPC-BB、TPCx-HS 3個測試集的性能。

  • 在TPC-DS 10TB測試集中,TDH?當前公開的最好成績,性能提升了27%。
  • 在TPC-BB 3T測試集中,TDH是當前公開的最好成績的2倍,同時系統成本降低了67%。
  • 在TPC-HS 3T測試集中,TDH比當前公開的最好成績,性能提升3%,同時系統成本降低了69%。

此外,經過很多實際業務的驗證,通過將CDH業務遷到TDH上,簡單的業務加工性能是CDH的1.26倍,復雜業務加工是2.69倍,并發跑批是2倍,業務查詢是1.66倍。而在替換開源數據庫GP后,TDH在復雜分析上基本上能實現4-9倍的性能提升。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/713370.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/713370.shtml
英文地址,請注明出處:http://en.pswp.cn/news/713370.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[多媒體服務器] 通過nginx搭建 rtmp/hls/dash 媒體服務器,支持點播和直播

參考: How To Set Up a Video Streaming Server using Nginx-RTMP on Ubuntu 20.04 | DigitalOcean 用到的工具: nginx,nginx rtmp插件,OBS,ffmpeg,ubuntu,youtube-dl Step1:安裝和…

jmeter如何請求訪問https接口

添加線程組http請求 新建線程組,添加http請求 填入協議,ip,端口,請求類型,路徑,以及請求參數,查看結果樹等。 然后最關鍵的一步來了。 導入證書 步驟:獲取證書,重新生…

基于SSM的高校競賽和考級查詢系統(有報告)。Javaee項目。ssm項目。

演示視頻: 基于SSM的高校競賽和考級查詢系統(有報告)。Javaee項目。ssm項目。 項目介紹: 采用M(model)V(view)C(controller)三層體系結構,通過Sp…

Java中的動態代理與Spring AOP編程

第一章:引言 大家好,我是小黑,在Java里,動態代理和Spring AOP(面向切面編程)是兩個能讓代碼更加靈活、更加干凈的強大工具。作為一名Java程序員,小黑覺得掌握它們對于寫出高質量的代碼來說非常…

Property ‘glob‘ does not exist on type ‘ImportMeta‘

參考文章: vite導入文件,Property ‘globEager‘ does not exist on type ‘ImportMeta‘

通過GitHub探索Python爬蟲技術

1.檢索爬取內容案例。 2.找到最近更新的。(最新一般都可以直接運行) 3.選擇適合自己的項目,目前測試下面畫紅圈的是可行的。 4.方便大家查看就把代碼粘貼出來了。 #圖中畫圈一代碼 import requests import os import rewhile True:music_id input("請輸入歌曲…

IDEA創建SpringMVC項目沒有java和resources

跟著一些教程創建SpringMVC項目,完了之后沒有java和resources兩個文件夾,他們教程讓我們自己新建(感覺不是很科學啊,為什么必須自己建,生成的就沒有呢) 分享一下新建的方法 在src-main目錄下右鍵new—>D…

鴻蒙Harmony應用開發—ArkTS聲明式開發(通用屬性:位置設置)

設置組件的對齊方式、布局方向和顯示位置。 說明: 從API Version 7開始支持。后續版本如有新增內容,則采用上角標單獨標記該內容的起始版本。 align align(value: Alignment) 設置容器元素繪制區域內的子元素的對齊方式。 卡片能力: 從API…

收盤價時空模式挖掘與多股票走勢聚類分析:探索市場行為共性

收盤價時空模式挖掘與多股走勢聚類分析:探索市場行為共性 一.版本信息二.操作步驟1.下載各股歷史交易數據A.代碼(download_stocks.py)B.執行2.遍歷各股的csv文件,提取收盤價數據,歸一化,繪制曲線,保存圖片A.代碼B.執行3.用上面的圖片集訓練VAE模型A.代碼B.執行4.用上面訓出的V…

【遠程開發調試】Pycharm或Webstorm使用遠程服務器調試開發

Pycharm如何使用遠程服務器環境進行開發_pycharm使用服務器環境-CSDN博客 Pycharm配置遠程調試_pycharm 遠程調試-CSDN博客

langchain學習筆記(八)

RunnableLambda: Run Custom Functions | 🦜?🔗 Langchain 可以在pipeline中使用任意函數,但要注意所有的輸入都只能是“1”個參數,當函數需要多個參數時需要采用字典來包裝 itemgetter用法見langchain學習筆記(六&…

【系統分析師】-系統配置與性能評價

1、性能指標 主頻:又稱時鐘頻率,1GHZ表示1秒有1G個時鐘周期 1s10^9ns 主頻外頻 * 倍頻 時鐘周期 主頻的倒數指令周期:取出并執行一條指令的時間 總線周期:一個訪存儲器或IO操作所用時間平均執行周期數:CPI表示…

【學習心得】網絡中常見數據格式(爬蟲入門知識)

在爬蟲爬取數據的之前,必須先系統的了解一下我們待爬取的數據有哪些格式,這樣做的好處在與能針對不同的數據類型采取不同分方法手段。 一、XML XML(Extensible Markup Language)是一種可擴展的標記語言,它定義了一套標…

如何解決幻獸帕魯/Palworld服務器聯機游戲時的丟包問題?

如何解決幻獸帕魯/Palworld服務器聯機游戲時的丟包問題? 等待服務器維護:首先,確保網絡連接穩定,然后查看游戲官方或社區論壇,了解是否有服務器維護的消息。這是解決丟包問題的一種直接且有效的方法。 更新顯卡驅動&a…

Siemens-NXUG二次開發-獲取prt中體與類型、實體面與類型、實體邊與類型、邊上點的Tag標識[Python UF][20240302]

Siemens-NXUG二次開發-獲取prt中體與類型、實體面與類型、實體邊與類型、邊上點的Tag標識[Python UF][20240302] 1.python uf函數1.1 NXOpen.UF.Obj.CycleObjsInPart1.2 NXOpen.UF.Obj.AskTypeAndSubtype1.3 NXOpen.UF.Modeling.AskBodyFaces1.4 NXOpen.UF.Modeling.AskFaceEdg…

RISC-V特權架構 - 機器模式下的異常處理

RISC-V特權架構 - 機器模式下的異常處理 1 進入異常1.1 從mtvec 定義的PC 地址開始執行1.2 更新CSR 寄存器mcause1.3 更新CSR 寄存器mepc1.4 更新CSR 寄存器mtval1.5 更新CSR 寄存器mstatus 2 退出異常2.1 從mepc 定義的PC 地址開始執行2.2 更新CSR 寄存器mstatus 3 異常服務程…

Android Tombstone 分析

1.什么是tombstone Tombstone是指在分布式系統中用于標記數據已被刪除的記錄,通常包含刪除操作的時間戳和相關信息。 當一個動態庫(native程序)開始執行時,系統會注冊一些連接到 debuggerd 的signal handlers。當系統發生崩潰時…

wpa_supplicant與用戶態程序的交互分析

1 wpa_supplicant與用戶態程序wpa_cli的交互過程 1.1 交互接口類型 wpa_supplicant與用戶態程序交互的主要接口包括以下幾種: 1)命令行界面:通過命令行工具 wpa_cli 可以與 wpa_supplicant 進行交互。wpa_cli 允許用戶執行各種 wpa_suppli…

Spark Shuffle Tracking 原理分析

Shuffle Tracking Shuffle Tracking 是 Spark 在沒有 ESS(External Shuffle Service)情況,并且開啟 Dynamic Allocation 的重要功能。如在 K8S 上運行 spark 沒有 ESS。本文檔所有的前提都是基于以上條件的。 如果開啟了 ESS,那么 Executor 計算完后&a…