星環科技TDH一直致力于給用戶帶來高性能、高可靠的一站式大數據基礎平臺,滿足對海量數據的存儲和復雜業務的處理需求。
同時在易用性方面持續深耕,降低用戶開發和運維成本,讓數據處理平民化,助力用戶以更便捷、高效的方式去挖掘數據價值。
基于這樣的宗旨,星環科技TDH正式發布了9.3版本。
推出了新一代湖倉集存儲格式Holodesk,一份數據滿足數據湖的離線實時接入、數倉的復雜加工以及數據集市的分析需求。
避免數據冗余,減少數據流轉,提升業務綜合性能與時效性。
同時,分布式計算引擎實現了向量化升級,綜合性能大幅度提升。
此外,TDH 9.3對多模型統一技術架構進行了迭代升級,全新發布分布式向量數據庫Transwarp Hippo。
共支持11種模型數據統一存儲管理,用統一查詢處理語言完成跨模型數據流轉與關聯分析,讓業務開發更加便捷。
新一代湖倉集一體架構
打破湖倉集邊界
傳統湖倉集混合架構,需要部署多個平臺進行數據存儲,造成數據冗余和存儲資源浪費。
其次,數據需要跨平臺ETL流轉,流轉開銷高,時效性較差。數據跨平臺流轉中還容易導致不?致,影響業務正確性。
此外,多平臺的開發標準不一致,存在一定的技術門檻,權限管理復雜。
當需要跨層數據時,嚴重依賴其他部門的數據?程師、數據科學家來加?數據,對數據分析師來說,數據分析探索的效率大大降低。
TDH9.3 打破數據湖、數據倉庫、數據集市的邊界,基于湖倉集一體平臺,所有人都可以訪問實時的數據、歷史的數據、原始的數據、加工過的數據。
如業務分析師可以直接訪問最原始的數據,數據工程師可以更高效地建模,數據科學家可以橫跨不同的數據源進行數據分析和挖掘。
基于TDH9.3湖倉集一體架構,各種類型的數據通過數據集成工具,通過離線或者實時的方式加載到TDH中,結構化數據統?由Holodesk來承載湖倉集的存儲。
通過統?SQL引擎和統?計算引擎,實現湖倉集數據的統?處理、查詢、加工,支撐多種應?場景。
配合統?的運維、審計、權限、告警等功能實現平臺的統?管理,避免重復建設。
一種存儲格式,滿足湖倉集關系型數據存儲需求
TDH 9.3將之前的?性能存儲格式Holodesk進行了重構,只需一個存儲格式即可同時滿足湖倉集的數據接入、數倉加工和高性能數據分析。
在全新的存儲引擎下,可以將湖倉集的所有數據都放在統一的存儲格式里,不需要針對不同的建設去使用不同的存儲引擎。
能夠同時?持離線批量數據和實時數據的接入,同時也支持高性能的模型加工、批處理、在線分析等計算需求。
相比ORC,更多功能、更高性能?相比于之前版本的ORC事務表,TDH9.3的Holodesk具有更多的功能和更高的性能。
- 無需手工分桶:ORC事務表需要手動分桶,對開發和運維人員是非常大的挑戰。TDH9.3 Holodesk不需要手動分桶,存儲引擎自動做數據切片和分布式,用戶無需關注分桶數,大幅簡化了建表流程和成本。
- 非分桶文件自動合并:Holodesk具有更靈活,更多策略的文件管理系統,自動將任意的非分桶文件按照合適的大小進行合并,避免桶文件過大或過小的情況,減少運維上的投入。
- 高頻實時數據寫入:實時場景下,Holodesk支持實時流計算引擎Slipstream的實時數據寫入和Batch Insert批量寫入,滿足數據湖的實時數據接入需求。
- 性能數倍提升:Holodesk的IO性能是ORC事務表的10倍以上,在TPC-DS 1TB數據集測試中,相?于ORC事務表,TDH 9.3 Holodesk的性能提升了3倍。
相比開源湖倉,創新技術降本增效?相比于開源湖倉技術,如Hudi / Iceberg等,TDH湖倉集一體在多項技術方面實現了提升和創新,幫助用戶降低開發運維成本,提高開發分析效率,提升數據處理分析性能。
- 四種事務隔離級別:開源湖倉技術一般是基于快照的事務隔離,而TDH支持完整四種事務隔離級別,特別是在復雜的高并發比數倉業務場景下,用戶可以根據業務需求調整事務隔離級別,滿足不同事務處理的要求。
- 小文件靈活、自動合并:開源湖倉技術小文件需要手工合并管理,需要通過代碼來調?,維護成本較?。TDH具備靈活的多策略、獨?資源來自動合并小文件,維護成本更低,讀取性能更好。
- 實時數據快速讀寫:開源湖倉技術的實時數據寫入基于Merge on Read,雖然寫得快,但讀起來很慢。TDH9.3優化了實時數據寫入的合并邏輯,避免大量文件在讀時再合并,實現寫快讀快,具有更好的分析和加工性能。
- 無需流轉,湖倉集一體化存儲:開源湖倉技術在集市分析場景下需要流轉到外部分析引擎中,而基于TDH9.3的湖倉集一體架構,實現了湖倉集統一存儲格式,數據?體化存儲不冗余,也無額外數據流轉開銷,整體系統復雜度更低,綜合時效性和性能更強。
向量化計算引擎升級,引入CodeGen技術
TDH9.3在存儲升級的同時,向量化計算引擎引入了CodeGen代碼生成技術,將復雜的、高開銷的算?代碼?成為能更?效調?GPU指令集的Native Code。生成的Native Code邏輯更簡單。
避免了多余的運算和函數調?,運?更?效,同時Native引擎也不會GC(垃圾回收),避免因GC導致性能降低。
綜合性能大幅提升,再破TPC性能巔峰
TDH是全球首個通過TPC-DS基準測試并經官方審計的產品,此次存儲和計算引擎的雙重升級,在TPC標準測試集中,TDH再?次突破了TPC-DS、TPC-BB、TPCx-HS 3個測試集的性能。
- 在TPC-DS 10TB測試集中,TDH?當前公開的最好成績,性能提升了27%。
- 在TPC-BB 3T測試集中,TDH是當前公開的最好成績的2倍,同時系統成本降低了67%。
- 在TPC-HS 3T測試集中,TDH比當前公開的最好成績,性能提升3%,同時系統成本降低了69%。
此外,經過很多實際業務的驗證,通過將CDH業務遷到TDH上,簡單的業務加工性能是CDH的1.26倍,復雜業務加工是2.69倍,并發跑批是2倍,業務查詢是1.66倍。而在替換開源數據庫GP后,TDH在復雜分析上基本上能實現4-9倍的性能提升。