Starrocks 對比 Clickhouse

極速查詢的單表查詢

StarRocks 在極速查詢方面上做了很多,下面著重介紹四點:
1)向量化執行:StarRocks 實現了從存儲層到查詢層的全面向量化執行,這是 StarRocks 速度優勢的基礎。向量化執行充分發揮了 CPU 的處理能力。
全面向量化引擎按照列式的方式組織和處理數據。StarRocks 的數據存儲、內存中數據的組織方式,以及 SQL 算子的計算方式,都是列式實現的。按列的數據組織也會更加充分利用 CPU 的 Cache,按列計算會有更少的虛函數調用以及更少的分支判斷,從而獲得更加充分的 CPU 指令流水。
另一方面,StarRocks 的全面向量化引擎通過向量化算法充分利用了 CPU 提供的 SIMD 指令。這樣 StarRocks 可以用更少的指令數目,完成更多的數據操作。經過標準測試集的驗證,StarRocks 的全面向量化引擎可以將執行算子的性能,整體提升 3-10 倍。
2)物化視圖加速查詢:在實際分析場景中,我們經常遇到分析百億級大表的情況。盡管 StarRocks 性能優異,但數據量過大對查詢速度還是有影響,此時在用戶經常聚合的維度加上物化視圖,在不改變查詢語句的情況下查詢速度能提升 10 倍以上。StarRocks 智能化的物化視圖可以讓請求自動匹配視圖,無需手動查詢視圖。
3)CBO:CBO 優化器(Cost-based Optimizer ) 采用 Cascades 框架,使用多種統計信息來完善成本估算,同時補充邏輯轉換(Transformation Rule)和物理實現(Implementation Rule)規則,能夠在數萬級別執行計劃的搜索空間中,選擇成本最低的最優執行計劃。
4)自適應低基數優化:StarRocks 可以自適應地根據數據分布,對低基數的字符串類型的列構建一張全局字典,用 Int 類型做存儲和查詢,使得內存開銷更小,有利于 SIMD 指令執行,加快了查詢速度。ClickHouse 也有低基數優化,只是在建表時候需要聲明,使用起來會麻煩一些。

極速的多表關聯

在實時數據分析場景中只滿足單表極速查詢是不夠的。為了加速查詢速度,業內習慣于把多張表打成一張大寬表,大寬表雖速度快,但是帶來的問題是極其不靈活,實時數據加工層是用 Flink 將多表 Join 成一張表寫入大寬表。
當業務方想修改或增加分析維度時,往往數據開發周期過長,數據加工完成后發現已經錯過了分析最佳時機。因此就需要更靈活的數據模型,把大寬表模式退歸回星型模型或者雪花模型是比較理想的方法。
在此場景下,查詢引擎對多表數據關聯查詢的性能成了關鍵,以往 ClickHouse 以大寬表為主,多表聯查情況下無法保證查詢相應時間,甚至有很大幾率出現 OOM。StarRocks 很好解決了這個問題,大表 Join 性能提升 3-5 倍以上,成為星型模型分析利器。CBO 是多表關聯極致性能關鍵,同時 StarRocks 支持 Broadcost Join、Shuffle Join、Bucket shuffle Join、Colocated Join、Replicated Join 等多種 Join 方式,CBO 可以智能地選擇 Join 順序和 Join 方式。

參考
京東物流 × StarRocks : 打造服務分析一體化平臺Udata

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/69230.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/69230.shtml
英文地址,請注明出處:http://en.pswp.cn/web/69230.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Vue 入門到實戰 八

第8章 組合API與響應性 目錄 8.1 響應性 8.1.1 什么是響應性 8.1.2 響應性原理 8.2 為什么使用組合API 8.3 setup組件選項 8.3.1 setup函數的參數 8.3.2 setup函數的返回值 8.3.3 使用ref創建響應式引用 8.3.4 setup內部調用生命周期鉤子函數 8.4 提供/注入 8.4.1 …

Java使用aspose實現pdf轉word

Java使用aspose實現pdf轉word 一、下載aspose-pdf-21.6.jar包【下載地址】&#xff0c;存放目錄結構如圖&#xff1b;配置pom.xml。 <!--pdf to word--> <dependency><groupId>com.aspose</groupId><artifactId>aspose-pdf</artifactId>…

使用Node.js搭配express框架快速構建后端業務接口模塊Demo

使用Node.js搭配express框架快速構建后端業務接口模塊Demo&#xff01;實際開發中&#xff0c;有很多項目&#xff0c;其實都是可以使用node.js來完成對接mysql數據庫的&#xff0c;express確實使用起來非常簡單&#xff0c;入手快&#xff0c;效率非常高。下面是一個簡單的案例…

Python----Python高級(并發編程:協程Coroutines,事件循環,Task對象,協程間通信,協程同步,將協程分布到線程池/進程池中)

一、協程 1.1、協程 協程&#xff0c;Coroutines&#xff0c;也叫作纖程(Fiber) 協程&#xff0c;全稱是“協同程序”&#xff0c;用來實現任務協作。是一種在線程中&#xff0c;比線程更加輕量級的存在&#xff0c;由程序員自己寫程序來管理。 當出現IO阻塞時&#xff0c;…

Unity 加載OSGB(webgl直接加載,無需轉換格式!)

Unity webgl加載傾斜攝影數據 前言效果圖后續不足 前言 Unity加載傾斜攝影數據&#xff0c;有很多的插件方便好用&#xff0c;但是發布到網頁端均失敗&#xff0c;因為webgl 的限制&#xff0c;IO讀取失效。 前不久發現一個開源項目: UnityOSGB-main 通過兩種方式在 Unity 中…

【Block總結】PSA,金字塔擠壓注意力,解決傳統注意力機制在捕獲多尺度特征時的局限性

論文信息 標題: EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network論文鏈接: arXivGitHub鏈接: https://github.com/murufeng/EPSANet 創新點 EPSANet提出了一種新穎的金字塔擠壓注意力&#xff08;PSA&#xff09;模塊&#xff0c;旨…

【重新認識C語言----結構體篇】

目錄 -----------------------------------------begin------------------------------------- 引言 1. 結構體的基本概念 1.1 為什么需要結構體&#xff1f; 1.2 結構體的定義 2. 結構體變量的聲明與初始化 2.1 聲明結構體變量 2.2 初始化結構體變量 3. 結構體成員的訪…

如何在Vscode中接入Deepseek

一、獲取Deepseek APIKEY 首先&#xff0c;登錄Deepseek官網的開放平臺&#xff1a;DeepSeek 選擇API開放平臺&#xff0c;然后登錄Deepseek后臺。 點擊左側菜單欄“API keys”&#xff0c;并創建API key。 需要注意的是&#xff0c;生成API key復制保存到本地&#xff0c;丟失…

電腦開機提示按f1原因分析及終極解決方法來了

經常有網友問到一個問題&#xff0c;我電腦開機后提示按f1怎么解決&#xff1f;不管理是臺式電腦&#xff0c;還是筆記本&#xff0c;都有可能會遇到開機需要按F1&#xff0c;才能進入系統的問題&#xff0c;引起這個問題的原因比較多&#xff0c;今天小編在這里給大家列舉了比…

AI協助探索AI新構型自動化創新的技術實現

一、AI自進化架構的核心范式 1. 元代碼生成與模塊化重構 - 代碼級自編程&#xff1a;基于神經架構搜索的強化學習框架&#xff0c;AI可通過生成元代碼模板&#xff08;框架的抽象層定義、神經元結點-網絡拓撲態的編碼抽象定義&#xff09;自動組合功能模塊。例如&#xff0…

RAID獨立硬盤冗余陣列

目錄 一、RAID基本功能 二、RAID常見級別 三、實現方式 1、軟件磁盤陣列 2、硬件磁盤陣列 四、熱備盤 RAID&#xff08;Redundant Array of Independent Disks&#xff09;是一種通過將多個硬盤組合成一個邏輯單元來提升存儲性能、冗余性或兩者兼具的技術。 一、RAID基本…

【高級篇 / IPv6】(7.2) ? 04. 在60E上配置ADSL撥號寬帶上網(IPv4) ? FortiGate 防火墻

【簡介】除了單位用戶以外&#xff0c;大部分個人用戶目前使用的仍然是30E、50E、60E系列防火墻&#xff0c;固件無法達到目前最高版本7.6&#xff0c;這里以最常用的60E為例&#xff0c;演示固件版本7.2下實現ADSL撥號寬帶的IPv6上網。由于內容比較多&#xff0c;文章分上、下…

Qt之設置QToolBar上的按鈕樣式

通常給QAction設置icon后,菜單欄的菜單項和工具欄(QToolBar)上對應的按鈕會同時顯示該icon。工具欄還可以使用setToolButtonStyle函數設置按鈕樣式,其參數為枚舉值: enum ToolButtonStyle {ToolButtonIconOnly,ToolButtonTextOnly,ToolButtonTextBesideIcon,ToolButtonTe…

【從零開始系列】DeepSeek-R1:(本地部署使用)思維鏈推理大模型,開源的神!——Windows/Linux本地環境測試 + vLLM遠程部署服務

目錄 一、環境配置 1.硬件設備評估 2.基礎環境安裝 3.模型參數下載 (1) huggingface鏡像源下載 (2) modelscope魔搭社區下載 &#xff08;推薦&#xff09; 二、基礎使用&#xff08;Linux、Window兼容&#xff09; 1.Transformers庫自編代碼 三、進階使用&#xff08;僅Lin…

DeepSeek 開源模型全解析(2024.1.1–2025.2.6)

目錄 一、通用大語言模型&#xff1a;DeepSeek-V3 系列 137 二、推理優化模型&#xff1a;DeepSeek-R1 系列 811 三、多模態模型&#xff1a;Janus 系列 10 四、生態整合與部署建議 五、總結與展望 以下為 DeepSeek 在 2024 年 1 月至 2025 年 2 月期間發布的開源模型及其…

Mac: docker安裝以后報錯Command not found: docker

文章目錄 前言解決辦法&#xff08;新的&#xff09;解決步驟&#xff08;原來的&#xff09;不推薦總結 前言 ?本操作參考 http://blog.csdn.net/enhenglhm/article/details/137955756 原作者&#xff0c;更詳細請&#xff0c;查看詳細內容請關注原作者。 一般&#xff0c;…

《手札·開源篇》數字化轉型助力永磁電機企業降本增效:快速設計軟件如何讓研發效率提升40%?

數字化轉型助力永磁電機企業降本增效&#xff1a;快速設計軟件如何讓研發效率提升40%&#xff1f; 一、痛點&#xff1a;傳統研發模式正在吃掉企業的利潤 永磁電機行業面臨兩大挑戰&#xff1a; 研發周期長&#xff1a;一款新電機從設計到量產需6-12個月&#xff0c;電磁計算…

0207作業

思維導圖 服務器 enum Type{TYPE_REGIST,TYPE_LOGIN };typedef struct Pack{int size;enum Type type;char buf[2048];}pack_t;typedef struct list{union Data{struct List* tail;char str[64];}data;struct List* next;struct List* prev; }List;List* create_node(){List* …

深入淺出 DeepSeek V2 高效的MoE語言模型

今天&#xff0c;我們來聊聊 DeepSeek V2 高效的 MoE 語言模型&#xff0c;帶大家一起深入理解這篇論文的精髓&#xff0c;同時&#xff0c;告訴大家如何將這些概念應用到實際中。 &#x1f31f; 什么是 MoE&#xff1f;——Mixture of Experts&#xff08;專家混合模型&#x…

RabbitMQ 從入門到精通:從工作模式到集群部署實戰(五)

#作者&#xff1a;閆乾苓 系列前幾篇&#xff1a; 《RabbitMQ 從入門到精通&#xff1a;從工作模式到集群部署實戰&#xff08;一&#xff09;》&#xff1a;link 《RabbitMQ 從入門到精通&#xff1a;從工作模式到集群部署實戰&#xff08;二&#xff09;》&#xff1a; lin…