【StarRocks系列】建表優化

目錄

一、數據模型選擇 (核心優化)

二、分區與分桶策略 (數據分布優化)

三、字段類型與壓縮

四、索引策略

五、高級特性應用

六、建表示例(關鍵優化整合)


參考官網 優化性能 | StarRocks

在 StarRocks 中創建表時,合理的表設計是性能優化的基石。以下是從多個關鍵方向考慮的優化要點:


一、數據模型選擇 (核心優化)

  1. 明細模型 (Duplicate Key)
    • 適用場景:需要保留原始明細數據(如日志、交易流水)、任意維度組合查詢或頻繁更新。
    • 優化點:僅需指定排序列(非唯一),通常選擇常用過濾條件列(如 dt, user_id)。避免過多排序列增加存儲開銷。
  1. 聚合模型 (Aggregate Key)
    • 適用場景:預聚合報表(如 PV、UV、SUM、MAX)。
    • 優化點
      • 精確選擇聚合列和聚合函數(SUMREPLACEMAX等)。
      • 維度列需包含所有可能的查詢分組列。
      • 值列必須是可聚合類型。
  1. 主鍵模型 (Primary Key)
    • 適用場景:實時更新/刪除(如用戶狀態、訂單狀態)。
    • 優化點
      • 主鍵列選擇短且唯一的列(如 order_id),減少內存占用。
      • 啟用 enable_persistent_index 持久化索引提升穩定性。
      • 合理設置 bucket_size(默認 10W)平衡內存與導入性能。

二、分區與分桶策略 (數據分布優化)

  1. 分區 (Partitioning)
    • 目的:剪枝(Pruning),減少掃描數據量。
    • 優化點
      • 時間列分區(如 PARTITION BY RANGE(dt)),適合時序數據。
      • 分區粒度適中:太細(如按秒)導致元數據膨脹;太粗(如按月)降低剪枝效果。
      • 使用動態分區管理(PROPERTIES 中配置自動創建/刪除)。
  1. 分桶 (Bucketing)
    • 目的:數據打散、并行計算優化。
    • 優化點
      • 分桶鍵選擇高基數列(如 user_id, device_id),確保數據均勻分布。
      • 分桶鍵應常作為 JOIN 或 GROUP BY 的 Key
      • 分桶數量
        • 建議 = BE 節點數 × CPU Core × 2(推薦 8-64)。
        • 小表可設置較少桶數(如 8),大表適當增加。
      • 避免使用 Random Distribution(除非明確需要隨機分布)。

三、字段類型與壓縮

  1. 字段類型優化
    • 使用最小適用類型TINYINT 代替 INTVARCHAR(10) 代替 STRING
    • 優先選數值類型(比字符串更快)。
    • 避免過長的 VARCHAR(影響內存和 IO)。
  1. 壓縮算法
    • 默認 LZ4 已足夠高效,通常無需修改。
    • 極高壓縮比場景可測試 Zstandardzstd),但消耗更多 CPU。

四、索引策略

  1. 前綴索引 (Prefix Index)
    • 自動生成:基于排序列的前 36 字節。
    • 優化點:將高頻過濾的短字段(如 user_id)放在排序列最前面。
  1. Bloom Filter 索引
    • 適用場景:高基數列的等值查詢(如 user_id, order_id)。
    • 優化點:在 PROPERTIES 中添加 bloom_filter_columns = "col1,col2"
  1. Bitmap 索引
    • 適用場景:低基數列的等值/IN 查詢(如 gender, city)。
    • 創建語法:INDEX idx_name (col) USING BITMAP

五、高級特性應用

  1. 物化視圖 (Materialized View)
    • 適用場景:加速固定維度的聚合查詢。
    • 優化點:針對高頻復雜查詢創建異步更新的物化視圖。
  1. Colocate Join
    • 適用場景:頻繁大表 JOIN。
    • 優化點
      • 相關表使用相同的分桶鍵和分桶數
      • 創建時指定 colocate_with = "group_name"
  1. 冷熱數據分離
    • 通過 PROPERTIES 指定 SSD/HDD 存儲策略:
PROPERTIES ("storage_medium" = "SSD","storage_cooldown_time" = "2025-01-01 00:00:00"
);

六、建表示例(關鍵優化整合)

CREATE TABLE user_orders (dt DATE NOT NULL,user_id INT NOT NULL,order_id BIGINT NOT NULL,amount DECIMAL(10,2) REPLACE DEFAULT "0"  -- 聚合模型示例
) 
ENGINE=OLAP
PRIMARY KEY (dt, user_id, order_id)  -- 主鍵模型
PARTITION BY RANGE(dt) (START ("2023-01-01") END ("2024-01-01") EVERY (INTERVAL 1 MONTH)
)
DISTRIBUTED BY HASH(user_id) BUCKETS 32  -- 分桶鍵選擇
PROPERTIES ("replication_num" = "3", "bloom_filter_columns" = "order_id,user_id",  -- Bloom Filter"enable_persistent_index" = "true",          -- 主鍵持久化"storage_medium" = "SSD"                     -- 熱數據存SSD
);

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/910372.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/910372.shtml
英文地址,請注明出處:http://en.pswp.cn/news/910372.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

linux-vim編輯器

linux-vim編輯器 前言一、命令模式1. 跳轉功能2. 文本編輯3. 模式切換 二、輸入模式1. 進入輸入模式2. 快捷鍵 三、末行模式1. 進入末行模式2. 文件操作3. 查找與替換4. 行操作 四、替換模式五、可視模式1. 進入可視模式2. 文本操作 六、相關配置 前言 vim - Vi IMproved, a p…

SQL關鍵字三分鐘入門: 表結構管理與分區設計。(ALTER、MODIFY、CHANGE、DEFAULT、VALUES、LESS THAN、RANGE)

前面我們已經學習了如何查詢數據(SELECT)、篩選數據(WHERE)等操作。現在我們要進入數據庫的另一個重要領域 —— 表結構管理與分區設計。 本文帶你快速認識以下關鍵字: ? ALTER? MODIFY? CHANGE? DEFAULT? VALU…

深度剖析:RTTI輕量框架實現原理與架構(C++ 17 高級編程)

🚀 C RTTI反射系統深度設計文檔 🌌 核心架構圖 #mermaid-svg-aWkaWoFklq1ylap6 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-aWkaWoFklq1ylap6 .error-icon{fill:#552222;}#mermaid-svg-a…

03-D3.js SVG text標簽?

Data Visualization D3.js ? SuperHiLearn how to create interactive, engaging experiences using HTML, CSS, SVG and Javascript.https://www.superhi.com/catalog/data-visualization-with-d3 text - SVG:可縮放矢量圖形 | MDNtext元素定義了一個由文字組成…

Python 使用Gitlab Api

代碼 REST API 見自帶幫助文檔 python 安裝python-gitlab pip install --upgrade python-gitlab使用API 參考:https://python-gitlab.readthedocs.io/en/stable/api-usage.html import gitlab# anonymous read-only access for public resources (GitLab.com…

中醫體質識別:理論、方法與應用的簡要綜述

中醫體質識別:理論、方法與應用的簡要綜述 摘要 中醫體質識別是中醫“治未病”及個性化診療的關鍵環節。本文系統闡述中醫體質識別,涵蓋理論基礎、常見體質類型、識別方法、現代技術應用及臨床實踐。中醫體質理論源遠流長,《黃帝內經》奠定…

稀疏表原理及應用場景

1 概述 稀疏表(Sparse Table,ST)是一種用于高效解決 靜態區間查詢(Range Query) 問題的數據結構,主要用于 可重復貢獻問題(Idempotent Range Queries),例如區間最小值&a…

【深度學習與機器學習的區別】從本質到應用的全景對比

目錄 前言 一、三者關系:深度學習是機器學習的子集 1.1 概念關系 1.2 類比理解:動物 vs 哺乳動物 1.3 舉個例子更清楚 1.4 為什么“機器學習 ≠ 深度學習”? 1.5 最容易搞混的地方 二、核心區別總覽(對比表) …

Masscan常用命令詳解

一、工具介紹 Masscan是一款開源、高速的網絡端口掃描工具,設計目標是實現最快的掃描速度。它能夠在極短的時間內完成大規模的網絡掃描,適用于互聯網級別的掃描任務。它采用異步傳輸和自定義TCP/IP協議棧技術,最快可實現每秒160萬數據包的掃…

STM32的內部RC與外部晶振電路

內部RC是“能用”,外部晶振是“用得準”。 一、STM32芯片內部的“晶振電路”是什么? STM32內部確實集成了兩個RC(電阻-電容)振蕩器: HSI(高速內部振蕩器):通常8MHz,精…

為OneCode 開發TRea 開發插件,從環境搭建到生態融合

作為 AI 原生開發環境,TRea 的插件體系支持開發者基于其核心能力(如自然語言代碼生成、AI 代碼分析)進行功能擴展。本文以開發一個 "OneCode 組件生成插件" 為例,詳解如何通過 TRea 開放接口實現自定義功能,…

Spring JDBC配置與講解

目錄 一、Spring JDBC概述1、Spring JDBC需要配置的依賴2、Spring配置項文件配置 二、Spring JDBC的使用1、Spring JDBC的增加操作2、Spring JDBC的修改操作3、Spring JDBC的刪除操作4、Spring JDBC的查詢操作 三、Spring JDBC的事務1、xml的形式進行事務2、Transactional注解 …

【AI智能體】Spring AI MCP 服務常用開發模式實戰詳解

目錄 一、前言 二、MCP 介紹 2.1 MCP是什么 2.2 MCP 核心特點 2.3 Spring AI MCP 介紹 2.3.1 Spring AI MCP架構 2.3.2 Spring AI MCP分層說明 2.4 兩種模式介紹 三、本地開發SSE模式 3.1 搭建mcp-server 3.1.1 導入工程核心依賴 3.1.2 添加配置文件 3.1.3 提供兩個…

OpenStack 入門與實踐

一、云計算概述 1.1 云計算的定義與本質 云計算(Cloud Computing)是一種基于網絡的超級計算模式,它能夠根據用戶的不同需求,動態提供所需的計算資源、存儲資源和網絡資源等。這種模式就像我們日常生活中使用水電煤氣一樣&#x…

AntV L7入門教程

以下教程將系統地介紹 AntV?L7 的核心 Scene 類用法,涵蓋實例化、地圖配置、視圖操作、圖層管理、事件監聽及資源銷毀等常用 API,并為每個方法給出完整示例代碼。所有示例均基于官方 API 文檔 ([l7.antv.antgroup.com][1])。 一、安裝與引入 # 安裝 L7…

【邊緣計算】場景

工業互聯網 對現場采集的數據進行數據預處理,將現場有用的信息提取出來實時上傳給平臺,為平臺大大減輕了處理的工作量。 匯聚現場數據統一接口上傳數據到云端,大大提高系統多樣部署的安全性,解決現場數據跨域訪問的問題。制造企業…

【FPGA學習】DDS信號發生器設計

目錄 一、設計原理與準備? 1.1 DDS 原理? 1.2 IP 核學習與準備?:FPGA開發中常用IP核——ROM/RAM/FIFO 2、ROM文件的設置 1.3 開發環境搭建? 二、DDS 信號發生器設計實現 2.1 系統架構設計? 2.2 代碼編寫與模塊實現? 三、測試結果與總結? 參考文獻&…

pyqt 簡單條碼系統

生產數據管理系統說明 系統概述 這是一個基于PyQt5和pyodbc開發的生產數據管理系統,主要用于管理生產過程中的物料綁定和查詢操作。系統提供了上料綁定和下料查詢功能,支持與SQL Server數據庫交互,實現數據的插入、查詢、更新和刪除操作。界…

【unitrix】 4.1 類型級加一操作(Add1.rs)

一、原碼 這段代碼實現了一個類型級的加一操作(Add1 trait),用于在Rust的類型系統中進行數值加一運算。 //! 加一操作特質實現 / Increment operation trait implementation //! //! 說明: //! 1. Z0、P1,、N1 1,常規計算 //! 2. …

git工作中常用

1.管理本地文件 git init//初始化生成一個本地倉庫 git add * //添加到暫存區 git commit–m “message” //提交到本地倉庫 2.刪除本地分支 git branch -d local_branch_name3.隱藏及解除隱藏 git stashgit stash pop4.遠程新建分支,在本地簽出時候怎么看到 …