文章目錄
- 簡介
- 使用場景
- Apache Doris 主要應用于以下場景:
- 實時數據分析:
- 湖倉融合分析:
- 半結構化數據分析:
- Apache Doris 的核心特性
詳細請看官方文檔: Apache Doris介紹
簡介
Apache Doris 是一款基于 MPP 架構的高性能、實時分析型數據庫。它以高效、簡單和統一的特性著稱,能夠在亞秒級的時間內返回海量數據的查詢結果。Doris 既能支持高并發的點查詢場景,也能支持高吞吐的復雜分析場景。
基于這些優勢,Apache Doris 非常適合用于報表分析、即席查詢、統一數倉構建、數據湖聯邦查詢加速等場景。用戶可以基于 Doris 構建大屏看板、用戶行為分析、AB 實驗平臺、日志檢索分析、用戶畫像分析、訂單分析等應用。
使用場景
數據源經過各種數據集成和加工處理后,通常會進入實時數據倉庫 Doris 和離線湖倉(如 Hive、Iceberg 和 Hudi),廣泛應用于 OLAP 分析場景,如下圖所示:
Apache Doris 主要應用于以下場景:
實時數據分析:
實時報表與實時決策: 為企業內外部提供實時更新的報表和儀表盤,支持自動化流程中的實時決策需求。
交互式探索分析: 提供多維數據分析能力,支持對數據進行快速的商業智能分析和即席查詢(Ad Hoc),幫助用戶在復雜數據中快速發現洞察。
用戶行為與畫像分析: 分析用戶參與、留存、轉化等行為,支持人群洞察和人群圈選等畫像分析場景。湖倉融合分析:
湖倉查詢加速: 通過高效的查詢引擎加速湖倉數據的查詢。
多源聯邦分析: 支持跨多個數據源的聯邦查詢,簡化架構并消除數據孤島。
實時數據處理: 結合實時數據流和批量數據的處理能力,滿足高并發和低延遲的復雜業務需求。半結構化數據分析:
日志與事件分析: 對分布式系統中的日志和事件數據進行實時或批量分析,幫助定位問題和優化性能。
Apache Doris 的核心特性
高可用: Apache Doris 的元數據和數據均采用多副本存儲,并通過 Quorum 協議同步數據日志。當大多數副本完成寫入后,即認為數據寫入成功,從而確保即使少數節點發生故障,集群仍能保持可用性。Apache Doris 支持同城和異地容災,能夠實現雙集群主備模式。當部分節點發生異常時,集群可以自動隔離故障節點,避免影響整體集群的可用性。
高兼容: Apache Doris 高度兼容 MySQL 協議,支持標準 SQL 語法,涵蓋絕大部分 MySQL 和 Hive 函數。通過這種高兼容性,用戶可以無縫遷移和集成現有的應用和工具。Apache Doris 支持 MySQL 生態,用戶可以通過 MySQL 客戶端工具連接 Doris,使得操作和維護更加便捷。同時,可以使用 MySQL 協議對 BI 報表工具與數據傳輸工具進行兼容適配,確保數據分析和數據傳輸過程中的高效性和穩定性。
實時數倉: 基于 Apache Doris 可以構建實時數據倉庫服務。Apache Doris 提供了秒級數據入庫能力,上游在線聯機事務庫中的增量變更可以秒級捕獲到 Doris 中。依靠向量化引擎、MPP 架構及 Pipeline 執行引擎等加速手段,可以提供亞秒級數據查詢能力,從而構建高性能、低延遲的實時數倉平臺。
湖倉一體: Apache Doris 可以基于外部數據源(如數據湖或關系型數據庫)構建湖倉一體架構,從而解決數據在數據湖和數據倉庫之間無縫集成和自由流動的問題,幫助用戶直接利用數據倉庫的能力來解決數據湖中的數據分析問題,同時充分利用數據湖的數據管理能力來提升數據的價值。
靈活建模: Apache Doris 提供多種建模方式,如寬表模型、預聚合模型、星型/雪花模型等。數據導入時,可以通過 Flink、Spark 等計算引擎將數據打平成寬表寫入到 Doris 中,也可以將數據直接導入到 Doris 中,通過視圖、物化視圖或實時多表關聯等方式進行數據的建模操作。