官網:Overview | Apache Kylin
一、Apache Kylin是什么?
由中國團隊研發具有濃厚的中國韻味,使用神獸麒麟(kylin)為名
的一個OLAP多維數據分析引擎:(據官方給出的數據)
- 亞秒級響應(亞秒內查詢巨大的hive表)
- 支持超大數據集(PB級以上,千億條數據)
- 標準SQL接口、簡短易用的即席查詢工具
- 擁有豐富的工具集成支持標準數據庫協議、各種BI分析工具
可伸縮性和高吞吐量:單節點Kylin可實現每秒70個查詢,還可以結合Zookeeper分布式協調服務搭建Kylin集群,速度更快。
二、Kylin架構:
三、環境、依賴、配置
Kylin版本對應最低依賴圖(官方數據)
環境
- Hadoop:Kylin 依賴 Hadoop 進行數據存儲和計算。
- Hive:用于數據源的管理和訪問。
- HBase:作為 Kylin 的默認存儲引擎。
- Spark:用于加速 Cube 構建。
- Kylin:Apache Kylin 的核心服務。
注意:在MySQL中手動創建kylin數據庫(官方默認連接mysql設置的是kylin這個數據庫)
或更改配置
硬件要求:
Yarn內存設置
Kylin4.0使用Spark作為計算引擎和查詢引擎,因此對spark任務運行的yarn容器內存有所要求,要求yarn容器內存不能低于4G,因此需要將Yarn容器內存調為8G,否則kylin啟動會報錯。 注意:yarn容器內存都調為了8G,所以三臺虛擬機內存一定要大于8G,否則Kylin運行會報錯,此處建議學者最低要將三臺虛擬機內存設置為12G,8G,8G。(電腦內存不能低于32G)
增加ApplicationMaster 資源比例
因為Kylin的查詢會生成一個在后臺長期運行的Sparder任務,占用Default隊列,因此一定要調大此參數,否則Kylin無法正常使用。
需要對 Kylin 進行配置。主要配置文件為:
kylin.properties:Kylin 的核心配置文件,包含元數據存儲、查詢引擎和存儲引擎的配置。
hive-site.xml:Hive 配置文件,Kylin 需要訪問 Hive 進行數據抽取。
hbase-site.xml:HBase 配置文件,Kylin 需要訪問 HBase 進行數據存儲。
四、Kylin的核心特點
- 分布式分析引擎:Kylin是一個基于Hadoop/Spark等分布式計算平臺的分析引擎,能夠充分利用集群的計算資源,實現大規模數據的并行處理。
- 高效的多維分析能力:Kylin支持多維數據分析,用戶可以輕松地對數據進行切片、切塊、匯總等操作。這種能力在處理復雜的數據分析任務時非常有用,能夠幫助用戶從多個角度審視數據,發現其中的規律和趨勢。
- 預計算與實時查詢的平衡:Kylin采用了預計算技術,通過在離線階段對數據進行預處理和計算,生成多維數據立方體(Cube)。這使得在實時查詢階段能夠迅速返回結果,實現了預計算與實時查詢之間的平衡。這種平衡既保證了查詢效率,又滿足了用戶對實時性的需求。