〔從零搭建〕數據湖平臺部署指南

🔥🔥 AllData大數據產品是可定義數據中臺,以數據平臺為底座,以數據中臺為橋梁,以機器學習平臺為中層框架,以大模型應用為上游產品,提供全鏈路數字化解決方案。

?杭州奧零數據科技官網:http://www.aolingdata.com
?AllData開源項目:https://github.com/alldatacenter/alldata
?Gitee組織:https://gitee.com/alldatacenter

摘要:數據湖平臺基于開源項目Paimon建設。它融合了Lake格式與LSM結構,支持實時數據同步至數據湖,具備批流一體處理能力,降低數據處理復雜性和成本,還注重生態集成,提供統一數據存儲和訪問接口。內容主要為以下六部分:

一、在線演示環境
二、功能簡介
三、源碼編譯部署安裝
四、訪問數據湖平臺頁面
五、部署后驗證與監控
六、常見問題與解決方案

💡Tips:關注「公眾號」大數據商業驅動引擎

在這里插入圖片描述
🔹AllData數據中臺線上正式環境:http://43.138.156.44:5173/ui_moat/
請聯系市場總監獲取賬號密碼

在這里插入圖片描述
2.1 數據湖平臺基于開源項目Paimon建設

數據湖平臺支持使用Flink和Spark構建實時Lakehouse架構,實現流式和批處理操作。它融合了Lake格式與LSM結構,支持實時數據同步至數據湖,具備批流一體處理能力,降低數據處理復雜性和成本,還注重生態集成,提供統一數據存儲和訪問接口。

🔹Paimon開源項目:
https://github.com/apache/paimon-web
🔹Paimon文檔地址:https://paimon.apache.org/docs/1.0/concepts/overview/

2.2 數據湖平臺功能特點

  • 實時數據同步與處理
  • 高效存儲與查詢性能
  • 靈活的編程模型與SQL支持
  • 多種運行模式
  • 強大的生態集成能力
  • 數據湖能力
  • 狀態管理與容錯機制
  • 并發控制與沖突處理

在這里插入圖片描述
(引用官網paimon圖片)

在這里插入圖片描述
💡部署步驟:
在這里插入圖片描述

3.1 環境準備

🔹操作系統要求:
推薦使用Linux發行版(如Ubuntu/CentOS),因為大多數大數據技術和分布式系統都針對Unix-like系統進行了優化。

🔹Java環境:
版本:使用JDK 8
配置:設置JAVA_HOME環境變量,驗證命令java -version輸出正確。

🔹Hadoop/Hive(如需與現有生態集成):
版本:Hadoop 3.x、Hive 3.x,需配置core-site.xml和hdfs-site.xml。
權限:確保運行Paimon的用戶有HDFS讀寫權限。

🔹數據庫(元數據存儲):
MySQL 8.0+:創建專用數據庫paimon_metadata,字符集設為utf8mb4。
連接池配置:建議使用HikariCP,最大連接數設為2 * CPU核心數。

🔹其他依賴:
根據項目需求,可能還需要安裝Python解釋器及其他基礎軟件包。

3.2 獲取源碼
🔹版本選擇:建議使用與AllData商業版兼容的Paimon版本。
在這里插入圖片描述

3.3 編譯構建
🔹安裝依賴–進入項目目錄后,使用Maven安裝項目依賴,執行命令mvn clean install,確保所有依賴項正確下載和安裝,為編譯構建做好準備。
在這里插入圖片描述

🔹基礎編譯–參數說明:-DskipTests跳過測試(生產環境建議運行測試),-Dmaven.javadoc.skip=true加速編譯。
在這里插入圖片描述

🔹構建產物–生成target/paimon--bin.tar.gz,解壓后包含bin、conf、lib等目錄。

🔹常見問題:

依賴下載失敗:檢查網絡代理設置,或手動下載依賴后安裝到本地倉庫。
編譯報錯:檢查JDK版本、Maven版本是否匹配,或清理緩存后重試(mvn clean)。

3.4 部署及運行配置

🔹核心配置文件:

  • conf/paimon-site.xml
  • conf/log4j2.xm

配置日志級別和滾動策略(建議按天分割,保留7天日志)。
在這里插入圖片描述

🔹數據庫連接:
在conf/paimon-env.sh中配置JDBC URL
在這里插入圖片描述

🔹啟動服務--單機模式(測試環境):
在這里插入圖片描述

🔹集群模式(生產環境)–使用Kubernetes部署:

修改k8s/deployment.yaml,設置副本數、資源限制(如requests.cpu: 2,limits.memory: 8Gi)。
應用配置:kubectl apply -f k8s/。

🔹驗證服務:
訪問Web UI(默認端口8080),檢查表創建、數據寫入是否正常。
使用CLI工具驗證:
在這里插入圖片描述

3.5 可選配置(性能調優與擴展)

🔹分區策略:
按時間分區(如dt字段)
在這里插入圖片描述
按范圍分區(如id字段)
在這里插入圖片描述

🔹索引優化:
啟用Bloom Filter:
在這里插入圖片描述

3.6 資源調度與負載均衡
🔹Kubernetes配置:
配置HPA(Horizontal Pod Autoscaler):
配置Node Affinity:將Paimon工作節點綁定到特定標簽的節點(如disk-type=ssd)。
在這里插入圖片描述

3.7 安全與合規

🔹數據加密:
啟用S3服務器端加密(SSE-S3或SSE-KMS)。
配置傳輸加密:在paimon-site.xml中設置:
在這里插入圖片描述

🔹審計日志:
啟用Fine-Grained Access Control(FGAC),記錄所有DDL/DML操作。
配置Log4j2將審計日志發送到ELK或Splunk。

🔹資源調度與負載均衡:

添加數據節點:
在管理控制臺中,可進行添加數據節點的操作,包括基礎配置,如項目分組、可用性校驗等。例如配置MySQL節點,需要填寫連接信息等。

策略配置:
可對數據節點進行策略配置,如修改數據節點、激活數據節點、掛起數據節點、刪除數據節點以及查看節點日志等。

🔹Paimon數據節點特定配置:
連接配置:
新建彈窗界面選擇Paimon節點類型后,顯示基本信息配置模板,包括名稱(必須填寫,50字符限制,是該數據源在DataPipeline的唯一標識,不允許重復)、描述(選填)、項目(必選,默認為“未分組”)、類型(必選)、版本(必選)等。

HDFS配置:
必填,需上傳core-site.xml、hdfs-site.xml文件。

數據庫配置:
必選,當選擇用戶權限所有庫時,在鏈路和任務中可以使用連接用戶有權限的所有數據庫;當指定數據庫后,在鏈路和任務中僅能使用指定的數據庫,這里的數據庫本質上是一個路徑,示例:/hdfs/paimon/test.db。

認證方式:
必選,支持信任認證和Kerberos認證。

連接參數:
輸入Paimon JAVA CLIENT連接支持的所有連接參數。

在這里插入圖片描述
4.1 數據湖平臺-功能概覽
在這里插入圖片描述

4.2 數據湖查詢中心
在這里插入圖片描述在這里插入圖片描述

4.3 數據湖元數據管理
在這里插入圖片描述

4.4 增量同步中心
在這里插入圖片描述

4.5 創建同步作業
在這里插入圖片描述
4.6 創建同步作業-編輯(MySQL-Paimon)
在這里插入圖片描述

4.7 創建同步作業-編輯(Kafka-Paimon)
在這里插入圖片描述

4.8 創建同步作業-編輯(MongoDB-Paimon)
在這里插入圖片描述

4.9 創建同步作業-編輯(PostgreSQL-Paimon)
在這里插入圖片描述

4.10 提交CDC作業
在這里插入圖片描述

4.11 數據湖集群管理
在這里插入圖片描述
4.12 新增集群
在這里插入圖片描述

4.13 更新集群
在這里插入圖片描述

4.14 集群狀態檢查成功
在這里插入圖片描述

在這里插入圖片描述

5.1 驗證步驟

🔹功能驗證:

  • 創建表、寫入數據、查詢數據,驗證結果是否符合預期。
  • 測試并發寫入(如100個線程同時寫入),檢查吞吐量和延遲。

🔹性能測試:

  • 使用TPC-DS或自定義測試集,評估查詢性能。
  • 對比不同分區策略和索引配置下的性能差異。

5.2 監控與告警

🔹關鍵指標:

  • 集群健康:paimon_catalog_table_count、paimon_file_store_file_count。

  • 性能指標:paimon_query_latency_ms、paimon_write_throughput_rows_per_sec。

🔹告警規則:

  • 元數據存儲延遲 > 1分鐘:觸發告警。
  • 查詢失敗率 > 5%:觸發告警。

在這里插入圖片描述
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88281.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88281.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88281.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java 導出pdf 寫出demo 1、需要設置自定義頁眉和文字 2、可以插入表格 3、可以插入圖片

以下是一個使用 iText 7 庫實現 PDF 導出的 Java 示例&#xff0c;包含自定義頁眉、文字、表格和圖片功能&#xff1a; 添加 Maven 依賴 <dependencies><!-- iText 7 Core --><dependency><groupId>com.itextpdf</groupId><artifactId>ite…

Ntfs!LfsReadRestart函數分析得到Ntfs!LFS_RESTART_PAGE_HEADER

第一部分&#xff1a;0: kd> p Ntfs!LfsPinOrMapData0x8c: f71797f6 ff15a40016f7 call dword ptr [Ntfs!_imp__CcPinRead (f71600a4)] 0: kd> t nt!CcPinRead: 80bf9a5a 6a2c push 2Ch 0: kd> kc# 00 nt!CcPinRead 01 Ntfs!LfsPinOrMapData 02 N…

skywalking-agent-docker鏡像

FROM centos:7.9.2009 USER root# 定義 Arthas 目錄環境變量 ENV ARTHAS_HOME/opt/arthas# 更改 YUM 源并清理緩存 RUN mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo_bak && \rm -rf /etc/yum.repos.d/* && \curl -o /etc/yum.rep…

數據庫開發運維的集成:彌合開發與運維之間的鴻溝

在傳統的軟件開發工作流程中&#xff0c;數據庫變更往往是事后才考慮的問題。應用程序代碼遵循定義明確的開發運維實踐&#xff0c;包括版本控制、自動測試和持續部署&#xff0c;而數據庫變更則經常是由數據庫管理員手動執行的高風險操作。這種脫節造成了瓶頸&#xff0c;帶來…

PiscTrace應用:從 YOLO-Pose 到深蹲與引體向上計數:實時健身動作分析與實現

隨著健身行業的發展&#xff0c;越來越多的智能應用涌現&#xff0c;用于幫助健身者更好地記錄和分析運動情況。特別是在體能訓練中&#xff0c;俯臥撐和引體向上是兩個非常常見的動作&#xff0c;它們通常用來鍛煉上半身力量和耐力。為了使訓練更加科學和高效&#xff0c;實時…

【unity】webCanvas.enabled = false;和webCanvas.gameObject.SetActive(false);的優缺點比較

在 Unity 中&#xff0c;webCanvas.gameObject.SetActive(false) 和 webCanvas.enabled false 是兩種不同的隱藏 UI 的方式&#xff0c;它們的核心區別在于作用范圍和對組件狀態的影響。理解這些差異能幫助你避免初始化失敗、性能問題和邏輯錯誤。 1核心區別 gameObject.SetAc…

深入探索 pnpm:高效磁盤利用與靈活的包管理解決方案

引言 在現代 JavaScript 開發中&#xff0c;依賴管理效率直接影響開發體驗。傳統工具如 npm 和 yarn 在大型項目中常面臨磁盤冗余和性能瓶頸。pnpm&#xff08;Performant npm&#xff09;通過創新的硬鏈接和符號鏈接機制&#xff0c;解決了這些痛點。本文將深入解析 pnpm 的核…

Hive MetaStore的實現和優化

在大數據領域&#xff0c;數據管理與存儲至關重要&#xff0c;Hive MetaStore&#xff08;HMS&#xff09;作為 Hive 數據倉庫的核心組件&#xff0c;承擔著元數據管理的關鍵職責。隨著數據規模不斷膨脹&#xff0c;其性能與穩定性面臨挑戰。本文將深入剖析 HMS 的實現機制&…

一文讀懂動態規劃:多種經典問題和思路

一、動態規劃算法的思想與核心概念框架 1. 動態規劃的基本思想 動態規劃&#xff08;Dynamic Programming, DP&#xff09;是一種通過將復雜問題分解為重疊子問題&#xff0c;并利用子問題的解來高效解決原問題的方法。其核心思想是避免重復計算&#xff0c;通過存儲中間結果&a…

阿幸課堂隨機點名

代碼功能 這個是一個HTML網頁端&#xff0c;簡單來說就是可以雙擊之后運行進行點名。 當然&#xff0c;不局限于課堂點名 代碼功能 Excel 導入增強&#xff1a; 增加了列選擇器&#xff0c;可以指定從哪一列讀取學生姓名 增加了起始行選擇器&#xff0c;可以跳過標題行或其…

LeetCode 560: 和為K的子數組

題目描述給定一個整數數組 nums 和一個整數 k&#xff0c;請統計并返回該數組中和為 k 的連續子數組的個數。示例 1&#xff1a;輸入&#xff1a;nums [1,1,1], k 2 輸出&#xff1a;2示例 2&#xff1a;輸入&#xff1a;nums [1,2,3], k 3 輸出&#xff1a;2提示&#xff…

微軟官方C++構建工具:歷史演變、核心組件與現代實踐指南

引言&#xff1a;C構建工具的戰略意義 在Windows生態系統中&#xff0c;??微軟C構建工具??&#xff08;Microsoft C Build Tools&#xff09;構成了數百萬開發者和應用程序的技術基石。從早期的MS-DOS命令行工具到如今支持??跨平臺開發??的現代化工具鏈&#xff0c;微…

探索Cocos_CoilTheRope:一款創新的游戲引擎擴展項目

探索Cocos_CoilTheRope&#xff1a;一款創新的游戲引擎擴展項目 去發現同類優質開源項目:https://gitcode.com/ 是一個基于Cocos2d-x游戲引擎的擴展庫&#xff0c;旨在為開發者提供一種簡便的方法來實現繩子纏繞和物理交互效果。該項目由DreamLXW開發并維護&#xff0c;為游戲…

爬蟲-正則表達式

在線正則表達式測試OSCHINA.NET在線工具,ostools為開發設計人員提供在線工具&#xff0c;提供jsbin在線 CSS、JS 調試&#xff0c;在線 Java API文檔,在線 PHP API文檔,在線 Node.js API文檔,Less CSS編譯器&#xff0c;MarkDown編譯器等其他在線工具https://tool.oschina.net/…

【BTC】數據結構

目錄 那比特幣區塊鏈的組織形式到底是以鏈表的形式&#xff0c;還是樹的形式呢&#xff1f; 區塊頭和區塊體與默克爾樹的關系 默克爾證明詳解 區塊鏈和鏈表最大的區別就是區塊鏈用哈希指針代替了普通指針。 鏈表的指針就是指向一個結構體在內存中的地址&#xff0c;而哈希指…

飛算 JavaAI:讓 Java 開發效率飆升的智能助手,日常開發全場景應用指南

飛算 JavaAI&#xff1a;讓 Java 開發效率飆升的智能助手 &#xff0c;日常開發全場景應用指南 在 Java 開發的日常工作中&#xff0c;開發者常常面臨各類重復性勞動與邏輯復雜度挑戰。飛算 JavaAI 作為專注于 Java 領域的智能開發助手&#xff0c;能夠覆蓋從代碼生成到項目維護…

8.2 文檔預處理模塊(二)

一、從0開始&#xff1a;簡易RAG實現 在構建更復雜的 RAG 架構之前&#xff0c;我們先從最基礎的版本入手。整個流程可以分為以下幾個關鍵步驟&#xff1a; 1.數據導入&#xff1a;加載并預處理原始文本數據&#xff0c;為后續處理做好準備。 2.文本分塊&#xff1a;將長文本…

【系統與工具】Linux——Linux簡介、安裝、簡單使用

計算機概論與Linux簡介 計算機概論Linux介紹與版本 Linux的規劃與安裝 Linux與硬件平臺密切相關規劃硬件與Linux安裝 主機規劃與磁盤分區安裝CentOS、多重引導 簡單使用 幫助手冊文本編輯器關機 0. Linux介紹與版本 操作系統&#xff08;Linux&#xff09;&#xff1a;高效…

從視頻數據到數字孿生:如何構建虛擬與現實的橋梁?

概述 視頻數據與三維場景融合渲染技術通過將動態視頻與靜態三維模型結合&#xff0c;利用GPU加速、WebGL渲染、數字孿生等技術&#xff0c;實現虛擬與現實的交互式融合。該技術廣泛應用于智慧城市、工業監控、虛擬現實、游戲特效等領域&#xff0c;能夠提升場景的直觀性和用戶沉…

【筆記】開源 AI Agent 項目 V1 版本 [新版] 部署 日志

kortix-ai/suna at v1 一、最新版本號 V1 二、部署截圖 本地開發環境仍然依賴于 Poetry 環境&#xff1a; &#xff08;Python>3.11,<3.13&#xff09; 創建本地 Poetry 虛擬環境 Python 多版本環境治理理念驅動的系統架構設計&#xff1a;三維治理、四級隔離、五項自…