大數據開發實戰:如何做企業級的數據服務產品

1.背景

數據服務通常以解決方案的形式進行組織,面向一個應用場景的所有數據需求或數據內容可以通過一個解決方案進行封裝,統一對外服務。一個數據需求或數據接口以一個數據服務實例的形式存在于解決方案之下。

下游消費方可以通過統一API進行數據消費,通過傳入解決方案code+數據服務code來獲取指定的數據內容及數據服務能力進行消費。

2.啥是數據服務

具體是指單純提供數據消費接口的數據集服務(接口)、提供實時多維度計算的動態計算服務(OLAP)、提供歸因分析的歸因分析服務、提供數據規則進行問題抓取預警的規則預警服務

數據服務定位

  • 更快的服務:研發提效工具,通過產品化手段實現從數據表到服務化接口全鏈路的快速配置化

  • 更有價值的服務:數據的增量價值體現,通過數據+增值能力,為業務經營分析提供更多增量的數據化賦能

數據服務方案

圖片

整體技術架構

圖片

3.數據服務配置

3.1 前置檢驗

數據服務支持對ODPS、HOLO兩種數據源進行服務封裝,在使用數據表時需要對數據表做一些前置檢查。

ODPS 數據源

分區設置:月:ds = yyyymm 天:ds = yyymmdd 小時:ds = yyyymmddhh

主鍵設置:

  1. 數據表需要在數據地圖完成主鍵標識,以明確最終對外服務的數據服務接口數據主鍵。

  2. 確保主鍵數據不重復,主鍵若重復,數據服務調度時會報錯失敗,并導致前后修改鏈路較長。

圖片

HOLO 數據源:HOLO數據可直接進行服務化封裝。

3.2 創建一個解決方案

圖片

方案基本信息

圖片

資產錄入

  1. 資產錄入是將一個解決方案所需要的數據表統一進行元數據管理,通過錄入完成數據表的指標化。以方便后續的服務配置。

  2. 點擊新增,打開一個錄入頁面,選擇對應的表類型及表名,查詢后即可獲取該表相關得元數據信息,在錄入頁面進行維度、指標的制定后,確認提交,即完成該表的元數據注冊。

注意:所有表中字段均需進行標識該字段為維度或指標。主鍵字段默認置為維度不可修改。

holo表錄入需要完整錄入 instance.project.table 三段信息。

圖片

完成基本信息填寫及資產錄入后,即可開始具體的數據服務配置。

4.數據服務實例配置

數據服務能力分為:數據集服務、動態計算服務、規則預警服務、歸因分析服務。

4.1 數據集服務

應用場景

單純對一張二維數據表中的字段內容對外進行服務化接口形式輸出,方便對接工程系統或可視化搭建工具場景。

服務實例配置

新增服務

注意:服務code必須小寫

圖片

業務模型設置

批量導入

數據服務支持基于表的服務,對于已經注冊的表,可以直接導入具體數據表,進行批量的業務模型設置。

圖片

數據應用設置

數據應用用以設定底層數據服務的一些調度信息,配置項說明如下:

  • 更新周期,所使用的的數據源表更新周期,即ODPS表的分區信息,小時分區、天分區、月分區

  • 消費方式,可視化展示:數據存儲720天;工程系統調用:數據存儲1天

  • 選擇服務,選擇數據同步的具體HOLO庫,目前選擇ASCP公共HOLO庫即可。

  • 點擊開始調度,生成正式的調度任務,調度任務自動掛依賴,基于數據源表的執行時間進行同步。

  • 開始調試支持在線簡單調試查看數據接口是否正常產出數據。

  • 查看接口文檔,可獲取相應的接口使用說明。

圖片

4.2 動態計算服務

應用場景:用于有一定指標定義加工的需求場景或在可視化頁面需要進行多維分析的場景,支持定義動態計算指標(加減乘除、MTD/YTD、自定義sql 等),指定維度進行匯總(求和、求平均、求最大值、求最小值、計數)。

支持兩種場景:

1)多維度的上卷下鉆,常用于可視化應用。

2)動態衍生指標的計算,不涉及維度的變化。

服務實例配置

新增服務

注意:服務code必須小寫

圖片

業務模型設置

業務模型用來定義服務化接口的具體數據內容結構,分為維度和指標。

4.2.1 基礎信息配置

批量導入:數據服務支持基于表的服務,可以直接導入具體數據表,進行批量的業務模型設置。

4.2.2 動態計算指標配置

動態計算是基于配置好的基礎指標進行運算配置,基于消費方實時調用,實時計算產出結果。因此需要配置動態計算指標的計算規則和進行多維匯總時的聚合規則。

計算規則:需要新增一個動態計算指標時,可進行新指標添加配置。

聚合規則:進行多維分析時高維上卷需要對數據做聚合,此處需要選擇數據的聚合方式,配置的基礎指標都需要選 擇聚合方式,衍生指標的聚合方式首先要確定是先計算后指標值再進行聚合,還是將因子指標聚合后再進行計算。若是先計算再聚合,則需要選擇衍生指標的聚合方式,若是先聚合再計算,則不需要選擇聚合方式。

圖片

數據應用設置

數據應用用以設定底層數據服務的一些調度信息,配置項說明如下:

  • 更新周期,所使用的的數據源表更新周期,即ODPS表的分區信息,小時分區、天分區、月分區

  • 消費方式,可視化展示:數據存儲720個分區;工程系統調用:數據存儲1個分區

  • 選擇服務,選擇數據同步的具體HOLO庫,目前選擇ASCP公共HOLO庫即可。

  • 點擊開始調度,生成正式的調度任務,調度任務自動掛依賴,基于數據源表的執行時間進行同步。

  • 開始調試支持在線簡單調試查看數據接口是否正常產出數據。

圖片

4.3 規則預警服務

應用場景:用于基于一定的數據規則,抓取問題數據做可視化展示或生產系統應用,同時支持對相關責任人進行釘釘/郵件通知預警。如:當缺貨率大于5%時,釘釘通知相關庫控小二,并提供缺貨明細進行可視化展示。服務實例配置

新增服務

注意:服務code必須小寫

圖片

業務模型設置

業務模型用來定義服務化接口的具體數據內容結構,分為維度和指標。

4.3.1 基礎信息配置

批量導入:數據服務支持基于表的服務,對于已經注冊的表,若要進行整表的服務化,可以直接導入具體數據表,進行批量的業務模型設置。

圖片

4.3.2 預警規則配置

預警規則支持簡單規則配置,如某個指標或維度同指定的指標或維度做對比;也支持高級公式編輯,點擊編輯公式按鈕,會提供公式編輯器進行高級公式的編輯。

配置完相關規則后,需要設置規則之間的邏輯關系,支持或、且邏輯和簡單的規則嵌套。

注意:規則嵌套盡量一層,過于復雜的嵌套邏輯會導致不可知的錯誤。

預警文案,作為可選項,若需要對指定人進行消息預警推送時設置即可。若僅做問題數據抓取,則此項可忽略。

圖片

圖片

數據應用設置

數據應用用以設定底層數據服務的一些調度信息及預警信息推送配置,配置項說明如下:

  1. 推送消息設定:支持設定多條推送消息及不同推送方式,同一消息推送支持推送多人。

  2. 更新周期,所使用的的數據源表更新周期,即ODPS表的分區信息,小時分區、天分區、月分區

  3. 消費方式,數據可視化,提供HSF接口對于規則命中的結果數據進行查詢。

  4. 離線分析,提供ODPS數據表對于規則命中的數據結果進行離線分析。

  5. 選擇服務,選擇數據同步的具體HOLO庫,目前選擇ASCP公共HOLO庫即可。

  6. 點擊開始調度,生成正式的調度任務,調度任務自動掛依賴,基于數據源表的執行時間進行同步。

  7. 開始調試支持在線簡單調試查看數據接口是否正產產出數據。

注意:每次進行相關數據內容或規則內容更新后,需要重新調度方可生效。

圖片

4.4歸因分析服務

新增服務

注意:服務code必須小寫

圖片

業務模型設置

業務模型用來定義服務化接口的具體數據內容結構,分為維度和指標。

基礎信息配置

批量導入:數據服務支持基于表的服務,可以直接導入具體數據表,進行批量的業務模型設置。

圖片

歸因模型配置

設置對比維度:【注意】維度配置必須包含主鍵,or 維度組合后可以確定唯一行;下鉆維度的表中,下鉆后也是同樣要求以下圖為例,日期,kpi類型,商業code,組合維度,統計類型,在表中可以確定唯一一行

圖片

配置指標拆解關系

1)選取需要歸因分析的指標

圖片

2)選取拆解關系

圖片

3)增加拆解邏輯下的指標

圖片

4)設置歸因對比維度

【注意】對比維度必須配置在維度中

圖片

數據應用

圖片

在線調試

圖片

真實生成后樣式

圖片

結果預覽

圖片

往期推薦

FlinkCDC-Hudi數據實時入湖原理篇

深度剖析阿里巴巴 OneData 體系:數據驅動業務的基石

小心踩坑!Hive SQL中這些易錯點你必須知道

Apache Doris 在數據倉庫中的作用與應用實踐

面試加分秘籍:校招數據傾斜場景下的SQL優化方案

Kafka Streams 和 Apache Flink 的無狀態流處理與有狀態流處理

一文帶你吃透大廠高頻面試題:行轉列&列轉行問題

輕松拿下SQL校招&社招面試,這些知識點你一定要會!

帶你玩轉 Flink TumblingWindow:從理論到代碼的深度探索

26屆秋招收割offer指南

一文吃透!Doris 冷熱分層技術全解析

海量數據存儲與分析:HBase vs ClickHouse vs Doris 三大數據庫優劣對比指南

HBase協處理器深度解析:原理、實現與最佳實踐

一文弄懂離線數倉中小文件問題

數據質量問題中,數據及時性怎么保證?如何有深度體系化回答!

數據清洗到底在清洗什么?

更多上岸信息請參考:

滌生學員就業情況

為什么選擇滌生大數據?

  • 1.跟隨行業專家學習:我們的導師不是傳統的講師,而是實際的行業專家。他們都是來自國內一線大廠的資深開發,大數據技術專家等。

    2.跟企業在職開發一起學習:滌生的社招學員目前60%+是企業在職進階學員,基本各大廠的進階學員都有,他們的薪資從10k,15k,20k,25k,30k,35k,40k。所以你會跟很多企業在職人員一起交流學習

  • 3.定制化課程設計:結合每位學員的進行定制化教學,學習規劃,讓你的學習更有重點;結合每個學員的時間規劃學習進度,督促考核,讓學習變得更加靈活。

  • 4.專業教學和平臺:術業有專攻,企業怎么用,面試怎么面,我們就怎么學,滌生讓大數據學習不迷惘。目前滌生采購10臺服務器,自研提供一站式大數據平臺供學習使用,拒絕虛擬機。

  • 5.專業的簡歷面試輔導:滌生內部所有同學簡歷面試輔導都包含在內,從學習到入職試用期全流程提供保障服務。2024年截止當前滌生到簡歷面試7級群的學員就業率98%+,2024年上岸200+同學,60+入職一線中大廠。當然也有不少培訓找不到工作的同學,以及裁員的同學,空窗期太久,最終跟著我們搞順利上岸

  • 6.不錯的口碑:在滌生這,只要你不擺爛,我們不拋棄不放棄。目前滌生的學員大概有25%是老學員推薦和轉化。

  • 7.專門的校招大數據:校招跟社招不一樣。全網獨家的校招大數據課程,專門的校招團隊輔導,今年是第五屆校招大數據,內部校招面試資料覆蓋一線中大廠90%的面試。從校招規劃+系統的大數據課程+實習面試輔導+簡歷面試輔導+實習期輔導+試用期輔導,一次收費一條龍全流程貫穿。2024春招+2025年春招累計50+同學拿到一線中大廠offer

圖片

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/87138.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/87138.shtml
英文地址,請注明出處:http://en.pswp.cn/web/87138.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于IndexTTS的零樣本語音合成

IndexTTS 項目采用模塊化設計,將 BPE 文本編碼、GPT 單元預測、dVAE 語音特征抽取和 BigVGAN 音頻生成串聯為完整的語音合成流程。系統通過統一的配置文件和模型目錄規范,實現高效的文本到語音轉換,支持命令行與 Web 界面雙模式操作&#xff…

基于go-zero的短鏈生成系統

go-zero框架 gozero(又稱go-zero)是一款由知名開發者kevwan設計的Golang微服務框架,專注于高性能、低延遲和易用性。其核心目標是簡化分布式系統的開發,提供開箱即用的工具鏈,涵蓋API網關、RPC服務、緩存管理、數據庫…

Linux-修改線上MariaDB服務端口號

準備工作(很重要!!!): 提前做好Linux服務器快照 提前做好數據庫數據備份 1. 修改配置文件 首先,我們需要找到MariaDB的配置文件。通常情況下,這個文件位于以下位置:…

Spring Cloud 微服務(負載均衡策略深度解析)

📌 摘要 在微服務架構中,負載均衡是實現高可用、高性能服務調用的關鍵機制之一。Spring Cloud 提供了基于客戶端的負載均衡組件 Ribbon,結合 Feign 和 OpenFeign,實現了服務間的智能路由與流量分配。 本文將深入講解 Spring Clo…

HTML/CSS基礎

1.html:超文本標記語言。它是一種標識性的語言,非編程語言,不能使用邏輯運算。通過標簽將網絡上的文本格式進行統一,使用分散網絡資源鏈接為一個邏輯整體,屬于標記語言。 超文本:就是指頁面內可以包含圖片&#xff0…

C# 事件驅動編程的核心:深度解析發布者_訂閱者模式

適用場景:GUI交互、消息隊列、微服務通信等需要解耦事件生產與消費的系統 🧩 模式核心組件解析 發布者(Publisher) 作用:定義事件并管理訂閱者列表關鍵行為: 提供和-運算符注冊/注銷訂閱者通過Invoke()方…

華為云Flexus+DeepSeek征文 | 從零開始搭建Dify-LLM應用開發平臺:華為云全流程單機部署實戰教程

華為云FlexusDeepSeek征文 | 從零開始搭建Dify-LLM應用開發平臺:華為云全流程單機部署實戰教程 前言一、華為云Dify-LLM平臺介紹1. Dify-LLM解決方案簡介2. Dify-LLM解決方案地址3. Dify-LLM單機架構介紹4. 預估成本說明 二、華為云Maas平臺介紹1. 華為云ModelArts …

oracle集合三嵌套表(Nested Table)學習

嵌套表 嵌套表(Nested Table)是Oracle中的一種集合數據類型,它允許在表中存儲多值屬性,類似于在表中嵌套另一個表。 嵌套表具有以下特點: 是Oracle對象關系特性的一部分 可以看作是一維數組,沒有最大元素數量限制 存儲在單獨…

Python學習之——單例模式

Python學習之——單例模式 參考1 利用__metaclass__實現單例super的用法class Singleton(type)元類 2 重載__new__方法實現單例模式3 利用裝飾器實現單例考慮一個類如果繼承一個單例類的問題 參考 python之metaclasssingleton(一) python之metaclasssin…

【Linux】U-boot常用命令總結

U-Boot 是嵌入式系統中常用的引導加載程序(bootloader),它提供了一套命令行接口,用于調試、加載操作系統鏡像以及進行硬件測試等操作。 1、變量操作命令 這些命令用于管理 U-Boot 的環境變量。 命令功能說明setenv name value設…

【Linux】不小心又創建了一個root權限賬戶,怎么將它刪除?!

一.前言 今天在學習linux提權的時候,把新建的一個普通賬戶權限提升成了root, 當我練習完提權,想要把這個賬戶刪掉的時候。 發現… 好家伙,這個根本刪不掉 隨后試了各種各樣的方法,都不行,后來突然想到是否…

數據結構:數組(Array)

目錄 什么是數組(Array)? 🔍為什么數組的下標要從 0 開始? 一、內存地址與偏移量的關系:從 0 開始是最自然的映射 二、指針的起點就是第 0 個元素的地址 三、歷史原因:BCPL → B → C → …

視頻內存太大怎么壓縮變小一點?視頻壓縮的常用方法

視頻傳生活或者工作中很常見,如發送視頻郵件、在線視頻播放、視頻上傳下載等。未壓縮的大內存視頻文件傳輸時,不僅會消耗大量的網絡帶寬資源,還會使傳輸時間大幅增加。在網速有限的情況下,發送一個幾 GB 的未壓縮視頻可能需要數小…

性能測試包括哪些方面?要掌握哪些知識

性能測試是軟件測試中的一個重要方面,它主要關注軟件在不同條件下的穩定性、可靠性和性能表現。性能測試包括多個方面,需要掌握的知識也相對廣泛。以下是對性能測試包括的方面以及需要掌握的知識分析: 一、性能測試包括的方面 響應時間&…

windows的vscode無法通過ssh連接ubuntu的解決辦法

現象: 最近在windows本地通過vscode登錄ssh時發現不得勁,總是報錯無法與”192.168.1.129“建立連接,如下圖: 但是這種報錯以及在輸出端的信息并沒有提供具體錯誤原因,于是換poweshell來登錄,報錯如下圖&am…

第2章,[標簽 Win32] :Windows 的字符串函數

專欄導航 上一篇:第2章 :兼容 ASCII 字符與寬字符的 Windows 函數調用 回到目錄 下一篇:無 本節前言 在下面的文章鏈接里面,我們談到過,使用兼容版的字符串處理函數的知識。 第2章 :編寫兼容多字節字…

Java的SpringAI+Deepseek大模型實戰-會話記憶【三】

文章目錄 背景項目環境實現步驟第一步、定義會話存儲方式方式一、定義記憶存儲ChatMemory方式二、注入記憶存儲ChatMemory 第二步、配置會話記憶方式一、老版本實現方式二、新版本實現 第三步、添加會話ID 異常處理1、InMemoryChatMemory 無法解析 背景 前兩期搭建起大模型對話…

Python3完全新手小白的學習手冊 10 文件和異常

文章目錄 讀取文件讀取文件的全部內容 相對路徑和絕對路徑訪問文件中的各行使用文件的內容包含100萬位的大型文件圓周率值中包含你的生日嗎? 寫入文件寫入一行寫入多行 異常處理ZeroDivisionError異常使用try-except代碼塊else代碼塊處理FileNotFoundError異常分析文…

VC Spyglass:工具簡介

相關閱讀 VC Spyglasshttps://blog.csdn.net/weixin_45791458/category_12828932.html?spm1001.2014.3001.5482 傳統上,基于仿真的動態驗證技術一直是功能驗證的核心方式。隨著現代SoC設計日益復雜,靜態驗證技術的引入變得愈發重要。 Synopsys的 VC Sp…

AWS RDS Aurora全局數據庫轉區域數據庫實戰指南:無縫遷移零停機

Aurora全局數據庫是AWS提供的跨區域高可用解決方案,但在某些場景下,我們需要將其轉換為普通區域數據庫。本文將詳細介紹這一轉換過程,并分享關鍵技術要點和實戰經驗。 一、全局數據庫與區域數據庫概述 AWS RDS Aurora全局數據庫是一種跨區域部署的數據庫架構,主要用于災備…