對 Lambda 架構問題的深入理解

感謝 GPT,對很多問題的理解有機會更深。

大家攻擊 Lambda 架構,常說的一個點就是 “實時離線指標存在差異”。“實時離線指標存在差異”,是一個真實困擾運營方的問題嗎?

答案:是的,這是一個真實生活中的痛點。

原因如下,特別是第一條,會讓業務運營存在不確定性,為了應對這種不確定性,可能需要預留出業務余量,造成浪費。

  1. 實時數據偏差引發錯誤判斷
    ? 運營團隊可能在實時看板上看到用戶注冊數為 900,以為目標還沒達成,于是推送通知、加大預算。
    ? 結果第二天離線數據跑完,真實注冊是 1100,實際早就達成了。
    ? 這會造成 資源浪費、判斷誤差。

  2. 數據不一致影響信任
    ? 運營問:“實時看板顯示新增 900,日報卻說新增 1100,這是哪個錯了?”
    ? 數據團隊解釋:“實時數據有水位延遲、數據亂序、去重不完整……”
    ? 非技術同學聽不懂,久而久之就對系統失去信任。

  3. 多方依賴相同指標,版本不一致
    ? 實時系統和離線系統往往使用不同代碼、不同計算鏈路:
    ? 實時:Kafka → Flink → Redis/ClickHouse
    ? 離線:Hive/Spark → HDFS → 數據倉庫
    ? 一點小的業務邏輯差異、時間處理方式不同、清洗策略不同,就會讓指標產生偏差。

在這里插入圖片描述

附1:實時指標為什么可能不對?

答:因為 Flink 的計算有時間窗口的概念,比如:每個整點,計算上一個小時的銷售額。因為隊列延遲、網絡出錯、重試導致數據重復等原因,會讓 Kafka 等隊列中的數據不能完全被信任,上一個小時的數據不一定真的全了,可能有一些數據要等幾分鐘才到,也有可能永遠不到。
為了解決這個問題,一般會延遲幾分鐘,等等跑慢了的數據。但也不能無限等下去。理論上總是可能有數據來晚了。

附2:批處理系統(離線) + 流處理系統(實時) + Serving 層合并結果為什么不準?

簡而言之:因為實時數據不準確,那么 Serving 的到的數據肯定也不準確。

Lambda 架構:批處理系統(離線) + 流處理系統(實時) + Serving 層合并結果

我之前的疑問:Serving 層如何合并?如何保證離線+實時,得到準確的全量數據?
一般大家說得不到,原因就在于
(1)流處理系統拿到的數據可能是不準確的
(2)離線、實時數據的邊界可能有模糊的地方。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/80757.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/80757.shtml
英文地址,請注明出處:http://en.pswp.cn/web/80757.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

React中使用ahooks處理業務場景

// 從 ahooks 引入 useDynamicList 鉤子函數,用于管理動態列表數據(增刪改) import { useDynamicList } from ahooks;// 從 ant-design/icons 引入兩個圖標組件:減號圓圈圖標和加號圓圈圖標 import { MinusCircleOutlined, PlusCi…

藍橋杯2114 李白打酒加強版

問題描述 話說大詩人李白, 一生好飲。幸好他從不開車。 一天, 他提著酒顯, 從家里出來, 酒顯中有酒 2 斗。他邊走邊唱: 無事街上走,提顯去打酒。 逢店加一倍, 遇花喝一斗。 這一路上, 他一共遇到店 N 次, 遇到花 M 次。已知最后一次遇到的是花, 他正好把酒喝光了。…

小土堆pytorch--神經網路-卷積層池化層

神經網路-卷積層&池化層 一級目錄二級目錄三級目錄 1. 神經網路-卷積層2. 神經網路最大池化的應用 一級目錄 二級目錄 三級目錄 1. 神經網路-卷積層 在PyTorch中,torch.nn.Conv2d函數定義了一個二維卷積層,其常用參數包括: in_channel…

C++顯式聲明explicit

C顯示聲明explicit 在 C 中,explicit 關鍵字用于修飾單參數構造函數或多參數構造函數(C11 起),其核心作用是禁止編譯器的隱式類型轉換。 一、必須加 explicit 的典型場景 1. 單參數構造函數 當構造函數只有一個參數時&#xff…

【springboot】HttpClient快速入門

介紹 HttpClient 是Apache Jakarta Common 下的子項目,可以用來提供高效的、最新的、功能豐富的支持 HTTP 協議的客戶端編程工具包,并且它支持 HTTP 協議最新的版本和建議 就是我們可以在java程序中使用HttpClient構造http請求,還可以發送h…

安全版4.5.8開啟審計后,hac+讀寫分離主備切換異常

文章目錄 環境BUG/漏洞編碼癥狀觸發條件解決方案 環境 系統平臺:UOS (飛騰) 版本:4.5.8 BUG/漏洞編碼 3043 癥狀 BUG安裝包: hgdb-see-4.5.8-db43858.aarch64.rpm 異常:hac集群一主兩備環境&#xff…

企業級 Go 多版本環境部署指南-Ubuntu CentOS Rocky全兼容實踐20250520

🛠? 企業級 Go 多版本環境部署指南-Ubuntu / CentOS / Rocky 全兼容實踐 兼顧 多版本管理、安全合規、最小權限原則與 CI/CD 可復現性,本指南以 Go 官方 toolchain 為主,結合 asdf 實現跨語言統一管理,并剔除已過時的 GVM。支持 …

Linux 的 TCP 網絡編程 -- 回顯服務器,翻譯服務器

目錄 1. 相關函數介紹 1.1 listen() 1.2 accept() 1.3 connect() 2. TCP 回顯服務器 2.1 Common.hpp 2.2 InetAddr.hpp 2.3 TcpClient.cc 2.4 TcpServer.hpp 2.5 TcpServer.cc 2.6 demo 測試 3. TCP 翻譯服務器 3.1 demo 測試 1. 相關函數介紹 其中一些函數在之前…

Unity3D仿星露谷物語開發46之種植/砍伐橡樹

1、目標 種植一棵橡樹,從種子變成大樹。 然后可以使用斧頭砍伐橡樹。 2、刪除totalGrowthDays字段 修改growthDays的含義,定義每個值為到達當前階段的累加天數。此時最后一個階段就是totalGrowthDays的含義。所以就可以刪除totalGrowthDays字段。 &…

容器化-K8s-鏡像倉庫使用和應用

一、K8s 鏡像倉庫使用 1、啟動鏡像倉庫 cd/usr/local/harbor ./install.sh2、配置鏡像倉庫地址 在 master 節點和 slaver 節點上,需要配置 Docker 的鏡像倉庫地址,以便能夠訪問本地的鏡像倉庫。編輯 Docker 的配置文件 vi /etc/docker/daemon.json(如果不存在則創建),添…

塔式服務器都有哪些重要功能?

塔式服務器作為一種擁有著獨特立式設計的服務器,能夠幫助企業節省一定的放置空間,提供一系列的功能和優勢,可以運用在多種應用場景當中,下面將探討一下塔式服務器的主要功能都有哪些? 塔式服務器可以支持基本的應用程序…

2025年- H36-Lc144 --739. 每日溫度(單調棧)--Java版

1.題目描述 2.思路 (1)單調棧維護單調遞增或者單調遞減的數列 (2)因為要求找到當前元素 右邊區域,第一個比當前元素大的元素,所以取單調增數量。 (3)單調棧存儲元素的索引。如果遇到…

架構選擇/區別

目錄 一、分層架構(Layered Architecture) 二、微服務架構(Microservices Architecture) 三、分布式架構(Distributed Architecture) 四、單體架構(Monolithic Architecture) 五…

Python----循環神經網絡(WordEmbedding詞嵌入)

一、編碼 當我們用數字來讓電腦“認識”字符或單詞時,最簡單的方法是為每個字符或單詞分配一個唯一的編號,然后用一個長長的向量來表示它。比如,假設“我”這個字在字典中的編號是第10個,那么它的表示就是一個很多0組成的向量&…

深入解析Spring Boot與微服務架構:從入門到實踐

深入解析Spring Boot與微服務架構:從入門到實踐 引言 隨著云計算和分布式系統的快速發展,微服務架構已成為現代軟件開發的主流模式。Spring Boot作為Java生態中最受歡迎的框架之一,為開發者提供了快速構建微服務的強大工具。本文將深入探討…

DeepSeek 賦能數字孿生:重構虛實共生的智能未來圖景

目錄 一、數字孿生技術概述1.1 數字孿生的概念1.2 技術原理剖析1.3 應用領域與價值 二、DeepSeek 技術解讀2.1 DeepSeek 的技術亮點2.2 與其他模型的對比優勢 三、DeepSeek 賦能數字孿生3.1 高精度建模助力3.2 實時數據處理與分析3.3 智能分析與預測 四、實際案例解析4.1 垃圾焚…

Amazon Q 從入門到精通 – 測試與重構

Amazon Q Developer 是亞馬遜推出的一個專為專業開發人員設計的人工智能助手,旨在提升代碼開發和管理效率。其主要功能包括代碼生成、調試、故障排除和安全漏洞掃描,提供一站式代碼服務。 眾所周知,在軟件開發領域,測試代碼是軟件…

專題五:floodfill算法(圖像渲染深度優先遍歷解析與實現)

以leetcode733題為例 題目解析: 給一個初始坐標(sr,sc)比如示例中的粉色的1,如果周圍上下左右都是1,就是連通塊(性質相同的地方),把它涂上顏色(2&#xff09…

在金融發展領域,嵌入式主板有什么優點?

在金融發展領域,嵌入式主板能夠有力推動金融行業的智能化與高效化進程。主板的強大計算能力可以保障業務高效運行。例如在銀行的高頻交易場景下,其強大計算能力可確保系統在高負荷下依然保持流暢穩定,快速響應用戶需求,大大提升金…

《Python星球日記》 第94天:走近自動化訓練平臺

名人說:路漫漫其修遠兮,吾將上下而求索。—— 屈原《離騷》 創作者:Code_流蘇(CSDN)(一個喜歡古詩詞和編程的Coder??) 目錄 一、自動化訓練平臺簡介1. Kubeflow Pipelines2. TensorFlow Extended (TFX)二、自動化訓練流程1. 數據預處理2. 模型訓練3. 評估與部署三、構建…