數據質檢之springboot通過yarn調用spark作業實現數據質量檢測

Spring Boot 應用中通過 YARN 來調用 Spark 作業的來執行數據質檢。這是一個非常經典的數據質量檢測、數據優化的常用架構,將Web服務/業務處理(Spring Boot)與大數據質檢(Spark on YARN)解耦。

核心架構圖

首先,通過一張圖來理解整個流程的架構:

在這里插入圖片描述

整個流程的核心在于,Spring Boot 應用并不直接執行 Spark 作業,而是作為一個提交客戶端,將作業提交到 YARN 集群上,并由 YARN 來負責資源管理和任務調度。

一、核心原理與組件

1. Spark on YARN 的模式

Spark on YARN 有種模式,這兩種模式決定了 ApplicationMaster (AM) 的角色:

  • yarn-cluster (推薦用于生產環境):
    • Driver 運行在 YARN 的 ApplicationMaster 中。這意味著 Driver 進程是在 YARN 集群的某個節點上啟動的。
    • Spring Boot 應用在提交作業后,可以與作業斷開連接,作業會繼續在 YARN 上運行直至結束。
    • 適合長時間運行的作業。
  • yarn-client (通常用于交互式/調試):
    • Driver 運行在提交作業的客戶端機器上(即運行 Spring Boot 應用的那臺機器)。
    • Spring Boot 應用必須保持運行,否則 Driver 退出會導致作業失敗。
    • 作業的輸出(如 stdout)會直接打印到客戶端的控制臺,方便調試。

技術細節:在 Spring Boot 中調用,我們通常使用 yarn-cluster 模式,這樣我們的應用服務就不會被大量的 Spark 計算任務所拖累,實現了服務與計算的分離。

2. 關鍵組件:spark-submitSparkLauncher
  • spark-submit: 是 Spark 官方提供的用于提交作業的 shell 腳本。最簡單的方式是在 Spring Boot 中通過 Runtime.getRuntime().exec() 來調用這個腳本。
  • SparkLauncher: 是 Spark 提供的 Java API,專門用于以編程方式將 Spark 應用程序啟動到集群上。這是更優雅、更易于集成和管理的方式,推薦使用。

二、兩種實現方式的技術細節

方式一:使用 ProcessBuilder 調用 spark-submit 腳本

這種方式本質上是將你在命令行手動執行的操作自動化。

步驟:

  1. 在部署了 Spark 和 Hadoop 客戶端的機器上運行 Spring Boot 應用。
  2. 構建完整的 spark-submit

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/95488.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/95488.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/95488.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SQL優化_以MySQL為例

MySQL SQL 優化詳細教程與案例 1. 理解SQL執行過程 在優化之前,需要了解MySQL如何處理SQL查詢: 客戶端發送SQL語句到服務器服務器檢查查詢緩存(MySQL 8.0已移除查詢緩存)解析器解析SQL,生成解析樹預處理器驗證權限和表…

探索數據結構中的 “樹”:揭開層次關系的奧秘

在計算機科學的廣袤森林中,有一種數據結構如同參天大樹般支撐著無數應用的根基 —— 它就是 “樹”(Tree)。它不僅僅是一個抽象概念,更是我們理解和組織信息、模擬現實世界層級關系的強大工具。1. 什么是 “樹”?從家族…

技術框架之RPC

一、序言:為什么我們需要RPC?在單體應用時代,函數調用是進程內的簡單操作。但隨著業務規模擴大,系統被拆分為多個獨立服務(如訂單服務、支付服務),服務間通信成為剛需。早期開發者常使用HTTPJSO…

【光照】Unity中的[光照模型]概念辨析

【從UnityURP開始探索游戲渲染】專欄-直達 基礎光照模型? ?標準光照模型(Standard Lighting Model)? ?定義?:傳統光照計算的框架,通常包含漫反射、鏡面反射和環境光三部分。?特點?:非物理經驗模型&#xff0c…

MCU上跑AI—實時目標檢測算法探索

MCU上跑實時目標檢測算法 前幾年一直忙著別的事情沒有在技術分享上下功夫, 這段時間穩定下來就想和幾個志同道合的朋友做點有意義的事情, 于是乎就使用MCU做了個與AI有識別相關的 “小玩意兒”. 本人負責嵌入式端相關的編碼, AI相關的工作由好友 AgeWang 負責. 這兒把一些成果給…

SpringBoot 整合 RabbitMQ 的完美實踐

引言: 本文總字數:約 9200 字 預計閱讀時間:38 分鐘 為什么 RabbitMQ 是消息中間件的優選? 在分布式系統架構中,消息中間件扮演著 "交通樞紐" 的角色,負責協調各個服務之間的通信。目前主流的消息中間件有 RabbitMQ、Kafka 和 RocketMQ,它們各具特色: Kafka…

nestjs 發起請求 axios

1、下載npm i --save nestjs/axios axios2、全局配置import { HttpModule } from nestjs/axios;Global() Module({imports: [HttpModule.registerAsync({inject: [ConfigService],useFactory: async (configService: ConfigService) > {return {timeout: configService.get(…

將 Logits 得分轉換為概率,如何計算

場景:動物識別,輸入一張28*28的圖像,模型輸出屬于 貓、狗、鳥 哪個類型。需求:假設模型 ??Logits(模型在每個類別的置信度得分) 輸出為??:[貓: 3.2, 狗: 1.5, 鳥: -0.8]。計算 ??Softmax …

【Qt】bug排查筆記——QMetaObject::invokeMethod: No such method

問題如題目所示:QMetaObject::invokeMethod: No such method xxxx,在網上好一頓查,又將查到的資料喂給了 Ai,才最終將問題解決,特此記錄下。 一、問題背景 在做公司項目時,使用了插件的方式開發。主程序加載…

Spring Boot手寫10萬敏感詞檢查程序

使用Spring Boot手寫10萬敏感詞檢查程序 本文將介紹如何使用Spring Boot構建一個高效的敏感詞檢查系統,能夠處理多達10萬個敏感詞的檢測需求。我們將使用DFA(Deterministic Finite Automaton)算法來實現高效匹配,并提供RESTful API接口。 實現步驟 1. 創建Spring Boot項…

零構建的快感!dagger.js 與 React Hooks 實現對比,誰更優雅?

“Add Tags” 技術方案并行對比:React Hooks vs dagger.js(含核心 JS 代碼) 源碼: React Hooks:https://codepen.io/prvnbist/pen/jJzROe?editors1010dagger.js:https://codepen.io/dagger8224/pen/ZErjzw…

矩池云中LLaMA- Factory多機多卡訓練

LLaMA Factory 是一款開源低代碼大模型微調框架,集成了業界最廣泛使用的微調技術,支持通過 Web UI 界面零代碼微調大模型,目前已經成為開源社區內最受歡迎的微調框架之一。但是在矩池云上如何使用LLaMA-Factory多機多卡訓練模型呢&#xff1f…

Nginx的反向代理與正向代理及其location的配置說明

一、Nginx中location匹配優先級Nginx中location匹配優先級location支持各種匹配規則,在多個匹配規則下,Nginx對location的處理是有優先級的,優先級高的規則會優先進行處理;而優先級低的規則可能會最后處理或者不進行處理。注意&am…

神經網絡正則化三重奏:Weight Decay, Dropout, 和LayerNorm

正則化是機器學習中防止模型過擬合、提升泛化能力的核心技術。Weight Decay、Dropout和LayerNorm是三種最常用的方法,但它們的工作原理和首要目標截然不同。下面的流程圖揭示了它們的核心區別與聯系: #mermaid-svg-vymek6mFvvfxcWiM {font-family:"…

兩臺電腦通過網線直連共享數據,設置正確,卻互相ping不通的解決方法

因為某些原因,需要兩臺電腦互傳資源,但是某臺電腦可能無法連接外網。如果手頭有根網線,很容易想到通過一根網線連接兩臺電腦互傳數據。 這里先說一下基本的設置: 兩臺電腦最好都關閉防火墻;兩臺電腦都打開專用網絡和公…

面試新紀元:無聲勝有聲,讓AI成為你頸上的智慧伙伴

面試,無論是對于面試官還是求職者,都像一場無聲的戰爭。 一方要精準識人,一方要完美自薦;一方怕問不到點子上,一方怕答不到心坎里。 緊張、遺忘、表達失誤、準備不足……這些問題幾乎每個人都經歷過。 有沒有一種方…

qt-C++筆記之QtDesigner-Creator按鈕圖標與樣式

qt-C筆記之QtDesigner-Creator按鈕圖標與樣式 整理:如何用 .qrc 管理資源、在 Designer/Creator 中為 QPushButton 設置圖標(資源或系統主題),以及用樣式表調整文字樣式。涵蓋 C/Qt 與 PySide/PyQt;Linux 桌面優先&am…

maven 常用指令

Maven 是 Java 項目構建和依賴管理的得力助手。這里為你總結了一些常用指令,希望能幫你提升開發效率。下面這個表格匯總了 Maven 最核心和常用的一些命令:命令主要功能典型使用場景mvn clean清理項目,刪除 target 目錄及其所有編譯輸出文件。…

# pdf.js完全指南:構建現代Web PDF查看與解析解決方案

在當今Web開發中,實現高質量的PDF查看功能一直是前端開發者面臨的挑戰之一。作為最受歡迎的JavaScript PDF庫,pdf.js已經成為解決這一問題的行業標準。由Mozilla開發并維護的pdf.js項目,通過純JavaScript實現PDF解析與渲染,徹底改…

高效對象屬性復制工具

日常編程中,經常會碰到對象屬性復制的場景,比如 VO、DTO、PO、VO 等之間的轉換,關于什么是VO、DTO、PO、VO 等可以看上篇文章,VO、DTO、PO、VO 等對象具體有哪些方式可以使用呢? set/get 方式 性能最好的方式&#x…