Spark-SQL核心編程2

路徑問題

????????相對路徑與絕對路徑:建議使用絕對路徑,避免復制粘貼導致的錯誤,必要時將斜杠改為雙反斜杠。

數據處理與展示

SQL 風格語法:創建臨時視圖并使用 SQL?風格語法查詢數據。

DSL 風格語法:使用 DSL 風格語法查詢?user?表中的?user name?和?age?列。

http://【Spark-SQL核心編程 - CSDN App】https://blog.csdn.net/2401_84627304/article/details/147227309?sharetype=blog&shareId=147227309&sharerefer=APP&sharesource=2401_84627304&sharefrom=link

(我的博客文章? spark-SQL核心編程??? ?目錄中能找到? ? ? ? ????)

利用IDEA開發Spark-SQL

????????導入的包

?下面的代碼 (

val df : DataFrame后面的地址是自己放的文檔的地址

?運行結果:

自定義函數:

UDF

UDAF(自定義聚合函數)

????????強類型的 Dataset 和弱類型的 DataFrame 都提供了相關的聚合函數, 如 count(),countDistinct(),avg(),max(),min()。除此之外,用戶可以設定自己的自定義聚合函數。Spark3.0之前我們使用的是UserDefinedAggregateFunction作為自定義聚合函數,從 Spark3.0 版本后可以統一采用強類型聚合函數 Aggregator

實驗需求:計算平均工資

?實現方式一:RDD

RDD 實現:通過 RDD 進行薪資數據的映射和聚合,計算平均工資。

case (name, salary) => {
??? (salary,
1)
? }


這個代碼是為了弱化沒有關系的東西,比如這個平均薪資中名字不重要

實現方式二:弱類型 UDAF 實現

通過創建類和函數,封裝并調用自定義聚合函數,計算平均工資。

class MyAverageUDAF extends UserDefinedAggregateFunction{def inputSchema: StructType =StructType(Array(StructField("salary",IntegerType)))// 聚合函數緩沖區中值的數據類型(salary,count)def bufferSchema: StructType = {StructType(Array(StructField("sum",LongType),StructField("count",LongType)))}// 函數返回值的數據類型def dataType: DataType = DoubleType// 穩定性:對于相同的輸入是否一直返回相同的輸出。def deterministic: Boolean = true// 函數緩沖區初始化def initialize(buffer: MutableAggregationBuffer): Unit = {// 存薪資的總和buffer(0) = 0L// 存薪資的個數buffer(1) = 0L}// 更新緩沖區中的數據def update(buffer: MutableAggregationBuffer,input: Row): Unit = {if (!input.isNullAt(0)) {buffer(0) = buffer.getLong(0) + input.getInt(0)buffer(1) = buffer.getLong(1) + 1}}// 合并緩沖區def merge(buffer1: MutableAggregationBuffer,buffer2: Row): Unit = {buffer1(0) = buffer1.getLong(0) + buffer2.getLong(0)buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)}// 計算最終結果def evaluate(buffer: Row): Double = buffer.getLong(0).toDouble /buffer.getLong(1)}

val sparkconf: SparkConf = new SparkConf().setAppName("app").setMaster("local[*]")val spark:SparkSession = SparkSession.builder().config(conf).getOrCreate()import spark.implicits._val res :RDD[(String,Int)]= spark.sparkContext.makeRDD(List(("zhangsan", 20), ("lisi", 30), ("wangwu",40)))val df :DataFrame = res.toDF("name","salary")df.createOrReplaceTempView("user")var myAverage = new MyAverageUDAF// spark 中注冊聚合函數spark.udf.register("avgSalary",myAverage)spark.sql("select avgSalary(salary) from user").show()// 關閉連接spark.stop()

? ? ? ?注意:

?????????第一行帶下劃線的如果運用代碼出現刪除線,這個能用,只是提醒你有別的最新的法

實現方式三:強類型UDAF

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/79704.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/79704.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/79704.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

pandas庫詳解

CONTENT 基本數據結構SeriesDataFrame 數據讀取與寫入讀取 CSV 文件寫入 CSV 文件 數據清洗處理缺失值數據類型轉換 數據操作索引與切片數據合并數據分組與聚合 數據可視化 基本數據結構 Series Series 屬于一維標記數組,由一組數據和對應的索引構成。 import pa…

黑馬商城(五)微服務保護和分布式事務

一、雪崩問題 二、雪崩-解決方案&#xff08;服務保護方案&#xff09; 請求限流&#xff1a; 線程隔離&#xff1a; 服務熔斷&#xff1a; 服務保護組件&#xff1a; 三、Sentinel 引入依賴&#xff1a; <!--sentinel--> <dependency><groupId>com.aliba…

洛谷P1312 [NOIP 2011 提高組] Mayan 游戲

題目 #算法/進階搜索 思路: 根據題意,我們可以知道,這題只能枚舉,剪枝,因此,我們考慮如何枚舉,剪枝. 首先,我們要定義下降函數down(),使得小木塊右移時,能夠下降到最低處,其次,我們還需要寫出判斷函數,判斷矩陣內是否有小木塊沒被消除.另外,我們還需要消除函數,將矩陣內三個相連…

基于Redis的3種分布式ID生成策略

在分布式系統設計中&#xff0c;全局唯一ID是一個基礎而關鍵的組件。隨著業務規模擴大和系統架構向微服務演進&#xff0c;傳統的單機自增ID已無法滿足需求。高并發、高可用的分布式ID生成方案成為構建可靠分布式系統的必要條件。 Redis具備高性能、原子操作及簡單易用的特性&…

Spotlight on Mysql詳細介紹

1. 版本............................................................................................................................................1 2. 使用介紹...............................................................................................…

背包 DP 詳解

文章目錄 背包DP01 背包完全背包多重背包二進制優化單調隊列優化 小結 背包DP 背包 DP&#xff0c;說白了就是往一個背包里扔東西&#xff0c;求最后的最大價值是多少&#xff0c;一般分為了三種&#xff1a;01 背包、完全背包和多重背包。而 01 背包則是一切的基礎。 01 背包…

二級評論列表-Java實現

二級評論列表是很常見的功能&#xff0c;文章記錄了新手用Java實現的具體邏輯。 整體實現邏輯是先用2個sql&#xff0c;分別查出兩層數據。然后用java在service中實現數據組裝&#xff0c;返給前端。這種實現思路好處是SQL簡潔&#xff0c;邏輯分明&#xff0c;便于維護。 一…

快速入手-基于python和opencv的人臉檢測

1、安裝庫 pip install opencv-python 如果下載比較卡的話&#xff0c;指向國內下載地址&#xff1a; pip3 install opencv-python -i https://pypi.tuna.tsinghua.edu.cn/simple 2、下載源碼 https://opencv.org/ windows11對應的版本下載&#xff1a; https://pan.baidu…

GitLab本地安裝指南

當前GitLab的最新版是v17.10&#xff0c;安裝地址&#xff1a;https://about.gitlab.com/install/。當然國內也可以安裝極狐GitLab版本&#xff0c;極狐GitLab 是 GitLab 中國發行版&#xff08;JH&#xff09;。極狐GitLab支持龍蜥&#xff0c;歐拉等國內的操作系統平臺。安裝…

OpenCv高階(六)——圖像的透視變換

目錄 一、透視變換的定義與作用 二、透視變換的過程 三、OpenCV 中的透視變換函數 1. cv2.getPerspectiveTransform(src, dst) 2. cv2.warpPerspective(src, H, dsize, dstNone, flagscv2.INTER_LINEAR, borderModecv2.BORDER_CONSTANT, borderValue0) 四、文檔掃描校正&a…

資源-又在網上淘到金了

前言&#xff1a; 本期再分享網上沖浪發現的特效/動畫/視頻資源網站。 一、基本介紹&#xff1a; mantissa.xyz&#xff0c;about作者介紹為&#xff1a;Midge “Mantissa” Sinnaeve &#xff08;米奇辛納夫&#xff09;是一位屢獲殊榮的藝術家和導演&#xff0c;提供動畫、…

Linux疑難雜惑 | 云服務器重裝系統后vscode無法遠程連接的問題

報錯原因&#xff1a;本地的known_hosts文件記錄服務器信息與現服務器的信息沖突了&#xff0c;導致連接失敗。 解決方法&#xff1a;找到本地的known_hosts文件&#xff0c;把里面的所有東西刪除后保存就好了。 該文件的路徑可以在報錯中尋找&#xff1a;比如我的路徑就是&a…

FFMPEG-視頻解碼-支持rtsp|rtmp|音視頻文件(低延遲)

本人親測解碼顯示對比延遲達到7到20毫秒之間浮動兼容播放音視頻文件、拉流RTSP、RTMP等網絡流 基于 Qt 和 FFmpeg 的視頻解碼播放器類,繼承自 QThread,實現了視頻流的解碼、播放控制、幀同步和錯誤恢復等功能 工作流程初始化階段: 用戶設置URL和顯示尺寸 調用play()啟動線程解…

【音視頻】音視頻FLV合成實戰

FFmpeg合成流程 示例本程序會?成?個合成的?頻和視頻流&#xff0c;并將它們編碼和封裝輸出到輸出?件&#xff0c;輸出格式是根據?件擴展名?動猜測的。 示例的流程圖如下所示。 ffmpeg 的 Mux 主要分為 三步操作&#xff1a; avformat_write_header &#xff1a; 寫?件…

全鏈路開源數據平臺技術選型指南:六大實戰工具鏈解析

在數字化轉型加速的背景下&#xff0c;開源技術正重塑數據平臺的技術格局。本文深度解析數據平臺的全鏈路架構&#xff0c;精選六款兼具創新性與實用性的開源工具&#xff0c;涵蓋數據編排、治理、實時計算、聯邦查詢等核心場景&#xff0c;為企業構建云原生數據架構提供可落地…

JAVA設計模式——(1)適配器模式

JAVA設計模式——&#xff08;1&#xff09;適配器模式 目的理解實現優勢 目的 將一個類的接口變換成客戶端所期待的另一種接口&#xff0c;從而使原本因接口不匹配而無法一起工作的兩個類能夠在一起工作。 理解 可以想象成一個國標的插頭&#xff0c;結果插座是德標的&…

Qt C++ 解析和處理 XML 文件示例

使用 Qt C 解析和處理 XML 文件 以下是使用 Qt C 實現 XML 文件處理的幾種方法&#xff0c;包括解析、創建和修改 XML 文件。 1. 使用 QXmlStreamReader (推薦方式) #include <QFile> #include <QXmlStreamReader> #include <QDebug>void parseXmlWithStr…

坐標上海,20~40K的面試強度

繼續分享最新的面經&#xff0c;面試的崗位是上海某公司的Golang開發崗&#xff0c;給的薪資范圍是20~40K&#xff0c;對mongodb要求熟練掌握&#xff0c;所以面試過程中對于mongodb也問的比較多。 下面是我整理好的面經&#xff08;去除了項目相關的問題&#xff09;&#xf…

B端管理系統:企業運營的智慧大腦,精準指揮

B端管理系統的定義與核心功能 B端管理系統&#xff08;Business Management System&#xff09;是專門設計用于支持企業內部運作和外部業務交互的一套軟件工具。它集成了多種功能模塊&#xff0c;包括但不限于客戶關系管理(CRM)、供應鏈管理(SCM)、人力資源管理(HRM)以及財務管…

IDE中使用Spring Data Redis

步驟一&#xff1a;導入Spring Data Redis的maven坐標 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></dependency> 步驟二&#xff1a;配置Redis數據源 步驟三&…