Spark-SQL簡介及核心編程

Spark-SQL概述:是Spark用于結構化數據處理的模塊,前身是Shark。Shark基于Hive開發,使SQL-on-Hadoop性能大幅提升,但對Hive依賴制約了Spark發展。SparkSQL汲取Shark優點并重新開發,在數據兼容、性能優化和組件擴展上優勢顯著。2014年6月,Shark停止開發,發展出SparkSQL和Hive on Spark兩個支線。

Spark-SQL特點:易整合,能無縫整合SQL查詢和Spark編程;統一數據訪問,以相同方式連接不同數據源;兼容Hive,可在已有倉庫運行SQL或HQL;支持標準數據連接,能通過JDBC或ODBC連接。

DataFrame介紹:是基于RDD的分布式數據集,類似二維表格,與RDD區別在于帶有schema元信息,支持嵌套數據類型,API更友好,性能比RDD高,因為查詢計劃經Spark catalyst optimiser優化。

DataSet介紹:是分布式數據集合,是DataFrame的擴展。兼具RDD強類型、使用lambda函數的能力和Spark SQL優化執行引擎的優點,用樣例類定義結構信息,是強類型的,DataFrame是DataSet的特例(DataFrame = DataSet[Row]) ,可通過?as?方法相互轉換。

SparkSession:是Spark最新的SQL查詢起始點,它整合了SQLContext和HiveContext的功能,內部封裝了SparkContext,負責實際的計算。在spark-shell中,系統會自動創建名為spark的SparkSession對象。

DataFrame

創建方式:可通過Spark的數據源創建

SQL語法查詢:使用SQL語法風格查詢數據時,需要借助臨時視圖或全局視圖。先讀取JSON文件創建DataFrame,如?val df1 = spark.read.json("data/user.json")?;接著對DataFrame創建臨時表?df1.createOrReplaceTempView("people")?,之后就能通過SQL語句查詢,如?val sqlDF = spark.sql("select * from people")? ,并使用?sqlDF.show?展示結果。創建全局表時,首次運行可能報錯,需將hive-site.xml文件復制到spark的conf路徑下(最好把整個hive目錄放在本地文件系統中),完成配置后創建全局表?df1.createGlobalTempView("people1")?,可通過?spark.sql("SELECT * FROM global_temp.people1").show()?等語句查詢展示數據。

DataFrame的DSL語法:DataFrame提供DSL管理結構化數據,使用時無需創建臨時視圖。操作包括創建DataFrame;選取特定列,如?df.select("username").show()?;進行列運算?df.select($"username",$"age" + 1).show?;篩選數據?df.filter($"age">18).show?;按列分組統計?df.groupBy("age").count.show? 。

2.?RDD轉換為DataFrame:在IDEA開發時,RDD與DataFrame或DataSet相互操作需引入?import spark.implicits._? (spark為SparkSession對象變量名,且必須用val修飾),spark-shell中自動導入。可直接將RDD轉為DataFrame?;實際開發常借助樣例類轉換,定義?case class User(name:String, age:Int)? 后,通過?sc.makeRDD(List(("zhangsan",30), ("lisi",40))).map(t=>User(t._1, t._2)).toDF.show?實現轉換 。

DataFrame轉換為RDD:DataFrame可直接獲取內部RDD?。獲取的RDD存儲類型為Row,可通過?collect?方法收集數據,如?val array = rdd.collect?,還能通過?getAs?方法按列名獲取數據。

DataSet操作

創建DataSet:可使用樣例類序列,如定義?case class Person(name: String, age: Long)?后,通過?Seq(Person("zhangsan",2)).toDS()?創建;也能用基本類型序列創建,如?Seq(1,2,3,4,5).toDS? ,但實際更多從RDD獲取DataSet。

RDD與DataSet相互轉換:包含case類的RDD能自動轉為DataSet,如?sc.makeRDD(List(("zhangsan",30), ("lisi",49))).map(t=>User(t._1, t._2)).toDS?;DataSet可直接獲取內部RDD,如?val rdd = res3.rdd? 。

DataFrame和DataSet轉換:DataFrame是DataSet的特例,二者可相互轉換。DataFrame轉DataSet,定義樣例類后用?as?方法,如?val ds = df.as[User]?;DataSet轉DataFrame使用?toDF?方法,如?val df = ds.toDF?。

RDD、DataFrame、DataSet關系

版本產生順序:Spark1.0推出RDD,Spark1.3出現DataFrame,Spark1.6引入DataSet 。

共性:都是分布式彈性數據集,有惰性機制、共同函數,操作需?import spark.implicits._?,會自動緩存運算,都有分區概念,DataFrame和DataSet可模式匹配獲取字段信息。

區別:RDD常與spark mllib使用,不支持sparksql操作;DataFrame每行類型為Row,訪問列值需解析,支持SparkSQL操作和便捷保存方式;DataSet與DataFrame成員函數相同,每行數據類型自定義,獲取行信息更自由。三者可相互轉換。

?

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/76755.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/76755.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/76755.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

奇趣點播系統測試報告

1.項目簡介 本項目旨在搭建一個視頻共享點播系統,服務器支持用戶通過前端瀏覽器訪問服務器,獲取展示與觀看和操作的界面,最終實現視頻的上傳以及觀看和刪改查等基礎管理功能。讓用戶擁有良好的觀看體驗和分享視頻的快捷方式,此外…

【Web API系列】WebSocketStream API 深度實踐:構建高吞吐量實時應用的流式通信方案

前言 在當今的 Web 開發領域,實時通信已成為許多應用的核心需求。無論是即時聊天、實時數據儀表盤,還是在線游戲和金融交易系統,都需要高效的雙向數據傳輸能力。傳統的 WebSocket API 為此提供了基礎支持,但在處理大規模數據流、…

基于LangGraph的智能報告生成平臺項目分析

前言 不知道你是否知道或者了解OpenAI and Gemini Deep Research。他們是一種能夠根據輸入問題進行規劃、結合網絡搜索獲取信息并最終呈現結果的研究工具或技術。那這樣research是如何實現的呢?最近剛好看到一個實現類似功能的開源項目: open_deep_search。本文將基于該項目進…

Redis 常見的集群架構

Redis 常見的集群架構 以下是 Redis 常見的集群架構及其核心模式詳解,結合其設計原理、適用場景和優缺點進行綜合說明: 一、主從復制模式 架構原理 角色劃分:包含一個主節點(Master)和多個從節點(Slave&…

面試寶典(C++基礎)-01

文章目錄 1. C++基礎1.1 C++特點1.2 說說C語言和C++的區別1.3 說說 C++中 struct 和 class 的區別1.4 include頭文件的順序以及雙引號""和尖括號<>的區別1.5 說說C++結構體和C結構體的區別1.6 導入C函數的關鍵字是什么,C++編譯時和C有什么不同?1.7 C++從代碼…

快速獲得ecovadis認證的方法,如何提升ecovadis認證分數,有效期是多久

快速獲得EcoVadis認證的方法 EcoVadis認證是企業社會責任&#xff08;CSR&#xff09;和可持續發展能力的國際評估標準&#xff0c;被廣泛應用于供應鏈管理&#xff08;如蘋果、微軟、聯合利華等巨頭要求供應商通過EcoVadis評估&#xff09;。以下是快速獲得認證的關鍵步驟&am…

ubuntu 安裝samba

ubuntu 版本&#xff1a;Ubuntu 24.04.2 LTS 1. 保證連網 2. 安裝samba sudo apt install samba 在安裝結束以后&#xff0c;我們可以使用下面的命令來查看安裝&#xff1a; apt list | grep samba freeipa-client-samba/noble 4.11.1-2 amd64 ldb-tools/noble 2:2.8.0samba…

基于SpringBoot的寵物健康咨詢系統(源碼+數據庫+萬字文檔)

502基于SpringBoot的寵物健康咨詢系統&#xff0c;系統包含三種角色&#xff1a;管理員、用戶&#xff0c;顧問主要功能如下。 【用戶功能】 1. 首頁&#xff1a;查看系統主要信息和最新動態。 2. 公告&#xff1a;瀏覽系統發布的公告信息。 3. 顧問&#xff1a;瀏覽可提供咨詢…

人工智能驅動的科研新范式及學科應用研究

人工智能&#xff08;AI&#xff09;驅動的科研新范式通過數據、算力、算法的深度耦合深度嵌入科學研究的全過程&#xff0c;引發科研流程、思考邏輯和組織模式的深刻變革。文章系統總結了AI驅動科研新范式的主要特征與形式&#xff0c;提出AI驅動科研新范式的演化方向由“科研…

代碼生成工具explain的高級用法

修改 explain.cpp 中的模板部分&#xff1a; // 添加自定義頭文件 cout << "#include \"CustomLib.h\"\n"; 生成支持日志的記錄代碼&#xff1a; cout << "Logger::init();\n"; // 自動插入初始化代碼其他匯總 Magnet 多線程控制…

Vue3+elementPlus中 樹形控件封裝

1.組件 <template><div class"selection"><el-select placeholder"請選擇" v-model"nameList" clearable clear"handleClear" ref"selectUpResId" style"width: 100%"><el-option hidden :…

輝視監獄廣播對講系統:SIP協議賦能智慧監管新生態

一、全域互聯&#xff1a;構建監獄安防設備協同生態 基于SIP協議的輝視廣播對講系統&#xff0c;以"通信中樞"角色打破設備壁壘。其強大的兼容性可無縫對接監獄現有監控、門禁、報警等異構設備&#xff0c;支持GB/T 28181國標協議&#xff0c;實現跨品牌、跨系統的數…

信息系統項目管理師-工具名詞解釋(上)

本文章記錄學習過程中,重要的知識點,是否為重點的依據,來源于官方教材和歷年考題,持續更新共勉 本文章記錄學習過程中,重要的知識點,是否為重點的依據,來源于官方教材和歷年考題,持續更新共勉 數據收集 頭腦風暴 在短時間內獲得大量創意,適用于團隊環境,需要引導者…

C++之二叉搜索樹

目錄 ?叉搜索樹的概念 二叉搜索數的性能分析 二叉搜索樹的模擬實現 定義二叉樹節點結構 二叉搜索樹的插入 二叉搜索樹的查找 二叉搜索樹的刪除 中序遍歷 全部代碼 二叉搜索樹key和key/value使用場景 key搜索場景&#xff1a; key/value搜索場景&#xff1a; key/value…

數據結構——哈希詳解

數據結構——哈希詳解 目錄 一、哈希的定義 二、六種哈希函數的構造方法 2.1 除留取余法 2.2 平方取中法 2.3 隨機數法 2.4 折疊法 2.5 數字分析法 2.6 直接定值法 三、四種解決哈希沖突的方法 3.1 開放地址法 3.1.1 線性探測法 3.1.2 二次探測法 3.2 鏈地址法 3…

使用U盤安裝 ubuntu 系統

1. 準備U 盤制作鏡像 1.1 下載 ubuntu iso https://ubuntu.com/download/ 這里有多個版本以供下載&#xff0c;本文選擇桌面版。 1.2 下載rufus https://rufus.ie/downloads/ 1.3 以管理員身份運行 rufus 設備選擇你用來制作啟動項的U盤&#xff0c;不能選錯了&#xff1b;點…

RadioMaster POCKET遙控器進入ExpressLRS界面一直顯示Loading的問題解決方法

RadioMaster POCKET遙控器進入ExpressLRS界面一直顯示Loading的問題解決方法 問題描述解決方法 問題描述 有一天我發現我的 RadioMaster POCKET 遙控器進入 ExpressLRS 設置界面時&#xff0c;界面卻一直停留在 “Loading” 狀態&#xff0c;完全無法進入設置界面。 我并沒有…

計算機網絡 - 三次握手相關問題

通過一些問題來討論 TCP 協議中的三次握手機制 說一下三次握手的大致過程&#xff1f;為什么需要三次握手&#xff1f;2 次不可以嗎&#xff1f;第三次握手&#xff0c;可以攜帶數據嗎&#xff1f;第二次呢&#xff1f;三次握手連接階段&#xff0c;最后一次ACK包丟失&#xf…

【RabbitMQ】核心概念和工作流程

文章目錄 RabbitMQ 工作流程流程圖 Producer 和 ConsumerConnecting 和 ChannelVirtual hostQueueExchangeRabbitMQ 工作流程 RabbitMQ 工作流程 流程圖 RabbitMQ 就是一個生產者/消費者模型 Producer 就是生產者、Consumer 就是消費者Broker 是 RabbitMQ 服務器生產者和消費…

龍虎榜——20250414

今天縮量上漲有些乏力&#xff0c;壓力位還在~ 2025年4月14日龍虎榜行業方向分析 一、核心主線方向 黃金與貴金屬&#xff08;避險邏輯強化&#xff09; ? 驅動邏輯&#xff1a;國際地緣沖突持續升溫&#xff08;如中東局勢、臺海動態&#xff09;&#xff0c;疊加美國特朗普…