spark SQL(三)數據源 Data Source----通用的數據 加載/保存功能

?Spark SQL 的數據源------通用的數據 加載/保存功能

? ? ? ? ? ?Spark SQL支持通過DataFrame接口在各種數據源上進行操作。DataFrame可以使用關系變換進行操作,也可以用來創建臨時視圖。將DataFrame? ? ? 注冊為臨時視圖允許您對其數據運行SQL查詢。本節介紹使用Spark Data Sources加載和保存數據的一般方法,然后介紹可用于內置數據源的特定選? ? ? ? 項。

?1, 常用的加載和保存功能。

? ? ?最簡單的形式,默認的數據源(parquet除非另有配置 spark.sql.sources.default)將用于所有的操作。

  val usersDF = spark.read.load("examples/src/main/resources/users.parquet")usersDF.select("name", "favorite_color").write.save("namesAndFavColors.parquet")

?2,手動指定選項

? ? ? 您也可以手動指定將要使用的數據源以及您想要傳遞給數據源的其他選項。數據源通過其全名指定(即org.apache.spark.sql.parquet),但內置的來源,你也可以使用自己的短名稱(json,parquet,jdbc,orc,libsvm,csv,text)。從任何數據源類型加載的數據框可以使用此語法轉換為其他類型。

   val peopleDF = spark.read.format("json").load("examples/src/main/resources/people.json")peopleDF.select("name", "age").write.format("parquet").save("namesAndAges.parquet")
3,?直接在文件上運行SQL

? ? ? ?您可以使用SQL直接查詢該文件,而不是使用讀取API將文件加載到DataFrame中并進行查詢。

 val peopleDFCsv = spark.read.format("csv").option("sep", ";").option("inferSchema", "true").option("header", "true").load("examples/src/main/resources/people.csv")val sqlDF = spark.sql("SELECT * FROM parquet.`examples/src/main/resources/users.parquet`")
其中people.csv的數據為:

name;age;job
Jorge;30;Developer
Bob;32;Developer
4,保存模式

? ??保存操作可以選擇一個Save Mode,指定如何處理現有的數據(如果存在)。認識到這些保存模式不使用任何鎖定數據而不是原子性的操作數據是很重要的。另外,執行時重寫數據,數據在寫出新數據之前將被刪除。常見類型如下:

Scala/Java? ? ?Any LanguageMeaning
SaveMode.ErrorIfExists (default)? "error" (default)? ? ?如果數據已經存在,將DataFrame保存到數據源時,則預計會拋出異常。
SaveMode.Append"append"如果data / table已經存在,將DataFrame保存到數據源時,則DataFrame的內容將被添加到現有數據中。
SaveMode.Overwrite"overwrite"覆蓋模式意味著將DataFrame保存到數據源時,如果data / table已經存在,則現有數據將被DataFrame的內容覆蓋。
SaveMode.Ignore"ignore"? ? ? ? ? ? ? ? ??忽略模式意味著,當將DataFrame保存到數據源時,如果數據已經存在,保存操作將不會保存DataFrame的內容,也不會更改現有數據。這與CREATE TABLE IF NOT EXISTSSQL中的類似。
5,保存數據并持久化表

? ? ? ? ?DataFrames也可以使用該saveAsTable 命令將其作為持久表保存到Hive Metastore中。請注意,現有的Hive部署對于使用此功能不是必需的。Spark將為您創建一個默認的本地Hive Metastore(使用Derby)。與createOrReplaceTempView命令不同的是, saveAsTable將實現DataFrame的內容并創建指向Hive Metastore中的數據的指針。即使您的Spark程序重新啟動后,永久性表格仍然存在,只要您保持與同一Metastore的連接即可。用于持久表的DataFrame可以通過使用表的名稱調用tablea方法來創建SparkSession。
? ? ? ? 對于基于文件的數據源,例如文本,parquet,json等,您可以通過path選項指定一個自定義表格路徑 ,例如df.write.option("path", "/some/path").saveAsTable("t")。當表被刪除時,自定義表路徑將不會被刪除,表數據仍然存在。如果沒有指定自定義表格路徑,Spark會將數據寫入倉庫目錄下的默認表格路徑。當表被刪除時,默認的表路徑也將被刪除。
? ? ? ?從Spark 2.1開始,持久數據源表具有存儲在Hive Metastore中的每個分區元數據。這帶來了幾個好處:
? ? ? ? ? ?1) 由于Metastore只能返回查詢所需的分區,因此不再需要發現第一個查詢的所有分區。
? ? ? ? ? ?2) Hive DDL如ALTER TABLE PARTITION ... SET LOCATION現在可用于使用Datasource API創建的表。
請注意,創建外部數據源表(具有path選項的那些表)時,默認情況下不會收集分區信息。要同步Metastore中的分區信息,可以調用MSCK REPAIR TABLE。

6,Bucketing(分段), Sorting(排序) and Partitioning(分區)

? ? ?對于基于文件的數據源,也可以對輸出進行分類。分段和排序僅適用于持久表:

  peopleDF.write.bucketBy(42, "name").sortBy("age").saveAsTable("people_bucketed")
? ??而分區則可以同時使用save和saveAsTable使用數據集API。
 usersDF.write.partitionBy("favorite_color").format("parquet").save("namesPartByColor.parquet")

? 同時也可以對單個表使用分區和分區:

   peopleDF.write.partitionBy("favorite_color").bucketBy(42, "name").saveAsTable("people_partitioned_bucketed")
partitionBy創建一個目錄結構,如“?Partition Discovery?部分所述。因此,對基數高的柱子的適用性有限。相比之下?bucketBy,通過固定數量的桶分配數據,并且可以在大量唯一值無界時使用。

上述完整的例子代碼如下:

 private def runBasicDataSourceExample(spark: SparkSession): Unit = {val usersDF = spark.read.load("examples/src/main/resources/users.parquet")usersDF.select("name", "favorite_color").write.save("namesAndFavColors.parquet")val peopleDF = spark.read.format("json").load("examples/src/main/resources/people.json")peopleDF.select("name", "age").write.format("parquet").save("namesAndAges.parquet")val peopleDFCsv = spark.read.format("csv").option("sep", ";").option("inferSchema", "true").option("header", "true").load("examples/src/main/resources/people.csv")val sqlDF = spark.sql("SELECT * FROM parquet.`examples/src/main/resources/users.parquet`")peopleDF.write.bucketBy(42, "name").sortBy("age").saveAsTable("people_bucketed")usersDF.write.partitionBy("favorite_color").format("parquet").save("namesPartByColor.parquet")peopleDF.write.partitionBy("favorite_color").bucketBy(42, "name").saveAsTable("people_partitioned_bucketed")spark.sql("DROP TABLE IF EXISTS people_bucketed")spark.sql("DROP TABLE IF EXISTS people_partitioned_bucketed")}

其中people.json測試數據如下:

{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}





轉載于:https://www.cnblogs.com/zhou-jun/p/10195711.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/370038.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/370038.shtml
英文地址,請注明出處:http://en.pswp.cn/news/370038.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

sqlserver日期函數

SQLServer時間日期函數詳解,SQLServer,時間日期, 1. 當前系統日期、時間 select getdate() 2. dateadd 在向指定日期加上一段時間的基礎上,返回新的 datetime 值 例如:向日期加上2天 select dateadd(day,2,2004-10-15) --返回&#xff1a…

榮耀鴻蒙系統開機動畫,榮耀趙明:鴻蒙系統首發設備欲屏蔽開機廣告

來源:硅谷分析獅余承東表示8月9日會發布鴻蒙系統,而從他透露的一些細節看,鴻蒙系統將首先運用在智慧屏終端上,其配合大屏幕和自研芯片(麒麟AI芯片,鴻鵠智慧顯示芯片,凌霄WIFI芯片),將實現生態上…

編寫Maven插件的提示

最近,我花了很多時間來編寫或為Maven開發插件。 它們簡單,有趣且有趣。 我以為我會分享一些技巧,使他們在編寫時變得更輕松。 提示1:將任務與Mojo分開 最初,您將把mojo的所有代碼放入mojo的類(即&#xf…

oracle通信通道的文件結尾_ORA-03113:通信通道的文件結尾解決

提示ORA-03113:通信通道的文件結尾解決事情原由:oracle安裝到win7下,以為都是直接sqlplus / as sysdba,使用數據庫,但最近連接時頻繁報錯,提示ORA-03113:通信通道的文件結尾進程 ID &#xff1a…

Python_迭代器與生成器

迭代器 迭代是Python最強大的功能之一,是訪問集合元素的一種方式。。 迭代器是一個可以記住遍歷的位置的對象。 迭代器對象從集合的第一個元素開始訪問,直到所有的元素被訪問完結束。迭代器只能往前不會后退。 迭代器有兩個基本的方法:iter()…

JSOI 2009 BZOJ 1444 有趣的游戲

題面 題目描述 小陽陽發明了一個有趣的游戲:有n個玩家,每一個玩家均有一個長度為 l 的字母序列,任何兩個玩家的字母序列不同。共有m種不同的字母,所有的字母序列都由這m種字母構成,為了方便,我們取大寫字母…

html語言dl與ul,HTML中DL、UL、OL用哪個比較好

大家好~ 我是一枚正直純潔的苦逼程序員!!!!!ul,ol,dl標簽是CSS網頁布局中常用的列表元素。 列表將具有相似特征或先后順序的內容按照從上到下的順序排列起來。1.ul標簽:無序列表始于…

slot多作用域 vue_詳解Vue.js 作用域、slot用法(單個slot、具名slot)

作用域HEi免費資源網在介紹slot前&#xff0c;需要先知道一個概念&#xff1a;編譯的作用域。比如父組件中有如下模板&#xff1a;HEi免費資源網{{message}}這里的message就是一個slot&#xff0c;但是它綁定的是父組件的數據&#xff0c;而不是組件< child-component >的…

Java – JDK 8的遠景

世界正在緩慢但肯定地發生變化。 經過更改后&#xff0c;Java有了JDK 7的全新外觀&#xff0c;Java社區期待JDK 8&#xff08;可能還有JDK 9&#xff09;所帶來的其余改進。 JDK 8的目標目的是填補JDK 7實施中的空白-該實施中剩下的部分難題&#xff0c;應該在2013年底之前為廣…

CSS 學習路線(一)元素

元素(element) 類型:替換和非替換元素 替換元素(replaced element): 用來替換元素內容的部分并非由文檔內容直接顯示. eg:img input 非替換元素(nonreplaced element): 其內容由用戶代理在元素本身生成的框顯示. eg:絕大多數都是非替換元素 基本元素類型:塊級(block-lev…

[urllib]urlretrieve在python3

python3下面要使用&#xff1a;urllib.request.urlretrieve()這種形式的調用 1 from urllib.request import urlretrieve 2 3 4 urlretrieve(url, path) 轉載于:https://www.cnblogs.com/sigai/p/8178375.html

使用Gulp壓縮CSS/JS

一、安裝 1.安裝gulp npm install -g gulp2.檢查gulp 版本 gulp -v3.在項目文件夾下安裝gulp npm install --save-dev gulp二、壓縮JS 1.安裝gulp-uglify模塊 npm install gulp-uglify2.在項目根目錄創建gulpfile.js文件 3.在gulpfile.js文件中寫入代碼 // 獲取 gulpvar gulp …

android活動開始,android – 點擊谷歌地圖標記infoWindow開始活動

我建議使用HashMap或類似的東西.當您遍歷對象列表并為它們創建標記時,還要將標記添加到列表中,使用對象的ID作為鍵,將標記作為值&#xff1a;private HashMap markerMap new HashMap();…for(MarkerObject obj : this.markerObjects){//If the marker isnt already being disp…

Hamcrest包含匹配器

與Hamcrest 1.2相比 &#xff0c;針對Matchers類的Hamcrest 1.3 Javadoc文檔為該類的幾種方法添加了更多文檔。 例如&#xff0c;四個重載的contains方法具有更具描述性的Javadoc文檔&#xff0c;如下面所示的兩個比較屏幕快照所示。 盡管僅通過嘗試就可以弄清楚“包含”匹配器…

華為cor—al10_cor al10是華為什么型號 cor al10是華為啥型號

cor al10是華為榮耀Play。外觀方面&#xff0c;榮耀Play提供有星云紫&#xff0c;極光藍&#xff0c;幻夜黑三種基礎配色&#xff0c;以及幻夜黑與魅焰紅的酷玩版配色&#xff1b;拍照方面&#xff0c;榮耀Play具有1600萬AI雙攝像頭&#xff0c;前置攝像頭為1600萬像素&#xf…

函數 (四) 迭代器和生成器

一 迭代器 一 迭代的概念 #迭代器即迭代的工具&#xff0c;那什么是迭代呢&#xff1f;#迭代是一個重復的過程&#xff0c;每次重復即一次迭代&#xff0c;并且每次迭代的結果都是下一次迭代的初始值 while True: #只是單純地重復&#xff0c;因而不是迭代print(>) l[1,2,3]…

進階-JMS 知識梳理

JMS 一、 概述與介紹 ActiveMQ 是Apache出品&#xff0c;最流行的、功能強大的即時通訊和集成模式的開源服務器。ActiveMQ 是一個完全支持JMS1.1和J2EE 1.4規范的 JMS Provider實現。提供客戶端支持跨語言和協議&#xff0c;帶有易于在充分支持JMS 1.1和1.4使用J2EE企業集成模式…

android藍牙pair,Android向更多藍牙設備開放Fast Pair功能 配對更輕松了

原標題&#xff1a;Android向更多藍牙設備開放Fast Pair功能 配對更輕松了 來源&#xff1a;cnBeta.COM藍牙是一項應用非常廣泛的無線技術&#xff0c;在無線音頻配件、智能手表和智能家電中都廣泛使用。不過藍牙設備的配對體驗并不優秀&#xff0c;而且無法實現跨平臺的一致性…

用CSS讓DIV上下左右居中的方法

例如 一個父div(w:100%;h:400px)中有一個子div(w:100px;100px;)。讓其上下左右居中。 方法一&#xff08;varticle-align&#xff09; 理念 利用表格單元格的居中屬性。 步驟 父div外層配置一個div&#xff0c;同時設置為表格元素 (display: table)&#xff0c;寬度為100%父…

功能性Java集合

如今&#xff0c;在功能上大肆宣傳&#xff0c;因此至少在Java集合方面&#xff0c;我將簡要介紹一下其中的功能。 我個人喜歡標準 集合API&#xff0c;但在某些情況下可能會很尷尬并添加其他詳細信息。 在Java 8的更高版本中&#xff0c;這應該不是問題。 在那里&#xff0c;…