大數據學習（09）--spark學習

news/2025/9/1 19:56:55/文章來源:https://blog.csdn.net/wangzi11111111/article/details/89175287

文章目錄

目錄
- 1.spark介紹
- - 1.1 spark介紹
  - 1.2 scale介紹
  - 1.3 spark和Hadoop比較
- 2.spark生態系統
- 3.spark運行框架
- - 3.1 基本概念
  - 3.2 架構的設計
  - 3.3 spark運行基本流程
  - 3.4 spark運行原理
  - 3.5 RDD運行原理
  - - 3.5.1 設計背景
    - 3.5.2 RDD概念和特性
    - 3.5.3 RDD之間的依賴關系
    - 3.5.4 stage的劃分
    - 3.5.5 RDD的運行過程
- 4.spark SQL
- - 4.1 shark的介紹
  - 4.2 spark SQL的介紹
- 5.spark的部署和運行
- - 5.1 三種部署方式
  - 5.2 從Hadoop+Strom 架構轉向spark架構
  - 5.3 Hadoop 和spark的統一部署
- 6.spark編程實踐
- - 6.1 spark安裝
  - 6.2 啟動spark shell
  - 6.3 spark RDD的操作
  - 6.4 spark應用程序

目錄

1.spark介紹

1.1 spark介紹

在這里插入圖片描述

spark不僅僅是一個計算框架，而是一個大數據處理的平臺，或者說生態。

1.2 scale介紹

在這里插入圖片描述

1.3 spark和Hadoop比較

在這里插入圖片描述

spark將運行的中間結果寫入內存，而不是如MapReduce那樣每次都寫入磁盤，所以速度非常快，那么肯定就有疑問，內存相比于磁盤來說，那么小，如何解決大數據的中間結果的存儲，spark是采用優先寫內存，內存寫滿后，才往磁盤中寫入。

2.spark生態系統

在這里插入圖片描述

3.spark運行框架

3.1 基本概念

在這里插入圖片描述

3.2 架構的設計

在這里插入圖片描述

3.3 spark運行基本流程

在這里插入圖片描述

3.4 spark運行原理

在這里插入圖片描述

3.5 RDD運行原理

3.5.1 設計背景

在這里插入圖片描述

3.5.2 RDD概念和特性

在這里插入圖片描述

3.5.3 RDD之間的依賴關系

在這里插入圖片描述

3.5.4 stage的劃分

在這里插入圖片描述

3.5.5 RDD的運行過程

在這里插入圖片描述

4.spark SQL

4.1 shark的介紹

在這里插入圖片描述

4.2 spark SQL的介紹

在這里插入圖片描述

5.spark的部署和運行

5.1 三種部署方式

在這里插入圖片描述

5.2 從Hadoop+Strom 架構轉向spark架構

在這里插入圖片描述

5.3 Hadoop 和spark的統一部署

在這里插入圖片描述

6.spark編程實踐

參考博客

6.1 spark安裝

在這里插入圖片描述

6.2 啟動spark shell

在這里插入圖片描述

6.3 spark RDD的操作

在這里插入圖片描述

6.4 spark應用程序

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/445213.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/445213.shtml
英文地址，請注明出處：http://en.pswp.cn/news/445213.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

探索 Pexpect

探索 Pexpect

概述通過本系列第一部分《探索 Pexpect，第 1 部分：剖析 Pexpect 》（請參閱參考資料）的介紹，相信大家已經對 Pexpect 的用法已經有了比較全面的了解，知道 Pexpect 是個純 Python 語言實現的模塊&#xff…

閱讀更多...

Python的Pexpect詳解 [圖片]

Python的Pexpect詳解 [圖片]

Pexpect 是一個用來啟動子程序并對其進行自動控制的純 Python 模塊。 Pexpect 可以用來和像 ssh、ftp、passwd、telnet 等命令行程序進行自動交互。繼第一部分《探索 Pexpect，第 1 部分：剖析 Pexpect 》介紹了 Pexpect 的基礎和如何使用后，本…

閱讀更多...

關系數據庫——sql增刪改

關系數據庫——sql增刪改

數據的插入插入元祖 --1. 表名后沒有指定屬性列：表示要插入的是一條完整的元組，且屬性列屬性與表定義中的順序一致 insert into student values (201215128, 陳東, 18, 男, IS);--2. 在表明后指定要插入數據的表名及屬性列，屬性列的順序可…

閱讀更多...

機器學習中的聚類方法總結

機器學習中的聚類方法總結

聚類定義定義聚類就是對大量未知標注的數據集，按數據的內在相似性將數據集劃分為多個類別，使類別內的數據相似度較大而類別間的數據相似度較小。是無監督的分類方式。聚類思想給定一個有N個對象的數據集，構造數據的k 個簇&#x…

閱讀更多...

學點數學(1)-隨機變量函數變換

學點數學(1)-隨機變量函數變換

隨機變量函數變換本文介紹一維隨機變量函數變換，參考文獻：https://wenku.baidu.com/view/619f74ac3186bceb19e8bbd0.html變換TTT作用于隨機變量XXX，產生隨機變量YYY. T:X?>Y或者寫為yT(x)T:X->Y 或者寫為 yT(x)T:X?>Y或者寫為yT(x…

閱讀更多...

關系數據庫——關系數據語言

關系數據庫——關系數據語言

關系域：一組具有相同數據類型的值的集合（即取值范圍） 笛卡爾積：域上的一種集合運算。結果為一個集合，集合的每一個元素是一個元組，元組的每一個分量來自不同的域。基數：一個域允許的不同取值…

閱讀更多...

Python模塊(2)-Numpy 簡易使用教程

Python模塊(2)-Numpy 簡易使用教程

Numpy模塊簡易使用教程1.數組創建2.數組基本屬性-維度、尺寸、數據類型3.數組訪問-索引、切片、迭代4.數組的算術運算-加減乘除、轉置求逆、極大極小5.通用函數-sin,cos,exp,sqrtnp.dot與np.matmul的區別6.數組的合并和分割6.1 np.vstack(),np.hstack()6.2 np.stack()7.list與…

閱讀更多...

機器學習問題總結（01）

機器學習問題總結（01）

文章目錄1.請描述推薦系統中協同過濾算法CF的原理2.請描述決策樹的原理、過程、終止條件，以及如何防止過擬合2.1決策樹生成算法2.2 剪枝處理（防止過擬合）2.3 停止條件2.4 棵決策樹的生成過程2.5 決策樹的損失函數3.請描述K-means的原理&#…

閱讀更多...

pthread_attr_init線程屬性

pthread_attr_init線程屬性

1．線程屬性線程具有屬性，用pthread_attr_t表示，在對該結構進行處理之前必須進行初始化，在使用后需要對其去除初始化。我們用pthread_attr_init函數對其初始化，用pthread_attr_destroy對其去除初始化。 1． …

閱讀更多...

Python實例講解 -- 解析xml

Python實例講解 -- 解析xml

Xml代碼 <?xml version"1.0" encoding"utf-8"?> <info> <intro>信息</intro> <list id001> <head>auto_userone</head> <name>Jordy</name> <number&g…

閱讀更多...

springboot3——Email

springboot3——Email

maven導入包： <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-mail</artifactId><version>2.1.6.RELEASE</version></dependency> 參數配置： # MailPrope…

閱讀更多...

python(22)--面向對象1-封裝

python(22)--面向對象1-封裝

python面向對象1面向過程/面向對象2面向對象核心概念-類3類的設計3.1類三要素-類名、屬性、方法3.2面向對象基礎語法3.2.1查看對象的常用方法3.2.2類定義3.2.3創建類對象3.2.4__init__()方法3.2.5 self參數3.2.6類內置方法和屬性_del_()方法--銷毀對象_str_()方法--定制化輸出對…

閱讀更多...

機器學習問題總結（02）

機器學習問題總結（02）

文章目錄1.stacking模型以及做模型融合的知識1.1 從提交結果中融合1.2 stacking1.3 blending2. 怎樣去優化SVM算法模型的？2.1 SMO優化算法2.2 libsvm 和 Liblinear3.現有底層是tensorflow的keras框架，如果現在有一個tensorflow訓練好的模型，k…

閱讀更多...

python對操作系統的目錄和文件操作

python對操作系統的目錄和文件操作

一、獲取當前目錄下的特定文件列表>>>import glob,os>>>curdir os.getcwd() #獲取當前目錄>>>os.chdir(workdir) #設置當前目錄>>>dir glob.glob(*.dat) #獲取當前目錄的dat文件列表>>>os.chdir(curdir) #…

閱讀更多...

常見漏洞

常見漏洞

Cookie without HttpOnly flag set 如果在Cookie上設置了HttpOnly屬性，則客戶端JavaScript無法讀取或設置Cookie的值。這種措施通過阻止某些客戶端攻擊（例如跨站點腳本），通過阻止它們通過注入的腳本來簡單地捕獲cookie的值&…

閱讀更多...

python函數星號參數

python函數星號參數

2011-09-01 17:35 2人閱讀評論(0) 收藏編輯刪除今天有個工作是導出一個函數給腳本用我自已先要測一下先要客戶端發送一個消息給服務器看了下C部分的代碼,如下 "def onNetMessage(self,playerID, msgName,msgParam):\n" //客戶端調用服務器腳本 " …

閱讀更多...

MachineLearning(3)-流型

MachineLearning(3)-流型

流型-manifold在很多機器學習的文章中會見到“嵌入在高維空間的低維流型”這樣的字眼，下記錄一些重要概念。參考資料：https://blog.csdn.net/sinat_32043495/article/details/789977581.流型局部具有歐幾里得空間性質的空間（流型就是一個空間…

閱讀更多...

C/C++常見面試題（四）

C/C++常見面試題（四）

C/C面試題集合四目錄 1、什么是C中的類？如何定義和實例化一個類？ 2、請解釋C中的繼承和多態性。 3、什么是虛函數？為什么在基類中使用虛函數？ 4、解釋封裝、繼承和多態的概念，并提供相應的代碼示例 5、如何處理內…

閱讀更多...

機器學習問題總結（03）

機器學習問題總結（03）

文章目錄1.struct和class區別，你更傾向用哪個2.kNN，樸素貝葉斯，SVM的優缺點，各種算法優缺點2.1 KNN算法2.2 樸素貝葉斯2.3SVM算法2.4 ANN算法2.5 DT算法3. 10億個整數，1G內存，O(n)算法，統計只出…

閱讀更多...

python源代碼現成重用大全

python源代碼現成重用大全

Nullege is a search engine for Python source code. http://nullege.com/

閱讀更多...

最新文章