Python+PySpark數據計算

1、map算子

對RDD內的元素進行逐個處理,并返回一個新的RDD,可以使用lambda以及鏈式編程,簡化代碼。

?注意:再python中的lambda只能有行,如果有多行,要寫成外部函數;(T)->U表示要傳入一個函數

from pyspark import SparkConf,SparkContext
import os
# pyspark無法自動尋到python的編譯器,所以需要我們自己手動配置
os.environ['PYSPARK_PYTHON']='"D:\\softer\\anaconda\\Anacond\\python.exe"'conf =SparkConf().setMaster("local[*]").setAppName("text_spark")
sc =SparkContext(conf=conf)
rdd1=sc.parallelize(["123,123","123,123"]) # list類型
rdd2=rdd1.map(lambda x:x.split(","))
print(rdd2.collect())
sc.stop()

2、FlatMap算子

整體邏輯與map相同,但多了一個嵌套解除功能

from pyspark import SparkConf,SparkContext
import os
# pyspark無法自動尋到python的編譯器,所以需要我們自己手動配置
os.environ['PYSPARK_PYTHON']='"D:\\softer\\anaconda\\Anacond\\python.exe"'conf =SparkConf().setMaster("local[*]").setAppName("text_spark")
sc =SparkContext(conf=conf)
rdd1=sc.parallelize(["123,123","123,123"]) # list類型
rdd2=rdd1.flatMap(lambda x:x.split(","))
print(rdd2.collect())
sc.stop()

flatMap ->? ['123', '123', '123', '123']

map ->? [['123', '123'], ['123', '123']](少了一層[ ])

3、reduce算子

功能:對傳入的數據進行聚合

from pyspark import SparkConf,SparkContext
import os
# pyspark無法自動尋到python的編譯器,所以需要我們自己手動配置
os.environ['PYSPARK_PYTHON']='"D:\\softer\\anaconda\\Anacond\\python.exe"'conf =SparkConf().setMaster("local[*]").setAppName("text_spark")
sc =SparkContext(conf=conf)
rdd1=sc.parallelize([1,2,3,4,5,6,6]) # list類型
print(rdd1.reduce(lambda x,y: x+y)) # 27
sc.stop()

4、reduceBykey算子

功能:傳入數據組,能進行分組,并進行邏輯運算。

from pyspark import SparkConf,SparkContext
import os
# pyspark無法自動尋到python的編譯器,所以需要我們自己手動配置
os.environ['PYSPARK_PYTHON']='"D:\\softer\\anaconda\\Anacond\\python.exe"'conf =SparkConf().setMaster("local[*]").setAppName("text_spark")
sc =SparkContext(conf=conf)
rdd1=sc.parallelize([('k1',10),("k2",20),('k1',30),("k2",40)]) # list類型
rdd2=rdd1.reduceByKey(lambda x,y: x+y)
print(rdd2.collect())
sc.stop()
#[('k1', 40), ('k2', 60)]

5、filter算子

功能:過濾,保留想要的數據,結果為True就對該結果進行返回;

6、distinct算子

功能:對傳入的數據進行去重,不需要傳入參數,直接調用該方法即可

7、sortBy算子

功能:排序,可自定義排序;func:(T)->U;ascending=False(降序)/True(升序)

numPartition=>分區(可設置為1)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/10644.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/10644.shtml
英文地址,請注明出處:http://en.pswp.cn/web/10644.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

train_gpt2_fp32.cu - cudaCheck

源碼 // CUDA error checking void cudaCheck(cudaError_t error, const char *file, int line) {if (error ! cudaSuccess) {printf("[CUDA ERROR] at file %s:%d:\n%s\n", file, line,cudaGetErrorString(error));exit(EXIT_FAILURE);} }; 解釋 該函數用于檢查CU…

無人機路徑規劃:基于鯨魚優化算法WOA的復雜城市地形下無人機避障三維航跡規劃,可以修改障礙物及起始點(Matlab代碼)

一、部分代碼 close all clear clc rng(default); %% 載入數據 data.S[50,950,12]; %起點位置 橫坐標與縱坐標需為50的倍數 data.E[950,50,1]; %終點點位置 橫坐標與縱坐標需為50的倍數 data.Obstaclexlsread(data1.xls); data.numObstacleslength(data.Obstacle(:,1)); …

連接和斷開與服務器的連接

要連接到服務器,通常需要在調用mysql時提供一個MySQL用戶名,很可能還需要一個密碼。如果服務器在除了登錄的計算機之外的機器上運行,您還必須指定主機名。聯系您的管理員以找出應該使用哪些連接參數來連接(即使用哪個主機、用戶名…

TypeError: can only concatenate str (not “int“) to str

TypeError: can only concatenate str (not "int") to str a 窗前明月光,疑是地上霜。舉頭望明月,低頭思故鄉。 print(str_len len(str_text) : len(a)) 試圖打印出字符串 a 的長度,但是在 Python 中拼接字符串和整數需要使用字符…

【微服務】spring aop實現接口參數變更前后對比和日志記錄

目錄 一、前言 二、spring aop概述 2.1 什么是spring aop 2.2 spring aop特點 2.3 spring aop應用場景 三、spring aop處理通用日志場景 3.1 系統日志類型 3.2 微服務場景下通用日志記錄解決方案 3.2.1 手動記錄 3.2.2 異步隊列es 3.2.3 使用過濾器或攔截器 3.2.4 使…

triton編譯學習

一 流程 Triton-MLIR: 從DSL到PTX - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/671434808Superjomns blog | OpenAI/Triton MLIR 遷移工作簡介https://superjom

基于STM32單片機的環境監測系統設計與實現

基于STM32單片機的環境監測系統設計與實現 摘要 隨著環境污染和室內空氣質量問題的日益嚴重,環境監測系統的應用變得尤為重要。本文設計并實現了一種基于STM32單片機的環境監測系統,該系統能夠實時監測并顯示室內環境的溫濕度、甲醛濃度以及二氧化碳濃…

C語言題目:A+B for Input-Output Practice

題目描述 Your task is to calculate the sum of some integers 輸入格式 Input contains an integer N in the first line, and then N lines follow. Each line starts with a integer M, and then M integers follow in the same line 輸出格式 For each group of inpu…

Sass詳解

Sass(Syntactically Awesome Stylesheets)是一種CSS預處理器,它允許你使用變量、嵌套規則、混入(Mixin)、繼承等功能來編寫CSS,從而使CSS代碼更加簡潔、易于維護和擴展。下面是Sass的詳細解釋: …

【docker】容器優化:一行命令換源

原理: 根據清華源提供的Ubuntu 軟件倉庫進行sources.list替換 ubuntu | 鏡像站使用幫助 | 清華大學開源軟件鏡像站 | Tsinghua Open Source Mirror 1、換源 echo "">/etc/apt/sources.list \&& echo "# 默認注釋了源碼鏡像以提高 apt …

新iPadPro是怎樣成為蘋果史上最薄產品的|Meta發布AI廣告工具全家桶| “碾碎一切”,蘋果新廣告片引爭議|生成式AI,蘋果傾巢出動

Remini走紅背后:AI生圖會是第一個超級應用嗎?新iPadPro是怎樣成為蘋果史上最薄產品的生成式AI,蘋果傾巢出動Meta發布AI廣告工具全家桶,圖像文本一鍵生成解放打工人蘋果新iPadPro出貨量或達500萬臺,成中尺寸OLED發展關鍵…

8、QT——QLabel使用小記2

前言:記錄開發過程中QLabel的使用,持續更新ing... 開發平臺:Win10 64位 開發環境:Qt Creator 13.0.0 構建環境:Qt 5.15.2 MSVC2019 64位 一、基本屬性 技巧:對于Qlabel這類控件的屬性有一些共同的特點&am…

QToolButton的特殊使用

QToolButton的特殊使用 介紹通過QSS取消點擊時的凹陷效果點擊時的凹陷效果通過QSS取消點擊時的凹陷效果 介紹 該篇文章記錄QToolButton使用過程中的特殊用法。 通過QSS取消點擊時的凹陷效果 點擊時的凹陷效果 通過QSS取消點擊時的凹陷效果 #include <QToolButton> #i…

Dockerfile中的CMD和ENTRYPOINT

Shell格式和Exec格式 在Dockerfile中&#xff0c;RUN、CMD和ENTRYPOINT指令都可以使用兩種格式&#xff1a;Shell格式和Exec格式。 exec 格式&#xff1a;INSTRUCTION ["executable","param1","param2"] shell 格式&#xff1a; INSTRUCTION c…

【深耕 Python】Quantum Computing 量子計算機(5)量子物理概念(二)

寫在前面 往期量子計算機博客&#xff1a; 【深耕 Python】Quantum Computing 量子計算機&#xff08;1&#xff09;圖像繪制基礎 【深耕 Python】Quantum Computing 量子計算機&#xff08;2&#xff09;繪制電子運動平面波 【深耕 Python】Quantum Computing 量子計算機&…

ios 開發如何給項目安裝第三方庫,以websocket庫 SocketRocket 為例

1.brew 安裝 cococapods $ brew install cocoapods 2、找到xcode項目 的根目錄&#xff0c;如圖&#xff0c;在根目錄下創建Podfile 文件 3、在Podfile文件中寫入 platform :ios, 13.0 use_frameworks! target chat_app do pod SocketRocket end project ../chat_app.x…

Python實戰開發及案例分析(18)—— 邏輯回歸

邏輯回歸是一種廣泛用于分類任務的統計模型&#xff0c;尤其是用于二分類問題。在邏輯回歸中&#xff0c;我們預測的是觀測值屬于某個類別的概率&#xff0c;這通過邏輯函數&#xff08;或稱sigmoid函數&#xff09;來實現&#xff0c;該函數能將任意值壓縮到0和1之間。 邏輯回…

Leetcode 572:另一顆樹的子樹

給你兩棵二叉樹 root 和 subRoot 。檢驗 root 中是否包含和 subRoot 具有相同結構和節點值的子樹。如果存在&#xff0c;返回 true &#xff1b;否則&#xff0c;返回 false 。 二叉樹 tree 的一棵子樹包括 tree 的某個節點和這個節點的所有后代節點。tree 也可以看做它自身的…

【linux】詳解linux基本指令

目錄 cat more less head tail 時間 cal find grep zip/unzip tar bc uname –r 關機 小編一共寫了兩篇linux基本指令&#xff0c;這兩篇涵蓋了大部分初學者的必備指令&#xff0c;這是第二篇&#xff0c;第一篇詳見http://t.csdnimg.cn/HRlVt cat 適合查看小文…

網站localhost和127.0.0.1可以訪問,本地ip不可訪問解決方案

部署了一個網站, 使用localhost和127.0.0.1加端口號可以訪問, 但是使用本機的ip地址加端口號卻不行. 原因可能有多種. 可能的原因: 1 首先要確認是否localhost對應的端口是通的(直接網址訪問), 以及你無法訪問的那個本機ip是否正確(使用ping測試)&#xff1b; 2 檢查本機的防火…