spark實驗2

spark實驗2

web/2025/9/5 8:09:35/文章來源:https://blog.csdn.net/weixin_75042169/article/details/146258254

一.實驗題目

? ?實驗所需要求：? centos7虛擬機 pyspark spark python3 hadoop分布式

統計歷屆春晚的節目數目

統計各個類型節目的數量，顯示前10名

統計相聲類節目歷年的數目。

查詢每個演員在春晚上表演節目的數量。

統計每年各類節目的數量，打印（節目類型、年份、數量）,按照節目類型升序排序，節目類型相同時其次按照年份降序排序

二實驗代碼

from pyspark.sql import SparkSession

from pyspark.sql.functions import col, count, desc, asc, split, explode

# 創建 SparkSession

spark = SparkSession.builder \

? ? .appName("SpringFestivalGalaAnalysis") \

? ? .getOrCreate()

# 讀取 CSV 文件

df = spark.read.csv("party.csv", sep="\t", header=False, inferSchema=True)

# 為 DataFrame 設置列名

columns = ["year", "program_type", "program_name", "performers"]

df = df.toDF(*columns)

# 統計歷屆春晚的節目數目

total_programs = df.count()

print(f"Total programs: {total_programs}")

# 統計各個類型節目的數量，顯示前10名

program_type_counts = df.groupBy("program_type").count().orderBy(col("count").desc()).limit(10)

program_type_counts.show()

# 統計相聲類節目歷年的數目

xiangsheng_counts = df.filter(col("program_type") == "相聲").groupBy("year").count().orderBy("year")

xiangsheng_counts.show()

# 查詢每個演員在春晚上表演節目的數量

# 將 performers 字段拆分并展開

performers_df = df.withColumn("performer", explode(split(col("performers"), "、")))

performer_counts = performers_df.groupBy("performer").count().orderBy(col("count").desc())

performer_counts.show()

# 統計每年各類節目的數量，打印（節目類型、年份、數量）

# 按照節目類型升序排序，節目類型相同時其次按照年份降序排序

yearly_program_counts = df.groupBy("program_type", "year").count().orderBy([col("program_type").asc(), col("year").desc()])

yearly_program_counts.show()

# 停止 SparkSession

spark.stop()

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/72181.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/72181.shtml
英文地址，請注明出處：http://en.pswp.cn/web/72181.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

學習文章：Spring Boot 中如何使用 `@Async` 實現異步處理

學習文章：Spring Boot 中如何使用 `@Async` 實現異步處理

文章目錄學習文章：Spring Boot 中如何使用 Async 實現異步處理一、什么是 Async？優點： 二、Spring Boot 中啟用 Async1. 啟用異步支持2. 配置線程池（可選）3. 使用 Async 注解4. 調用異步方法三、Async 的進階用法1.…

閱讀更多...

Manus：成為AI Agent領域的標桿

Manus：成為AI Agent領域的標桿

一、引言官網：Manus 隨著人工智能技術的飛速發展，AI Agent（智能體）作為人工智能領域的重要分支，正逐漸從概念走向現實，并在各行各業展現出巨大的應用潛力。在眾多AI Agent產品中，Manus以其獨…

閱讀更多...

Git Fast-forward 合并詳解：原理、場景與最佳實踐

Git Fast-forward 合并詳解：原理、場景與最佳實踐

在使用 Git 進行團隊協作時，我們經常需要合并分支。合并方式有很多種，其中 Fast-forward（快速合并） 是一種最簡單且無沖突的合并方式。本文將詳細介紹 Fast-forward 的原理、適用場景、常見問題及最佳實踐。一、Fast-forward 合并…

閱讀更多...

命令行重啟Ubuntu軟件

命令行重啟Ubuntu軟件

我是用Todesk遠程桌面，如果卡死的時候，只能通過ssh連接命令行。于是，就有了如標題所示的需求。首先，我們看一下todesk在系統里叫什么名字： systemctl list-unit-files | grep -i todesk看到發現是"todeskd.serv…

閱讀更多...

算法每日一練 (11)

算法每日一練 (11)

💢歡迎來到張胤塵的技術站 💥技術如江河，匯聚眾志成。代碼似星辰，照亮行征程。開源精神長，傳承永不忘。攜手共前行，未來更輝煌💥 文章目錄算法每日一練 (11)全排列題目描述解題思路解題代碼c/c…

閱讀更多...

《Spring日志整合與注入技術：從入門到精通》

《Spring日志整合與注入技術：從入門到精通》

1.Spring與日志框架的整合 1.Spring與日志框架進行整合，日志框架就可以在控制臺中，輸出Spring框架運行過程中的一些重要的信息。好處：方便了解Spring框架的運行過程，利于程序的調試。 Spring如何整合日志框架 Spring5.x整合log4j…

閱讀更多...

《SQL性能優化指南：新手如何寫出高效的數據庫查詢

《SQL性能優化指南：新手如何寫出高效的數據庫查詢

新手程序員如何用三個月成為SQL高手？萬字自學指南帶你彎道超車在數據為王的時代，掌握SQL已成為職場新人的必修課。你可能不知道，僅用三個月系統學習，一個零基礎的小白就能完成從數據庫萌新到SQL達人的蛻變。去年剛畢業的小王就是…

閱讀更多...

【Unity】在項目中使用VisualScripting

【Unity】在項目中使用VisualScripting

1. 在packagemanager添加插件 2. 在設置中進行初始化。 Edit > Project Settings > Visual Scripting Initialize Visual Scripting You must select Initialize Visual Scripting the first time you use Visual Scripting in a project. Initialize Visual Scripting …

閱讀更多...

JConsole 在 Linux 上的使用

JConsole 在 Linux 上的使用

JConsole 在 Linux 上的使用指南 1. 啟動 JConsole 遠程監控 Linux 服務器上的 JVM 進程 1.1 修改 JMX 配置，允許遠程訪問在 Linux 服務器啟動 Java 應用時，需要加上 -Djava.rmi.server.hostname<服務器IP>，完整的啟動參數如下&am…

閱讀更多...

個人記錄，Unity資源解壓和管理插件

個人記錄，Unity資源解壓和管理插件

就是經典的兩個AssetStudio 和 Ripper 沒有什么干貨，就是記錄一下，內容沒有很詳細 AssetStudio 說錯了，AssetStudio比較出名（曾經），但好像墮落了是，AssetBundlExtractor 這個工具有個好處就…

閱讀更多...

編譯skia

編譯skia

1.準備工具 (1)vs2019，到微軟官方下載下載 Visual Studio Tools - 免費安裝 Windows、Mac、Linux (2)ninja，下載地址：Releases ninja-build/ninja GitHub (3)gn，下載地址：https://chrome-infra-packages.appspot.com/p/gn/gn/windows-amd64 (4)skia，下載地址：git …

閱讀更多...

vue 知識點整理

vue 知識點整理

1.data為什么是一個函數而不是對象維度對象形式函數形式數據隔離性所有實例共享同一對象，導致數據污染每個實例擁有獨立數據副本復用安全性不適用于可復用組件支持組件安全復用語言機制引用傳遞引發副作用函數返回值實現作用域隔離（閉包）框…

閱讀更多...

DeepSeek-Open WebUI部署

DeepSeek-Open WebUI部署

1.DeepSeek部署-Win版本 2.DeepSeek部署-Linux版本 3.DeepSeek部署-一鍵部署(Linux版本) 4.DeepSeek部署-進階版本(LinuxGPU) 5.DeepSeek部署-基于vLLM部署前面部署了vLLM版本以后，訪問它比較麻煩。如何才能更好的實現訪問呢，這個就是我們今天要講的…

閱讀更多...

(vue)elementUi中el-upload上傳附件之后點擊附件可下載

(vue)elementUi中el-upload上傳附件之后點擊附件可下載

(vue)elementUi中el-upload上傳附件之后點擊附件可下載 handlePreview(file) {console.log(file)const fileUrl https://.../zzy/ file.urlconst a document.createElement(a)a.href fileUrla.download file.namea.style.display none// a.setAttribute(download, file.…

閱讀更多...

你認為 Java 的優勢是什么？

你認為 Java 的優勢是什么？

你認為 Java 的優勢是什么？回答重點我覺得可以從跨平臺、垃圾回收、生態、面向對象四個方面來闡述。跨平臺首先 Java 是跨平臺的，不同平臺執行的機器碼是不一樣的，而 Java 因為加了一層中間層 JVM，所以可以做到一次編寫多平臺（如 Windows、Linux、macOS）運行，即…

閱讀更多...

SpringBoot——Maven篇

SpringBoot——Maven篇

Spring Boot 是一個用于快速開發基于 Spring 框架的應用程序的工具。它具有許多特性，其中一些重要的特性包括： 1. 自動配置：Spring Boot 提供了自動配置的機制，可以根據應用程序的依賴和環境自動配置應用程序的各種組件&#xff…

閱讀更多...

搭建基于chatgpt的問答系統

搭建基于chatgpt的問答系統

一、語言模型，提問范式與 Token 1.語言模型大語言模型（LLM）是通過預測下一個詞的監督學習方式進行訓練的，通過預測下一個詞為訓練目標的方法使得語言模型獲得強大的語言生成能力。 a.基礎語言模型 （Base LLM&…

閱讀更多...

leetcode0056. 合并區間 - medium

leetcode0056. 合并區間 - medium

1 題目：合并區間官方難度 - 中等以數組 intervals 表示若干個區間的集合，其中單個區間為 intervals[i] [starti, endi] 。請你合并所有重疊的區間，并返回一個不重疊的區間數組，該數組需恰好覆蓋輸入中的所有區間。示例 1…

閱讀更多...

系統開發資源

系統開發資源

一、前端篇 1.1 菜鳥CSS教程 1.2 HTML/CSS/JS 在線工具二、后端篇三、其他篇 3.1 菜鳥官網 3.2 黑馬程序員學習路線 3.3 根據地區獲取經緯度

閱讀更多...

計算機視覺cv2入門之圖像的讀取,顯示,與保存

計算機視覺cv2入門之圖像的讀取,顯示,與保存

在計算機視覺領域，Python的cv2庫是一個不可或缺的工具，它提供了豐富的圖像處理功能。作為OpenCV的Python接口，cv2使得圖像處理的實現變得簡單而高效。示例圖片目錄 opencv獲取方式圖像基本知識顏色空間 RGB HSV 圖像格式 BMP格式 …

閱讀更多...

最新文章