spark java 計數_spark程序——統計包含字符a或者b的行數

spark java 計數_spark程序——統計包含字符a或者b的行數

news/2025/8/15 20:32:41/文章來源:https://blog.csdn.net/weixin_39560029/article/details/114924195

本篇分析一個spark例子程序。

程序實現的功能是：分別統計包含字符a、b的行數。

java源碼如下：

package sparkTest;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

public class SimpleApp {

public static void main(String[] args) {

String logFile = "file:///usr/local/spark/README.md"; // Should be some file on your system

SparkConf conf = new SparkConf().setAppName("Simple Application").setMaster("local");

JavaSparkContext sc = new JavaSparkContext(conf);

JavaRDD logData = sc.textFile(logFile).cache();//將文件cache在內存中

long numAs = logData.filter(new Function() {//保留包含a的元素

public Boolean call(String s) {

return s.contains("a");//

}

}).count();//RDD元素總數

long numBs = logData.filter(new Function() {//String為輸入類型，保留Boolean為true元素

public Boolean call(String s) {

return s.contains("b");

}

}).count();

System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs);

}

}

基本步驟解析如下：

1、設置sparkContext，包括sparkConf，讀取文件的地址和協議。

2、將文件內容cache()在內存中。經過實驗，不cache()也能執行顯示正確結果。

3、JavaRDD.filter()。對元素進行過濾，過濾的方法是函數Function(String, Boolean)。

具體定義在call(String s)中。

其中Function的參數String與call的參數String對應。Function的參數Boolean與call函數返回值Boolean類型對應。

返回Boolean為true的元素通過filter，保留在新生成的ＲＤＤ中。

4、JavaRDD.count()對RDD元素個數進行統計。

5、最后，打印結果。

注意：這里的filter()、count()對應的就是transformation、action。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/287414.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/287414.shtml
英文地址，請注明出處：http://en.pswp.cn/news/287414.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

golang reflect

golang reflect

reflect包實現了運行時反射，允許程序操作任意類型的對象。典型用法是用靜態類型interface{}保存一個值，通過調用TypeOf獲取其動態類型信息，該函數返回一個Type類型值。調用ValueOf函數返回一個Value類型值，該值代表運行時的數據。…

閱讀更多...

DB2常用命令

DB2常用命令

查看DB2License信息 DB2基礎命令轉載于:https://www.cnblogs.com/arcer/p/5573317.html

閱讀更多...

.NET7 Preview4之MapGroup

.NET7 Preview4之MapGroup

這篇是“聞(看)香(碼)識(學)女(技)人(術)”。這也是一個有意思的功能，路由分組，啥也不說了，看代碼看結果：using Microsoft.AspNetCore.Http.HttpResults; using Microsoft.AspNetCore.OpenApi;var builder WebApplication.Create…

閱讀更多...

【空間數據庫】ArcGIS 10.6 Database_Server_Desktop安裝、連接數據庫服務、創建企業級數據庫（附server10.6.ecp）

【空間數據庫】ArcGIS 10.6 Database_Server_Desktop安裝、連接數據庫服務、創建企業級數據庫（附server10.6.ecp）

由于作者一直使用SQL Server 2008 R2開發版，之前在ArcGIS中創建企業級數據庫都是基于單獨安裝的SQL Server 2008 R2開發版，今天我們演示安裝ArcGIS10.6自帶的數據庫服務（SQL Server 2014 Express版本）、連接數據庫服務和創建數據庫。首先，我們來看一下完整的ArcGIS10.6安…

閱讀更多...

（一）easyUI之樹形網絡

（一）easyUI之樹形網絡

樹形網格（TreeGrid）可以展示有限空間上帶有多列和復雜數據電子表一、案例一：按tree的數據結構來生成前臺<% page language"java" contentType"text/html; charsetUTF-8"pageEncoding"UTF-8"%> <!DO…

閱讀更多...

《看聊天記錄都學不會C語言？太菜了吧》（4）零基礎的我原來早就學會編程了？

《看聊天記錄都學不會C語言？太菜了吧》（4）零基礎的我原來早就學會編程了？

若是大一學子或者是真心想學習剛入門的小伙伴可以私聊我，若你是真心學習可以送你書籍，指導你學習，給予你目標方向的學習路線，無套路，博客為證。本系列文章將會以通俗易懂的對話方式進行教學，對話中將涵蓋…

閱讀更多...

Android之華為平板打日志提示Permission denied

Android之華為平板打日志提示Permission denied

1 問題 $ adb logcat | grep ssfsafaf int logctl_get(): open /dev/hwlog_switch fail -1, 13. Permission deniedNote: log switch off, only log_main and log_events will have logs!2 解決辦法 1）、如果是華為手機，打開手機的撥號界面&#xff0c…

閱讀更多...

二叉樹結構 codevs 1029 遍歷問題

二叉樹結構 codevs 1029 遍歷問題

codevs 1029 遍歷問題時間限制: 1 s空間限制: 128000 KB題目等級 : 鉆石 Diamond題目描述 Description我們都很熟悉二叉樹的前序、中序、后序遍歷，在數據結構中常提出這樣的問題：已知一棵二叉樹的前序和中序遍歷，求它的后序遍歷，…

閱讀更多...

java的概率的程序_java實現一個抽獎概率類

java的概率的程序_java實現一個抽獎概率類

在一些項目需求中，可能會遇到抽獎問題，如提供一系列獎品及獲獎概率，要求根據概率返回每次抽到的獎品。以下是本人在實際項目中寫的一個抽獎工具類，與大家共同分享：import java.util.ArrayList;import java.util.List;i…

閱讀更多...

【空間數據庫】ArcGIS10.6連接PostgreSQL數據庫并顯示數據至ArcMap中

【空間數據庫】ArcGIS10.6連接PostgreSQL數據庫并顯示數據至ArcMap中

前面的文章《【開源數據庫】Windows操作系統PostgreSQL+PostGIS環境搭建圖文安裝教程》講解了在Windows上安裝開源GIS和開源數據庫。本文接著來講采用ArcGIS 10.6連接PostgreSQL數據庫，并加載矢量數據到ArcMap中。我們已經在pgAdmin中創建了一個空間數據庫test，并導入了Sha…

閱讀更多...

算法-低位優先的字符串排序

算法-低位優先的字符串排序

低位優先的字符串排序相當于是對鍵索引計數方法的一個擴展，主要用于處理固定長度字符串，比如說手機號，固定電話，銀行卡卡號，字符串的長度為N，從右向左開始進行每個鍵作為值開始遍歷，實現比較簡單…

閱讀更多...

使用 AgileConfig 動態配置 NLog

使用 AgileConfig 動態配置 NLog

NLog 是我們在 .NET 領域使用非常廣泛的日志組件。它默認使用 xml 來維護它的配置。最近有幾個同學問我當使用 AgileConfig 的時候如何配置 NLog 。因為 AgileConfig 不支持集成 xml 格式的配置。其實 NLog 是支持從 appsettings.json / IConfiguration 讀取配置的，…

閱讀更多...

systemd ? ? ?kernel

systemd ? ? ?kernel

Systemd：Systemd的新特性：1.在系統引導的時候可以實現服務的并行啟動；2.能夠實現按需激活進程；在系統啟動時，需要隨系統啟動服務，其服務進程并沒有啟動，但是Systemd為每一個此類服務進程都注冊了…

閱讀更多...

Android之提示Method return type must not include a type variable or wildcard:

Android之提示Method return type must not include a type variable or wildcard:

1 問題調用retrofit的時候提示錯誤如下 Method return type must not include a type variable or wildcard: io.reactivex.Observable<package.class<?>> 2 原因我們知道英文單詞variable是多變的，易變的意思，然后 wildcard是未知數的…

閱讀更多...

《看聊天記錄都學不會C語言？太菜了吧》（5）打了一把游戲我學會了一個編程知識？

《看聊天記錄都學不會C語言？太菜了吧》（5）打了一把游戲我學會了一個編程知識？

若是大一學子或者是真心想學習剛入門的小伙伴可以私聊我，若你是真心學習可以送你書籍，指導你學習，給予你目標方向的學習路線，無套路，博客為證。本系列文章將會以通俗易懂的對話方式進行教學，對話中將涵蓋…

閱讀更多...

【QGIS入門實戰精品教程】2.1：初識QGIS軟件

【QGIS入門實戰精品教程】2.1：初識QGIS軟件

從今天開始，我們一起來學習一款免費開源、對機器要求低、功能強大的GIS軟件：QGIS ！ 一、QGIS簡介 QGIS（原稱Quantum GIS）是一個自由軟件的桌面GIS軟件。它提供數據的顯示、編輯和分析功能。 QGIS是一個用戶界面友好的…

閱讀更多...

Android深度探索(卷1)HAL與驅動開發第六章總結

Android深度探索(卷1)HAL與驅動開發第六章總結

操作系統是通過各種驅動程序賴家與硬件設備的，它為用戶屏蔽了各種各樣的設備，驅動硬件是操作系統最基本的功能，并且提供統一的操作方式。設備驅動程序是操作系統最基本的組成部分之一，在Linux內核源程序中也占有60%以上&#xff0…

閱讀更多...

es mysql 同步插件_[es和數據庫怎么同步]mysql與elasticsearch實時同步常用插件及優缺點對比(ES與關系型數據庫同步)...

es mysql 同步插件_[es和數據庫怎么同步]mysql與elasticsearch實時同步常用插件及優缺點對比(ES與關系型數據庫同步)...

目前mysql與elasticsearch常用的同步機制大多是基于插件實現的，常用的插件包括：elasticsearch-jdbc,elasticsearch-river-MySQL,go-mysql-elasticsearch,logstash-input-jdbc。本文對四種插件的優缺點進行了圖表對比。|序號|插件名稱|地址|——:————…

閱讀更多...

linux上怎么快速刪除一個目錄？

linux上怎么快速刪除一個目錄？

使用rm -rf命令轉載于:https://www.cnblogs.com/dyh-air/p/7726611.html

閱讀更多...

關于是否在C#中加入不可空引用類型的爭論

關于是否在C#中加入不可空引用類型的爭論

來自微軟的Mads Togersen在近期所提出的一條提議，即在C#語言中加入對不可空引用類型的支持在.NET社區中引起了熱烈的爭論。人們對此提議的反應大相徑庭，既有人對此表示贊賞，也不乏傾向于保持現狀的意見。\\在Reddit上，這條提議引起…

閱讀更多...

最新文章