Spark的性能調優—

Spark的性能調優——RDD

前言

RDD 是 Spark 對于分布式數據集的抽象，每一個 RDD 都代表著一種分布式數據形態。比如 lineRDD，它表示數據在集群中以行（Line）的形式存在；而 wordRDD 則意味著數據的形態是單詞，分布在計算集群中。?

參數

參數是函數、或者返回值是函數的函數，我們把這類函數統稱為“高階函數”（Higher-order Functions）。換句話說，這 4 個算子，都是高階函數。?

import org.apache.spark.rdd.RDD
val rootPath: String = _
val file: String = s"${rootPath}/wikiOfSpark.txt"
// 讀取文件內容
val lineRDD: RDD[String] = spark.sparkContext.textFile(file)
// 以行為單位做分詞
val wordRDD: RDD[String] = lineRDD.flatMap(line => line.split(" "))
val cleanWordRDD: RDD[String] = wordRDD.filter(word => !word.equals(""))
// 把RDD元素轉換為（Key，Value）的形式
val kvRDD: RDD[(String, Int)] = cleanWordRDD.map(word => (word, 1))
// 按照單詞做分組計數
val wordCounts: RDD[(String, Int)] = kvRDD.reduceByKey((x, y) => x + y)
// 打印詞頻最高的5個詞匯
wordCounts.map{case (k, v) => (v, k)}.sortByKey(false).take(5)

在 RDD 的編程模型中，一共有兩種算子，Transformations 類算子和 Actions 類算子。開發者需要使用 Transformations 類算子，定義并描述數據形態的轉換過程，然后調用 Actions 類算子，將計算結果收集起來、或是物化到磁盤。

換句話說，開發者調用的各類 Transformations 算子，并不立即執行計算，當且僅當開發者調用 Actions 算子時，之前調用的轉換算子才會付諸執行。在業內，這樣的計算模式有個專門的術語，叫作“延遲計算”（Lazy Evaluation）。延遲計算很好地解釋了本講開頭的問題：為什么 Word Count 在執行的過程中，只有最后一行代碼會花費很長時間，而前面的代碼都是瞬間執行完畢的呢？

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/22133.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/22133.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/22133.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！