Spark算子篇 --Spark算子之combineByKey詳解

一。概念

rdd.combineByKey(lambda x:"%d_" %x, lambda a,b:"%s@%s" %(a,b), lambda a,b:"%s$%s" %(a,b))
三個參數（都是函數）
第一個參數：給定一個初始值，用函數生成初始值。
第二個參數：combinbe聚合邏輯。
第三個參數：reduce端聚合邏輯。

二。代碼

from pyspark.conf import SparkConf
from pyspark.context import SparkContext
conf = SparkConf().setMaster("local").setAppName("CombineByKey")
sc = SparkContext(conf = conf)
rdd = sc.parallelize([("A",1),("B",2),("B",3),("B",4),("B",5),("C",1),("A",2)], 2)
def f(index,items):print "partitionId:%d" %indexfor val in items:print valreturn items
rdd.mapPartitionsWithIndex(f).count()combinerRDD = rdd.combineByKey(lambda x:"%d_" %x, lambda a,b:"%s@%s" %(a,b), lambda a,b:"%s$%s" %(a,b))
combinerRDD.foreach(p)
groupByKeyRDD.foreach(p)sc.stop()

三。解釋

第一個函數作用于每一個組的第一個元素上，將其變為初始值

第二個函數：一開始a是初始值，b是分組內的元素值，比如A[1_],因為沒有b值所以不能調用combine函數，第二組因為函數內元素值是[2_,3]調用combine函數后為2_@3，以此類推

第三個函數：reduce端大聚合，把相同的key的數據拉取到一個節點上，然后分組。

四。結果

?五。拓展

1.用combinebykey實現groupbykey的邏輯

1.1 combinebykey的三個參數

第一個應該返回一個列表，初始值

第二個函數中的a依賴于第一個函數的返回值

第三個函數的a,b依賴于第二個函數的返回值

1.2 解釋：

1.3 代碼：

def mergeValue(list1,b):list1.append(b)return list1def mergeCombiners(list1,list2):list1.extend(list2)return list1groupByKeyRDD = rdd.combineByKey(lambda a:[a],mergeValue,mergeCombiners)

1.4結果

2.使用combineBykey把相同的key和對應的邏輯相加起來

代碼：

reduceByKeyRDD = rdd.combineByKey(lambda a:a,lambda a,b:a+b,lambda a,b:a+b)

結果：

持續更新中。。。。，歡迎大家關注我的公眾號LHWorld.

轉載于:https://www.cnblogs.com/LHWorldBlog/p/8215705.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/539674.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/539674.shtml
英文地址，請注明出處：http://en.pswp.cn/news/539674.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！