原文鏈接:http://blog.csdn.net/u013086392/article/details/55666912
-----------------------------------------------------------------------------------
map:?
我們可以看到數據的每一行在map之后產生了一個數組,那么rdd存儲的是一個數組的集合
- 1
flatMap:?
同map函數一樣:對每一條輸入進行指定的操作,然后為每一條輸入返回一個對象?
最后將所有對象合并為一個對象
- 1
mappartition:?
rdd的mapPartitions是map的一個變種,它們都可進行分區的并行處理。兩者的主要區別是調用的粒度不一樣?
map的輸入變換函數是應用于RDD中每個元素,而mapPartitions的輸入函數是應用于每個分區。也就是把每個分區中的內容作為整體來處理的。
- 1
flatMapToPair:?
同map函數一樣:對每一條輸入進行指定的操作,然后為每一條輸入返回一個key-value對象?
最后將所有key-value對象合并為一個對象 Iterable
- 1