目錄:
1.數據輸出-輸出為Python對象
2.數據輸出-輸出到文件中
3.綜合案例
1.數據輸出-輸出為Python對象
2.數據輸出-輸出到文件中
移動文件到文件夾:
生成了好多文件,因為Rdd是有分區的 ,會把數據分散到各個分區去存儲,因為電腦是16核,默認給了16個分區,有的分區有數據,有的沒數據,12345默認隨機分散到隨機一個分區
我想生成到一個分區里:
第二種方式,設置分區為1:
?
3.綜合案例
以反斜杠分割
取0號元素,切片取前兩個元素
變成2元元組:
?
進行分組聚合:
進行排序:
取前3:
\代表換行
簡化代碼:
2:
以反斜杠分割
取2號元素:
變成2元元組
進行分組聚合:
進行排序:
取前3:
3.
以反斜杠分割
過濾元素:
以小時為key變成二元元組
進行分組聚合:
進行排序:
取第一個元素:
4.
以反斜杠分割
變成字典:
寫出到文件:
設置分區:?