利用IDEA開發spark-SQL
創建spark-SQL測試代碼
?
?自定義函數UDF
?自定義聚合函數UDAF
強類型的 Dataset 和弱類型的 DataFrame 都提供了相關的聚合函數, 如 count(),
countDistinct(),avg(),max(),min()。除此之外,用戶可以設定自己的自定義聚合函數。Spark3.0之前我們使用的是UserDefinedAggregateFunction作為自定義聚合函數,從 Spark3.0 版本后可以統一采用強類型聚合函數 Aggregator
案例:計算平均工資
實現方式一:RDD
?實現方式二:強類型UDAF
?
?
?實現方式三:弱類型UDAF
?
?