1.hive如何自定義函數
2.hive優化
3.hive數據傾斜
????????1.數據傾斜的表現
????????數據傾斜是由于數據分布不均勻,造成數據大量的集中到一點,造成數據熱點的現象。 主要表現:任務進度長時間維持在 99%或者 100%的附近,查看任務監控頁面Yarn(8088),發現只有少量 reduce 子任務未完成,因為其處理的數據量和其他的 reduce 差異過大。 單一 reduce 處理的記錄數和平均記錄數相差太大,通常達到好幾倍之多,最長時間遠大于平均時長。
????????2.出現的原因
????????1)數據類型不一致造成數據傾斜
????????2)數據中出現大量的null值
????????3)單表group by 出現數據傾斜
????????????????第一種方案:使用參數優化
????????????????第二種方案:增加Reduce數量
????????4)多表join出現數據傾斜
????????????????解決方案一:使用參數解決
????????????????解決方案二:大小表join
????????????????解決方案三:大表大表join