在大數據公司中,任何一家公司都不會只使用一個框架吧?!
skr,skr~~
那我們今天就來聊一段 Hive 與 Spark的愛恨情仇
就像
在一些場景中,需要將外部的數據導入到Hive表中,然后再對這些數據進行額外的處理,提供給不同的部門使用。
當導完數據之后,需要用到Spark進行后續的處理時,發現數據多了一條
Spark:Omg,我頂你個肺~
這種情況的排查,我們需要從數據源頭一步步檢驗,找出來這突然多出來的數據究竟是何方妖怪,想想是一件很恐怖的事情
Hive:同志,冷靜
數據重復?索引重復?
俗話說不會面向度娘編程的Hive不是好Spark,在拔掉了兩根頭發之后發現問題:表頭!
因B站代碼不能很好的寫出來,所以代碼部分是截圖,而且部分代碼因為太長沒有截全,
完整代碼在公眾號:阿布的進擊
掃碼關注,獲取全部過程
小秘密:
https://issues.apache.org/jira/browse/HIVE-5795
https://issues.apache.org/jira/browse/SPARK-11374
有不同看法,下方留言討論,別讓你的小秘密淹沒在未知里
我也該咽下這根美好的魚骨頭了