金仕達-上海

(1)自我介紹
(2)在離線數倉,實時數倉中擔任的角色是什么,介紹項目?數據量有多大?
(3)實時的指標和離線指標怎么消除掉?有沒有必要一致?
(4)Flink上有多少個指標,一個指標一個jar包嗎?Flink親自負責的有幾個jar包產出?
(5)flink的開發中用了哪些算子?
(6)flink的異步join有了解嗎?就是例如kafka 和 mysql的流進行join
(7)flink的boardcast join 的原理是什么?
(8)flink的雙流join你們用的時候是 類似數據中的left join還是inner join,雙流join中怎么確定左表還是右表【沒太懂,好像應該是full join】
(9)flink集群有多大,怎么部署的?
(10)hadoop集群有多大,分給flink有多少資源,多少cpu,多少內存,多少slot?
(11)你自己寫的那些jar包,用了多少cpu,用了內存,多少個slot?
(12)有沒有關注你的jar包的處理性能,就是處理kafka的qps和tps?
(13)你們有用過flink的背壓嗎,怎么做優化還是調整?
(14)flink的知識點還有啥想介紹的?
(15)你們實際生產中checkPoint配置了沒有,有配置重啟策略嗎?
(16)詳細介紹下使用布隆過濾器去重,去重的效率或者去重性能能達到多少?就是說判斷的延遲是多少。
(17)你們100W的日活,每天這套體系這套系統能夠處理的上限產生延遲最大的支撐時間范圍是多少?有沒有關注到?【沒太懂,錄音40分鐘半左右】
(18)sparkStreaming的最小的批的大小時間是多少?你們批大小是多少秒?你們所有批都是5s嗎?還是不同指標批次時間不一樣?這個5s是怎么設置出來的?
(19)sparkStreaming提交一個任務,有沒有遇到這個錯誤, adress is already in use ,這個地址已經被使用了?是什么原因?
(20)所以sparkStreaming的開發中遇到過什么問題?
(21)搭過spark集群嗎?有用過CDH嗎?你們怎么搭的apache框架?怎么進行集群監控,例如哪些節點down掉,失效?