用Flink+Doris來開發實時數倉,首要解決是如何接入kafka實時流,下面是參考Doris官方文檔和代碼,在自己項目開發的實踐中總結,包括一些容易踩坑的細節。
目錄
Routine Load方法
接入kafka實時數據
踩坑的問題細節
Flink Doris Connector方法
完整示例
Routine Load方法
如果Doris是2.1以上,不需要復雜的數據轉換的,建議使用Doris自帶的Routine Load,實測使用方便,性能高。
接入kafka實時數據
Doris 可以通過 Routine Load 導入方式持續消費 Kafka Topic 中的數據。在提交 Routine Load 作業后,Doris 會持續運行該導入作業,實時生成導入任務不斷消費 Kakfa 集群中指定 Topic 中的消息。
Routine Load 是一個流式導入作業,支持 Exactly-Once 語義,保證數據不丟不重。下面示例如何通過拉入kafka數據(json格式):<