手機打字,篇幅不長,主要講一下FFA中關于Flink2.0的未來趨勢,直接看重點。
Flink Forward Asia 2024主會場有一場關于Flink2.0的演講,很精彩,官方也發布了一些關于Flink2.0的展望和要解決的問題。
1.0時代和2.0時代避免不了一些兼容性改動,例如配置文件、狀態兼容以及一些常見的API,當然這些問題都不是用戶需要考慮的,平臺要做好升級。
那么作為普通的開發者應該注意到的未來趨勢有哪些?
存算分離
存算分離是所有數據領域組件都在解決的一個問題,比如Apache Doris、Apache Pulsar等等,Flink同樣面臨這樣的問題,因為在2.0中一個顯著的課題就是「存算分離云原生化架構升級」。
Flink官方給出了四個要解決的訴求:
計算和存儲解綁、容器化資源的均勻使用、利用海量低價云存儲、帶狀態的快速擴縮容。
Flink 2.0 中的存算分離歸根結底是存儲的問題,因此引入了新開發的ForSt DB來解決這個問題。
如果存算分離能夠很好的實現,未來Flink任務的遷移和升級將會十分方便和快捷,尤其是帶大狀態的任務,目前這個痛點相信困擾了很多很多人。
批流一體的解決方案
Flink2.0引入了全新的流批一體 Materialized Table(物化表)的概念來解決Streaming任務和Batch任務在代碼層面的不一致性。
除了幫助用戶實現只寫一份代碼、提高開發運維效率之外,Materialized Table 還提供了更多的成本優化空間。Materialized Table 支持流式持續刷新、批式全量刷新以及增量刷新 3 種模式,通過修改數據新鮮度FRESHNESS的定義來實現代碼的批和流運行。
關于這一點,本人還是持謹慎懷疑的態度。
從某種意義上來說,代碼層面的統一僅僅是解決批流一體中的「代碼兼容性問題」,這是批流一體很小的一部分。
Flink社區對批流一體的關注點在于成本的節省,非常低成本的任務時效切換,但是其實這個點其實是批流一體場景中最不重要的一點。
因為能做到這種切換的業務場景其實并不多,大部分場景無法做到完全的批流一體,不過這仍然是一種進度。
Streaming WareHouse
這個已經是老生常談的話題了。社區未來會進行Flink和Paimon的深度集成。
但是我還是之前的觀點,Paimon并沒有給傳統的數倉開發模式帶來「革命性的進步」,但是的確解決了部分痛點。
Streaming warehouse要解決的是傳統的離線/實時數倉中的痛點,而不是為了構建「純流式的數據倉庫」。
Paimon未來作為批流一體存儲引擎前途仍然光明。
最后是關于一些AI的話題,這個就不過多介紹了,和大多數讀者沒關系。
300萬字!全網最全大數據學習面試社區等你來!
如果這個文章對你有幫助,不要忘記?「在看」?「點贊」?「收藏」?三連啊喂!
全網首發|大數據專家級技能模型與學習指南(勝天半子篇)
互聯網最壞的時代可能真的來了
我在B站讀大學,大數據專業
我們在學習Flink的時候,到底在學習什么?
193篇文章暴揍Flink,這個合集你需要關注一下
Flink生產環境TOP難題與優化,阿里巴巴藏經閣YYDS
Flink CDC我吃定了耶穌也留不住他!| Flink CDC線上問題小盤點
我們在學習Spark的時候,到底在學習什么?
在所有Spark模塊中,我愿稱SparkSQL為最強!
硬剛Hive | 4萬字基礎調優面試小總結
數據治理方法論和實踐小百科全書
標簽體系下的用戶畫像建設小指南
4萬字長文 | ClickHouse基礎&實踐&調優全視角解析
【面試&個人成長】社招和校招的經驗之談
大數據方向另一個十年開啟 |《硬剛系列》第一版完結
我寫過的關于成長/面試/職場進階的文章
當我們在學習Hive的時候在學習什么?「硬剛Hive續集」