作為 Apache Flink 社區備受矚目的年度盛會之一,由阿里云承辦的 Flink Forward Asia 2025 于 7 月 3 日在新加坡正式拉開帷幕。
From Real-Time Data Analytics to Real-Time AI,Flink 生態全面擁抱 AI
本次大會上,Apache Flink 中文社區發起人、Apache Paimon PMC Member、阿里云開源大數據平臺負責人王峰帶來了演講《From Real-Time Data Analytics to Real-Time AI》。王峰表示,伴隨著 Agentic AI 的興起與發展,實時數據與實時 AI 相結合,正在成為 AI 大規模落地生產應用的關鍵環節。
“我們認為 AI Agent 的未來必定是工業化的,除了用戶觸發的 AI Agent,將來會有更多 Agent 應用是由系統觸發的,比如在線交易、網站點擊、車輛行駛狀態、IoT 設備接收到的變化等等,這類 AI Agent 應用對計算規模和穩定性提出了更高的要求,也需要實時數據處理與實時 AI 處理的深度融合。”
為此,Apache Flink 社區正式發起全新的子項目 Flink Agents。Flink Agents 是專為事件驅動型的 AI 智能體(System-Triggered Agent)打造的 Agent 編程框架。依托于 Flink 流式引擎內核,Flink Agents 天然具備大規模、分布式、實時數據處理能力,以及成熟的狀態管理、一致性保障與容錯恢復能力,在此基礎上,Flink Agents 提供了開發 Agentic AI 系統所必需的 LLM、Memory、Tool、Prompt 等關鍵概念的封裝,以及動態執行計劃、循環執行、共享狀態、可觀測性等能力。目前,Flink Agents 項目正由阿里云、Confluent、Ververica、LinkedIn 等團隊聯合貢獻,將于今年 9 月左右發布首個 MVP 版本。
無數據,不 AI,多模態數據對大模型發展的價值日益凸顯。傳統的“數據清洗→特征提取→模型推理”的離散鏈路開發效率低下,且會帶來數據血緣斷裂、運維復雜度陡增等問題。Apache Flink 2.1 正式集成 AI Function,支持通過 Flink SQL 將模型注冊為元數據中的可管理對象,支持原生 AI Function 調用,開發者可直接在 SQL 中通過 ML_PREDICT 內置函數調用大模型服務,進而實現基于 Flink SQL 完成數據清洗、分析處理到 AI 推理的全鏈路實時計算。
Flink 2.0:存算分離,邁向云原生架構
從最初的流處理框架到全球流計算的事實標準,Flink 在性能優化和穩定性提升的路上持續升級。王峰介紹,Apache Flink 2.0 創新性地中提出了一種全新的“解耦式狀態管理架構(Disaggregated State Management)”,將狀態存儲與計算任務分離,利用廉價的對象存儲來共享數據,從而實現更靈活的資源調度、更高的可擴展性和更輕量穩定的容錯能力。
Flink 2.0 從架構上根本解決了長久以來快照消耗大、狀態恢復慢、狀態和計算捆綁造成成本高的問題,標志著 Flink 在分布式流處理系統狀態管理架構上的重大突破,也代表著 Flink 向云原生架構演進的重要里程碑。據悉,該項研究成果《Disaggregated State Management in Apache Flink? 2.0 》由 Apache Flink 社區、阿里云實時計算 Flink 團隊以及多位學術界研究人員共同完成,已被數據庫領域頂級會議 VLDB 2025 正式接收。
Paimon:面向AI時代的多模態統一湖存儲
Apache Paimon PMC 主席、Apache Flink PMC 成員李勁松分享了 Apache Paimon 的最新進展。Paimon 是一個流批一體的存儲系統,與 Flink 結合構建Streaming Lakehouse 架構。在生態兼容方面,得益于 Iceberg V3發布的 Deletion Vectors 能力,用戶可以將 Iceberg 數據通過 Snapshots 實時同步到 Paimon,并保證分鐘級別的查詢延時。同時面向 AI 時代的多模態數據存儲,Paimon 集成了 Lance 文件格式,創新設計支持大體積 Blob(二進制大對象)的高效存儲,完美適配音視頻等非結構化數據場景。在列文件的隨機訪問、添加列數據方便也具有極強的性能。Paimon 已經實現廣泛的應用,在阿里巴巴集團內部,Paimon 處理了數百 PB 量級的數據,單表每秒處理高達 4000 萬行,實現了數據及時性提升一小時的目標。此外,Paimon 還成功應用于 vivo、小米、字節跳動和 Shopee 等企業,展示了其在實時數據湖和多模態數據存儲的強大能力。
阿里云將全托管的 Paimon 集成到了數據湖構建 DLF 產品中,針對 Paimon 進行智能存儲優化,存儲成本降低 30% 以上,查詢性能提升2倍以上。同時 DLF 還可以無縫對接多種計算引擎,實現一體化的元數據管理。在本次峰會上,DLF 宣布最新的 Paimon Catalog 在新加坡和雅加達地區開放公測,用戶可以直接申請試用。
Fluss:面向實時數據分析與AI負載的流表存儲系統
Apache Flink PMC 成員伍翀也分享了 Fluss 項目的最新進展。Fluss 是由阿里巴巴研發和開源的流表存儲系統,專為現代分析和 AI 工作負載而設計。Fluss 創新性地將列式存儲與流式更新能力融入流存儲,并與 Flink 等流計算引擎深度集成,同時與主流 Lakehouse 格式如 Paimon 和 Iceberg 進行一體化設計,能顯著降低實時數倉建設成本,提升數據開發效率。它通過統一的流處理和批處理能力,結合列式存儲、分區裁剪等優化技術,實現了高效的數據讀寫和零數據復制,顯著提升了數據處理效率。
自2024年12月開源以來,Fluss 社區持續活躍,吸引了來自字節跳動、螞蟻金服、小米、eBay、騰訊、Dream11 等公司的開發者參與共建。2025年6月,阿里巴巴正式將 Fluss 捐贈給 Apache 軟件基金會,標志著其邁入更加開放、中立的發展階段,也為 AI 時代的實時數據基礎設施建設奠定堅實基礎。
本次大會也請到了國際權威咨詢機構 Forrester 副總裁 Mike Gualtieri ,他表示:Apache Flink 作為實時數據處理的事實標準,為企業構建了支持 AI 的中樞神經系統。通過實時數據流,企業能夠整合多種數據源,支持事件驅動的架構,并構建實時 AI 代理和應用程序。這也印證了 Flink 社區的發展方向“The Future of AI is Real-Time”。