6 月 27 日至 28 日,IvorySQL 2025 生態大會暨 PostgreSQL 高峰論壇在泉城濟南順利召開。本屆大會由 IvorySQL 開源數據庫社區主辦、瀚高基礎軟件股份有限公司承辦,吸引了來自國內外的數據庫技術專家、開發者與開源愛好者齊聚一堂,聚焦數據庫內核優化、AI 融合、云原生架構、開源生態共建等前沿議題,為全球開源從業者奉獻了一場產業技術盛宴。
會上,兩位 Apache Cloudberry PPMC 成員——酷克數據研發 VP 楊瑜與酷克數據開源負責人王殿進,分別圍繞 Cloudberry 的內核技術演進與全球化開源協作實踐,分享了最新進展與深度洞察。
延續與突破:基于 PostgreSQL 的下一代 MPP 數據倉庫
在「引擎之心:PostgreSQL 及衍生內核深度探索與前瞻」分論壇中,Apache Cloudberry PPMC 成員、酷克數據研發 VP 楊瑜帶來了《基于 PostgreSQL 的新一代 MPP 數據倉庫》演講。
Apache Cloudberry 由最初的 Greenplum 核心團隊發起,目前在 Apache 基金會孵化中,是下一代基于開源 PostgreSQL 內核打造的 MPP(大規模并行處理)數據倉庫。 在內核層面,Cloudberry 基于 PostgreSQL 14.4,通過內核級優化與創新,進一步釋放了 PostgreSQL 的通用性與靈活性,支撐復雜 OLAP 場景下的大規模分布式查詢。作為 Cloudberry 的核心貢獻者,酷克數據在持續推動項目發展的同時,基于其開源功能推出了多項增強特性,尤其在以下領域實現突破:
向量化執行引擎:已覆蓋 Scan、Join、Agg 等多種算子,通過 SIMD 并行與 PAX(行列混合存儲格式),顯著提升了 CPU 利用率和 I/O 吞吐(籌備開源階段)。
動態并行執行(Dynamic DOP):可根據數據量和查詢復雜度實時調整并發度,避免傳統 MPP 系統的可擴展性瓶頸。
數據湖和流處理融合:通過 Data Lake Connector 無縫對接 Iceberg、Hudi 等主流湖格式,直讀對象存儲中的 Parquet、ORC,減少冗余 ETL,結合 Flink CDC、Kafka_fdw 支持近實時數據同步。(部分開源)
安全合規層面:已實現包括 SM2、RSA、SM4、AES 等加解密算法、透明數據庫加密(TDE)、集中認證等多項企業級能力,使得產品安全性達到金融與電信的行業級別要求。
“Cloudberry 不僅是 Greenplum 的延續,更是 PostgreSQL 在分布式場景下的一次進化與補全。” 楊瑜表示,“我們堅持‘上游優先’,持續將核心特性回饋社區,期望用可持續的開源演進,連接全球開發者與企業用戶。”
楊瑜還介紹了 Apache Cloudberry 社區發展路線圖,如升級 Cloudberry 內核由 PostgreSQL 14.4 到 16 版本,完善 ORCA 優化器、支持更多并行算子,實現物化視圖在外部表場景下的可用性;支撐大規模向量搜索與推理,服務 LLM 時代企業的快速增長需求。
社區共建:開源協作的本地化與全球化新樣本
在由Apache Cloudberry PPMC 成員/HashData 開源負責人王殿進出品的「源力聚橋:開源協作的全球化實踐與人才破壁」分論壇中,王殿進分享了《PostgreSQL 本地化實踐:原生語言項目貢獻之路》,結合十余年一線開源社區經驗,探討了 “代碼之外”的開源貢獻路徑。
PostgreSQL 作為一個近 30 年歷史的國際化項目,其 NLS(原生語言支持)對于全球范圍內非英語用戶至關重要,但長期被低估。Cloudberry 團隊在持續向上游貢獻內核特性的同時,也有效推動了 PostgreSQL NLS 中文語言項目的工作進展。
王殿進強調:“開源從來不只是寫代碼,每個人都能找到適合自己的切入口,參與 NLS 中文翻譯是有意向參與 PostgreSQL 貢獻的社區成員最容易參與的貢獻方式,但其價值常被忽視。”
結語
從內核技術創新到全球化社區協作,酷克數據正以穩健開放的方式,攜手全球開發者共建 Apache Cloudberry 社區。我們深知“上游優先(Upstream First)”的價值,Cloudberry 社區的成長不僅在于自身發展,更在于積極推動 PostgreSQL 上游生態的繁榮。開源不僅是代碼的共享,更是全球開發者間技術信任網絡的編織與持續協作。正是這無數看似微小卻不可或缺的努力相互連接,共同驅動著數據庫技術的不斷進步。