云原生與 AI 驅動下的數據工程新圖景——解讀 DZone 2025 數據工程趨勢報告【附報告下載】

在 AI 技術從“實驗性”走向“企業級落地”的關鍵階段,數據工程作為底層支撐的重要性愈發凸顯。近日,DZone 發布的《2025 數據工程趨勢報告》(Scaling Intelligence with the Modern Data Stack)通過對全球 123 位 IT 專業人士的調研,揭示了當前數據工程領域的核心趨勢、技術選型偏好與實踐痛點。本文將梳理報告的核心發現,并解讀其對數據工程師、架構師及技術管理者的實踐價值。

在這里插入圖片描述

一、報告概覽:調研背景與核心基調

DZone 本次調研覆蓋了全球范圍內的開發者、架構師等 IT 從業者,樣本呈現三大特征:

  • 角色集中:32%為“開發者/工程師”,10%為“開發團隊負責人”,核心受訪者均深度參與數據系統構建;
  • 技術棧成熟:80%企業使用 Python 生態,50%從業者以 Python 為主要工作語言,Java(22%)位居第二;
  • 經驗豐富:受訪者平均 IT 從業經驗達 14.65 年,中位數 13 年,反饋具備較強實踐參考性。

報告核心基調明確:企業數據能力正從“技術堆砌”轉向“整合優化”——不再盲目追逐新工具,而是聚焦成本控制、性能監控與流程編排,以適配 AI 原生架構、實時分析等新需求。

二、核心發現:數據工程的三大“轉向”

1. 存儲架構:從“混合分散”轉向“云原生主導”

數據存儲是本次調研的重點領域,結果顯示“云原生”已成為不可逆趨勢:

  • 云存儲占比大幅提升:49%企業主要采用“純云存儲”,較 2024 年的 30%增長 19 個百分點;而混合存儲(37%,-11%)、本地私有存儲(10%,-10%)占比顯著下降;
  • 遷移動機務實化:“維持高可用性”(44%)、“降低成本”(39%)、“提升數據可訪問性”(34%)是云遷移的三大核心訴求,其中大企業更傾向通過云遷移實現“現代化改造”與“AI 分析支撐”;
  • 存儲架構分層明顯:55%企業使用數據倉庫,47%使用數據湖,27%使用湖倉一體(Lakehouse);大企業(1000+員工)是“湖倉一體”的主要實踐者(38%),小企業(<100 人)因規模限制,數據倉庫使用率僅 37%(低于整體 55%)。

在這里插入圖片描述

2. 數據安全:從“工具堆砌”轉向“體系化落地”

盡管數據安全的重要性達成共識,但實踐呈現“認知與落地脫節”的特點:

  • 核心策略集中:62%企業依賴“加密與安全傳輸”“訪問控制與認證”,59%關注“合規性標準”,三者構成安全實踐的“鐵三角”;
  • 實踐 Adoption 下降:與 2024 年相比,“災難恢復”(-22%)、“數據脫敏”(-21%)、“安全編碼”(-22%)等實踐的使用率顯著下滑,推測與“依賴云廠商默認安全能力”“成本壓縮”有關;
  • 威脅感知聚焦:60%企業最擔憂“數據泄露”,50%關注“認證與訪問控制失效”,43%警惕“不安全數據處理”,中小企業對“弱加密”的擔憂更突出(40%,高于大企業 17%)。

在這里插入圖片描述

3. 數據管道:從“批量離線”轉向“實時 AI 適配”

數據管道是支撐 AI 落地的核心環節,調研顯示其正在向“實時化、AI 原生”轉型:

  • ETL 工作量高企:從業者平均 30%工作時間用于 ETL/ELT,大企業(35%)與小企業(33%)耗時更高,中型企業(20%)因流程成熟度居中;
  • 工具選型分化:48%企業仍依賴“手動數據庫導入/導出”,33%使用“專業 ETL 工具”(較 2024 年下降 11%);大企業更偏好專業工具(40%),小企業則依賴“臨時批處理腳本”(43%);
  • AI 數據準備待加強:僅 18%從業者“非常自信”于 AI/ML 數據準備最佳實踐,39%通過“API 實時供數”支撐生成式 AI,36%使用向量數據庫實現 RAG(檢索增強生成),但小企業的數據質量實踐覆蓋率顯著低于大企業。

在這里插入圖片描述

三、專家洞見:來自行業一線的實踐指南

報告收錄了微軟、Netflix、Factorial 等企業專家的深度解讀,核心聚焦三大方向:

1. 數據架構的“融合與開放”:湖倉一體+開放表格式

Factorial 工程 VP Miguel Garcia Lorenzo 指出,傳統數據湖、倉庫的邊界正在消失,基于開放表格式(如 Apache Iceberg)的湖倉一體成為主流

  • Iceberg 憑借“引擎中立性”“隱藏分區”“元數據管理”優勢,成為多引擎(Trino、Flink、DuckDB)共享數據的統一層;
  • 現代架構采用“多引擎策略”:DuckDB 用于嵌入式邊緣分析,Trino 用于跨源聯邦查詢,ClickHouse 用于實時 OLAP,實現“存儲與計算解耦”。

2. AI 原生架構的“底層重構”

微軟產品經理 Abhishek Gupta 強調,AI 原生架構與傳統架構存在本質差異(如下表),需從“數據類型、處理模式、存儲選型”全鏈路重構:

維度傳統架構AI 原生架構
數據類型結構化數據文本、圖像等多模態數據
處理模式批量 ETL實時流+批量混合
延遲要求小時級-天級毫秒級-秒級
存儲核心數據倉庫(星型模型)數據湖+向量庫+特征庫
查詢模式SQL 分析向量相似性搜索+傳統查詢

3. 實時系統的“DataOps 落地”

Netflix 高級工程師 Tulika Bhatt 分享了實時數據系統的 DataOps 實踐:

  • schema 版本化:通過 Avro/Protobuf 定義 schema,結合 Apicurio Schema Registry 實現兼容性校驗;
  • CI/CD 全自動化:將 Flink 作業、配置文件納入 Git 管理,通過 GitHub Actions 實現“構建-測試-灰度部署”;
  • 可觀測性體系:聚焦 Kafka 消費延遲、Flink checkpoint 時長等核心指標,通過 Prometheus+Grafana 建立業務告警。

四、報告價值:為不同角色提供行動指南

1. 數據工程師:明確工具與技能優先級

  • 工具選型:優先掌握 Python 生態、Apache Iceberg、Kafka/Pulsar 流處理,以及 Prometheus/Grafana 可觀測性工具;
  • 技能升級:補充向量數據庫(Pinecone、Weaviate)、RAG 數據準備、DataOps 自動化等 AI 相關能力。

2. 架構師:把握技術選型的“平衡術”

  • 存儲層:中小企業可從“云存儲+數據倉庫”起步,大企業推進“湖倉一體+開放表格式”;
  • 安全層:避免“工具堆砌”,聚焦“加密+訪問控制+合規”核心,借力云廠商安全能力降低成本;
  • 管道層:根據規模選擇“專業 ETL 工具(大企業)”或“腳本+輕量工具(中小企業)”,逐步推進自動化。

3. 技術管理者:平衡“創新與成本”

  • 資源傾斜:向“實時數據管道”“AI 數據質量”等核心環節傾斜預算,優先解決“數據可用性”問題;
  • 團隊協同:建立“數據工程師+數據科學家+ML 工程師”跨職能團隊,通過 Feature Store、數據目錄實現協作效率提升。

五、總結:數據工程的未來三大關鍵詞

  1. 云原生深化:純云存儲將持續替代混合/本地存儲,云廠商的“Serverless+托管服務”成為中小企業首選;
  2. AI 驅動重構:向量數據庫、實時流處理、開放表格式成為 AI 原生架構的“基礎設施”,數據工程與 AI 工程的邊界進一步模糊;
  3. DataOps 常態化:實時系統的“自動化部署、可觀測性、版本控制”將成為標配,推動數據工程從“手工運維”轉向“工程化交付”。

如需深入探索,可參考報告附錄的“解決方案目錄”——涵蓋 DataStax Astra DB(AI 原生 NoSQL)、Langflow(LLM 可視化構建)、Apache Kafka(流處理)等 100+工具的選型指南,為實踐落地提供直接參考。

附:報告核心內容腦圖大綱

在這里插入圖片描述

下載地址

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/100248.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/100248.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/100248.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

9.5 機器翻譯與數據集

語言模型是自然語言處理的關鍵&#xff0c;而機器翻譯是語言模型最成功的基準測試&#xff0c;因為機器翻譯正是將輸入序列轉換成輸出序列的序列轉換模型的核心問題。序列轉碼模型在各類現代人工智能應用中國呢發揮著至關重要的作用&#xff0c;因此我們將其作為本章剩余部分和…

Linux 內核鏡像與啟動組件全解析:從 vmlinux 到 extlinux.conf

&#x1f9e0; Linux 內核鏡像與啟動組件全解析&#xff1a;從 vmlinux 到 extlinux.conf 在嵌入式 Linux 系統中&#xff0c;啟動流程涉及多個關鍵文件和機制。不同的鏡像格式和配置文件承擔著不同的職責&#xff0c;從內核編譯到 bootloader 加載&#xff0c;再到系統啟動。本…

【系統分析師】2024年下半年真題:論文及解題思路

更多內容請見: 備考系統分析師-專欄介紹和目錄 文章目錄 試題一:論devops在企業信息系統開發中的應用 試題二:論系統業務流程分析方法及應用 試題三:論軟件測試方法及應用 試題四:論信息系統運維管理 試題一:論devops在企業信息系統開發中的應用 1、概要敘述你參與管理和…

AI GEO 實戰:借百度文小言優化,讓企業名稱成搜索熱詞

在當今數字化浪潮中&#xff0c;企業的線上曝光度和搜索可見性至關重要。百度作為國內占據主導地位的搜索引擎&#xff0c;其推出的大模型文小言蘊含著巨大的潛力。通過巧妙運用 AI GEO&#xff08;生成式引擎優化&#xff09;策略&#xff0c;企業完全有可能讓自己的公司名稱成…

文件操作知識點總結

目錄 1.為什么使用文件 2.什么是文件&#xff1f; 2.1 程序文件 2.2 數據文件 2.3 文件名 3.二進制文件和文本文件 4.文件的打開和關閉 4.1 流和標準流 4.1.1 流 4.1.2 標準流 4.2 文件指針 4.3 文件的打開和關閉 4.3.1 fopen函數 4.3.2 fclose函數 5.文件的順序…

oracle認證有哪幾種?如何選擇

Oracle&#xff08;甲骨文&#xff09;不僅是全球領先的數據庫軟件巨頭&#xff0c;更是企業級數據管理的代名詞&#xff0c;獲得Oracle認證&#xff0c;證明可從事Oracle數據庫服務器的數據操作和管理等工作。下面給大家詳細其主要認證類型及其在職業發展中的含金量&#xff0…

AppTest邀請測試測試流程

相比AppGallery邀請測試&#xff0c;AppTest邀請測試具備以下全新能力&#xff1a;若您同時發布了多個測試版本&#xff0c;AppTest支持測試版本自動升級到最新的測試版本。您可以選擇將當前最新在架版本的應用介紹截圖展示給測試人員&#xff0c;視覺效果更好&#xff0c;提升…

硬件 - oring多電源切換

目錄 一、ORing電路 1.1 ORING 電路 1.2 ORING 電路關鍵部分 二、多電源切換 2.1 主要思路 2.2 適用場景 一、ORing電路 1.1 ORING 電路 中文常稱 “或環電路” 或 “并聯冗余電路”是一種電源并聯冗余拓撲結構 核心功能&#xff1a;將多路獨立電源的輸出 “并聯整合”&a…

Qt多語言翻譯實戰指南:常見陷阱與動態切換解決方案

問題背景 在Qt項目國際化過程中&#xff0c;開發者經常會遇到各種翻譯邏輯問題&#xff0c;特別是需要實現運行時語言動態切換功能時。一個典型場景是&#xff1a;程序默認英文顯示&#xff0c;加載中文翻譯文件后界面變為中文&#xff0c;但再次切換回英文時卻失敗。本文將深入…

機器人要增加力矩要有那些條件和增加什么

機器人要增加力矩要有那些條件和增加什么進行詳細講解 好的&#xff0c;這是一個非常專業且重要的問題。為機器人增加力矩&#xff08;通常指提升關節輸出扭矩&#xff09;不是一個簡單的部件替換&#xff0c;而是一個涉及動力鏈、結構、控制和散熱的系統性工程。 以下將詳細講…

spring集成aes加密、rsa加密

文章目錄spring集成對稱加密spring集成rsa加密spring集成對稱加密 encrypt:key: aaabbb # 只配置這個參數就實現了對稱加密salt: 333444 # 這個可以不配置spring集成rsa加密 例如apollo&#xff0c;如果沒有配置encrypt.key&#xff0c;那么apollo不配置應該也是可以的&#…

OpenSTL PredRNNv2 模型復現與自定義數據集訓練

OpenSTL PredRNNv2 模型復現與自定義數據集訓練 概述 本文將詳細介紹如何復現 OpenSTL 中的 PredRNNv2 模型&#xff0c;并使用自定義的 NPY 格式數據集進行訓練和預測。我們將從環境配置開始&#xff0c;逐步講解數據預處理、模型構建、訓練過程和預測實現&#xff0c;最終實現…

Linux內核IPv4隧道模式封裝機制剖析

概述 在Linux網絡棧中,XFRM(Transform)子系統負責實現IPsec等安全協議的功能。其中,xfrm4_mode_tunnel.c是實現IPv4隧道模式封裝的核心模塊,為IPv4數據包提供隧道模式的封裝和解封裝能力。本文將深入分析這一模塊的實現機制。 模塊架構與功能 該模塊通過注冊到XFRM框架…

OPC Client第10講:實現主界面;獲取初始界面傳來的所有配置信息config【C++讀寫Excel:xlnx;ODBC;緩沖區】

接前面代碼內容&#xff1a; OPC Client第6講&#xff08;wxwidgets&#xff09;&#xff1a;Logger.h日志記錄文件&#xff08;單例模式&#xff09;&#xff1b;登錄后的主界面_wx.logger-CSDN博客 OPC Client第8講&#xff1a;OPC UA&#xff1b;KEPServerEX創建OPC服務器…

快速入門HarmonyOS應用開發(一)

目錄 前言 一、準備工作 二、實戰開發 2.1、Navigation簡介 2.2、頁面路由開發 2.2.1、創建常量 2.2.2、創建字符串資源 2.2.3、創建float資源 2.2.4、創建color資源 2.2.5、創建數據實體 2.2.6、創建頁面路由表 2.2.7、創建Navigation根容器 2.2.8、創建NavDesti…

AI 進課堂 - 語文教學流程重塑

AI 進課堂 - 語文教學流程重塑執教語文十余年&#xff0c;備課案頭的參考書堆得比學生作業本還高&#xff0c;批改作文時紅筆芯換得比粉筆還勤。 直到去年把 JBoltAI 請進課堂&#xff0c;那些重復機械的工作突然有了新解法&#xff0c;連課堂上孩子們的眼神都亮了許多 —— 這…

用戶是否可以同時使用快照和備份來保護云服務器數據安全?

在云計算環境中&#xff0c;云服務器已成為企業和個人數據存儲、應用部署和業務運營的重要平臺。隨著業務數據量的不斷增長&#xff0c;數據安全和業務連續性成為用戶關注的核心問題。云服務器提供的快照和備份功能為用戶提供了有效的數據保護手段&#xff0c;但很多人會疑問&a…

RDS-MYSQL,這個RDS是什么?和mysql有什么區別?

好的&#xff0c;這是一個非常常見且重要的問題。我用最通俗易懂的方式給你解釋清楚。 一、大白話解釋 你可以把 MySQL 和 RDS MySQL 的關系&#xff0c;想象成&#xff1a;MySQL&#xff1a;就像是你自己買零件組裝的一臺電腦。 你需要自己挑選CPU、內存、硬盤、主板&#xff…

arcgis中實現四色/五色法制圖

四色定理是圖論中的一個著名定理&#xff0c;它指出在任何地圖上&#xff0c;只需四種顏色就足以使任何相鄰的區域&#xff08;擁有共同邊界線段&#xff0c;而非單個點&#xff09;顏色不同。五色定理則是另一個更早被證明的、較弱但更易證的定理。在地圖制圖中&#xff0c;這…

Spring如何巧妙解決循環依賴問題

什么是循環依賴&#xff1f;循環依賴是指兩個或多個Bean之間相互依賴&#xff0c;形成閉環的情況。例如&#xff1a;AService依賴BService&#xff0c;而BService又依賴AService。這種場景下&#xff0c;傳統的創建順序無法滿足依賴注入的要求。Spring的三級緩存機制Spring通過…