作者:來自 Elastic?Elastic Platform Team
想想那些像公共健康記錄、城市規劃模型等項目背后的所有數據。政府機構一直在產生大量數據。當數據分散在云平臺、本地系統或像衛星和應急響應中心這樣的專業環境中時,情況變得更加復雜。找到信息變得困難,更不用說有效利用它了。不同團隊使用許多不同的應用程序和數據格式,導致真正的互操作性缺失。
盡管他們盡最大努力建設數據驅動的組織,但根據最近 Elastic 的一項研究,65% 的公共部門領導者仍然難以實現實時、規模化地持續使用數據。
“一位公共部門領導告訴 Elastic,‘我們的工作時間變長了,這不好,因為我們的大多數工作都是緊急情況下完成的。我們需要盡快獲取信息。’”
數據量在不斷增長,訪問卻成了瓶頸。那么,公共部門機構如何擺脫那些集中式孤島的復雜性?數據網格提供了一種組織數據的替代方式,可能就是答案。
什么是數據網格?
簡單來說,數據網格打破孤島。來自整個網絡的數據可以在生態系統的任何或所有節點被檢索和分析 —— 只要用戶有權限訪問。它提供了一個統一但分布式的層,簡化并標準化數據操作。
Elastic 數據網
數據網格的四大支柱
數據網格建立在四個關鍵原則上:
- 領域所有權:機構和部門如何管理自己的數據
- 數據即產品:領域所有者確保他們的數據集高質量且易于訪問
- 自助服務平臺:讓內部和外部團隊在沒有 IT 阻礙的情況下找到并使用高質量數據
- 聯合治理:確保系統之間一切順利且安全運行
我們來仔細看看每個支柱。
領域所有權
數據所有權分散在政府機構和部門,而不是依賴中央 IT 團隊管理所有數據。基本上,你是在建立與機構組成相對應的技術團隊。你希望最熟悉數據的人來擁有數據。這適用于公共健康、城市規劃等幾乎所有公共部門的使用場景。
例如,美國網絡安全與基礎設施安全局(CISA)采用數據網格方法,能夠查看來自數百個聯邦機構的安全數據,同時允許每個機構保留對其數據的控制權。
了解更多關于如何使用 Elastic 作為統一數據層加速 CISA 零信任。
這引出了第二個(也可以說是最重要的)支柱 —— 其他三個支柱都是為了支持它設計的:
數據即產品
每個數據集都被視為一個有明確文檔和質量標準的產品。擁有數據的部門需要確保數據易于訪問和組織,以便其他部門需要時能夠使用。換句話說,他們對共享該數據作為可用產品負有責任和義務。
從政府角度來看,這可能是人口普查信息、應急響應數據或情報報告等,具體取決于項目或政府機構的結構。重要的是,這些經過整理的數據在其他團隊查找時已經準備好使用,不需要花時間清理或驗證。
那么,你可能會問,這不就是另一種數據孤島嗎?其他部門如何訪問數據的具體方式是什么?這就引出了我們的下一個支柱。
自助服務平臺
部門被要求承擔很多任務,因此他們需要方便的平臺,讓他們的數據對其他人可訪問。可搜索的目錄便于發現數據,查詢工具支持實時分析,用戶還能自行清理和整合數據,通過儀表盤和 API 分享見解,這些都是可用的工具。
他們還需要內置的治理來執行訪問控制,這就引出了最后一個支柱。
聯合計算治理
我們已經確定每個部門控制自己的數據。然而,數據網格仍然需要整體的治理協議來確保安全并防范風險。
這些安全控制應內置于檢索數據的系統中,而不是由各部門單獨實施。系統應在搜索時檢查用戶權限,確保用戶從一開始只能看到他們被允許訪問的數據。
在公共部門,這可能涉及從醫療數據隱私法規到系統中的機密信息等各方面。

數據網格架構
數據網格架構是將數據網格的支柱統一成管理分布式數據流程的框架。
實施數據網格架構減少了協作過程中的摩擦。由于其更以用戶為中心的方法,它對處理特定領域數據進行模型訓練和分析的團隊來說是一個變革者。
盡管存在多個平臺和實施團隊,數據網格仍能實現更高效的數據處理和治理。數據網格架構帶來更多自主權和數據民主化 —— 前提是你擁有可擴展的自助式數據可觀測性。數據可觀測性讓團隊能夠在一個統一界面下管理所有數據。
有效的數據可觀測性內置于數據網格架構中。它讓團隊能夠利用所收集數據的洞察。可以這樣理解:數據可觀測性是對數據健康和完整性的監控,而數據網格架構是對數據的去中心化管理。要管理數據,就必須能夠詳細地查看數據。
數據網格與其他方法的比較
數據網格與其他分析數據架構和存儲形式相比如何?我們來看兩個常被比較的:數據織物( data fabric )和數據湖( data lake )。
數據網格 vs. 數據織物
數據網格和數據織物都采用分散式方法,在遠程地點收集數據,類似之處在于此。然而,數據織物會將一個地點收集的數據復制到另一個地點。數據作為單個記錄共享,除非有能理解它的系統消費,否則無法與其他記錄關聯。這種方法常導致數據孤島。
而數據網格方法不依賴復制數據,而是在分布式平臺中對數據進行本地索引,用戶可以在本地及遠程地點搜索數據。在此模型中,數據在搜索平臺層統一。數據只索引一次,授權用戶或用例可以通過這一統一層訪問。
數據網格 vs. 數據湖
你可能注意到數據中有很多與水相關的比喻:數據流( data streams )、數據管道( data pipelines )等。數據像水一樣,可以被收集、存儲、過濾和分發 —— 有時高效,有時混亂。
正如湖泊匯集多條水源,數據湖匯集數據并保存以備將來使用。換句話說,它是結構化、半結構化或非結構化數據的存儲環境。
數據湖有時對數據網格領域所有者有幫助,因為他們可以用它處理和整理數據產品。比如,可以用數據湖長期存儲大型非結構化數據集(如衛星影像或公共記錄),這些數據暫時沒有具體用途。但如果數據湖變得無序難以導航,它就變成數據沼澤 —— 混濁、雜亂且難以提取價值。
數據網格與人工智能
數據網格可以為公共部門機構實現 AI 和機器學習民主化提供一種方式。傳統上,數據科學團隊作為集中式樞紐運作,從多個來源提取數據以開發機器學習模型。然而,如前所述,這種過程可能導致重復工作和不一致性,造成模型可復現性方面的挑戰。
通過數據網格顛覆這種模式,并將 AI 開發嵌入到領域團隊中,可以在數據源頭進行清洗和優化,創建其他部門可使用的 AI 驅動數據產品。
以國家災難響應為例。嵌入應急響應團隊的 AI 模型通常會分析實時衛星圖像、傳感器數據,甚至是社交媒體報告,以識別受災最嚴重的地區。借助數據網格,從政府機構到一線響應人員等不同機構都能立即訪問這些信息,而無需等待集中處理,從而提升響應速度。
數據網格還提升了 AI 治理,因為它從一開始就將治理納入架構中,標準化諸如模型驗證、偏差檢測、可解釋性和模型漂移監控等任務。
公共部門如何實施數據網格
每個公共部門組織都有獨特的數據需求,這也是一刀切的數據孤島模式對內部和外部用戶來說往往緩慢而受限的原因。三分之二的公共部門領導表示,他們對現有的數據洞察不滿意。
數據網格可以根據各類公共部門機構的獨特需求進行定制,無論是國家安全,還是聯邦、州和地方政府。
要開始實施數據網格,公共部門機構需要遵循以下幾個步驟:
- 將數據責任分配給具體部門。
- 將數據集視為文檔完善、可訪問的資產,面向內部和外部使用,并確保它們符合監管要求。
- 實施工具,讓機構、分析師和政策制定者無需依賴集中式 IT 團隊也能輕松訪問和分析數據。
- 在機構之間執行治理,遵循如 FedRAMP、CMMC 和 Zero Trust 等框架。
- 最后,鼓勵機構間的數據共享,在保持安全控制的同時做出更好的決策、提升公共服務。
政府與應用
數據網格非常適用于政府和應用領域,這些領域需要對龐大、分布式的數據集進行實時、安全的訪問和分析。
在公共衛生方面,它可以幫助快速整合來自醫院或研究機構的流行病學數據,以應對疫情暴發。交通部門可以分析跨城市的交通和天氣數據。教育部門可以查看過去十年兒童的考試成績,并將其與其他數據交叉對比,例如遠程學習與線下學習的時間比例。
Elastic 實現中的數據網格
作為 Search AI 公司, Elastic 的數據分析平臺是強大的全球數據網格,集機器學習、自然語言處理、語義搜索、告警和可視化于一體。換句話說, Elastic 提供統一能力,讓各機構全面可視化其數據,并具備攝取、組織、訪問和分析的能力。
Elastic 的三大核心特性:
-
跨集群搜索( CCS ):支持對一個或多個遠程集群發起單個搜索請求
-
可搜索快照:以低成本訪問和查詢不常用的歷史數據
-
基于角色的訪問控制:提供集成的安全機制
Elastic 的數據網格方法還可以作為 Zero Trust 等現代安全框架的基礎,為數據驅動的運營打開新可能。
了解更多 Elastic 如何幫助政府、醫療和教育團隊以更快速度、更強規模和更高相關性釋放數據價值:
探索更多公共部門中的數據網格資源
-
使用 Elastic 構建全球數據網格:以安全、治理和策略統一數據訪問
-
最大化公共部門數據價值
-
借助 Elastic 作為統一數據層加速 CISA 零信任
本博文中提到的任何功能或特性均以 Elastic 的最終決定為準。尚未提供的功能可能不會如期發布,甚至不會發布。
文中可能使用或提到第三方生成式 AI 工具,這些工具由各自所有者擁有和運營。 Elastic 無法控制這些第三方工具,對其內容、運行或使用不承擔任何責任,也不對因使用這些工具而導致的任何損失或損害承擔責任。在使用 AI 工具處理個人、敏感或機密信息時請務必小心。你提交的數據可能會被用于 AI 訓練或其他用途。 Elastic 不保證你提供的信息會被安全或保密處理。你在使用前應了解相關 AI 工具的隱私政策和使用條款。
Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 及相關標志是 Elasticsearch N.V. 在美國和其他國家的商標、徽標或注冊商標。所有其他公司和產品名稱均為其各自所有者的商標、徽標或注冊商標。
原文:Understanding data mesh in public sector: Pillars, architecture, and examples | Elastic Blog