在 AWS 上重構數據中臺，這家出海企業選擇了數棧

2024年，袋鼠云接到了一個不小的挑戰。

一家貨幣交易所的技術負責人在通話里直接說：“我們現在業務都跑在 AWS（亞馬遜云平臺）?上了，你們的產品（數棧大數據平臺）能不能不改代碼直接跑在 AWS 上？最好別重學。能跑，還得跑得快。”

出海浪潮下，這樣的需求并不稀奇。真正能在 AWS 上做到“穩定、高性能、權限閉環、體驗一體化”的大數據產品，至今仍是少數。這要求中國的技術公司開始走入一個新戰場——不能再是提供“給中國客戶用的技術”，而是需要適配全球主流云廠商的底層邏輯，用一種全球通用的方式去可靠交付。

所以袋鼠云在全面開啟出海戰略之后，下定決心不僅要讓數棧能跑在 AWS 上，還要在 AWS 上跑得好。

不是兼容AWS，而是重做一遍適配體系

對大多數國產數據平臺來說，“適配 AWS”的第一步就是找兼容層：看看 EMR 支不支持 Spark、Flink 能不能訪問 Hdfs，S3或者向Yarn提交任務，再配點訪問策略，就認為大功告成了。

但會很快發現，這種兼容，是一種“不確定性”的存在。

比如：S3 是最終一致性，任務寫完數據后，別的任務讀不到；Flink 的 checkpoint 寫 S3 時丟失元數據；Glue 的 Catalog 怎么都連不上 Hive 元數據；權限策略在多個服務之間不通……

客戶想要的是“業務跑得起來”，但工程師面對的，是“生態全斷裂”。

于是袋鼠云決定重新來過。不是兼容 AWS，而是跟它“合拍”：真正理解 AWS 的每一層能力——從存儲->調度->元數據，從AK&SK->IAM Roles認證——并逐層打通。

這不是插件級適配，而是系統級改造。

數棧對接訪問AWS-EMR的認證、調度、元數據訪問鏈路圖

打造一套“全球化的數據中臺”

開頭提到的貨幣交易所的客戶最終成為了數棧的首批 AWS 適配合作用戶。項目初期，他們面臨的典型問題不止一個：

數據調度工具三天兩頭掛，沒人知道任務跑沒跑完；
計算引擎寫入 S3 的數據總有一致性問題，結果算出來總感覺差一口氣；
每個業務線的數據自己接、自己處理、自己維護，一套數據平臺成了十幾塊孤島。

在袋鼠云看來，這不是產品的問題，而是出海數據基礎設施“整體系統性”的問題。

數棧在 AWS 上的適配目標，是搭建一套真正“全球可用”的數據中臺能力。所以我們拆開了五個維度，逐一重構。

存儲適配：不只是能讀寫 S3，而是要“寫得穩、讀得快、控得細”

S3 是 AWS 上的默認存儲選項，但它有個常被忽略的特性——最終一致性。這意味著，你剛寫進去的數據，不一定立刻能讀到。對于流處理、調度依賴、實時寫入的作業來說，這幾乎是“隱形炸彈”。

客戶之前用的是開源 Hadoop 的 S3AFileSystem 接入方式，讀取慢、目錄雜亂、偶發數據“看不見”。袋鼠云對接了 AWS 的原生優化版本?EmrFileSystem的方式，徹底解決了這個問題。

EmrFileSystem讀寫 HDFS配置

EMRFS 有三點關鍵優勢：

支持強一致性視圖（Consistent View），寫完立馬能讀，Flink/Spark 流任務更穩定；
支持?目錄緩存與智能分段上傳，大文件寫入快、列表速度更快；
支持與 IAM 和 Lake Formation 聯動的權限管控，讓“讀寫誰的數據”不再靠腳本設權限。

計算整合：不只是跑得動 Spark/Flink，而是自動彈性、精細調度

客戶的數據處理任務很雜，有周期性批量任務，有高頻流式計算，還有一些重資源的查詢任務。最早他們用開源集群，調度器負載高就卡死，恢復得靠“看運氣”。

袋鼠云幫助他們把核心任務運行在?EMR on EC2 集群上，也就是 AWS 原生的彈性 Hadoop/Spark 平臺。數棧的調度系統自動識別任務資源需求，提交給 EMR，系統會自動拉起集群、運行任務、再釋放資源。

AWS EMR集群對接

對客戶而言，效果非常直觀：

計算資源彈性拉升，不用擔心凌晨高峰資源不夠；
作業失敗自動重試+告警，運維壓力大幅下降；
EMR 成本按分鐘計費，資源利用率提升 40%+。

一句話總結就是：以前靠人盯著調度器跑，現在調度器自己知道怎么跑最合適

?元數據對接：用 Glue Catalog 做平臺級數據資產管理器

元數據聽起來抽象，但對于有幾十上百個表、成千上萬個字段的業務平臺來說，“我有哪些表？結構是不是最新的？別的團隊能不能也用？”這就是數據工程的真實日常。

數棧原本用自建?Hive Metastore?管理表結構，遷到 AWS EMR后，我們對接了 Glue Catalog，把所有表的結構、分區、存儲路徑、Schema?變更，統一托管到 Glue 里。

Glue Catalog數據源構建

Glue Catalog元數據構建

這帶來兩個立竿見影的好處：

不用再維護一個獨立的元數據庫，Glue 是 serverless 的，自動托管、高可用；
所有在 S3、Redshift、Athena 上的數據分析工具，都可以用 Glue 的元數據，真正實現數據資產“一處定義、處處可用”。

而且 Glue 自帶自動 Schema 爬蟲（Crawler），文件一落地，表結構自動生成，再也不需要工程師人肉注冊。

權限控制：不是“能防”，而是“可管理、可審計、可精細分發”

數據權限在出海場景里從不是錦上添花，而是剛需，尤其是面向多團隊、多角色甚至多租戶的系統。

通過AK&SK的方式構建Glue Catalog

袋鼠云能夠支持AK&SK和IAM的認證以及結合IAM Poclic+數據庫自身權限管理實現資源+數據庫級別的訪問控制：

安全效果得到增強，IAM+數據庫雙重認證，憑證泄密也無法通過非法IP進行訪問，能夠實現最小權限的安全落地。
運維管理能力提升，統一的身份管理，基于IAM策略實現動態授權，通過aws審計報告自動生成來提神自動化水平。
業務合規效果增強，滿足了監管需求，實現了多租戶隔離防止跨租戶泄密，審計日志的追蹤鏈路完整。
成本優化效果明顯，資源利用率提升，運維成本降低，安全事件損失減少。

這讓客戶在面對“誰能看交易金額、誰能查鏈上地址”這樣的問題時，不用再靠信任——權限系統自己就能給出答案

產品體驗：界面沒變，但能力變了

袋鼠云做了那么多 AWS 原生集成，對客戶來說最直觀的感受其實是：“體驗沒變。”

拖拽建模、任務調度、血緣分析、實時開發、資產管理……界面還是那個數棧，學習成本沒有提升。但背后的一切都已經跑在 AWS 上，跑得更穩定、更彈性、更安全。

實時開發Catalog管理

客戶說：“用你們的產品，我不用去理解 EMR 里 Spark 怎么配置，Glue Catalog 怎么建表，權限策略怎么穿透，這就夠了。”

出海這件事，技術不能只是“能跑”

“能跑”，是底線；“能跑好”，才是出海平臺的基本功。

數棧與 AWS 的聯合適配，不是為了解決某一個技術問題，而是為了解決出海企業在 “高彈性 + 高安全 + 高治理要求”環境下構建統一數據中臺的需求。

袋鼠云不想把國產技術硬搬過去，而是要在全球通用的云體系下，讓真正想在海外落地的數據業務，有一塊穩定、彈性、好用的“數字地基”。

這不是兼容，這是重構。這不是跑通，而是跑贏。

越來越多的中國企業正在走向全球，這也是數棧為什么要在 AWS 上，重做一遍中臺的真正原因。袋鼠云相信，真正的出海能力，絕不是簡單的“向外復制”，而是深度嵌入全球云生態、以業務為核心進行技術重構。未來，數棧還會繼續拓展全球主流云平臺的適配能力，為更多出海企業構建屬于他們的全球數智基建。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/86503.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/86503.shtml
英文地址，請注明出處：http://en.pswp.cn/web/86503.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！