SaaS 出海:Databend Cloud 的定位與實踐

提到 “SaaS 出海”這個詞大家肯定并不陌生,SaaS 企業將業務拓展到海外市場已經成為許多 SaaS 公司的重要戰略方向。隨著企業對于靈活性、可擴展性以及成本效益需求的不斷增長, SaaS 模式提供了理想的解決方案。對于尋求出海機會的 SaaS 企業來說,全球化市場的巨大潛力尤為吸引人。在許多地區,尤其是發展中市場, SaaS 服務的普及率還遠遠沒有飽和,這也為企業提供了非常廣闊的成長空間。

隨著全球數字化轉型的不斷加速, SaaS 服務需求也在持續增長。上周,GTC 2024 全球流量大會在深圳成功召開,Databend 作為新一代云原生數據倉庫服務商,也攜帶領先的出海大數據解決方案亮相本次大會。大會圍繞著“角逐技術力,把握 SaaS 出海新姿勢”這個話題產生出許多精彩的碰撞火花。Databend 聯合創始人吳炳錫出席了本次大會,并帶來 《SaaS 出海:Databend Cloud 的定位與實踐》分享。Databend 成立至今已有三年,這三年里 Databend 是如何定位產品?怎么做出海?以及如何獲取出海用戶的?通過以下的分享將為大家一一揭秘。

Databend 創建于 2021 年 3 月,核心團隊成員來自 ClickHouse 社區、谷歌 Anthos、阿里云等國內外知名互聯網和云計算公司,團隊在云原生數據庫領域有著豐富的工程經驗,研發人員分布在中、美兩地,同時也是數據庫開源社區活躍貢獻者。我們創立的開源云原生數倉項目 Databend,是一個使用 Rust 研發、基于對象存儲設計的新一代云原生數據倉庫產品,提供極速的彈性擴展能力和按需、按量的 Data Cloud 產品體驗,致力于打造開源版的 Snowflake。目前,Databend 在 GitHub 上獲得超過 7400 個Star ,擁有 180 多位貢獻者,總 PR 數量達到 9700+ ,累計已解決 Issue 接近 4400 個。我們以 Databend 作為內核,打造了商業化產品 Databend 企業版和 Databend Cloud。

目前,Databend Cloud 在 AWS、阿里云、騰訊云、華為云新加坡區都提供了相應的服務。在 AWS 上,我們在美國東一區、西一區以及歐洲區都提供了云服務。未來,我們也會隨著用戶的需求繼續開拓新的可用區。基于我們成熟的部署經驗,開一個新區大概只用 2- 3 天,能夠極快滿足用戶的業務需求。

Databend 的適用場景包括實時 OLAP、海量日志/數據歸檔、財務數據的離線分析等,服務的用戶包含多點、微盟、茄子快傳、海外的區塊鏈公司,以及南北醫藥集團、尼泊爾電信、蘋果中國、國內汽車廠商等等。

Databend Cloud 產品定位

Databend 團隊在數據庫領域都工作了十年以上,對數據庫行業的痛點非常熟悉。所以當時為 Databend 做產品定位的時候,我們就在想怎么才能幫助企業解決行業里的數據痛點。

出海企業在做海外業務時,很多人都想利用 AWS 穩定的網絡和硬礎架構去做底層基礎設施支撐。看起來一切都是美好的,但隨著業務增長,他們不得不面對復雜的產品和架構,數據分析成本越來越高。一方面,可供選擇的產品非常多,企業也跟著很迷茫,另一方面,這些產品本身也非常昂貴,除了計算存儲費用外,還有網絡、備份恢復、跨 VPC 傳輸等等。

Databend Cloud 的設計目標

Databend 致力于簡化這一切,我們的 Databend Cloud 很早就定位在 Snowflake、Redshift、BigQuery 的替換上。用戶從這些技術棧遷移到 Databend 上面,基本上 2- 3 周都能完成,而且過程非常順利。

我們為什么能解決這些問題?

首先,Databend 的內核團隊非常熟悉 ClickHouse,ClickHouse 在中國 TOP5 的貢獻者我們團隊占了三個,所以我們基于 ClickHouse 的向量化計算和 Rust 大幅提升了產品性能。同時,我們基于 Snowflake 的存算分離思想,提升了分布式計算能力,借助 Git 實現 MVCC 列式存儲引擎,支持事務操作。支持事務也是我們對大數據的一項突破。目前,所有大數據產品其實都不講究事物,這也造成了金融領域、公司財務報表、公司訂單對賬經常會丟失數據,或者數據對不齊。我們把數據庫的事務理念帶到了大數據里面,并用 SQL 的理念解決了這個問題,支持了事務。所以 Databend 在數據對賬場景中表現非常完美,支持這個場景完全沒有問題。

此外,我們還開源了一個 OpenDAL 項目。2023 年 3 月, OpenDAL 正式移交到 Apache 軟件基金會孵化器中進行孵化,將會在今年畢業。它已經成為 Rust 生態以及數據庫開發生態里大量使用的組件。

另外,我們把大數據里面大家最痛苦的——任務編排、stream 流計算,還有內部的一些增量獲取,全都內置到 Databend Cloud 里,對外提供統一的 SQL 入口。從此,你不用去想什么任務編排了,也不用去搞外置 GPT,只用這一套 SQL 就可以全部搞定。

我們今年剛剛支撐了一個游戲用戶,他們原來有一個 30 多人的大數據團隊,近半年都在支持一個游戲上線。 據他們介紹,這個游戲上線后需要半年回本,如果回不了本,這個游戲可能就廢了。之前,30 多人的團隊支撐一個游戲上線其實是很困難的。在使用 Databend Cloud 后,現在一個游戲只需要 2- 3 人就可以支撐住了。

Databend Cloud——基于 Databend 的 SaaS 產品

與其他大數據產品不太一樣,Databend 是構建在對象存儲之上的一個數據倉庫,在對象存儲之上你可以用 SQL 去做數據操作。在 Databend 里,你的存儲不用搞多副本,不用搞數據分片,也沒有分區分表,分庫分表,上層就一個表,通過 SQL 來計算就可以了。

這樣做的好處是你使用的資源減少了非常多。比如說原來我們做大數據,做數據中轉,可能 ClickHouse 要 40 臺機器,Kafka 和做數據清洗 ETL 占 100 多臺機器,甚至 200 臺都可能是正常的。使用 Databend 后,可能就變成了 30 臺左右,不用再使用 Kafka 和 ClickHouse。你的數據直接用 S3 接住,然后再往 Databend Cloud 里做數據的清洗、加載、處理,整個過程全是使用 SQL 以及 Python 處理。

我們設計的這個產品,平替了整個大數據技術棧,SQL 使用體驗與使用 Snowflake 非常接近。而我們比 Snowflake 更有優勢的一點在于我們可以進行私有化部署。如果用戶對數據審核要求極為嚴格的話,甚至還可以把數據放在用戶自己的對象存儲 Bucket 里面,只把計算放在 Databend。

Databend Cloud 的創新點

Databend 與傳統的數倉產品也有非常大的區別。傳統數倉基本都會強調分庫分表以及分區的概念,它不敢讓你把集群擴展得非常大,同時數倉需要保持 always on。數倉產品有個特點,凌晨會做大量數據清洗、報表的工作,所以你會發現凌晨到早上 8 點之間數倉都會非常繁忙。反而到了白天,數倉由于在進行大量的數據加載,并不繁忙。白天它的 CPU 利用率可能只到 5% 左右,非常低。但高的時候 CPU 利用率又會到 100%,又扛不住。

Databend 的做法是,如果說你需要非常大的計算資源,可以讓它動態擴展到一個指定的 size。如果你發現實際上并沒有那么大的計算需求怎么辦?還可以讓它動態收縮,甚至收縮到零,這樣就沒有計算資源,只有存儲了。這將為用戶實現比較好的成本控制,計算資源是彈性的,存儲成本實現本地盤的 1/ 8。

同時,對象存儲本身就搞定了副本,所以你也不用搞備份。Databend 的存儲引擎從底層設計就支持備份,你所有的操作都可以回滾到上個操作。比如你正在做一個 table,只需一個命令,undo table 就可以回來。再比如 update table,把 table update 錯了,可以很方便地回到上一個時間位置。Databend Cloud 在云上默認給用戶保留了一天的恢復周期,更長的恢復周期則需要平臺恢復。

Databend Cloud 內置了 Task、Stream、insert multi table。其中,insert multi table 是一個非常有意思的功能。在一個征信項目里,數據本身是一個 json 文件,分成了 40 多個 section,是一種半結構化數據,我們的目標是將其清洗成結構化數據去使用。這時候就可以用 insert multi,將每一個部分插到不同的表里面,然后就可以直接使用了。我們可以把一個復雜的 JSON,甚至是不同的 JSON,按不同的位置用 insert multi 插到不同的表里面,這樣的話它就變成一種結構化數據去使用。在這個過程里,我們也支持復雜 SQL 的一些大屏,寬表等類型。

另外,我們現在最成功的一點是支持了 Python 的 UDF,我們也支持 Python 的外置 UDF。數據科學家可以用 Python 去寫一些數據邏輯,然后用 SQL 來調取。甚至你這個 Python 如果需要 AI 的能力,在特別復雜情況下你可以外掛到外面,直接調機器學習的能力去使用。同時,Databend 提供了 SQL 為統一接口,所有操作都以 SQL 為接口,這讓大多數數據開發人員無需再學習就可以掌握。

現在,我們還在實現一個探索功能,在 Databend 內置 CPU 的 AI embedding。如果你的計算過程中沒有 GPU 資源的話,通過這個能力可以直接用 CPU 做 AI embedding,會節省大量成本。

幫用戶解決問題,Databend Cloud 云上最佳實踐

我在創業的這幾年里,最大的一個感受是你做的事情別人其實不一定感興趣。如何讓別人對你感興趣呢?首先你要發現別人的痛點,然后解決了他什么樣的問題,在這個問題里面如何輔助他真的能走向成功。

Databend 現在已在游戲、社交、金融、廣告、電商等多個行業領域中成功替代 Snowflake、Redshift、BigQuery、GreenPlum、ClickHouse、CDH 等產品,為客戶提供了降本增效的大數據解決方案。

比如上圖這個客戶是做海外游戲的,大概每秒鐘會產生十幾萬條數據的入庫,這些數據再去做分析。原先,從數據到可見都在 Snowflake 上,可以實現分鐘級可見。現在遷移到 Databend Cloud 后,它做到了秒級可見,整個數據從可見到使用非常快,同時我們的語法跟 Snowflake 基本一致。數據先寫 S3,從 S3 加載到 Databend Cloud 里,做數據的打平,數據的加工,最終對外提供服務。這時候他的數據科學家也可以直接介入進來,進行更多深入的數據分析工作。

Typing 是我們做過的一個社交用戶,原來用的是 Redshift,每個月的消費在 3, 000 美金左右,遷移到 Databend Cloud 后,每個月消費下降到大概 300 美金左右,成本降低了 90%。為什么可以降低這么多?很大的一個原因是他在計算節點不使用情況下,可以直接關閉自動休眠掉,節省了大量的計算資源費用。此外,他的存儲從原來的本地盤變成 S3,同時我們在 S3 還引入了壓縮,如果你在本地盤的數據是 100G,壓完之后就只有 10G。在這個案例中,成本下降非常顯著。

AI 大模型是現在一個非常熱的方案,用戶也經常問我們如何跟 AI 進行整合。最近,我們在一個醫藥場景落地了一個應用。當醫生在醫院里開藥,只用把病人的癥狀輸進去,這套方案就會自動把對應的藥品說明返還出來。這是怎么做到的呢?首先,我們借助了 AWS Lambda 計算函數,把一些藥品的數據進行訓練,訓練完之后只要輸入癥狀我們就可以把藥品對應出來,然后動態選擇。這解決了很多醫生的煩惱,以前他可能知道這個癥狀,但不知道還有哪個藥能治這個病,我們正在探索的這個 AI+Databend 的方案可以很好地解決這個痛點。此外,我們也正在和金融行業做一些探索,繼續拓展更多的落地場景。

在上述場景里,你可以理解為 AI 學習可以借助外部的 Python UDF 去做機器學習訓練,訓練好的結果集可以供 Databend 使用。在這種情況下,如果說涉及到特別復雜的邏輯,SQL 已經沒辦法表達了,你就可以用 Python 來定義 UDF 來去使用。我們用 Databend 存儲了數據, 使用外部的 GPU 來做向量化計算和機器學習,繼續 AI 的一些訓練,然后內部整合到 Databend,把數據和機器學習完全打通了。

這是我們做的一些案例總結,如果你留意我們社區的話,可能看到過這些分享。比如在 Oracle 的遷移里,原來 700 多張表, 6.8T 的數據,遷移到 Databend 里只有 2T 多的數據,高峰時間達到 100 萬+每秒的速度寫入,原來一個 80 多秒的 SQL 在 Databend 能穩定跑在 5 秒以內,只要三個節點;從 Hive 到 Databend 的案例,1 億行+的情況下,做數據比對,在 Hive 里面需要兩個小時,在 Databend 里面十幾秒就能可以搞定;在 GreenPlum 到 Databend 的遷移場景里,從 HDFS 本地盤遷到 Databend 里,性能得到了 5 倍以上的提升,并且管理更簡單,計算也更好擴展;某醫藥集團把 CDH 遷移到 Databend,成本下降 80% 左右,性能無退化。

今年,我們還在陸續替換阿里 ADB,Redshift,Snowflake,Bigquery 等產品。以前沒做大數據前,我其實很少接觸到幾萬億的表,做了大數據行業之后,我發現萬億級別的表,甚至 PP 級單表都很正常。Databend 集群在萬億級或者 PB 級表的場景下,只需 30 多臺機器就可以運行得很好,是應對海量數據分析的完美解決方案。

關于 Databend

Databend 是一款開源、彈性、低成本,基于對象存儲也可以做實時分析的新式數倉。期待您的關注,一起探索云原生數倉解決方案,打造新一代開源 Data Cloud。

Databend Cloud:https://databend.cn

Databend 文檔:Databend

Wechat:Databend

GitHub:GitHub - datafuselabs/databend: 𝗗𝗮𝘁𝗮, 𝗔𝗻𝗮𝗹𝘆𝘁𝗶𝗰𝘀 & 𝗔𝗜. Modern alternative to Snowflake. Cost-effective and simple for massive-scale analytics. https://databend.com

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/38215.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/38215.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/38215.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

神州信息與國科量子聯合進軍量子網絡應用服務市場(中國軍民兩用通信技術展覽會)

量子通信,智聯未來 —— 神州信息與國科量子共啟安全通信新紀元 在信息技術飛速發展的今天,信息安全已成為全球關注的焦點。神州數碼信息服務股份有限公司(神州信息)與國科量子通信網絡有限公司(國科量子)…

【地理庫 Turf.js】

非常全面的地理庫 , 這里枚舉一些比較常用,重點的功能, 重點功能 提供地理相關的類:包括點,線,面等類。 測量功能:點到線段的距離,點和線的關系等。 判斷功能: 點是否在…

phpMyAdmin 4.0.10 文件包含 -> getshell

phpMyAdmin 4.0.10 文件包含 -> getshell 前言:這里這個漏洞相對來說審計起來不是特別難,但是對于初學者還是有點挑戰性的,從zkaq web課過來的小伙伴想挑戰一下自己代碼審計能力的話,可以直接跳到最后下載源碼,聶風…

Python基礎小知識問答系列-隨機數相關

1. 問題: 如何生成x-y之間的隨機整數? 如何生成0-1之間的隨機浮點數? 如何生成x-y之間的隨機浮點數? 如何從列表中隨機獲取一個元素? 如何從列表中隨機獲取多個元素? 如…

代碼隨想錄訓練營第二十四天 78子集 90子集II

第一題: 原題鏈接:78. 子集 - 力扣(LeetCode) 思路: 本題很簡單,就是在每次遍歷的地方都要搜集結果。 終止條件:當前要收集的起始位置已經大于等于數組的大小的時候證明已經搜集到完成了。 …

Foxit Reader(福昕閱讀器)詳細安裝和使用教程

第一部分:Foxit Reader簡介和基本信息 1.1 什么是Foxit Reader? Foxit Reader(福昕閱讀器)是一款功能強大的PDF閱讀和編輯軟件,以其快速、輕巧和豐富的功能而聞名。它不僅支持常規的PDF閱讀功能,還提供了…

LeetCode刷題之HOT100之最大正方形

今天下起了暴雨,本以為下午就可以結束的答辯又因為老師開會被推遲。研三的學長走了后我們開始了0元購,收獲頗豐哈哈,做個題 1、題目描述 2、算法分析 給定一個矩形,要求最大正方形。第一次見這種題目哈 2024 6/30 嘿嘿&#xff…

實體零售連鎖企業如何通過物流接口實現數智化轉型升級?

在電子商務浪潮的持續沖擊下,傳統的實體零售行業面臨著巨大的挑戰。為了在線上線下融合的新零售時代保持競爭力,眾多實體零售企業積極尋求數字化轉型的突破。 某中國零售連鎖百強企業近年來致力于打造自有品牌的線上銷售體系,自2021年8月起接…

深入解析 gRPC 的重連機制

目錄 什么是 gRPC 重連機制 gRPC 重連策略 gRPC 重連參數 gRPC 重連機制原理 重連機制的注意事項 小結 gRPC 的重連機制是確保客戶端在連接斷開后能夠自動重新連接到服務器的一種機制,對于分布式系統和微服務架構中的高可用性和容錯性至關重要。 什么是 gRPC…

Python數據分析-風濕關節炎生存分析

一、研究背景和意義 類風濕關節炎(RA)是一種慢性炎癥性疾病,主要影響關節,但也可能影響身體的其他部分。RA的病因尚不完全清楚,但已知其涉及免疫系統的異常反應。患者的免疫系統錯誤地攻擊自身的關節組織,…

HCIA4.9-4.19筆記

通訊——雙向的,必須保證有來有回才能成功。 當拓撲圖中的所有路由器擁有拓撲圖中的所有網段時,即可實現全網通。 路由器獲取位置網段的方法 靜態路由 由管理員手寫的路由條目 動態路由 所有路由器上運行同一種動態路由協議,之后通過路…

Python 3 注釋

Python 3 注釋 在編程中,注釋是一種用于解釋代碼和提供上下文的方式,它對代碼的執行沒有影響。Python 3 支持多種類型的注釋,包括單行注釋和多行注釋。注釋對于提高代碼的可讀性和維護性非常重要,特別是在團隊合作和大型項目中。 單行注釋 單行注釋以井號(#)開頭,用于…

C++ 成員模板類

#include <iostream> // 包含頭文件。 using namespace std; // 指定缺省的命名空間。template<class T1, class T2> class AA // 類模板AA。 { public:T1 m_x;T2 m_y;AA(const T1 x, const T2 y) : m_x(x), m_y(y) {}void show() { c…

Python 學習之簡單的程序(三)

編寫簡單的Python程序是鞏固基礎的好方法。下面我將給出幾個簡單的Python程序示例&#xff0c;涵蓋了基本的數據類型、控制流、函數和文件操作。 示例1&#xff1a;Hello, World! 這是最簡單的Python程序&#xff0c;用于打印出 "Hello, World!"。 print("He…

初學者指南:如何選擇嵌入式Linux和單片機(MCU)

前言 在嵌入式系統開發領域&#xff0c;選擇合適的平臺是項目成功的關鍵之一。對于初學者來說&#xff0c;如何在嵌入式Linux和單片機&#xff08;MCU&#xff09;之間做出選擇可能是一項艱巨的任務。本文將詳細解釋這兩種平臺的特點、優缺點&#xff0c;以及在不同應用場景中…

低代碼表單配置平臺替代普通表單配置平臺,前端部分重構的設計和思路

前言 最近將公司的舊表單配置平臺重構為低代碼表單配置平臺&#xff0c;這里記錄一下這個過程的設計和思路&#xff0c;不涉及具體的代碼&#xff1b;另外這篇文章基本只涉及前端部分&#xff0c;也不涉及與后端數據交互部分。 需求 固化的表單配置平臺 -> 靈活的表單配置…

TreeMap 和 TreeSet 的基本情況、特性以及使用場景,并對比它們與 HashMap 和 HashSet

TreeMap 基本情況 實現&#xff1a;基于紅黑樹實現的 NavigableMap。排序&#xff1a;鍵按自然順序或自定義順序&#xff08;通過 Comparator&#xff09;排序。特性&#xff1a; 不允許 null 鍵&#xff0c;但允許 null 值。保證鍵有序。迭代時按排序順序。復雜度&#xff1…

【最長公共前綴 動態規劃】2430. 對字母串可執行的最大刪除數

如果有不明白的&#xff0c;請加文末QQ群。 本文涉及知識點 最長公共前綴 動態規劃 動態規劃匯總 LeetCode 2430. 對字母串可執行的最大刪除數 給你一個僅由小寫英文字母組成的字符串 s 。在一步操作中&#xff0c;你可以&#xff1a; 刪除 整個字符串 s &#xff0c;或者 …

vscode中的字符縮進問題

問題描述&#xff1a; 如圖當一行代碼中出現不同類型的字符時&#xff0c;使用tab縮只是插入了固定數量&#xff08;默認4&#xff09;的空格或制表符&#xff0c;仍然無法對齊。 解決方法&#xff1a; vscode找到設置&#xff0c;搜索fontFamily&#xff0c;對應輸入框寫入mon…

Linux系統編程--進程間通信

目錄 1. 介紹 1.1 進程間通信的目的 1.2 進程間通信的分類 2. 管道 2.1 什么是管道 2.2 匿名管道 2.2.1 接口 2.2.2 步驟--以父子進程通信為例 2.2.3 站在文件描述符角度-深度理解 2.2.4 管道代碼 2.2.5 讀寫特征 2.2.6 管道特征 2.3 命名管道 2.3.1 接口 2.3.2…