使用 TapData,化繁為簡,擺脫手動搭建、維護數據管道的諸多煩擾,輕量代替 OGG、DSG 等同步工具,「CDC + 流處理 + 數據集成」組合拳,加速倉內數據流轉,幫助企業將真正具有業務價值的數據作用到實處,將“實時數倉”方法論落進現實。
TapData 持續迭代產品能力,優化用戶體驗的同時,也在不斷探索各行各業數據需求的底層邏輯,力求為行業用戶提供更加簡潔、更具針對性的解題思路。本期內容便是我們在 AI 行業做出的實踐以及展望。
我們早在 TapData Cloud 開放免費試用之初就接觸到了這款數據 CDC
產品,同時也在調研一些開源方案,綜合分析后,考慮到創業團隊起步階段的研發資源分配,最終決定在成熟的商業化方案中做選擇。隨著C端業務啟動,數據需求也在不斷加大,橫向對比下來,TapData
整體更加輕量、靈活,有明確的 MySQL→Clickhouse
場景支持,頁面邏輯清晰,操作簡單,支持半私有化部署,穩定性不斷優化的同時,在售后服務方面響應快速,性價比也更高。——心識宇宙
人工智能時代,AI 逐漸滲透到我們生產生活的方方面面,AI 應用的“生產者”和“消費者”都越來越多。
國內外科技巨頭紛紛入局,正在以驚人的速度推動技術的發展以及智能化進程。與此同時,大量人工智能初創企業也在幾年時間里加速涌現,越來越多技術創新和應用在全球范圍內生根發芽,并在各行業中推動自動化、提升效率、優化用戶體驗。這些企業不僅在研發和產品創新上投入大量資源,還積極探索新興市場,以保持競爭優勢。
而作為人工智能發展的核心和基礎,數據不僅驅動算法訓練和模型優化,還決定了 AI 系統的準確性和性能。高質量、豐富的數據使得人工智能能夠識別模式、做出預測,并在復雜任務中表現出色。數據量的增長和數據處理技術的進步,在某種程度上直接推動了人工智能的創新和應用擴展。
左手是 AI 技術發展基因上對于數據的依賴,右手是企業管理、運營團隊在 AI 產品或服務優化升級、分析決策等問題上所需的數據參考依據。因此,隨著企業的發展,產品線的拓展,AI 行業對于數據資源的需求只增不減。
大中小型企業百舸爭流的背景下,作為國內較早一批投入 AI 市場的“領先者”之一,心識宇宙正在用數據輔助智慧運營。
一、To B + To C 雙線并進,旺盛的數據需求與數倉 CDC 環節的缺位
創立于2022年1月,坐標新加坡,心識宇宙(Mindverse.ai)的定位是一家通用人工智能(AGI)公司。創始人兼 CEO 陶芳波博士深耕 AI 領域多年,先后在美國微軟研究院、Facebook Research、NASA、阿里達摩院神經符號實驗等從事研發工作。
在意識到大模型的應用價值后,陶博士選擇獨立創業,便有了今天的心識宇宙。其愿景是通過人工智能賦能虛擬人大腦,讓虛擬人具有思維、意識和人格,成為元宇宙的原住民,陪伴、服務每一個用戶。
早在 ChatGPT 上線之前,心識宇宙就一直專注于在大模型上構造虛擬心智,并在國內外嘗試了多種業務形式。創業至今,其核心產品mindos.com,主要能力是幫助用戶及客戶構建基于大模型的應用層,主打以下兩個產品形態:
- ToC 線-meBot:面向注冊用戶提供 AI助理,幫助解決生活中的一些問題,偏實用性工具,例如記筆記、規劃旅行等。同時支持基于對個人基礎信息的了解,定制化私人的 AI陪伴,將老電影《her》照進現實。
- ToB 線-mindos studio:多與大型企業合作,為其提供基于 AI 的工作鏈路(workflow)能力,與傳統workflow想比,能夠更智能化地解決問題。字節的“Coze 扣子”就是類似的定位。
在不斷優化產品,與用戶共同探索更多 AI 應用場景的過程中,心識宇宙各部門都提出了更多數據聚合分析的需求,且各有側重:
- 管理部門:關注產品增長大盤以及財務報表等關乎戰略規劃及決策分析的總覽型數據。通過這些數據,管理層能夠了解企業整體運營狀況、市場表現和財務健康,制定長遠發展策略。
- 技術部門:關注監控運維數據,如系統水位、指標等監控信息。這些數據幫助技術團隊實時監控系統運行狀態,及時發現和解決潛在問題,確保系統穩定高效運行。
- 產品部門:關注 A/B test 數據,這些數據幫助產品團隊評估不同產品版本或功能模塊的效果,進行數據驅動的產品優化和用戶體驗提升。
- 運營部門:關注用戶行為數據,如用戶注冊量、每日新增用戶、用戶留存率等。這些數據使運營團隊能夠分析用戶需求和行為模式,優化用戶體驗和營銷策略,提高用戶參與度和滿意度。
針對這些需求,心識宇宙依靠數倉來進行數據整合和分析。然而,在變更數據捕獲(CDC)環節的實現上遇到了一些挑戰。作為關乎數倉項目可用性及數倉數據質量的關鍵技術,CDC 用于實時捕獲并處理數據源中的變更。這對于確保數據的及時性和一致性至關重要,但其實現過程復雜,尤其在處理高頻率、大規模的數據變更時,技術難度和資源需求較高。
因此,心識宇宙開始尋找能夠承擔這一關鍵環節的 CDC 工具。
二、開源工具 vs 商業化工具:小團隊更需要“解放雙手”,專注更核心的業務
心
識宇宙的數據特點:
① 數據需求旺盛:全體部門都重視數據的價值和數據分析的力量,涉及多個數據來源
② 覆蓋系統多樣:包括用戶行為分析、用戶量統計、成本管控等 BI 系統,A/B 實驗系統,財務系統,以及監控告警系統等
③ 數據類型不一:數倉項目完全自建,底座為 Clickhouse,數據源為在線數據庫 MySQL,異構數據庫數據同步壓力大
開源方案的優勢和不足
為了滿足 CDC 鏈路的需求,心識宇宙最先把目光投向了以 Debezium+Kafka 為代表的眾多開源工具。在實際應用場景中,其優勢和不足都比較明顯,尤其是對于初創團隊而言:
優點
1.實時性:
- 實時數據捕獲:Debezium 能夠實時捕獲數據庫中的變化,并通過Kafka將這些變化快速傳輸到消費端,使得數據在傳輸過程中保持新鮮。
2.高可靠性和容錯性:
- Kafka 的高可用性:Kafka 提供了高可靠性、分布式架構和強大的數據持久化能力,確保數據在傳輸過程中的安全性和一致性。
- 容錯機制:Debezium 結合 Kafka 的容錯機制,可以在節點故障時自動恢復,確保系統的穩定運行。
3.擴展性:
- 橫向擴展:Kafka 能夠輕松橫向擴展以處理大量數據和高并發需求,適應業務的增長。
多數據源支持:Debezium 支持多種數據庫(如 MySQL、PostgreSQL、MongoDB 等),可以靈活適應不同的數據源需求。
4.開源社區和生態系統:
- 活躍的開源社區:Debezium和Kafka都有活躍的開源社區,提供豐富的資源和支持,便于開發者解決問題和獲取幫助。
- 生態系統支持:Kafka 有廣泛的生態系統支持,可以與各種數據處理和分析工具無縫集成,擴展數據處理能力。
不足
1.復雜性:
- 配置和管理復雜:Debezium和Kafka的部署、配置和管理相對復雜,需要專門的知識和經驗來保證系統的高效運行。
- 運維成本高:系統的復雜性增加了運維的成本和難度,需要專業人員進行維護和優化。
2.延遲問題:
- 潛在的延遲:雖然Debezium和Kafka能夠實現低延遲的數據捕獲和傳輸,但在高負載情況下,仍可能出現一定的延遲,影響數據的實時性。
3.資源消耗:
- 高資源需求:運行Debezium和Kafka需要較高的計算和存儲資源,特別是在處理大規模數據時,對硬件資源的需求較高。
4 數據一致性和完整性:
- 數據一致性挑戰:在某些極端情況下,可能會出現數據一致性問題,需要額外的機制來保證數據的一致性和完整性。
- 初始快照問題:對于非常大的數據庫,初始數據快照的生成和傳輸可能會耗費大量時間和資源。
首先,作為業界常用的 CDC 開源方案,其在實時性、可靠性以及可擴展性上的表現都有保障。但考慮到小型創業團隊的屬性,二次開發及后續運維所需的人力成本都必須綜合納入評估。對于寶貴的技術資源而言,雖然數據的重要性不可否認,但終歸只是眾多基礎模塊之一,與其耗時耗力將開源方案打磨到可以滿足自身業務需求的程度,不如將專業的事情交給靠譜的供應商來完成,釋放開發資源供核心產品迭代優化。
成熟的商業化方案如何選擇?
① 全鏈路、一站式的數據分析工具:以神策、友盟等為代表
放棄開源思路后,心識宇宙開始尋找合適的商業化方案。鑒于數據分析的終極需求,類似于神策、友盟這樣的的全鏈路數據分析工具率先被納入評估。
一方面,此類產品功能完備,集數據整合、BI、埋點等模塊于一體,幾乎可以滿足數據分析相關的全部數據需求。但從另一方面來看,作為一套放之四海而皆準的通用標準產品,“全面”也不全然是優勢:
- 大材小用:對于心識宇宙而言,數據分析主要依賴自建方案,只需要填補 CDC這一技術環節,選擇全鏈路工具多會導致功能冗余,往往更適用于大型、復雜的企業應用
- 靈活性不足:功能有余而靈活性不足,難以滿足特定需求。不同于自建方案,企業用戶無法對系統進行細粒度的控制和定制。
- 成本高昂:許可費用一般較高,且資源消耗往往也更高,直接導致總體擁有成本增加。
除此之外,由于誕生于 PC 互聯網時代,這一類工具使用的方法論更多是滿足上一個時代需求的產物。而隨著 ChatGPT 引流新的技術風向,眾多 AI 領域的新公司出現,無論是側重模型層的企業還是類似于心識宇宙這樣的 AI 應用層企業,都更傾向于采用自建方案而非外部工具的大包大攬,過程中可能會用到一些現代化的小工具,來更靈活、更穩定地解決更小的問題。
② 現代化數據棧工具:以 TapData Cloud 為代表
以小工具解決 CDC 特定需求的小問題為目標,心識宇宙充分考慮自身規模和業務發展情況, 找到了 TapData Cloud 這樣一款以 CDC 能力為核心特性的兼具云原生優勢的輕量數據同步工具。
技術場景:
- 數據源:在線數據庫 MySQL
- 數據目標:基于 ClickHouse 的數倉
- 靈活性優先:考慮到 AI 業務形態變數較大,該數倉項目以自建為主,未使用云廠商提供的封裝較為完整的服務,以避免與某個特定云綁定過深。
- 需求:異構數據同步,利用工具搭建數據源與目標間的增量同步鏈路。
作為一組用于數據集成、存儲、處理和分析的技術和平臺,以 Fivetran、Airbyte、TapData 等為數據集成層面代表的現代數據棧工具旨在實現高效、靈活、可擴展的數據管理和分析。其各司其職的組合拳邏輯,恰好與心識宇宙的需求吻合,其優勢主要體現在:
1.高效的數據捕獲與傳輸:
- 實時處理:現代數據棧工具支持實時數據捕獲和傳輸,確保數據變更能夠立即反映在分析系統中。
- 高吞吐量:可以處理大規模、高頻率的數據變更,滿足企業級應用的需求。
2.彈性與可擴展性:
- 云原生架構:借助云數據倉庫和云服務的彈性擴展能力,企業可以根據需求動態調整資源,適應數據量和處理需求的變化。
- 分布式處理:支持分布式計算,能夠高效地處理大量數據和并發請求。
3.簡化的運維與管理:
- 自動化運維:現代數據棧工具通常提供自動化管理和監控功能,降低運維復雜性和人力成本。
- 統一界面:集成平臺通常提供統一的管理界面,簡化數據管道的配置和監控。
4.數據質量與一致性:
- 數據治理:現代數據棧工具內置數據質量監控和治理功能,確保數據的一致性和準確性。
- 容錯機制:具有強大的容錯和恢復機制,能夠應對數據傳輸過程中的故障和異常情況。
5.靈活的集成與擴展:
- 多源數據支持:能夠輕松集成來自不同數據源的數據,包括傳統數據庫、流數據和第三方 API。
綜合上述因素,心識宇宙最終選定配備中文支持團隊的 TapData Cloud 作為與其需求恰好匹配的數據基礎工具。
三、TapData Cloud + ClickHouse:保障數倉數據質量的關鍵一環
經過一年多的使用,以 TapData Cloud 為數據 CDC 組件的數倉方案在心識宇宙的數據分析項目實踐中得到了充分的可行性驗證。
如上圖所示,源系統數據包括:
- 系統監控數據:系統水位、指標等時序數據
- 用戶行為數據:用戶注冊量,每日新增及留存用戶數、用戶頁面行為(如操作鏈路、按鈕點擊等)等
- 財務系統數據:包括訂閱的一些第三方服務等 IT 常態消耗量,一些定量服務的采買和使用情況等管理層關注的成本分析信息
- ……
上述數據以及一些在線數據庫的鏡像,都會經由 TapData CDC 同步、傳輸并存儲到數倉的 ClickHouse 中。值得一提的是,針對其中的用戶相關數據的脫敏需求,TapData 提供了相應字段的過濾屏功能,支持屏蔽或用自定義方式替換敏感數據,保障用戶信息安全。
*關于心識宇宙的脫敏說明:
內部數據如系統監控信息無需脫敏處理,可以直接進行全增量同步。然而,對于用戶數據,必須遵循 GDPR 和 USDP等用戶隱私標準。因此,需要從全量數據中剔除屬于用戶隱私的部分。這一過程利用了 TapData 的字段過濾功能,幫助理解并排除敏感數據,以確保數據處理的合規性和隱私保護。
下一步,繼續借助 TapData 的 CDC 能力,經過數倉統一集成的數據,將流向下游的用戶行為分析、A/B 測試系統等 BI 系統,形成報表供內部分析與決策參考使用。
其中,A/B Test 作為傳統高用戶增長的 C 端產品的常用分析優化手段,在 AI 行業同樣適用,特別是對于心識宇宙這樣專注大模型上應用層的企業,這也是其打磨產品的關鍵思路。
基于大量的經脫敏的用戶數據分析,從中獲取有價值的用戶行為洞察和反饋,幫助優化算法模型、提升產品性能、調整產品功能、改善用戶體驗,并推動創新和業務增長。這種數據驅動的決策方式,使得AI產品能夠不斷迭代和改進,更好地滿足用戶需求和市場變化。數據集成即數據分析的重要性由此可見一斑。
體驗反饋
1.明確的 MySQL → ClickHouse 異構 CDC 方案支持
調研之初,心識宇宙發現,業界能提供從 MySQL 到 ClickHouse 同步能力的供應商本身就不多,更多是同類數據體系之間的同步,甚至包括很多開源方案也是如此。而 TapData 內置 100+ 數據連接器,明確支持二者間的全增量同步,且提供 Demo 演示。
2.學習曲線簡單,輕量易上手
作為直接使用者,心識宇宙的技術運維人員反饋稱 TapData Cloud 主打頁面邏輯清晰簡潔,包括一個支持log信息查詢的監控模塊,同樣是極簡但足夠適用。無論是安裝部署還是任務運行都以一鍵式操作為主,上手簡單。完全滿足內部在數據層面的需求。
3.靈活可擴展
隨著需求變化,TapData 可以靈活擴展,適應企業的不同階段和規模。剛開始接觸并試用 TapData 時,心識宇宙的 ToC 業務尚未正式開啟,更多在經營國內的大 B 生意,因此對數據的要求并不是很高,TapData 提供的永久免費計劃已經可以覆蓋住這一部分需求。直到 ToC 業務開始增長,數據需求量隨之上升,TapData Cloud 上的任務數也從最初的兩條,發展到目前的16條。
4.支持半私有化部署
考慮大奧 AI 行業在數據安全性上更高的要求,TapData Cloud 支持心識宇宙自主提供設備來部署和運維 Agent,為其運行提供計算/存儲資源,可充分利用現有硬件資源,獲得更低的價格的同時,進一步提升安全性。
5.配套的售后服務與團隊支持
作為一套純國產自研的數據同步產品,TapData Cloud 對于中國背景的團隊更加友好,溝通更方便的同時,TapData 還提供專業的售后服務,能夠及時解決使用中遇到的問題,并幫助用戶快速體驗產品穩定性和功能上的優化升級。
6.更高的成本效益
在支持一定規模的免費試用之余,TapData Cloud 提供性價比更高的定價模式。不同于花費較高的按鏈路數量計費(如 MySQL → MySQL,MySQL → ClickHouse 算作兩條鏈路),以及更為高昂的按數據同步行數計費,Tapdata 采取對用戶更加友好的定價模式——按實例規格計費(如 4C8G / 8C16G),取決于用戶自身的數據流量,不限鏈路。該模式最大好處在于,價格相對明確的,所需成本也相對較低。
總結
將整套數據體系視作一個串聯的數據流系統,CDC 環節就是其間的必經之路。心識宇宙選擇了 TapData 作為這一環節的關鍵工具。這一選擇不僅確保了數據的實時同步和準確性,也保障了數據的安全性和合規性。
通過 TapData,企業得以高效地管理和處理數據,從而為業務決策提供可靠的支持。這種數據驅動的決策方式下,企業將不斷改進和優化產品,滿足不斷變化的市場需求,實現持續的創新和增長。
未來,TapData 還將持續挖掘數據集成在 AI 領域的實用性價值,與 AI 企業共同見證人工智能時代的新發展。
采用 Tapdata 實時數據平臺解決方案有哪些優勢?
- 廣泛的數據源和目標支持:內置 100+ 數據連接器,穩定的實時采集和傳輸能力
- 學習成本低,輕量易上手:開箱即用與低代碼可視化操作,支持數據模型預覽,無需專業的編程能力,即可完成復雜的數據集成和開發。
- 更實時,更高效:兼具秒級響應的數據實時計算能力,以及穩定易用的數據實時服務能力
- 支持數據、任務分類:可根據不同項目自定義標簽,方便快速篩選查找,有助于對跨部門協同管理及后續維護
- 支持平臺級數據校驗:有效保障數據一致性
- 可視化任務運行監控和告警:20+ 可觀測性指標,實時監測任務最新狀態
【相關閱讀】
- AI 數據觀 | TapData Cloud + MongoDB Atlas:大模型與 RAG
技術有機結合,落地實時工單處理智能化解決方案 - 數據倉庫 vs 數據湖 vs
湖倉一體:如何基于自身數據策略,選擇最合適的數據管理方案? - TapData + 實時數倉:實時數據如何賦能船舶制造業,助力數字化應用升級和科學管理運營
- 準實時數倉搭建指南:以倉儲式會員商超為模擬場景?
- 如何為頂級連鎖賭場打造中心化客戶數據平臺?