數據能力已經成為企業的核心競爭力。政策驅動數據產業發展加速,如2023年國家數據局成立;2024年,《“數據要素×”三年行動計劃(2024-2026年)》正式發布;并且 2024年起正式將數據資源視為資產納入財務報表,推動企業數據驅動價值創造。可以看出,近兩年國家數據產業政策逐漸深化,從制度建設向落地應用過渡。
在企業端,面向復雜的市場環境和多變的客戶需求,企業對數據的依賴和挖掘愈發深入,敏捷強健的數據能力支撐成為企業實現數據驅動、獲得市場競爭優勢的前提。愛分析觀察到,企業在數據能力構建中有兩個明顯趨勢。第一,企業數據能力的建設以數據消費為核心,以業務價值為牽引,形成數據基礎設施與數據應用的正向循環。第二,企業快速更新數據基礎設施以迭代數據能力,如湖倉一體成數據平臺架構迭代新方向,對話式數據分析成為數據基礎設施融合大模型能力的率先落地場景。
5月16日,愛分析正式發布《2024愛分析·數據智能實踐報告》,以供企業參考。
01 報告綜述
數據能力已經成為企業的核心競爭力。政策驅動數據產業發展加速,如2023年國家數據局成立,負責協調推進數據基礎制度建設,統籌數據資源整合共享和開發利用;2024年,《“數據要素×”三年行動計劃(2024-2026年)》正式發布,要求數據要素應用廣度和深度大幅拓展,聚焦十二個重要領域打造300個示范性強的典型應用場景。同時,2024年起正式將數據資源視為資產納入財務報表,推動企業數據驅動價值創造。可以看出,近兩年國家數據產業政策逐漸深化,從制度建設向落地應用過渡。在企業端,面向復雜的市場環境和多變的客戶需求,企業對數據的依賴和挖掘愈發深入,敏捷強健的數據能力支撐成為企業實現數據驅動、獲得市場競爭優勢的前提。愛分析觀察到,企業在數據能力構建中有兩個明顯趨勢。
第一,企業數據能力的建設以數據消費為核心,以業務價值為牽引。
企業以往在構建數據能力時,通常是由技術部門或數據部門進行統一規劃,并進行數據開發與管理,業務部門被動的使用企業的數據能力。然而,隨著業務部門對數據價值的逐漸重視,以及對數據應用需求的快速增加,企業技術部門或數據部門已經不能滿足業務部門的用數需求。為賦能業務部門更好的使用數據,企業數據智能基礎設施的構建正逐漸轉變為以數據消費為核心,基于業務價值創造需求對基礎設施進行持續迭代。
第二,企業快速更新數據基礎設施以迭代數據能力。
湖倉一體成數據平臺架構迭代新方向。企業面臨的數據環境日益復雜,如海量多元異構數據的爆發式增長帶來的存儲成本攀升,業務廣泛落地AI應用要求對非結構化數據進行預測、探索分析,以及越來越多分析業務對計算時效從T+1提升到準實時或實時等。而企業建立在數據倉庫或數據湖之上的數據平臺無論在性能、存儲成本、運維成本等方面均面臨瓶頸,難以適應復雜數據環境。在此情況下,湖倉一體以其流批一體、彈性存儲、多工作負載等特征成為數據平臺架構迭代的新方向。
對話式數據分析成為數據基礎設施融合大模型能力的率先落地場景。據愛分析觀察,通過自動化、智能化提升效率將是企業數據基礎設施的下一步迭代方向,而具備強大學習和預測能力的大模型,是實現數據基礎設施自動化、智能化的關鍵技術。其中,數據分析是大模型與數據基礎設施融合的優先落地場景。與傳統數據分析相比,基于大模型的對話式數據分析具有明顯的優點。如傳統的數據分析方式中,固定報表依賴IT部門,探索性弱且重復開發現象嚴重,自助式BI雖然具備探索性,但門檻較高,難以推廣到業務人員全員使用。對話式分析以自然語言對業務需求靈活響應、端到端數據洞察的自動化輸出以及數據開發工作的簡化等特征能有效改善傳統數據分析體驗痛點,實現全員數據分析。
在以上背景下,本報告選擇數據能力建設、湖倉一體、對話式分析三個重點市場進行應用實踐分析,為數據能力建設企業提供提供實踐經驗,加速推進數字化轉型升級。
02 數據能力建設
2.1 企業數字化能力建設面臨的痛點
多年的數字化轉型,企業已經完成基礎數據設施建設,如針對數據匯集,已經建設起大數據平臺或數據中臺;針對經營分析,建立起管理駕駛艙、業務看板;針對數據開發管理,搭建了離線、實時或是批流一體的計算鏈路。但企業在實際用數過程中仍存在重重障礙,諸如數據質量差、指標體系混亂、業務需求響應速度慢等,距離實現數據驅動決策仍有較遠距離。以數據治理為例,從2004年起很多大型企業就開始進行數據治理,但數據質量差仍是企業面臨的主要問題。數據中臺更是被寄予厚望,數據中臺完成了全域數據的集成,但由于缺少業務部門參與,實際的數據整合以及數據共享服務很難支撐業務應用,業務部門“取數難”、“用數難”的問題還是沒有解決。
2.2 以數據消費為核心完善數據能力建設
數據能力建設需要打通數據生命周期全流程。結合數據生命周期全流程來看,上述現象出現的原因恰恰在于企業雖然完成了數據采集、數據加工等環節的基礎設施建設,但對于數據消費環節的數據應用建設缺失或不足,才導致管理層和業務團隊用數難。愛分析也觀察到,近兩年企業數據能力建設重心轉向數據消費,愈來愈重視指標平臺、增強分析、CDP、供應鏈協同、可觀測運維等系列數據應用建設。
圖1:數據能力建設需要打通數據生命周期全流程
數據應用建設將打通數據消費的最后一公里,推動企業上下形成用數文化,即時用數據論證和洞察,決策更科學、更敏捷,有效支撐業務場景、經營管理效率以及業務模式創新。
但同時需要強調的是,重視數據應用建設并不意味著數據基礎設施的停滯,相反,以數據消費為核心能形成數據應用和數據基礎設施建設相互促進的的正向循環。業務通過數據應用實現業務價值,在此過程中,一方面會持續產出高質量數據資產,另一方面也會暴露業務流程和數據模型不匹配、數據運營、數據資產管理等問題,進而倒逼數據基礎設施有針對性的持續完善。而數據基礎設施的持續完善也將加速數據消費在企業更廣泛滲透,進一步提升業務價值。
圖2:以數據消費為核心促進數據基礎設施建設和數據應用建設正向循環
典型案例:某家電企業以數據消費帶動業務應用,建設智能營銷體系,推進數智化轉型
某家電企業系歐洲某領先的家用電器制造商的全資子公司。該公司打造了從采購、研發、生產、銷售、物流直至售后客服為一體的完整家電產業鏈系統,業務領域涉足白色家電的各個領域,包括冰箱、洗衣機、洗衣干衣機、電熱水器、廚房電器、小家電產品以及部分進口高端產品等。
自2014年起,該家電企業就已經開始嘗試從多個方向進行數字化轉型。如在業務方面,面向經銷商建立起一套數字化銷售與供應鏈體系;面向消費者,在業內率先布局電商平臺,并于2019年上線小程序商城。同時,該家電企業也在推進數據基礎設施建設,搭建了數據湖和數據中臺來提高對業務需求的響應效率。
數據難流動,數據消費賦能遇阻礙
2020年受疫情影響,家電行業線下門店收入普遍縮水嚴重,與此同時,用戶線上購物和線上服務需求大幅增長,線上渠道正成為家電行業自救的關鍵。
在這期間,該家電企業線上業務面臨增長壓力。在既有商城、小程序的基礎上,該企業開始借助企業微信對私域用戶進行運營,通過與用戶互動向線上渠道引流來提高用戶粘性、增加收入。但由于缺少系統性營銷工具,該企業線上營銷面臨以下痛點:
1、數據難被業務利用。數據停留在數倉層面,且分散在多個渠道中,業務無法直接應用,需要數據部門對數據進行整合加工;隨著線上業務快速發展,業務需求增多,數據部門對業務響應效率變慢,難以滿足業務迭代需求。
2、業務操作以半自動、半人工方式為主,執行效率低。如在A/B測試中,該家電企業需要基于小程序開發兩個版本,然后由業務手動圈人、打標,再針對數據回流進行人工分析,因此一個完整的A/B測試可能需要一個月的時間。又如在對用戶群進行營銷時,業務員需要反復手動分類、篩選會員,再按場景分類推送消息,隨著用戶數量日益增長,手工分類的方式難以支撐業務發展需求。
3、數據難以支撐洞察。一方面,雖然該家電企業已經建設了數據中臺,但由于未考慮線上業務需求,對關鍵業務環節的埋點部署存在缺失,致使業務對消費者進行分析時,常出現數據缺損或數據質量問題;另一方面,該企業在進行文案設計、推薦及熱銷榜等運營位選品、產品功能等決策時,由于缺乏數據支持,常以個人經驗為主,營銷效果難以保證。
在以上背景下,該企業希望推進數智化轉型,實現智能化營銷、數據驅動,并開始對營銷工具及廠商進行選型。在選型過程中,該企業一方面對比多方營銷工具的高效性、易用性,另一方面考慮到多工具之間的打通與聯動,希望廠商能提供一站式解決方案,具備完整的技術架構和產品架構,系統性解決企業當下的營銷需求。綜合考量下,該家電企業最終選擇與火山引擎進行合作。
火山引擎是字節跳動旗下的云服務平臺,旨在將字節跳動快速發展過程中積累的增長方法、技術能力和工具開放給外部企業,幫助企業構建用戶體驗創新、數據驅動決策和業務敏捷迭代等數字化能力,實現業務可持續增長。
基于字節跳動10余年數據驅動和業務實踐經驗沉淀,火山引擎推出企業數字化升級新模式“數據飛輪”,以數據消費為核心驅動力,使企業數據流充分融入業務流,實現數據資產和業務應用的飛輪效應。數據飛輪體系的落地由數款火山引擎大數據產品進行支撐:數據資產輪層面包含云原生數據倉庫ByteHouse、云原生開源大數據平臺E-MapReduce、大數據研發治理套件DataLeap、湖倉一體分析服務LAS、流式計Flink等產品,以數據消費推動數據資產融合統一,并進行高效、高質量的資產建設;業務應用層則包含智能數據洞察DataWind、A/B測試DataTester、增長分析DataFinder、客戶數據平臺VeCDP、增長營銷平臺GMP等應用型產品,讓數據真正與業務場景相鏈接,助力企業在用戶營銷、私域運營等場景充分發揮數據價值。
圖3:火山引擎數據飛輪
引入智能營銷解決方案,打通數據資產與數據消費循環
在本次合作過程中,該家電企業與火山引擎基于業務現狀對方案展開了深入探討,最終形成一套完整的解決方案,通過優化該家電企業自有渠道接觸用戶的場景,提升用戶體驗、改善銷售效果。解決方案引入A/B測試DataTester、增長分析DataFinder、客戶數據平臺VeCDP、增長營銷平臺GMP、智能數據洞察DataWind等系列工具,實現以下兩方面能力建設。
1、數—實現數據驅動營銷決策
首先通過DataFinder,該家電企業對官網、小程序等重要渠道的數據進行了采集,隨后針對采集的多源數據,通過DataWind從用戶分析、會員分析、銷量分析、渠道分析、商品分析等多維度建設業務分析看板,開展洞察分析;另一方面,該家電企業基于DataFinder采集的數據,結合A/B測試工具DataTester,對消費體驗全流程如頁面設計和布局、產品描述和圖片、價格策略、購物流程、廣告推送等環節持續進行優化,基于數據進行科學決策,最終提升產品轉化率。
2、智—實現實時智能化營銷
1)建立統一的用戶畫像One ID體系
借助VeCDP可視化ID-Mapping配置能力,該家電企業能對分銷、電商、市場營銷等多渠道的各類一方數據,如用戶行為、用戶信息、訂單信息、商品信息等全域數據進行清洗、整合,自動化、實時地完成標簽管理,構建起全面、統一的用戶畫像One ID體系,賦予數據“業務語言”,消除業務用數門檻。業務能通過One ID用戶畫像體系實時開展精準營銷。
2)實現多場景多觸點的自動化營銷
在GMP增長營銷平臺中,該家電企業營銷人員能通過流程畫布的方式,快速對用戶屬性、行為、標簽等圈選,之后可設置按用戶行為觸發或固定時間推動等多種方式對多渠道用戶進行觸達。通過VeCDP聯動GMP,營銷人員可一鍵實現精準化、自動化用戶觸達,有效提升運營效率、改善營銷效果。
智能營銷方案能顯著提升營銷效率、改善用戶體驗
通過與火山引擎合作,該家電企業盤活數據資產,用數據改善用戶體驗、提升銷售收入,實現數據驅動,同時也建立起自動化、智能化的營銷執行流程,顯著提升營銷效率,具體表現在:
1、實現數據驅動決策。借助DataTester,該企業將A/B測試廣泛應用在文案推送、運營位選品、產品功能設計等多個實驗場景中,并基于科學的實驗報告結果,敏捷決策出優勝版本,告別過往經驗式的運營。
如小程序運營位的優化上,該企業通過DataFinder的人群分析,首先洞察出了用戶對清潔產品和清潔服務兩類產品有興趣,隨即應用DataTester驗證該假設的正確性,按照實驗結果進行調整后,運營位點擊率和轉化率都實現了提升,且數據結論顯著。又如借助DataTester,該企業對關于家電生命周期訂閱消息的推送文案進行優化后,文案的打開率提升了23%。
2、提升營銷效率。智能化的營銷執行流程能減少繁瑣的工作任務,使營銷人員專注于業務,聚焦價值創造。如該家電企業對營銷活動中成交用戶進行分析,總結出共性特征后,再在GMP中固定推送條件,實現一鍵式精準觸達,提升用戶體驗。
以數據消費為核心,構建業務應用和數據資產管理的良性循環
該企業與火山引擎的合作案例為其他企業盤活數據資產、發揮數據價值提供了借鑒思路:
1、以數據消費為核心,帶動業務應用和數據資產的正向循環。該企業與火山引擎合作之前,已經建設了數據湖、數據中臺,良好的數據基礎設施在該企業加速開展線上業務時并沒有發揮出應有的作用,這一點在線上營銷中尤其明顯。究其原因,該企業在進行數據基礎設施建設之初未以數據消費、業務應用為導向,導致業務應用時出現各種不適。于是,該企業將營銷場景作為數智化轉型的抓手,以數據消費為核心,借助火山引擎智能營銷解決方案,先讓數據在業務應用中跑起來,讓業務“用起來”。在業務應用的過程中,持續的業務需求也能推動底層數據基礎建設更完善,最終形成業務應用和數據基礎建設正向循環的良性增長。
2、選擇與企業數智轉型思路相契合的廠商。該家電企業的數智化轉型思路與火山引擎“數據飛輪”模型相契合。數據飛輪是火山引擎基于字節跳動十余年實踐經驗的提煉。火山引擎認為,企業通過提高數據消費頻率,讓數據流和業務流充分融入,能帶來業務應用和數據資產的飛輪效應。一方面,數據消費使企業決策更科學,另一方面,數據消費也將豐富、沉淀數據資產,完善基礎設施、優化數據管理。雙方理念的契合是本次合作順暢開展的基礎。此外,火山引擎經市場驗證的智能營銷解決方案則為項目建設效果提供了有力保障。
03 湖倉一體
3.1 企業數據平臺面臨性能、存儲、分析等多重挑戰
面對海量多元異構數據體量的快速增長,企業采取多種方式對數據平臺架構進行改造,如對數據倉庫進行擴容,建設數據湖對多源異構數據進行存儲,或是采納多種非結構化數據庫進行存儲等。但是隨著業務對數據分析和AI應用的需求增強,過往企業數據平臺在性能、運維、存儲等方面均面臨瓶頸,具體表現在:
開發運維任務日益繁重。一方面,企業在歷史構建數據平臺的過程中,多形成數據倉庫和數據湖共存的數據架構,其中數據倉庫支持固定報表、敏捷BI分析,數據湖支持探索性、預測性AI應用。數據倉庫和數據湖兩套數據資產管理體系,以及相互之間進行數據存儲、調用使得開發運維工作加倍。另一方面,企業在數據計算中常采用“離線計算”和“實時計算”雙鏈路,雙鏈路之間數據的存儲、清洗、轉換使得數據鏈路異常復雜,也使得增加了性能優化、故障排斥等運維工作大幅增加。
難以支撐更多業務場景的實時計算需求。除交易、廣告、游戲等實時業務外,越來越多的分析業務對計算時效要求提升,如金融、零售、快運行業的經營分析、用戶分析、風險管理等場景計算周期要求從T+1縮短到準實時或實時。以快運公司為例,快運公司業務具有極強的時效性,除物流訂單狀態更新、TP數據庫同步等實時場景外,日常運營的數據分析時效性也需要從天級轉向分鐘級,以對運輸路線、車輛調度等進行實時調整,實現降本增效。其中運營數據分析會涉及到對海量數據的多表關聯、預測、分類等多種復雜分析,這在傳統的數據倉庫或數據湖架構下均難以實現。
難以降低存儲和計算成本。存儲方面,文本、圖像、語音等非結構化數據量急劇增長,異構數據低成本存儲對數據平臺架構帶來挑戰,數據平臺同時面臨橫向和縱向擴容瓶頸。計算方面,業務模式在快速變化,帶來業務流量波動,傳統靠服務器堆積的方式會帶來巨大的計算資源浪費。
3.2 湖倉一體成數據平臺架構迭代新方向
湖倉一體在性能、彈性擴縮容、數據資產統一管理等方面的優勢使其成為數據平臺的未來迭代新方向。湖倉一體的優勢具體體現在:
實現多元異構數據資產的統一管理。湖倉一體首先采用標準文件格式對多元異構數據進行統一存儲,之后建立元數據層,實現ACID事務處理、版本控制等數據管理功能,實現數據資產的統一管理,并以一套數據支持固定報表、BI、數據挖掘、機器學習等數據應用場景,有效減少數據ETL,尤其適用于“規則引擎+機器學習+LLM“多技術融合的AI應用場景。
流批一體,簡化系統架構。湖倉一體通過增量計算實現批處理與流處理的統一,將業務系統數據實時抽取到數據湖,實時加工后傳輸至OLAP系統中對外服務,實現端到端過程的分鐘級時延。流批一體支持運維人員使用通過SQL語言對離線數據和實時數據進行統一開發、治理和分析,使數據鏈路更簡潔,有效降低運維開發成本。
支持存算分離,提升平臺靈活性和擴展性。湖倉一體支持存算分類,能對計算資源、存儲資源分別進行彈性擴縮容,實現海量多元異構數據的高性價比存儲,同時也能靈活支持業務流量波動需求,按需擴展。
隨著汽車行業進入智能網聯時代,車企紛紛布局布局智能網聯和自動駕駛,以期掌握新時代智能汽車領域的主動權。某車企在布局新業務過程中,數據倉庫和大數據平臺并行的架構面臨新的挑戰,如多元異構數據激增,原有存儲架構無法支撐,以及煙囪式開發帶來數據孤島。
在某技術廠商的協助下,該車企基于湖倉一體架構搭建起統一的數據底座,采用存算分離、流批一體技術,融合打通車企數據湖和數據倉庫數據。湖倉一體使車企可方便的為不同業務做數據分析,避免數據重復存儲;存算分離使平臺可靈活擴展、按需擴容;批流一體使車企可在車速、里程、電流、電壓、SOC、天氣、道路、地圖等多場景下,靈活進行實時或離線采集、計算,滿足業務時效性。
通過與技術廠商合作,該車企實現企業級數據全生命周期管理、實現一站式數據開發能力,數據挖掘分析能力大幅提升,對多業務場景高效賦能。
04 對話式分析
4.1 既有數據分析工具難以滿足企業數據驅動決策需求
數據分析是實現數據價值挖掘、支撐數據驅動決策的關鍵。企業正面臨廣泛的數據分析需求。一方面,企業數據基礎設施建設已經非常完善,為企業開展數據分析提供了充分的數據資源和分析工具,企業亟需釋放數據生產力。另一方面,存量競爭下,精細化運營策略使得企業對數據分析的依賴增強,各業務部門均借助數據分析獲取數據洞察、高效解決問題以及實現創新突破。然而,以固定式報表、自助式BI為主的數據分析方式難以滿足企業快速增長的分析需求,具體表現在:
溝通反復、周期長,難以及時產出深度結論。固定報表或者駕駛艙中僅呈現數據事實,經營者或者業務人員更希望探究數據變化背后的原因進而采取行動。但業務人員不具備自主分析能力,需要向IT人員提出分析需求。IT人員由于對業務缺乏理解,需要與業務團隊反復溝通,反復編寫腳本、SQL來調整數據模型。這個過程時間周期長,且一旦分析結果不滿足業務需求,又要重走流程。
業務對數據分析依賴增強,供需嚴重不平衡。企業的數據分析使用對象從經營者轉向以業務人員為主,不僅數據分析任務數量快速增長,而且數據分析需求也更個性化、多樣化,企業有限的IT資源難以滿足業務分析需求,亟需提升分析效率。以某游戲部門為例,該游戲上線后進入快速增長期,業務需求多為探索性需求,并且非常緊急且頻繁。但數據開發人員每周僅能完成15-20個任務,造成大量需求被擱置,供需嚴重失衡。此外,多部門對指標定義的不同也帶來跨部門溝通和決策的混亂。
BI產品學習門檻高,難以廣泛應用。自助式BI工具功能復雜,業務人員需要經過完整培訓,才能熟悉指標、數據集、聚合函數類型、語法、過濾條件等,進而挖掘數據,這對于業務人員的要求非常高,常常需要IT人員介入,也導致業務人員花費過多時間在工具的學習,而不是在洞察和行動上。
4.2 基于指標平臺的對話式分析能準確理解分析意圖,實現深度分析
面對傳統數據分析工具在效率、靈活性、使用門檻等方面的痛點,融合大模型能力的對話式分析帶來新突破,能更高效地支持企業管理和業務發展。實現對話式分析的路徑有多種,包括LLM+寬表、LLM+指標平臺、LLM+圖模型等,其中LLM+指標平臺路徑的對話式分析在準確度、可信可控方面較成熟,具體表現在:
圖4:基于指標平臺的對話式分析
準確理解分析意圖,實現深度分析。LLM+指標平臺是把常見的指標先基于寬表進行計算,再運用自然語言查詢指標,精確度較高且基本上具備可控性。對于語義模糊、維度識別、累加聚合等簡單的查詢場景,大模型自身意圖理解、語義對齊能力即能識別特定指標,而對于歸因分析、多任務等復雜查詢場景,可結合Agent對分析任務拆解后實現。同時,大模型生成的復雜SQL也能轉化成自然語言的查詢解釋,以及Agent任務規劃的步驟拆解進行呈現,來讓用戶驗證查詢過程的準確性。
支持實時分析,提高數據洞察效率。LLM+指標平臺的分析效率依賴于指標平臺的計算性能,只要具備高效的指標計算引擎,即可實現秒級回答。這使得業務人員具備數據分析自主性,不再依賴IT人員,而是直接面向企業數據,通過多輪對話不斷深挖問題本質,賦能業務部門自主性。
某互聯網公司業務發展在進行精細化運營的過程中,面臨數據需求的增長與開發團隊人力資源之間的矛盾。該公司已經在2020年實施了可視化的拖拽模型,2021年做了SQL模式,并在23年上線了對話式分析產品。
在對話式分析產品上線及推廣過程中,該公司通過分析師團隊和數倉團隊合作建設完善的數據資產體系,并通過產品培訓輔助一線業務部門提升獲取數據效率。
該公司應用對話式分析產品后效果顯著:1)數據分析使用對象得到擴展,新增了100多個從未接觸和不愿使用BI工具的長尾用戶,其需求也得以滿足。2)激活數據分析產能,每周能處理的需求從最初的200個提高到了8000個。其中臨時需求所占比例從之前的45%降至10%,分析師可以專注于經營策略的分析,數倉團隊也可以更加專注于模型及性能的優化與建設,進一步完成數據資產體系的全面重構。