MiniMax簡介
MiniMax是全球領先的通用人工智能科技公司。自2022年初成立以來,MiniMax以“與所有人共創智能”為使命,致力于推動人工智能科技前沿發展,實現通用人工智能(AGI)。MiniMax自主研發了一系列多模態通用大模型,包括MiniMax M1、Hailuo 02、Speech 2.5 和Music 01等,具備超長上下文處理能力,能夠理解、生成并整合包括文本、音頻、圖像、視頻和音樂在內的多種模態。自研模型的飛速進展,有力支撐了MiniMax的全球業務拓展。迄今,MiniMax的自研多模態模型及AI原生應用已累計為來自超過200個國家及地區的逾1.57億名個人用戶,以及來自超過90個國家及地區的50,000余名企業客戶以及開發者提供服務。
業務大數據實踐:數據驅動MiniMax業務高效迭代
業務痛點
自2024年起,MiniMax的海螺AI、MiniMax Audio和星野等業務在國內外迎來快速增長,用戶數據量呈現爆發式增長,快速攀升至數十PB級別,給數據平臺的建設帶來了諸多技術挑戰:
1、異構架構的效率瓶頸
- 技術棧碎片化:前期MiniMax在國內和海外引入了不同云廠商,部署獨立數據平臺,需要開發團隊同時維護多套不同引擎的開發規范
- 開發效率低:基于開源Dolphin Scheduler二次開發自建大數據治理工具,功能迭代和維護成本高,無法高效滿足快速發展的業務需求
- 運維成本高:雙系統并行導致權限治理、資源監控、故障排查等運維工作需要跨平臺執行,管理成本線性增長
2、資源成本與利用率失衡
- TCO高昂:部分云服務按量付費模式導致數據掃描、數據傳輸、計算節點運行時間等成本難以預測和控制
- 資源利用率低:部分云服務成熟度不足,在大規模實時數倉等復雜場景下優化效果有限
- 資源優化瓶頸:開源大數據組件的任務優化高度依賴人工經驗,調優工作耗費大量人力成本
阿里云原生數倉解決方案
阿里云協助MiniMax構建了全球一體化云原生數倉技術架構,該架構以阿里云數據開發治理平臺Dataworks作為一站式開發治理中樞,實現了異構數據源接入、流批計算融合、實時離線數據協同及數據生命周期全鏈路管理
1、數據源層
聚合多模異構存儲,覆蓋OLTP、非結構化數據及實時流數據
2、計算層
數據治理:DataWorks實時數據集成提供異構數據源到數倉的一站式同步能力,具備完善的元數據管理、質量監控和權限管控功能
實時計算:基于阿里云實時計算Flink版處理Kafka流式數據,支撐低延時實時處理
實時數倉:Hologres支撐海量數據實時寫入、更新與分析,提供亞秒級響應能力
離線數倉:MaxCompute承擔批量數據加工處理,支撐復雜離線分析場景
數據檢索:Elasticsearch承載Flink處理后的近實時數據,滿足全文檢索和即席查詢需求
3、存儲層
對象存儲OSS作為冷數據存儲層,無縫對接MaxCompute,實現數據智能冷熱分層,優化成本與性能平衡
業務價值
基于阿里云云原生數倉解決方案,MiniMax構建了覆蓋全球業務的一體化數倉技術棧,依托高性能、低延時與 Serverless 快速彈性能力,為經營分析、用戶增長等關鍵業務場景提供了高效穩定的技術支撐。
1、數據入倉加速,決策效率提升
通過DataWorks可視化ETL實現數據源到Hologres的實時全量與增量同步,利用MaxCompute和Hologres的跨引擎數據聯邦能力,構建實時存儲與離線計算解耦架構,關鍵數據入倉時間提前約1小時,顯著提升業務決策時效性。
2、架構統一,運維效率提升
全球統一技術棧基于阿里云云原生數倉的Serverless存算分離架構,大幅降低運維復雜度,提升團隊交付效率。
3、穩定支撐大規模數據處理
基于DataWorks、 MaxCompute、Hologres等構建的一站式大數據平臺,實現開發、調度、運維與治理全鏈路統一管理,當前數據總量超數十PB,日均處理量達數百TB。
4、資源利用率優化,成本顯著降低
通過存算分離、算子優化等技術手段,計算資源用量降低50%,后續通過進一步優化計算資源利用率,計算資源用量整體降低75%;通過數據生命周期管理策略,存儲成本降低40%,實現性能與成本的最優平衡。
基于阿里云 MaxFrame 構建云原生數據流水線:賦能AI工作流加速
在大模型技術迅猛發展的背景下,數據與人工智能的深度融合已成為企業構建核心競爭力的關鍵要素。大模型訓練持續驅動大規模數據處理技術升級迭代,對計算彈性、預處理算子性能及統一數據治理體系提出了更高要求。基于 MiniMax 在阿里云云原生數倉解決方案上的深度業務實踐,雙方正持續探索更先進的大規模數據處理與AI融合解決方案,致力于通過阿里云MaxFrame等新一代計算框架,進一步提升數據處理效能,加速AI創新落地。
業務痛點
1、資源彈性瓶頸
模型訓練節奏快,常需臨時調用大規模彈性資源,對PB級數據進行短時高效預處理,并在任務完成后快速釋放資源。傳統架構難以兼顧資源彈性、處理時效與成本控制。
2、預處理算子性能不足
數據預處理過程中常出現文件大小限制、內存溢出(OOM)、全量MinHash去重任務無法完成等問題,導致作業成功率低、穩定性差,嚴重影響整體流程效率。
3、缺乏統一任務管理與可視化支持
原有流程依賴Python程序完成開發、調試與生產任務,缺少可視化任務開發、管理、調度和運維能力,多參數迭代效果評估困難,開發效率低下。
4、開發與運維人力投入受限
自研數據預處理(如Common Crawl數據集處理等)需投入大量人力進行開發與維護,團隊難以專注于核心AI業務創新。
解決方案
MiniMax基于阿里云MaxCompute構建了全托管、一站式 Data + AI 數據處理平臺,并通過MaxFrame分布式計算框架實現了對多類數據(結構化與非結構化、多模態等)的統一管理與彈性伸縮的大規模預處理能力:
1、阿里云自研分布式計算框架,統一 Python 開發生態,同時無縫對接MaxCompute 計算資源、數據;
2、提供兼容開源的分布式算子,如 Pandas、Minhash 等,大大提高數據處理效率;
3、支持分布式數據處理、離線推理等場景,構建 Data + AI 開發整體 Pipeline;
4、提供開箱即用的 Python 環境,支持用戶自定義鏡像,提供更便捷的開發體驗。
業務價值
通過引入MaxFrame分布式計算框架,MiniMax在資源利用率、處理效率與平臺架構方面實現顯著提升:
1、資源利用率顯著提高
借助MaxCompute“包月固定資源+按需彈性資源”組合模式,MiniMax可根據業務周期靈活調配資源,高峰時段支持數十萬核計算資源的快速彈性擴展;
實現計算資源利用率提升30%,在資源效率與成本間取得最優平衡;
通過MaxCompute原生存儲冷熱分層能力,對低熱度大表自動實施低頻/長期存儲策略,歷史數據存儲成本降低40%。
2、分布式計算框架帶來性能突破
基于MaxFrame構建的分布式計算架構替代原有開源方案,其內置高性能Minhash等優化算子,縮短大模型數據預處理任務耗時;
加載FastText模型完成文本分類任務,利用MaxCompute彈性CPU資源執行批量推理,顯著提升處理效率。
3、數據平臺完成架構升級,運維效率提升
基于MaxCompute MaxFrame構建國內外一體化Data+AI數據處理平臺,依托全托管云原生PaaS能力,顯著降低自研與維護成本,運維資源投入減少50%;
實現開發、調度、運維閉環統一管理,支持多模態數據與復雜AI工作流的高效協同。
總結與展望
MiniMax與阿里云開展深度技術協同,在大模型時代成功構建了以云原生數據倉庫為核心的高效、低成本Data+AI一體化數據處理平臺,有效應對業務高速迭代與彈性擴展挑戰。該方案不僅實現了數據處理效能的顯著提升和運營成本的大幅優化,也為大模型驅動下的AI應用研發提供了可廣泛復用的工程范式。未來,雙方將持續深化在大模型數據預處理、多模態數據處理等前沿場景的聯合創新,共同推動Data+AI技術在全球范圍內的規模化產業應用。