阿里云大數據AI平臺重磅發布智能駕駛數據預處理解決方案,可幫助汽車行業客戶實現構建高效、穩定的數據預處理產線流程,數據包處理效率相比自建可提升10倍以上,數據處理推理任務優化提速1倍以上,相同資源產能提升1倍[1],從源頭提高了自動駕駛模型產出的效率,有效支撐智駕技術落地。目前,80% 以上中國車企的輔助智能駕駛跑在阿里云大數據AI平臺上。
一、傳統自建方案下的智能駕駛數據處理產能困局
智能駕駛技術受到越來越廣泛的關注,在智能駕駛業務流程中,提高數據預處理產能是智能駕駛模型產出效率提高的關鍵。隨著數據量和數據源復雜度的激增,傳統 Kubernetes + Argoflow / Airflow 自建方案在實際規模化應用中,逐漸遇到數據處理效率低、元數據管理能力弱、技術棧單一、周邊系統集成對接復雜與運維壓力大等問題,難以滿足高效處理和管理需求,平臺的擴展能力不足,性能瓶頸明顯,面對智能化競爭,汽車企業必須加速技術平臺與架構的升級迭代。
智能駕駛數據預處理傳統自建方案
二、革新架構的破局:全棧式技術矩陣突破預處理效能邊界
針對企業加速業務智能化轉型的需求,阿里云大數據AI平臺發布智能駕駛數據預處理解決方案,通過接入多模態數據包括人工標注數據、真機采集視頻或圖像及傳感器數據的實時上傳數據,結合PAI、MaxCompute、EMR、Flink技術棧驅動流批一體處理,實現數據解析、智能切幀、特征提取及多維度標注,并依托DataWorks完成百萬任務調度與管理。方案可集成 Hologres 和高性能向量增強引擎 Elasticseacrh 實現海量數據的實時查詢和向量數據的毫秒級檢索[2]。同時阿里云大數據AI平臺支持大模型訓練與實時推理雙場景需求,全面為智能駕駛系統提供高可靠、低時延、強擴展的 AI 基礎設施支撐,為企業帶來高性能的全鏈路大數據+AI工程化平臺體驗。
智能駕駛系統解決方案全景圖
新發布的智能駕駛數據預處理解決方案在性能、成本、功能、安全等多維度均有著突出優勢:
- 一體化開發效率提速:數據包處理效率相比自建提升10倍以上,數據處理推理任務優化提速1倍以上,相同資源產能提升1倍;
- 支持百萬級任務管理及并發調度,每拉起10000CU資源運行僅需不到10秒;
- 全鏈路樣本數據血緣存儲和檢索分析、智能駕駛合規數據安全保護;
- 企業級Serverless化平臺,穩定可靠,兼容開源生態。
三、實戰驗證:數據處理效率10倍提升的落地實踐
目前該方案已經成功服務國內多家頭部車企客戶,經驗證可成功幫助客戶應對在數據預處理環節中數據異構性與多模態融合、數據質量與噪聲干擾、實時性與高吞吐量的挑戰,快速推進端到端智駕方案量產。
某車企智駕端到端數據產線百萬級任務調度案例
某車企端到端產線存在單 clip 耗時上百分鐘、日任務累計百萬級別、資源利用率低、監控體系缺失、訓練效能瓶頸及調度穩定性差等核心問題,嚴重影響模型訓練進度。使用 DataWorks+PAI-DLC+OSS+CPFS 產品組合方案后,實現百萬級任務管理及開發調度,現階段支持上萬任務并發運行,產能可達到 5w clips/天,持續突破調度瓶頸,同時效率提升2-3倍。
某車企多模態數據處理案例
某車企車端輔助駕駛采集的圖片、視頻文件經過脫敏壓縮后上傳到 OSS 中存儲,需要對 OSS 中的視頻數據進行模式識別、打標,并將識別標簽保存供輔助駕駛訓練時查詢,使用 MaxCompute MaxFrame+PAI-EAS+Flink 產品組合方案,實現對圖片、視頻等多模態數據統一管理,可與結構化數據進行跨模態計算,同時使用分布式 Python 計算框架,直接調用第三方模型對多模態數據進行處理,作業處理效率顯著提升。
四、技術底座揭秘:解決方案核心產品全解析
智能駕駛數據預處理解決方案是基于機器學習平臺和大數據產品構建的,關鍵場景的產品作用見下表:
關鍵場景 | 核心產品 | 特性與優勢 |
數據集成、數據開發與任務調度 | 大數據開發治理平臺DataWorks | 相較于 Airflow/Argo Workflow,DataWorks在以下方面具有優勢:
|
數據包解壓與處理 | 云原生大數據計算服務MaxCompute | MaxFrame是構建在大規模計算平臺 MaxCompute 之上的分布式計算引擎MaxFrame
|
AI 訓練推理仿真 | 人工智能平臺 PAI | 企業級的大模型工程化能力,提供包含數據集管理、算力管理、模型工具鏈、模型開發、模型訓練、模型部署、AI資產管理在內的功能模塊,內置 100+ 種大模型最佳實踐 |
數據處理 | 開源大數據平臺 E-MapReduce | 其中全托管Spark計算引擎是面向 Data+AI 的高性能 Lakehouse 產品,有助于簡化數據處理流程
|
實時數據處理 | 實時計算 Flink 版 | 實時應用的作業開發、數據調試、運行與監控、自動調優、智能診斷等全生命周期能力,支持高吞吐量和低延遲的數據處理需求,確保數據流動的實時性和準確性 |
向量數據檢索 | 檢索分析服務 Elasticsearch 版 | 向量增強版可實現PB級文本與圖片的向量數據檢索,精準快速。 |
數據查詢 | 實時數倉 Hologres | PB級超大規模的實時在線AP分析,數據寫入即可查,資源隔離,十萬級QPS點查能力。 |
智能駕駛數據預處理解決方案的發布,標志著大數據與AI技術在以汽車行業為代表的產業智能化進程中的深度融合,未來,阿里云大數據AI平臺將持續深化大模型時代AI的基礎設施建設,創新拓展多行業解決方案,以更高效、更智能的解決方案賦能企業智能化轉型。
*注:
[1]:數據來源于客戶內部計算或測試
[2]:可根據業務需求靈活組合技術棧產品,構建多樣化解決方案