關于阿里云大數據計算服務MaxCompute的詳細內容:
阿里云大數據計算服務MaxCompute使用教程
(MaxCompute(原ODPS)是一項大數據計算服務,它能提供快速、完全托管的PB級數據倉庫解決方案,使您可以經濟并高效的分析處理海量數據。)
大數據計算服務(MaxCompute,原名 ODPS)是一種快速、完全托管的 GB/TB/PB 級數據倉庫解決方案。MaxCompute 為您提供了完善的數據導入方案以及多種經典的分布式計算模型,能夠更快速的解決海量數據計算問題,有效降低企業成本,并保障數據安全。
同時,大數據開發套件和 MaxCompute 關系緊密,大數據開發套件為 MaxCompute 提供了一站式的數據同步,任務開發,數據工作流開發,數據管理和數據運維等功能,詳情請參見大數據開發套件。
MaxCompute 主要服務于批量結構化數據的存儲和計算,可以提供海量數據倉庫的解決方案以及針對大數據的分析建模服務。隨著社會數據收集手段的不斷豐富及完善,越來越多的行業數據被積累下來。數據規模已經增長到了傳統軟件行業無法承載的海量數據(百 GB、TB 乃至 PB)級別。
在分析海量數據場景下,由于單臺服務器的處理能力限制,數據分析者通常采用分布式計算模式。但分布式的計算模型對數據分析人員提出了較高的要求,且不易維護。使用分布式模型,數據分析人員不僅需要了解業務需求,同時還需要熟悉底層計算模型。MaxCompute 的目的是為您提供一種便捷的分析處理海量數據的手段,您可以不必關心分布式計算細節,便可達到分析大數據的目的。
MaxCompute 已經在阿里巴巴集團內部得到大規模應用,例如:大型互聯網企業的數據倉庫和 BI 分析、網站的日志分析、電子商務網站的交易分析、用戶特征和興趣挖掘等。
產品優勢
大規模計算存儲
MaxCompute 適用于 100GB 以上規模的存儲及計算需求,最大可達 EB 級別。
多種計算模型
MaxCompute 支持 SQL、MapReduce、Graph 等計算類型及 MPI 迭代類算法。
強數據安全
MaxCompute 已穩定支撐阿里全部離線分析業務7年以上,提供多層沙箱防護及監控。
低成本
與企業自建私有云相比,MaxCompute 的計算存儲更高效,可以降低 20%-30% 的采購成本。
功能概述
數據通道
支持批量、歷史數據通道 TUNNEL 是 MaxCompute 為您提供的數據傳輸服務,提供高并發的離線數據上傳下載服務。支持每天 TB/PB 級別的數據導入導出,特別適合于全量數據或歷史數據的批量導入。Tunnel 提供 Java 編程接口供您使用,并且在 MaxCompute 的客戶端工具中,有對應的命令實現本地文件與服務數據的互通。
實時、增量數據通道 針對實時數據上傳的場景,MaxCompute 提供了延遲低、使用方便的 DataHub 服務,特別適用于增量數據的導入。Datahub 還支持多種數據傳輸插件,例如:Logstash、Flume、Fluentd、Sqoop 等,同時支持日志服務 Log Service 中的日志數據一鍵投遞至 MaxCompute,進而使用大數據開發套件進行日志分析和挖掘。
計算及分析任務
MaxCompute 支持多種計算模型,詳情如下:
SQL:MaxCompute 只能以表的形式存儲數據,并對外提供了 SQL 查詢功能。您可以將 MaxCompute 作為傳統的數據庫軟件操作,但其卻能處理 TB、PB 級別的海量數據。 注意:
MaxCompute SQL 不支持事務、索引及 Update/Delete 等操作。 MaxCompute 的 SQL 語法與 Oracle,MySQL 有一定差別,您無法將其他數據庫中的 SQL 語句無縫遷移到 MaxCompute 上來。 在使用方式上,MaxCompute SQL 最快可以在分鐘,乃至秒級別完成查詢,無法在毫秒級別返回結果。 MaxCompute SQL 的優點是學習成本低,您不需要了解復雜的分布式計算概念。如果您具備數據庫操作經驗,便可快速熟悉 MaxCompute SQL 的使用。
UDF:即用戶自定義函數。 MaxCompute 提供了很多 內建函數 來滿足您的計算需求,同時您還可以通過創建自定義函數來滿足不同的計算需求。
MapReduce:MaxCompute MapReduce 是 MaxCompute 提供的 Java MapReduce 編程模型,它雖與通用的 MapReduce 有所區別,但可以簡化開發流程,更為高效。您若使用 MaxCompute MapReduce,需要對分布式計算概念有基本了解,并有相對應的編程經驗。MaxCompute MapReduce 為您提供 Java 編程接口。 Graph:MaxCompute 提供的 Graph 功能是一套面向迭代的圖計算處理框架。圖計算作業使用圖進行建模,圖由點 (Vertex)和邊(Edge)組成,點和邊包含權值(Value)。通過迭代對圖進行編輯、演化,最終求解出結果,典型應用:PageRank,單源最短距離算法 ,K-均值聚類算法 等。 SDK
SDK 是 MaxCompute 提供給開發者的工具包,詳情請參見 SDK 介紹。
安全
MaxCompute 提供了功能強大的安全服務,為您的數據安全提供保護,詳情請參見 安全參考手冊。
后續步驟
現在,您已經學習了 MaxCompute 的產品優勢、功能特性等相關簡介,您可以繼續學習下一個教程。在該教程中您將快速了解如何使用 MaxCompute,詳情請參見 快速開始。
發展歷程
更新時間:2017-09-08 08:19:17
從 2009 年 9 月阿里云成立,愿景就是做運算/分享數據的第一平臺。2010 年 4 月,伴隨阿里金融的貸款業務上線,ODPS 正式投入生產運行,2012 年建立統一數據平臺,2013 年具備超大規模海量數據處理能力,2014~2015 年大數據平臺開始日趨成熟,2016 年 MaxCompute 2.0 誕生,成立之初的愿景正在逐步實現。
關鍵性里程碑
2010.04 ODPS 正式投入生產運行。阿里金融的貸款業務上線穩定運行。 2013.05 ODPS 公測。 2013.07 ODPS 正式提供商業化服務,單集群規模 5K 臺服務器多級群能力。 2016.09 ODPS 正式更名為 MaxCompute,并推出 MaxCompute 2.0,實現高性能,新功能,富生態。
阿里云大學官網(阿里云大學 - 官方網站,云生態下的創新人才工場)