企業數據湖構建之旅

摘要：隨著互聯網的發展，數據的規模和類型都呈現一個爆炸性的增長，對于這么多類型的數據，如何進行有效的管理和存儲，包括數據的分析，這是大家要面臨的一個問題。在武漢云棲大會上，阿里云高級產品專家吳華劍做了名為“企業數據創新之旅-構建自己的數據湖”的精彩演講。
阿里云存儲產品系列

隨著互聯網的發展，整個云存儲數據量的規模呈爆炸性的增長，包括日志型、交易、應用等數據，而且數據類型也越來越豐富。面對這樣的需求，阿里云存儲推出了一系列的云數據庫類型，包括塊存儲、文件存儲、對象存儲、OSS歸檔存儲和表格存儲等。對于傳統企業上云，阿里云也推出了面向混合云的產品，比如混合云存儲陣列、容災備份一體機、備份服務、閃電立方等產品。阿里云有這么全面的產品家族，那是什么支撐著呢？其實是因為阿里云有自研的分布式存儲系統：盤古高性能存儲引擎。目前盤古的存儲不僅支撐阿里云公有云上的存儲產品，也是阿里巴巴集團內部，像天貓、淘寶、螞蟻金服等各類服務存儲的基石。針對于面向金融、人工智能、能源、制造業等各個場景的低延時到高吞吐的存儲需求，阿里云都有相應的產品類型。

e7d84bed8028c684a5e75cba1e3b4a6f72891832

在整個企業數據湖的構建過程當中，從數據的采集到數據存儲再到分析和消費，其實是有分多個階段的，在這多個階段里面，阿里云推出了一系列的解決方案。例如在數據采集方面，阿里云可以支持應用程序數據、日志數據、基因數據、流失的數據等等。另外阿里云推出了阿里云日志存儲服務，OSS也支持像開源日志導入的服務，同時針對IoT的數據也有像IoT、DataHub這樣的數據采集的產品。在存儲方面，阿里云推出了對象存儲，可以支持海量的結構化和非結構化的數據存儲，同時OSS也是Hadoop官方支持的默認存儲類型，這也是中國唯一一家被Hadoop官方支持的存儲產品，用戶的Hadoop應用可以完全不改任何代碼去處理OSS上的數據。同時阿里云的表格存儲，能夠非常好的支持像IoT這樣的流失數據的存儲。在整個數據湖構建的采集、存儲、消費等整個流程，阿里云都提供了相應的解決方案，滿足大家對數據湖的構建要求。
企業應用構建案例
阿里云存儲其實不光是支持互聯網音視頻等普通數據的訪問和讀寫，如今利用阿里云存儲穩定、安全、可靠和高性能等的特點，結合阿里云豐富的機器學習平臺、大數據、批量計算等產品以及阿里云與Hadoop官方的合作，阿里云存儲可以進行離線分析、基因渲染等大規模數據的計算，滿足不同場景的數據處理需求。現在已經應用到新能源、新媒體、包括點播、直播等應用場景。下面是兩個企業應用構建的例子：
1.新媒體內容推薦系統

用戶的訪問日志，包括手機app、應用服務上收集的日志、新聞閱讀的記錄都可以導入到OSS上，滿足海量存儲的需求。同時Hadoop官方也支持OSS存儲的應用，因此用戶可以基于Hadoop生態的應用去搭建像離線分析的系統，并且可以利用機器學習進行用戶興趣的訓練，訓練完的模型數據也可以導入到OSS上面，形成數據處理的閉環，當用戶用完整個架構系統之后，整個數據存儲成本降低了50%以上。
2.批處理（在線視頻日志）

類似短視頻的在線視頻應用，如何保持競爭力呢？用戶需要對終端用戶訪問的一些視頻，做一些大數據的挖掘和分析，不斷地去改進自己的產品設計。用戶將日志數據上傳到OSS上面之后，可以通過阿里云的Hadoop離線分析系統做分析，同時可以基于Hadoop應用去搭建集群，進行數據交互分析。由于用戶每天產生的海量訪問日志非常大，可能經過一段時間以后這個數據就沒那么熱了，用戶不需要經常去分析和處理它，那用戶可以通過OSS生命周期管理功能對數據進行自動歸檔。整個用戶的數據采集、存儲、消費和自動歸檔等流程都可以在OSS上處理。
云存儲技術引擎

阿里云存儲針對數據進行計算和分析，在近期又取得了巨大的進展。首先是阿里云對于文件系統家族，推出了CPFS并行文件系統，這個產品阿里云正在公測，而且有些做科研的客戶正在使用這個產品。CPFS并行文件系統有一個非常明顯的特點，它可以極大地提高阿里云單用戶的吞吐。同時阿里云和戰略合作伙伴Intel一起在Hadoop社區里面，針對Hadoop的應用訪問OSS做了大量的優化。Hadoop在訪問OSS的時候，阿里云在Hadoop的客戶端進行了多線程預讀的優化，同時在整個數據寫入到OSS的時候，阿里云也進行了異步的性能提升。另外對于元數據的操作，阿里云也進行了大量的優化。當整個系統優化完之后，阿里云進行了一個TPC DS測試，阿里云測試了200G的數據集并與其他廠商進行對比，阿里云OSS的運行效率提升了15%左右，可以為用戶節省15%的計算資源，不但提升了業務的效率，而且大大降低了成本。

ecdccf2933349b0d63c6a7eb0a879093045bda9f

同時阿里云OSS在服務端也進行了大量的技術優化，最近阿里云會提供一個服務端預讀的功能，阿里云面向像Hadoop的大數據分析、機器學習等場景會進行優化，會在近期上線，讓大家使用。關于服務端優化，現在也已經有客戶在使用，而且運行效率提升了35%以上，對客戶的業務有很大的幫助。另外OSS select現在也開始公測，原來的數據存儲到OSS之后，當讀取數據的時候需要把整個數據都讀取出來。比如搭一個spark應用的時候，需要把整個數據讀取出來之后再去做一些分析和處理，現在可以使用OSS select功能，只要使用簡單的SQL語句，就可以選取需要的內容，大大地減少運行的時間。阿里云也做了個基于OSS select的測試，整個運行時間從78秒減少到11秒，性能提升了600%。阿里云最近推出的DataLakeAnalytics產品，它可以支持對OSS上的產品做查詢分析，將OSS上存儲的CSV、TEXT、JSON和一些鏈式存儲的數據，可以使用DataLakeAnalytics做查詢分析，這個產品兼容標準SQL，包括JDBC、ODBC的標準，可以幫助大家快速去搭建一個查詢、分析的平臺，可以減少時間，提升研發效率。
以下是OSS select和DataLakeAnalytics的公測鏈接，大家可以掃描二維碼去申請公測。

544684abc69dd51520f91f98d30581bc0a279ef7

本文由云棲志愿小組黃小凡整理

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/277900.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/277900.shtml
英文地址，請注明出處：http://en.pswp.cn/news/277900.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！