19. 大數據-技術生態簡介

文章目錄

  • 前言
  • 一、Hadoop介紹
    • 1. 簡介
    • 2. Hadoop發展史
    • 3. Hadoop現狀
  • 二、Hadoop特性
    • 1. Hadoop國外應用
    • 2. Hadoop國內應用
  • 三、Hadoop架構變遷
    • 1. 發行版本
    • 2. Hadoop架構變遷(1.0-2.0變遷)
    • 3. Hadoop架構變遷(3.0新版本)
    • 4. 綜述
  • 四、技術生態體系


前言

大數據(Big Data)?

大數據(Big Data)是指無法用傳統數據處理工具處理的大規模數據集合,具有數據量大、數據類型多、數據生成速度快、數據價值密度低等特點。
大數據的處理技術包括分布式存儲和計算、數據清洗和轉換、數據分析和可視化等。
分布式存儲和計算是通過多臺計算機協同工作來處理大規模數據,如Hadoop、Spark等;
數據清洗和轉換是對大數據進行預處理,如數據去重、數據轉換等;
數據分析和可視化是對大數據進行分析和展示,如機器學習、數據可視化等。
大數據的設計和實現需要考慮數據源、數據質量、性能、數據安全等因素。


一、Hadoop介紹

Hadoop是大數據生態圈的核心與基石,是整個大數據開發的入門。?

1. 簡介

狹義上Hadoop指的是Apache軟件基金會的一款開源軟件。

用 java語言實現,開源允許用戶使用簡單的編程模型實現跨機器集群對海量數據進行分布式計算處理。

Hadoop核心組件:

  • Hadoop HDFS (分布式文件存儲系統):解決海量數據存儲
  • Hadoop YARN (集群資源管理和任務調度框架): 解決資源任務調度
  • Hadoop MapReduce (分布式計算框架):解決海量數據計算

官網:Apache Hadoop

廣義上Hadoop指的是圍繞Hadoop打造的大數據生態圈。

Hadoop生態圈

2. Hadoop發展史

  • Hadoop之父: Doug Cutting

  • Hadoop起源于Apache Lucene子項目: Nutch,Nutch的設計目標是構建一個大型的全網搜索引擎。遇到瓶頸:如何解決數十億網頁的存儲和索引問題

  • Google三篇論文

《The Google file system》 :谷歌分布式文件系統GFS

《MapReduce: Simpliied Data Processing on Large Clusters》 :谷歌分布式計算框架MapReduce

《Bigtable: A Distributed Storage System for Structured Data》 :谷歌結構化數據存儲系統

3. Hadoop現狀

HDFS作為分布式文件存儲系統,處在生態圈的底層與核心地位;

YARN作為分布式通用的集群資源管理系統和任務調度平臺, 支撐各種計算引擎運行,保證了Hadoop地位;

MapReduce作為大數據生態圈第一代分布式計算引擎,由于自身設計的模型所產生的弊端, 導致企業一線幾乎不再直接使用MapReduce進行編程處理,但是很多軟件的底層依然在使用MapReduce引擎來處理數據。

Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,主要就是解決數據存儲和數據分析計算的問題(通過HDFS和MapReduce實現)。
Hive基于Hadoop的數據倉庫工具,可以存儲,查詢,分析數據,方便決策人員和數據分析人員統計分析歷史數據。
Spark是一個基于內存計算的開源的集群計算系統,目的是讓數據分析更加快速。

對應于Google三駕馬車:
HDFS對應于GFS,即分布式文件系統;
MapReduce即并行計算框架;
HBase對應于BigTable,即分布式NoSQL列數據庫。
外加Zookeeper對應于Chubby,即分布式鎖設施。

二、Hadoop特性

Hadoop特性優點

1. Hadoop國外應用

  1. Yahoo
  • 支持廣告系統
  • 用戶行為分析
  • 支持Web搜索
  • 反垃圾郵件系統
  1. Facebook
  • 存儲處理數據挖掘和日志統計
  • 構建基于Hadoop數據倉庫平臺(Apache Hive來自FB)
  1. IBM
  • 藍云基礎設施構建
  • 商業化Hadoop發行、解決方案支持

2. Hadoop國內應用

  1. 百度
  • 用戶搜索表征的需求數據、阿拉丁爬蟲數據存儲
  • 數據分析和挖掘 競價排名
  1. 阿里巴巴
  • 為電子商務網絡平臺提供底層的基礎計算和存儲服務
  • 交易數據、信用數據
  1. 騰訊
  • 用戶關系數據
  • 基于Hadoop、 Hive構建TDW (騰訊分布式數據倉庫)
  1. 華為
  • 對Hadoop的HA方案,以及HBase領域有深入研究

三、Hadoop架構變遷

1. 發行版本

Hadoop發行版本
Hadoop發行版本:Apache Hadoop

Apache開源社區版本:http://hadoop.apache.org/

商業發行版本:

  • Cloudera: https://www.cloudera.com/products/open-source/apache-hadoop.html
  • Hortonworks: https://www.cloudera.com/products/hdp.html

常用Apache版的Hadoop, 版本號為: 3.3.0

Hadoop版本

2. Hadoop架構變遷(1.0-2.0變遷)

Hadoop 1.0

  • HDFS (分布式文件存儲)
  • MapReduce (資源管理和分布式數據處理)

Hadoop 2.0

  • HDFS (分布式文件存儲)
  • MapReduce (分布式數據處理)
  • YARN (集群資源管理、任務調度)

Hadoop1.0->2.0

3. Hadoop架構變遷(3.0新版本)

Hadoop 3.0架構組件和Hadoop 2.0類似,3.0著重于性能優化。

  • 通用方面

精簡內核、類路徑隔離、shell腳本重構

  • Hadoop HDFS

EC糾刪碼、多NameNode支持

  • Hadoop MapReduce

任務本地化優化、 內存參數自動推斷

  • Hadoop YARN

Timeline Service V2、隊列配置

Hadoop3.0

4. 綜述

① 在Hadoop1.x時代,Hadoop中的MapReduce同時處理業務邏輯運算和資源的調度,耦合性較大。

② 在Hadoop2.x時代,增加了Yarn。Yarn只負責資源的調度,MapReduce只負責運算。

③ Hadoop3.x在組成上沒有什么變化。

現狀:

HDFS作為分布式文件存儲系統,處在生態圈的底層與核心地位;

YARN作為分布式通用的集群資源管理系統和任務調度平臺, 支撐各種計算引擎運行,保證了Hadoop地位;

MapReduce作為大數據生態圈第一代分布式計算引擎,由于自身設計的模型所產生的弊端, 導致企業一線幾乎不再直接使用MapReduce進行編程處理,但是很多軟件的底層依然在使用MapReduce引擎來處理數據。

四、技術生態體系

大數據技術生態體系

Sqoop: Sqoop 是一款開源的工具,主要用于在 Hadoop、 Hive 與傳統的數據庫(MySQL)間進行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL, Oracle 等)中的數據導進到 Hadoop 的 HDFS 中,也可以將 HDFS 的數據導進到關系型數據庫中。

Flume: Flume 是一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume 支持在日志系統中定制各類數據發送方,用于收集數據;

Kafka: Kafka 是一種高吞吐量的分布式發布訂閱消息系統

Spark: Spark 是當前最流行的開源大數據內存計算框架。可以基于 Hadoop 上存儲的大數據進行計算。

Flink: Flink 是當前最流行的開源大數據內存計算框架。 用于實時計算的場景較多。

Oozie: Oozie 是一個管理 Hadoop 作業(job)的工作流程調度管理系統。

Hbase: HBase 是一個分布式的、面向列的開源數據庫。 HBase 不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫。

Hive: Hive 是基于 Hadoop 的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的 SQL 查詢功能,可以將 SQL 語句轉換為 MapReduce 任務進行運行。其優點是學習成本低,可以通過類 SQL 語句快速實現簡單的 MapReduce 統計,不必開發專門的 MapReduce 應用,十分適合數據倉庫的統計分析。

ZooKeeper:它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。


本文的引用僅限自我學習如有侵權,請聯系作者刪除。
參考知識
Hadoop技術棧之Apache Hadoop概述


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/72732.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/72732.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/72732.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

DeepSeek 助力 Vue3 開發:打造絲滑的表格(Table)示例3: 行選擇

前言:哈嘍,大家好,今天給大家分享一篇文章!并提供具體代碼幫助大家深入理解,徹底掌握!創作不易,如果能幫助到大家或者給大家一些靈感和啟發,歡迎收藏關注哦 💕 目錄 Deep…

VsCode 快捷鍵備忘

移動光標及選擇文本 Ctrl ← / → :以單詞為單位移動游標Home / End:光標移到行首/行位Ctrl Home / End:光標移到文件首和文件尾Ctrl Shift \:在匹配的分隔符之間跳轉 配對的分隔符 是指分隔代碼元素的字符,比如字…

用數據喚醒深度好眠,時序數據庫 TDengine 助力安提思腦科學研究

在智能醫療與腦科學快速發展的今天,高效的數據處理能力已成為突破創新的關鍵。安提思專注于睡眠監測與神經調控,基于人工智能和邊緣計算,實現從生理體征監測、智能干預到效果評估的閉環。面對海量生理數據的存儲與實時計算需求,安…

SQL_語法

1 數據庫 1.1 新增 create database [if not exists] 數據庫名; 1.2 刪除 drop database [if exists] 數據庫名; 1.3 查詢 (1) 查看所有數據庫 show databases; (2) 查看當前數據庫下的所有表 show tables; 2 數據表 2.1 新增 (1) 創建表 create table [if not exists…

Qt 開發 OpenGL 程序流程

在用 Qt 開發 OpenGL 程序時,整體的工作流程分為幾個關鍵步驟,最終目的是將數據傳遞給 GPU 并開始渲染。這一過程涉及到從代碼編寫到與著色器連接的多個操作,下面我將詳細講解每個步驟。 1. 設置 Qt 項目 這個步驟是準備工作,你首…

長短期記憶網絡(LSTM)學習指南

長短期記憶網絡(LSTM)學習指南 1. 定義和背景 長短期記憶網絡(Long Short-Term Memory, LSTM)是一種遞歸神經網絡(RNN)的變體,旨在解決傳統RNN在處理長期依賴關系時遇到的梯度消失或爆炸問題。…

仿12306項目(4)

基本預定車票功能的開發 對于乘客購票來說,需要有每一個車次的余票信息,展示給乘客,供乘客選擇,因此首個功能是余票的初始化,之后是余票查詢,這兩個都是控臺端。對于會員端的購票,需要有余票查詢…

第十二屆藍橋杯 異或數列

原題: https://www.acwing.com/problem/content/3424/ 題目大意: A、B兩人的數初始值均為0,他們輪流從X數組中取數,可以將該數與自己的數或對方的數進行異或操作,A先手,當X中的數被取完的時候誰的數大誰…

微服務的認識與拆分

微服務架構通過將應用分解為一組小的、獨立的服務來實現,每個服務圍繞特定業務功能構建,并能獨立部署與擴展。這種架構增強了開發靈活性、提高了系統的可維護性和擴展性,使得團隊可以更快地響應變化和市場需求。 目錄 認識微服務 單體架構 …

高效編程指南:PyCharm與DeepSeek的完美結合

DeepSeek接入Pycharm 前幾天DeepSeek的充值窗口又悄悄的開放了,這也就意味著我們又可以絲滑的使用DeepSeek的API進行各種輔助性工作了。本文我們來聊聊如何在代碼編輯器中使用DeepSeek自動生成代碼。 注:本文適用于所有的JetBrains開發工具&#xff0c…

項目中同時使用Redis(lettuce)和Redisson的報錯

溫馨提示:圖片有點小,可以放大頁面進行查看... 問題1:版本沖突 直接上圖,這個錯表示依賴版本不匹配問題,我本地SpringBoot用的是2.7,但是Redisson版本用的3.32.5。 我們通過點擊 artifactId跟進去 發現它…

Jackson 詳解

目錄 前言 Jackson 是 Java 生態中最流行的 JSON 處理庫之一,廣泛應用于 RESTful API、數據存儲和傳輸等場景。它提供了高效、靈活的 JSON 序列化和反序列化功能,支持注解、模塊化設計和多種數據格式(如 XML、YAML)。本文將詳細介…

H.264,H.265,H.266標準技術改進

關于H.264,H.265,H.266相關資料鏈接: 標準及中文資料鏈接 視頻編碼中的主要技術 視頻編碼的目標是在保證視頻質量的前提下,盡可能減少數據量。以下是視頻編碼中的核心技術: 塊劃分(Block Partitioning) 將視頻幀劃分…

clickhouse安裝路徑

《ClickHouse安裝路徑指南》 大家好,今天我們將一起學習如何在電腦上找到和理解ClickHouse的安裝路徑。這將幫助學生、科研人員以及任何對數據庫技術感興趣的人更好地管理他們的數據查詢工作。 ClickHouse是一款列式存儲數據庫管理系統(DBMS&#xff09…

時序數據庫 InfluxDB 3.0 版本性能實測報告:寫入吞吐量提升效果驗證

亮點總結: TSBS 測試表明,對于少于 100 萬臺設備的數據集,InfluxDB OSS 3.0 的數據寫入速度實際上比 InfluxDB OSS 1.8 更慢。 對于 100 萬臺及以上設備的數據集,InfluxDB OSS 3.0 的數據寫入性能才開始超過 InfluxDB OSS 1.8。…

AS32X601雙核鎖步MCU技術優勢分析

AS32X601是國科安芯公司研制的一系列基于32位RISC-V指令集車規級MCU處理器芯片。主頻高達180MHz,支持雙核鎖步架構,基于軟錯誤防護技術加持,顯著提高芯片安全性能。產品具有高安全、低失效、多IO、低成本、抗輻照等特點。 一、功能安全與可靠…

基于 LeNet 網絡的 MNIST 數據集圖像分類

1.LeNet的原始實驗數據集MNIST 名稱:MNIST手寫數字數據集 數據類型:灰度圖 (一通道) 圖像大小:28*28 類別數:10類(數字0-9) 1.通過torchvision.datasets.MNIST下載并保存到本地…

電池綜合測試儀:科技賦能,精準守護能源安全

在當今這個科技日新月異的時代,電池作為眾多電子設備的心臟,其性能的穩定與高效直接關系到設備的運行質量與使用安全。隨著電動汽車、可穿戴設備、儲能系統等領域的快速發展,對電池性能的檢測與評估提出了更高要求。在此背景下,電…

【Linux 22.4 ubuntu 安裝cuda12.1 完整方案】

下載cuda12.1 官網網址 wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda_12.1.1_530.30.02_linux.run sudo sh cuda_12.1.1_530.30.02_linux.run!import! 如果已經安裝驅動,則不要選擇dirver那項 添加環境變量 vim ~/.b…

實戰案例分享:Android WLAN Hal層移植(MTK+QCA6696)

本文將詳細介紹基于MTK平臺,適配高通(Qualcomm)QCA6696芯片的Android WLAN HAL層的移植過程,包括HIDL接口定義、Wi-Fi驅動移植以及wpa_supplicant適配過程,涵蓋STA與AP模式的常見問題與解決方法。 1. HIDL接口簡介 HID…