摸魚大數據——大數據導論

大數據導論

1、概念

大數據時代: 萬物皆數據
?
數據概念: 人類的行為及產生的事件的一種記錄稱之為數據
?
數據價值: 對數據的內容進行深入分析,可以更好的幫助了解事和物在現實世界的運行規律 ? 

2、大數據誕生

大數據的誕生: 跟隨著互聯網的發展的,當全球互聯網逐步建成(2000年左右),各大企業或政府單位擁有了海量的數據亟待處理。基于這個前提逐步誕生了以分布式的形式(即多臺服務器集群)完成海量數據處理的處理方式,并逐步發展成現代大數據體系。
?
分布式: 多臺服務器互相配合協同處理同一個事情
?
Apache Hadoop對大數據體系的意義: 第一款獲得業界普遍認可的企業級開源分布式解決方案, 一定程度上催生出了眾多的大數據體系技術棧,從Hadoop開源開始(2008年左右)大數據開始蓬勃發展

3、大數據概述

什么是大數據?
狹義上: 對海量數據進行處理的軟件技術體系
廣義上: 數字化、信息化時代的基礎支撐,以數據為生活賦能
狹義和廣義聯系: 學習狹義上的大數據軟件技術體系,在工作中為廣義上的數字化、信息化時代,添磚加瓦
?
?
大數據解決了什么問題?
問題1: 海量數據的存儲
問題2: 海量數據的計算
問題3: 海量數據的傳輸
?
大數據的核心工作?
存儲: 利用各類大數據技術棧,妥善保存海量待處理數據
計算: 利用各類大數據技術棧,完成海量數據的價值挖掘
傳輸: 利用各類大數據技術棧,協助各個環節的數據傳輸

4、大數據特征

大數據特征簡述: 5v(大多值快信)
大: 數據量大,1TB=1024GB,1PB=1024TB
多: 數據多樣性。各行各業,不同類型的數據都有
值: 數據背后的價值,一般是低價值
快: 使用大數據技術能夠快速對數據進行分析
信: 分析結果準備

大數據的核心工作其實就是: 從海量數據中,以大數據技術分析出有價值的信息

5、大數據技術棧

Apache軟件基金會(Apache Software Foundation,簡稱 [ASF]是專門為運作一個==開源軟件==項目的 Apache 的團體提供支持的非盈利性組織,這個開源軟件的項目就是 Apache 項目。

5.1 存儲

Apache Hadoop-HDFS: HDFS是Apache Hadoop Core項目的一部分,(Hadoop Distributed File System) Hadoop分布式文件存儲系統
?
Apache HBase: HBase是Apache的Hadoop項目的子項目
?
Apache Kudu: 是由Cloudera開源的存儲引擎,貢獻給Apache基金組織

5.2 計算

Apache Hadoop-MapReduce: MapReduce組件是最早一代的大數據分布式計算引擎對大數據的發展做出了卓越的貢獻
?
Apache Hive: Hive是一款以SQL為要開發語言的分布式計算框架。HiveSQL其底層翻譯成了Hadoop的MapReduce程序去執行
?
Apache Spark: Spark是目前全球范圍內最火熱的分布式內存計算引擎。是大數據體系中的明星計算產品
?
Apache Flink: Flink同樣也是一款明星級的大數據分布式內存計算引擎。特別是在實時計算(流計算)領域占據了大多數的國內市場。

5.3 傳輸

Apache Sqoop: Sqoop是一款ETL工具,可以協助大數據體系(hdfs,hive)和關系型數據庫(mysql)之間進行數據傳輸。
?
Apache Flume: Flume是一款流式數據采集工具,可以從非常多的數據源中完成數據采集傳輸的任務。
?
Apache Kafka: Kafka是一款分布式的消息系統,可以完成海量規模的數據傳輸工作。Apache Kafka在大數據領域也是明星產品
?
Apache Pulsar: Pulsar同樣是一款分布式的消息系統。

6、Hadoop

Hadoop是開源的技術框架,提供分布式存儲、計算、資源調度的解決方案

狹義上Hadoop:  包含HDFS,MapReduce,YARN三大組件的技術棧
?
廣義上Hadoop:  整個Hadoop生態圈
?
Hadoop的創始人: Doug Cutting
Hadoop起源:于Apache Lucene子項目:Nutch  ,Nutch的設計目標是構建一個大型的全網搜索引擎。
Hadoop啟蒙: Google三篇著名的論文(也叫三駕馬車)《The Google file system》:谷歌分布式文件系統GFS《MapReduce: Simpli?ed Data Processing on Large Clusters》:谷歌分布式計算框架MapReduce《Bigtable: A Distributed Storage System for Structured Data》:谷歌結構化數據存儲系統
?
?
Hadoop的開源版本: Apache版本,免費
?
Hadoop的商業版本: CDH付費版,在開源基礎上進行了二次封裝

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/13326.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/13326.shtml
英文地址,請注明出處:http://en.pswp.cn/web/13326.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

K8S認證 | CKA題庫 + 答案 | 查看Pod CPU資源使用量

2、查看集群中運行Pod CPU資源使用量 您必須在以下Cluster/Node上完成此考題: Cluster Master node Worker node k8s …

【信息系統項目管理師知識點速記】采購管理:實施采購

實施采購過程是項目管理中一個關鍵環節,旨在通過一系列步驟確保項目所需的貨物、服務或成果能夠從合適的供應商處獲得,并以合同形式確立雙方的權利與義務。這一過程不僅關乎選擇最合適的賣方,還包括了風險管理、成本控制、溝通規劃等多個方面的考量。 輸入概述 項目管理計劃…

從零開始精通RTSP之加密

概述 原始的RTSP通信默認使用的是明文傳輸,這也就意味著,在網絡上的任何節點都能輕易地查看或修改傳輸的內容。這在涉及隱私或版權保護的場景下,是完全不可接受的。因此,加密顯得尤為重要。加密的目的主要有三點:一是進…

擰緊設備或工具的選型原則、常見類型和選型關鍵因素有哪些?

智能扭矩系統-智能擰緊系統-扭矩自動控制系統-SunTorque 在工業生產領域,擰緊控制是一項至關重要的工藝環節。它涉及螺栓、螺母等緊固件的裝配過程,直接關系到產品的質量和性能。因此,選擇合適的擰緊設備或工具對于確保擰緊過程的準確性和穩…

[牛客網]——C語言刷題day4

答案:B 解析: a是數組首元素的地址,a1的步長是int,所以是2 &a是數組的首地址,&a1步長是int[5] ptr是int類型的指針,指向a數組的尾后位置,ptr-1的步長是int,所以是a數組的最后一個元素5 答案&am…

如何使用ffmpeg 實現10種特效

相關特效的名字 特效id 特效名 1 向上移動 2 向左移動 3 向下移動 4 顫抖 5 搖擺 6 雨刷 7 彈入 8 彈簧 9 輕微跳動 10 跳動 特效展示(同時匯總相關命令) pad背景顯示 pad背景透明 相關命令(一會再講這些命令,先往下看) # 合成特效語音 ffmpeg -y -loglevel erro…

Element Plus/vue3 無限級導航實現

在使用element plus 時,最初要使用的就是導航組件了,官網上看到的也就是寫死的一級/二級導航,那么如何設計一個無限級且動態的導航呢?毋庸置疑,遞歸。廢話不多說,直接看代碼和效果: 代碼&#x…

Jmeter:錄制腳本(操作文檔)

新建線程組 打開jmeter,右鍵測試計劃–>添加–>Threads(Users)–>點擊"線程組" 添加錄制控制器 右鍵線程組–>添加–>邏輯控制器–>點擊"錄制控制器" 添加HTTP代理服務器 右鍵工作臺–>添加–>非測試元件–>…

YOLOv5改進 | Neck | 添加雙向特征金字塔BiFPN【小白輕松上手 | 論文必備】

🚀🚀🚀本專欄所有的改進均可成功執行🚀🚀🚀 盡管Ultralytics 推出了最新版本的 YOLOv8 模型。但YOLOv5作為一個anchor base的目標檢測的算法,YOLOv5可能比YOLOv8的效果更好。但是針對不同的數據…

CDN都有哪些優勢?

內容分發網絡是一個經策略性部署的整體系統,其中包含了分布式存儲、負載均衡、網絡請求的重定向和內容管理四個要求,CDN的主要核心則是內容管理和全局的網絡流量管理,CDN可以確保內容會以一種非常高效的方式為用戶的請求提供服務。 接下來就讓…

Linux 第三十五章

🐶博主主頁:??. 一懷明月? ???🔥專欄系列:線性代數,C初學者入門訓練,題解C,C的使用文章,「初學」C,linux 🔥座右銘:“不要等到什么都沒有了…

Kubernetes安裝calico網絡插件失敗

今天啥也沒干成,不想排版了。 接著昨天搭建k8s集群,安裝calico插件,虛擬機一直卡。 # 在 master 節點上執行 # 下載 calico 配置文件,可能會網絡超時 curl https://docs.tigera.io/archive/v3.25/manifests/calico.yaml -O # 修…

[svelte] 怎么引入fortawesome的icon樣式

首先在項目的終端下執行以下命令 npm install fortawesome/fontawesome-free # 或者 yarn add fortawesome/fontawesome-free這樣子可以把fontawsome的圖標給下載到項目的對應文件中 一般都是在node_modules中 在fontawsome/fontawesome-free中就可以看到很多文件夾了 …

unapp寫微信小程序封裝水印相機組件怎么實現?

<template><view><!-- <cu-custom bgColor"bg-gradual-blue" :isBack"true"><block slot"backText">返回</block><block slot"content">編輯資料</block></cu-custom> --><…

Docker學習(10)搭建kubernetes集群

搭建kubernetes集群 1、官方部署方式&#xff1a; Minikube工具安裝 Minikube是一種能夠在計算機或者虛擬機(VM)內輕松運行單節點Kubernetes 集群的工具&#xff0c;可實現一鍵部署。這種方式安裝的系統在企業中大多被當作測試系統使用。 使用yum安裝 通過直接使用 epel-r…

三步在 vite 中配置 tailwindcss

前言 tailwindcss 是一個原子化的 css 工具&#xff0c;可以讓你免于寫 css&#xff0c;只寫 html 即可原理&#xff1a;利用你寫的 html 的 class 名稱來生成 css 樣式&#xff0c;理解為一個 postcss 插件或 loader 第一步&#xff1a;安裝 tailwindcss npm i -D tailwind…

圖片恢復的實用指南,為你拯救遺失的記憶!

隨著科技的日新月異&#xff0c;我們的生活已被照片填滿。它們記錄著我們的喜怒哀樂&#xff0c;見證著每一個重要的時刻。但我們往往會因為各種原因將手機圖片遺失&#xff0c;有什么方法可以恢復呢&#xff1f;本文將提供一份實用的圖片恢復指南&#xff0c;幫助你找回那些遺…

山西大學化學化工學院朱鳳祥教授簡介

男&#xff0c;1989年出生&#xff0c;河南安陽人&#xff0c;2019年1月于山西大學化學化工學院任特聘教授&#xff0c;主要研究方向為有機催化&#xff0c;曾獲國家自然科學基金資助&#xff08;2020-2023&#xff09;&#xff0c;迄今在國際高級雜志發表SCI論文20余篇。 200…

llama使用tutorial微調(windows版本)

Llama3-Tutorial/docs/assistant.md at main SmartFlowAI/Llama3-Tutorial GitHub 有一些命令需要修改 前期的安裝還是要按照教程搞的 streamlit run ~/Llama3-Tutorial/tools/internstudio_web_demo.py \ ~/model/Meta-Llama-3-8B-Instruct 改為了 streamlit run .\Ll…

ArrayList和LinkedList的使用

ArrayList List<> list new ArrayList<>(); LinkedList