大數據揭秘

起源

不管是國內,國外的招聘目前數據分析工程師,或者是大數據工程師我感覺都是處于啟蒙階段,對于數據分析或者大數據沒有什么體系技術棧一說,相比于前后端,除了高端互聯網企業其他的企業招數據分析工程師我認為目前都是 Python 工程師,但是大數據工程師究竟需要什么技術棧,科班出生我來結合自己的理解講解下。

大數據?

數據庫相信大家都不陌生,那么什么是大數據?其實就是大量數據顧名思義,傳統數據在幾 KB,幾 GB,幾 T 這其實都不是大數據范疇。100T 以上甚至 PB 級別的數據就可以稱為大數據了。
但是傳統的數據庫中存放的數據都是結構化數據,但是大數據處理的數據,因為數據來源不同,有結構化和非結構化兩種。這就引出了一個數據倉庫的概念。它整合來自多個不同來源的數據,支持復雜查詢和分析任務。目前有很多公司都在做,以后的所有數據就從數據倉庫中進行提取,然后再放到應用中。
在這里插入圖片描述

Hadoop項目組件

Hadoop是一個開源框架,允許在計算機集群上以簡單的編程模型分布式處理大數據集。其關鍵組件包括:

  1. Ambari: 一個基于Web的工具,用于配置、管理和監控Apache Hadoop集群。它提供了一個用戶友好的界面來管理配置和監控服務及性能。
  2. ZooKeeper: 提供分布式協調服務,如配置維護、同步和組服務。
  3. HBase: 一個分布式、可擴展的大數據存儲,基于Google的Bigtable并用Java編寫。
  4. Hive: 一個數據倉庫基礎設施,提供數據匯總和即席查詢。
  5. Pig: 一個高層平臺,用于創建在Apache Hadoop上運行的程序,主要用于分析大數據集。
  6. Mahout: 一個設計為可擴展到大數據集的機器學習庫。
  7. MapReduce: 一個用于處理和生成大數據集的編程模型,通過集群上的并行分布式算法實現。
  8. YARN (Yet Another Resource Negotiator): 在集群中管理資源并用于調度用戶的應用程序。
  9. HDFS (Hadoop Distributed File System): 設計在商品硬件上運行的分布式存儲系統。
  10. Flume: 一個高效收集、聚合和移動大量日志數據的服務。
  11. Sqoop: 一個設計用于在Apache Hadoop和結構化數據存儲如關系數據庫之間高效傳輸大量數據的工具。

Hadoop的發展歷程

Hadoop的發展歷程標志著幾個重要的里程碑:

  1. 2008年: 淘寶開始研究基于Hadoop的系統。
  2. 2009年3月: Cloudera推出包括Hadoop的Cloudera Distribution (CDH)。
  3. 2009年7月: Hadoop Core項目更名為Hadoop Common。
  4. 2012年11月: Apache Hadoop 1.0發布。
  5. 2018年4月: Apache Hadoop 3.1發布。

Apache Hadoop的歷史

Apache Hadoop框架源自以下項目:

  1. Apache Lucene (2001) -> Apache Nutch (2002): 早期項目專注于文本搜索和網頁爬蟲。
  2. HDFS (2004): Hadoop分布式文件系統,從Nutch項目中衍生而來。
  3. MapReduce (2004): 由Google引入,成為Hadoop處理大數據集的核心組件。

MapReduce

MapReduce是處理大數據集的核心概念,通過分布式算法實現:

  1. 函數: 由兩個主要函數組成 - Map和Reduce。
  2. 核心思想: “分而治之” - 通過將任務拆分成更小的子任務來處理大數據集。
  3. 設計理念: 通過將計算指向數據來實現可靠性。

大數據的特征

大數據由三個主要特征定義:

  1. 數量 (Volume): 數據規模,通常在100TB以上,甚至達到PB級別。
  2. 種類 (Variety): 數據形式多樣,包括文本、音頻、圖像和視頻,不限于傳統的關系數據。
  3. 速度 (Velocity): 數據生成和處理的速度。

大數據分析

大數據分析涵蓋各種方法和技術:

● 數據分析
● 文本分析
● 數據挖掘
● 圖像和語音識別
● 機器學習
● 可視化技術
● 自然語言處理
● 深度學習

數據采集與分析層

大數據涉及結構化和非結構化數據的采集,然后利用Hadoop等平臺提供的計算層進行分析。

通過理解這些組成部分和原理,可以有效利用大數據來驅動洞察和創新。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/23675.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/23675.shtml
英文地址,請注明出處:http://en.pswp.cn/web/23675.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

公有云服務器部署springboot工程詳細步驟

以下是在公有云服務器上部署Spring Boot工程的詳細步驟: 在公有云服務器上安裝Java運行環境:(記得配置環境變量) sudo apt update sudo apt install default-jre下載和部署Spring Boot工程: 將Spring Boot工程打包成可…

深入Maven:從入門到精通的全面指南

目錄 Maven簡介安裝MavenMaven的基本概念 項目對象模型(POM)依賴管理生命周期插件 Maven命令Maven倉庫Maven的構建生命周期Maven插件Maven與IDE的集成Maven高級主題 多模塊項目自定義插件開發使用profiles 常見問題與解決方案Maven的最佳實踐總結與參考…

后端大量數據返回,采用數據壓縮+分片操作,加快前端響應速度,個人技術總結

1. 業務場景 場景類似于,可以查看到這段時間內指定的所有物品的運動軌跡,可以進行回放操作。 2. 解決方案 2.1. 在不考慮壓縮的情況,可以盡可能減少傳輸數據的大小 比如 {[{"consDept":"A部門","consDeptCode&…

【全開源】房屋出租出售預約系統(FastAdmin+ThinkPHP+Uniapp)

房屋出租出售預約系統:一站式解決房產交易難題 一款基于FastAdminThinkPHPUniapp開發的房屋出租出售預約系統,支持小程序、H5、APP,包含房客、房東(高級授權)、經紀人(高級授權)三種身份。核心功能有:新盤銷售、房屋租賃、地圖找…

Python 技巧分享:NEF 文件的元數據提取

介紹 隨著攝影技術的不斷發展,NEF 文件作為尼康相機的 RAW 格式文件,因其包含豐富的圖像數據和元數據,備受攝影愛好者和專業攝影師的青睞。提取 NEF 文件中的元數據對照片管理、分析及處理具有重要意義。本文將介紹如何使用 Python 技術&…

慎投!Hindawi這本SCI還在檢,這里已被踢!新增14本Scopus期刊被剔除!

本周投稿推薦 SSCI ? 中科院2區,6.0-7.0(錄用友好) EI ? 各領域沾邊均可(2天錄用) CNKI ? 3天內初審錄用,隨即出版(急錄友好) SCI&EI ? 4區生物醫學類,0…

電商數據驅動的決策智慧:深度解析數據采集與應用||電商API接口接入與應用

引言 在數字化時代,數據已成為電商企業最寶貴的資產之一。通過有效的數據采集,企業能夠洞察市場動態、理解消費者需求、優化運營策略,從而在激烈的市場競爭中脫穎而出。本文將深入探討電商數據采集的重要性、常用方法以及應用實踐。 一、電商…

C語言—內存函數

1. memcpy 使用和模擬實現 void* memcpy(void* destination,const void* source,size_t num); 函數memcpy從source的位置開始向后復制num個字節的數據到destination指向的內存位置。這個函數在遇到 ‘\0’ 的時候并不…

Docker 教程-介紹-2

快速了解docker有什么。 Docker簡介 Docker 是一個開源的應用容器引擎,基于Go語言開發,并遵循Apache 2.0協議。它允許開發者將應用及其依賴包打包進一個可移植的容器中,這些容器可以發布到任何支持Docker的Linux或Windows機器上&#xff0c…

神經網絡 torch.nn---Convolution Layers

torch.nn — PyTorch 2.3 documentation torch.nn - PyTorch中文文檔 (pytorch-cn.readthedocs.io) torch.nn和torch.nn.functional的區別 torch.nn是對torch.nn.functional的一個封裝,讓使用torch.nn.functional里面的包的時候更加方便 torch.nn包含了torch.nn.…

Linux日志服務rsyslog深度解析(上)

🐇明明跟你說過:個人主頁 🏅個人專欄:《Linux :從菜鳥到飛鳥的逆襲》🏅 🔖行路有良友,便是天堂🔖 目錄 一、引言 1、日志在Linux系統中的作用 2、rsyslog歷史背景 …

保姆級講解 FTP服務器的搭建、配置與管理

本來目錄很長的 因為感覺不太美觀 所以小標題都刪掉了 本文介紹了 本地用戶的FTP服務器搭建實例匿名用戶的FTP服務器搭建實例虛擬用戶的FTP服務器搭建實例企業常見類型搭建實驗 配置與管理FTP服務器 配置與管理FTP服務器一、FTP相關知識二、項目設計與準備三、項目實施四、認識…

實驗一、網絡傳輸介質————雙絞線 《計算機網絡》

蝙蝠身上長雞毛,忘了自己是什么鳥。 目錄 一、實驗目的 二、實驗內容 1.雙絞線的原理以及分類 2.了解雙絞線的性質、結構與特性 3.掌握雙絞線的制作方法 4.了解雙絞線的材質 5.了解雙絞線的發展趨勢 三、實驗小結 一、實驗目的 1.雙絞線的原理以及分類 2.了…

MyBatisPlus——入門到進階

?作者簡介:大家好,我是 Meteors., 向往著更加簡潔高效的代碼寫法與編程方式,持續分享Java技術內容。🍎個人主頁:Meteors.的博客💞當前專欄:知識分享、知識備份?特色專欄: 知識分享…

【GIS教程】土地利用轉移矩陣

隨著科技社會的不斷進步,人類活動對地理環境的影響與塑造日益明顯,土地不斷的侵蝕與改變也導致一系列的環境問題日益突出。土地利用/覆蓋(LUCC)作為全球環境變化研究的重點問題為越來越多的國際研究機構所重視,研究它的…

Day25 首頁待辦事項及備忘錄添加功能

? 本章節,完成首頁待辦事項及備忘錄添加功能 一.修改待辦事項和備忘錄邏輯處理類,即AddMemoViewModel和AddTodoViewModel 在 AddMemoViewModel邏輯處理類中,為了支持與其關聯的View視圖文件的數據綁定,需要定義一個與視圖文件相匹配的實體類 Model。這個Model將包含 View中…

圖像算法---自動對焦AF

一,CDAF反差對焦原理 CDAF,全稱Contrast Detection Auto Focus,即反差式對焦或對比度檢測自動對焦,是一種廣泛應用于入門級數碼相機和相機模塊化智能手機上的自動對焦技術。以下是關于CDAF反差對焦的詳細介紹: 工作原…

測繪航空攝影乙級資質升級為甲級的過渡期規劃

升級測繪航空攝影乙級資質為甲級通常需要一個詳細的過渡期規劃,這個過程涉及提升技術力量、積累業績、完善管理體系等多個方面。以下是一個概括性的過渡期規劃框架,具體實施時需結合實際情況和最新的資質標準進行調整: 1. 了解最新資質標準 …

每日AI資訊-20240606

智普AI推出全新開源大模型GLM-4-9B 智譜AI日前推出全新開源模型GLM-4-9B,該尺寸模型首次具備多模態能力。據了解,GLM-4-9B,最高支持1M/約兩百萬字上下文輸入,相當于2本《紅樓夢》或125篇論文的長度。性能上,GLM-4-9B函…

《手把手教你》系列練習篇之13-python+ selenium自動化測試 -壓軸篇(詳細教程)

1. 簡介 “壓軸”原本是戲曲名詞,指一場折子戲演出的倒數第二個劇目。在現代社會中有很多應用,比如“壓軸戲”,但壓軸也是人們知識的一個盲區。“壓軸”本意是指倒數第二個節目,而不是人們常說的倒數第一個,倒數第一個…