大數據 - 2. Hadoop - HDFS(分布式文件系統)

前言

為什么海量數據需要分布式存儲技術?

文件過大時,單臺服務器無法承擔,要靠數量來解決。數量的提升帶來的是網絡傳輸、磁盤讀寫、CPU、內存等各方面的提升。?

眾多的服務器一起工作,如何保證高效且不出錯??

大數據體系中,分布式的調度有2類架構模式:去中心化模式、中心化模式

大數據框架大多是:中心化模式:一個中心節點(服務器)來統籌其它服務器的工作,統一指揮,統一調派。 也稱:一主多從模式,簡稱主從模式(Master And Slaves)

去中心化模式:沒有明確的中心。 眾多服務器之間協調工作。

HDFS的簡介

  • Hadoop三大組件(HDFS、MapReduce、YARN)之一
  • 全稱:Hadoop Distributed File System(Hadoop 分布式文件系統)
  • 是Hadoop技術棧內的分布式數據存儲解決方案
  • 可以在多臺服務器上構建集群,存儲海量數據
  • 典型的主從模式架構

HDFS的基礎架構

主角色:NameNode??主角色的輔助: SecondaryNameNode
從角色:DataNode

NameNodeSecondaryNameNodeDataNode
  • HDFS系統的主角色,是一個獨立進程
  • 管理HDFS整個文件系統
  • 管理DataNode
  • NameNode的輔助,是一個獨立進程
  • 幫助NameNode整理元數據(打雜)
  • HDFS系統的從角色,是一個獨立進程
  • 負責數據的存儲,即存入、取出數據

一個典型的HDFS集群,就是由1個DataNode加若干(至少一個)DataNode組成

在VMware 虛擬機中部署HDFS 集群

安裝包下載

下載地址:Apache Hadoop

集群規劃

第一步:VMware 準備3臺虛擬機。硬件配置如下:

服務規劃

前言

什么是分布式計算?

分布式計算:多臺服務器協同工作,共同完成一個計算任務

分布式計算常見的 2 種工作模式

分散->匯總 ?(MapReduce是這種模式)

中心調度->步驟執行 (大數據體系的Spark、Flink是這種模式)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/77317.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/77317.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/77317.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用cursor進行原型圖設計

1.下載cursor 2.模式設置: 模型使用claude-3.7-sonnet的think模式 3.引導詞模板: 我想要開發一個中高考英語口語考試的模擬考試系統,我需要將上面的這個應用輸出成高保真的原型圖設計。請考慮以下的規范: 用戶體驗&#xff1…

極狐GitLab 功能標志詳解

極狐GitLab 是 GitLab 在中國的發行版,關于中文參考文檔和資料有: 極狐GitLab 中文文檔極狐GitLab 中文論壇極狐GitLab 官網 功能標志 (BASIC ALL) 使用功能標志,您可以將應用程序的新功能小批量部署到生產環境中。您可以為部分用戶打開和…

AI與無人駕駛汽車:如何通過機器學習提升自動駕駛系統的安全性?

引言 想象一下,在高速公路上,一輛無人駕駛汽車正平穩行駛。突然,前方的車輛緊急剎車,而旁邊車道有一輛摩托車正快速接近。在這千鈞一發的瞬間,自動駕駛系統迅速分析路況,判斷最安全的避險方案,精…

【NLP 63、大模型應用 —— Agent】

人與人最大的差距就是勇氣和執行力,也是唯一的差距 —— 25.4.16 一、Agent 相關工作 二、Agent 特點 核心特征: 1.專有場景(針對某個垂直領域) 2.保留記憶(以一個特定順序做一些特定任務,記憶當前任務的前…

RAGFlow本地部署教程 :多模態檢索+動態生成,用AI重構企業知識生產力

RAGFlow是一款基于檢索增強生成(RAG)技術的智能工作流平臺,通過整合多源數據檢索與生成式AI模型,優化企業知識管理、智能問答及自動化報告生成,核心功能包括: 多源數據融合:支持數據庫、文檔庫、…

【C/C++】深入理解指針(二)

文章目錄 深入理解指針(二)1.const修飾指針1.1 const修飾變量1.2 const修飾指針變量 2.野指針2.1 野指針成因1.指針未初始化2. 指針越界訪問3.指針指向的空間釋放 2.2 如何規避野指針2.2.1 指針初始化2.2.2 小心指針越界2.2.3 指針變量不再使?時,及時置NULL&#x…

【verilog】在同一個 always 塊中寫了多個“看起來獨立”的 if / if-else,到底誰先誰后,怎么執行?會不會沖突?

🔍 問題本質 在一個 always (posedge clk) 塊中,所有的代碼都是順序執行的。但這不意味著它就像軟件一樣“一條一條執行”,因為最終是電路!電路是并行存在的! Verilog 是硬件描述語言(HDL)&am…

【React】什么是 Hook

useStateuseEffectuseRef 什么是hook?16.8版本出現的新特性。可以在不編寫class組件的情況下使用state以及其它的React特性 為什么有hook?class組件很難提取公共的重用的代碼,然后反復使用;不編寫類組件也可以使用類組件的狀態st…

如何查看自己抖音的IP屬地?詳細教程及如何修改

在當今互聯網時代,IP屬地信息已成為各大社交平臺(如抖音、微博、快手等)展示用戶真實網絡位置的重要功能。以下是關于如何查看抖音IP屬地的詳細教程及常見問題解答,幫助您快速了解相關信息: 一、如何查看抖音賬號的IP屬…

深度學習算力革新:AI服務器在運維工作中的智能化實踐

【導語】作為IT基礎設施服務領域的從業者,我們在日常工作中發現,AI服務器的智能化運維能力正在重塑傳統IDC的管理模式。本文將以DeepSeek系列服務器為例,分享智能算力設備在真實運維場景中的創新應用。 一、傳統服務器集群的運維痛點 在數據…

安裝部署RabbitMQ

一、RabbitMQ安裝部署 1、下載epel源 2、安裝RabbitMQ 3、啟動RabbitMQ web管理界面 啟用插件 rabbitmq數據目錄 創建rabbitmq用戶 設置為管理員角色 給用戶賦予權限 4、訪問rabbitmq

中間件--ClickHouse-4--向量化執行(什么是向量?為什么向量化執行的更快?)

1、向量(Vector)的概念 (1)、向量的定義 向量:在計算機科學中,向量是一組同類型數據的有序集合,例如一個包含多個數值的數組。在數據庫中,向量通常指批量數據(如一列數…

Python PDF 轉 Markdown 工具庫對比與推薦

根據最新評測及開源社區實踐,以下為綜合性能與適用場景的推薦方案: 1. ?Marker? ?特點?: 轉換速度快,支持表格、公式(轉為 LaTeX)、圖片提取,適配復雜排版文檔?。依賴 PyTorch&#xff0c…

Vue 和 Spring boot 和 Bean 不同生命周期

一、Vue 組件生命周期 父子組件生命周期順序: 創建時: 父 beforeCreate → 父 created → 父 beforeMount → 子組件生命周期 → 父 mounted 更新時: 父 beforeUpdate → 子組件更新 → 父 updated。 銷毀時: 父 beforeDestroy…

Microsoft Azure 基礎知識簡介

Microsoft Azure 基礎知識簡介 已完成100 XP 2 分鐘 Microsoft Azure 是一個云計算平臺,提供一系列不斷擴展的服務,可幫助你構建解決方案來滿足業務目標。 Azure 服務支持從簡單到復雜的一切內容。 Azure 具有簡單的 Web 服務,用于在云中托…

C語言鏈接數據庫

目錄 使用 yum 配置 mysqld 環境 查看 mysqld 服務的版本 創建 mysql 句柄 鏈接數據庫 使用數據庫 增加數據 修改數據 查詢數據 獲取查詢結果的行數 獲取查詢結果的列數 獲取查詢結果的列名 獲取查詢結果所有數據 斷開鏈接 C語言訪問mysql數據庫整體源碼 通過…

【Maven】手動安裝依賴到本地倉庫

【Maven】手動安裝依賴到本地倉庫 【一】下載依賴【二】安裝 JAR 文件到本地倉庫【三】驗證安裝【四】在項目中使用該依賴【1】注意事項【2】額外提示 【一】下載依賴 登錄到中央倉庫下載依賴,中央倉庫地址:https://mvnrepository.com/ 搜搜你的依賴的a…

騰訊云golang一面

go垃圾回收機制 參考自:https://zhuanlan.zhihu.com/p/334999060 go 1.3 標記清除法 缺點 go 1.5 三色標記法 屏障機制 插入屏障 但是如果棧不添加,當全部三色標記掃描之后,棧上有可能依然存在白色對象被引用的情況(如上圖的對象9). 所以要對棧重新進行三色標記掃…

跨平臺嵌入式音視頻開發指南:EasyRTC音視頻通話的多場景適配與AI擴展能力

在數字化通信技術飛速發展的今天,實時音視頻通信已成為眾多智能設備和應用的核心功能。從智能家居到遠程辦公,從在線教育到智能安防,音視頻通信技術的應用場景不斷拓展,對低延遲、高穩定性和跨平臺兼容性的需求也在持續增長。在這…

Android 11 去掉性能受到影響通知

源碼位置: frameworks/base/services/core/java/com/android/server/am/ActivityManagerService.java final void finishBooting() {TimingsTraceAndSlog t = new TimingsTraceAndSlog(TAG + "Timing",Trace.TRACE_TAG_ACTIVITY_MANAGER);t.traceBegin("Finis…