MapReduce處理數據流程

(一)Shuffle

MapReduce中的Shuffle過程指的是在Map方法執行后、Reduce方法執行前對數據進行分區排序的階段

(二)處理流程

1. 首先MapReduce會將處理的數據集劃分成多個split,split劃分是邏輯上進行劃分,而非物理上的切分,每個split默認與Block塊大小相同,每個split由1個map task進行處理


2. map task以為單位讀取split中的數據,將數據轉換成K,V格式數據,調用一次map方法執行處理邏輯。Map Task處理完的數據首先寫入到默認100M的環形緩沖區,當環形緩沖區中的空間被使用到80%時數據會發生溢寫。

溢寫的數據會經過分區、快速排序形成小文件數據。(根據Key計算出本條數據應該寫出的分區號,最終在內部得到(K,V,P)格式數據?寫入到當前map task 所在的物理節點磁盤,便于后續reduce task的處理)


3. 為了避免每條數據都產生一次IO,根據split大小不同,可能會發生多次溢寫磁盤過程


4. 每次溢寫磁盤時會對數據進行二次排序:按照數據(K,V,P)中的P(分區)進行排序并在每個P(分區)中按照K進行排序,這樣能保證相同的分區數據放在一起并能保證每個分區內的數據按照key有序。


5. 最終多次溢寫的磁盤文件(多個小文件)?數據會根據歸并排序算法合并成一個完整的磁盤文件,此刻,該磁盤文件特點是分區有序且分區內部數據按照key有序


6. Reduce端每個Reduce task會從每個map task所在的節點上拷貝落地的磁盤文件對應的分區數據,對于每個Reduce task來說,從各個節點上拉取到多個分區數據后,每個分區內的數據按照key分組有序,但是總體來看這些分區文件中key數據不是全局有序狀態(分區數據內部有序,外部無序)。


7. 每個Reduce task需要再通過一次歸并排序,將拷貝過來的所有同一分區數據進行merge,這樣每個分區內的數據變成分區內按照key有序狀態,然后通過Reduce task處理將結果寫出。

(三)HASH分區算法

MapReduce處理數據過程中,map端將數據轉換成K,V格式數據并寫入對應的分區,根據key進行hashcode取值然后與Reduce Task個數取模得到該條數據寫出的分區號。

public class HashPartitioner<K, V> extends Partitioner<K, V> {/** Use {@link Object#hashCode()} to partition. */public int getPartition(K key, V value, int numReduceTasks) {return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;}}
  • hashCode值可能是負數,為了保證key的hashCode非負,所以使用key.hashCode() & Integer.MAX_VALUE 按位與操作
  • ?Map端寫入的分區數默認與Reduce task個數相等

(四)壓縮

在MapReduce中,壓縮是一項常見的優化技術,用于減少數據在存儲和傳輸過程中所占用的空間。通過對輸入、中間和輸出數據進行壓縮,可以有效降低存儲成本、減少網絡傳輸開銷。


?? 壓縮比率對比: bzip2 > gzip > snappy > lzo > lz4,bzip2壓縮比可以達到8:1;gzip壓縮比可以達到5比1;lzo可以達到3:1。
? 壓縮性能對比:lz4 > lzo > snappy > gzip>bzip2 ,lzo壓縮速度可達約50M/s,解壓速度可達約70M/s;gzip速度約為20M/s,解壓速度約為60M/s;bzip2壓縮速度約為2.5M/s,解壓速度約為9.5M/s。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/73532.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/73532.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/73532.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

OrioleDB: 新一代PostgreSQL存儲引擎

PostgreSQL 12 引入了可插拔式的表存儲方法接口&#xff0c;允許為不同的表選擇不同的存儲機制&#xff0c;例如用于 OLTP 操作的堆表&#xff08;HEAP、默認&#xff09;、用于 OLAP 操作的列式表&#xff08;Citus&#xff09;&#xff0c;以及用于超快速搜索處理的內存表。 …

電腦自動關機故障維修案例分享

電腦基本配置&#xff1a; C P U: AMD A10 9700 內存&#xff1a;8G 硬盤&#xff1a;金邦512G固態硬盤 主板&#xff1a;華碩 A320M-F 顯卡&#xff1a;集成&#xff08;核心顯卡&#xff09; 操作系統&#xff1a;Win10專業版 故障描述&#xff1a; 使用一段時間會黑屏…

JVM垃圾收集器相關面試題(1)

垃圾收集與內存管理摘要 一.核心垃圾收集算法對比 算法原理優點缺點適用場景標記-清除兩次遍歷&#xff08;標記存活對象→清除未標記對象&#xff09;實現簡單內存碎片化、雙遍歷效率低老年代&#xff08;結合整理&#xff09;標記-復制內存對半分&#xff0c;存活對象復制到…

棧(LIFO)算法題

1.刪除字符串中所有相鄰的重復字符 注意&#xff0c;我們需要重復處理&#xff0c;而不是處理一次相鄰的相同元素就結束了。對示例來說&#xff0c;如果只進行一次處理&#xff0c;結果為aaca&#xff0c;但是處理之后又出現了相鄰的重復元素&#xff0c;我們還得繼續處理&…

conda的基本使用及pycharm里設置conda環境

創建conda環境 conda create --name your_env_name python3.8 把your_env_name換成實際的conda環境名稱&#xff0c;python后邊的根據自己的需要&#xff0c;選擇python的版本。 激活conda環境 conda activate your_env_name 安裝相關的包、庫 conda install package_name …

Python基于深度學習的多模態人臉情緒識別研究與實現

一、系統架構設計 A[數據采集] --> B[預處理模塊] B --> C[特征提取] C --> D[多模態融合] D --> E[情緒分類] E --> F[系統部署] F --> G[用戶界面] 二、數據準備與處理 1. 數據收集 - 視頻數據&#xff1a;FER2013&#xff08;靜態圖像&#xff0…

synchronized與 Java內置鎖(未寫完)

文章目錄 一、 synchronized 關鍵字二、Java對象結構1. 對象頭2. 對象體3. 對齊字節4. 對象頭中的字段長度5. Mark Word 的結構信息6. 使用 JOL 工具查看對象的布局 三、Java 內置鎖機制3.1 內置鎖的演進過程1. 無鎖狀態2. 偏向鎖狀態3. 輕量級鎖狀態4. 重量級鎖狀態 一、 sync…

LLM(3): Transformer 架構

Transformer 架構是當前大語言模型的主力架構和基礎技術&#xff0c;本文以通俗易懂的方式&#xff0c;對此作簡要介紹。 1.4 介紹 Transformer 架構 大多數現代的大規模語言模型&#xff08;LLMs&#xff09;依賴于 Transformer 架構&#xff0c;這是一種在 2017 年的論文《…

11.【.NET 8 實戰--孢子記賬--從單體到微服務--轉向微服務】--微服務基礎工具與技術--Ocelot 網關--整合日志

網關作為微服務架構的入口&#xff0c;承載著各服務間的請求轉發與安全校驗&#xff0c;其日志信息尤為關鍵。通過整合網關日志&#xff0c;可以將分散在不同系統中的訪問記錄、錯誤提示和異常信息集中管理&#xff0c;為問題排查提供全景視角。在排查故障時&#xff0c;統一日…

88.HarmonyOS NEXT 性能監控與調試指南:構建高性能應用

溫馨提示&#xff1a;本篇博客的詳細代碼已發布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下載運行哦&#xff01; HarmonyOS NEXT 性能監控與調試指南&#xff1a;構建高性能應用 文章目錄 HarmonyOS NEXT 性能監控與調試指南&#xff1a;構建高性能應用1. 性能監…

012---狀態機的基本知識

1. 摘要 文章為學習記錄。主要介紹狀態機概述、狀態轉移圖、狀態編碼、狀態機寫法、狀態機代碼示例。 2. 狀態機概述 狀態機 &#xff08;Finite State Machine&#xff09;&#xff0c;也稱為同步有限狀態機&#xff0c;用于描述有先后順序或時序規律的事情。 “同步”&…

deepseek+kimi做ppt教程記錄

1.首先注冊deepseek和kimi deepseek官網&#xff1a;https://chat.deepseek.com/ kimi官網&#xff1a;https://kimi.moonshot.cn/ 以下以一篇工作總結報告為例 2.使用deepseek生成ppt大綱 讓deepseek生成kimi生成ppt所需要的內容時&#xff0c;需要注意提示詞內容&#xff0c;…

Java Module介紹

Java模塊系統自Java 9開始引入&#xff0c;旨在提供更強大的封裝機制、清晰的依賴關系定義以及可靠的配置。Java平臺本身也被模塊化了&#xff0c;提供了多個核心模塊以及其他用于支持不同功能的模塊。以下是一些重要的Java標準模塊&#xff1a; java.base - 這是最基礎的模塊…

SOME/IP:用Python實現協議訂閱、Offer、訂閱ACK與報文接收

文章目錄 前言一、代碼層次二、詳細代碼1. eth_scapy_sd.py2、eth_scapy_someip.py3、network_define.py4、packet_define.py5、unpack_define.py6、someip_controller.py 前言 1、需要pip安裝scapy庫 2、需要修改根據實際情況配置network_define.py 3、執行someip_controller…

【Linux內核系列】:文件系統收尾以及軟硬鏈接詳解

&#x1f525; 本文專欄&#xff1a;Linux &#x1f338;作者主頁&#xff1a;努力努力再努力wz &#x1f4aa; 今日博客勵志語錄&#xff1a; 世界上只有一種個人英雄主義&#xff0c;那么就是面對生活的種種失敗卻依然熱愛著生活 內容回顧 那么在之前的學習中&#xff0c;我們…

最新版Chrome瀏覽器加載ActiveX控件技術--allWebPlugin中間件一鍵部署瀏覽器擴展

allWebPlugin簡介 allWebPlugin中間件是一款為用戶提供安全、可靠、便捷的瀏覽器插件服務的中間件產品&#xff0c;致力于將瀏覽器插件重新應用到所有瀏覽器。它將現有ActiveX控件直接嵌入瀏覽器&#xff0c;實現插件加載、界面顯示、接口調用、事件回調等。支持Chrome、Firefo…

基于SpringBoot和MybatisPlus實現通用Controller

基于SpringBoot和MybatisPlus實現通用Controller&#xff0c;只需要創建實體類和mapper接口&#xff0c;單表增刪改查接口就已經實現&#xff0c;提升開發效率 1.定義通用controller package com.xian.controller;import cn.hutool.core.map.MapUtil; import com.baomidou.my…

Axure大屏可視化原型模板及素材:數據可視化的高效解決方案

數據可視化已成為企業決策、運營分析、市場洞察的重要工具。數據可視化大屏&#xff0c;作為數據展示和交互的直觀平臺&#xff0c;能夠實時呈現關鍵數據&#xff0c;幫助企業快速做出決策。Axure作為原型設計領域的領先工具&#xff0c;以其豐富的組件庫、強大的交互設計能力和…

YOLOE:實時查看任何事物

摘要 https://arxiv.org/pdf/2503.07465v1 目標檢測和分割在計算機視覺應用中得到了廣泛應用&#xff0c;然而&#xff0c;盡管YOLO系列等傳統模型高效且準確&#xff0c;但它們受限于預定義的類別&#xff0c;阻礙了在開放場景中的適應性。最近的開放集方法利用文本提示、視覺…

【品鉑科技工業生產應用案例解析】

品鉑科技&#xff08;Pinpoint&#xff09;在工業領域的高精度定位解決方案已廣泛應用于電力、鋼鐵、倉儲、化工、地鐵等場景&#xff0c;以下為典型應用案例及技術方案&#xff1a; 一、?電力行業&#xff1a;上海閔行電廠人員定位? 白鶴灘水力發電站 ?項目需求?&#x…