java 寫tb級文件_三管齊下!TB 級文件的上傳性能瞬間被優化 100 倍!

f0398bfc9accae3169289246bdf98c81.gif

807312f032a9dae00fe0b968e328ed63.png

作者 | 中華石杉

責編 | 伍杏玲

本文經授權轉載石杉的架構筆記(ID:shishan100)

這篇文章我們來看看,世界上最優秀的分布式文件系統HDFS,是如何對超大文件的上傳做性能優化的?

首先,我們還是通過一張圖來看一下文件上傳的大概的原理。

20fbb77798e427ac58a3d5bb126493f5.png

由上圖所示,文件上傳的原理,其實說出來也簡單。

比如有個TB級的大文件,太大了,HDFS客戶端會給拆成很多block,一個block就是128MB。

這個HDFS客戶端你可以理解為是云盤系統、日志采集系統之類的東西。

比如有人上傳一個1TB的大文件到網盤,或者是上傳個1TB的大日志文件。

然后,HDFS客戶端把一個一個的block上傳到第一個DataNode

第一個DataNode會把這個block復制一份,做一個副本發送給第二個DataNode。

第二個DataNode發送一個block副本到第三個DataNode。

所以你會發現,一個block有3個副本,分布在三臺機器上。任何一臺機器宕機,數據是不會丟失的。

最后,一個TB級大文件就被拆散成了N多個MB級的小文件存放在很多臺機器上了,這就是分布式存儲。

8199d732327228e234d3b4f3e724838d.png

原始的文件上傳方案

今天要討論的問題,就是HDFS客戶端上傳TB級大文件時候,是怎么上傳呢?

我們先來考慮一下,如果用一個比較原始的方式來上傳,應該怎么做?

大概能想到的是下面這個圖里的樣子。

799a4092c1552b18f8ae5be4296d1c11.png

很多Java的初學者,估計都知道這樣來上傳文件。

其實無非就是不停的從本地磁盤文件用輸入流讀取數據,讀到一點,就立馬通過網絡的輸出流寫到DataNode里去。

上面這種流程圖的代碼,估計剛畢業的同學都可以立馬寫出來。因為對文件的輸入流最多就是個FileInputStream。而對DataNode的輸出流,最多就是個Socket返回的OutputStream。

然后中間找一個小的內存byte[]數組,進行流對拷就行了,從本地文件讀一點數據,就給DataNode發一點數據。

但是如果你要這么弄,性能是極其低下的,網絡通信講究的是適當頻率,每次batch批量發送。

你得讀一大批數據,通過網絡通信發一批數據,不能說讀一點點數據,就立馬來一次網絡通信,就發出去這一點點的數據。

所以如果按照上面這種原始的方式,絕對會導致網絡通信效率極其低下,大文件上傳性能很差,為什么這么說?

相當于你可能剛讀出來幾百個字節的數據,立馬就寫網絡,卡頓個比如幾百毫秒。

然后再讀下一批幾百個字節的數據,再寫網絡卡頓個幾百毫秒,這個性能很差,在工業級的大規模分布式系統中,是無法容忍的。

e7b72f0f36074b8102b545402823fae8.png

如何對大文件上傳進行性能優化?

好,看完了原始的文件上傳,我們來看看Hadoop中分布式文件系統HDFS,是如何對大文件上傳進行性能優化的?

一起來看看下面那張圖。

cec2a56d66268faa01807a50eca740d3.png

首先你需要自己創建一個針對本地TB級磁盤文件的輸入流,然后讀到數據之后立馬寫入HDFS提供的FSDataOutputStream輸出流。

這個FSDataOutputStream輸出流在干啥?大家覺得他會天真的立馬把數據通過網絡傳輸寫給DataNode嗎?

答案當然是否定的了!這么干的話,不就跟之前的那種方式一樣了!

1.??Chunk緩沖機制

首先,數據會被寫入一個chunk緩沖數組,這個chunk是一個512字節大小的數據片段,你可以這么來理解。

然后這個緩沖數組可以容納多個chunk大小的數據在里面緩沖。

光是這個緩沖,首先就可以讓客戶端快速的寫入數據了,不至于說幾百字節就要進行一次網絡傳輸,想一想,是不是這樣?

2.?Packet數據包機制

接著,當chunk緩沖數組都寫滿了之后,就會把這個chunk緩沖數組進行一下chunk切割,切割為一個一個的chunk,一個chunk是一個數據片段。

然后多個chunk會直接一次性寫入另外一個內存緩沖數據結構,就是Packet數據包

一個Packet數據包,設計為可以容納127個chunk,大小大致為64mb。所以說大量的chunk會不斷的寫入Packet數據包的內存緩沖中。

通過這個Packet數據包機制的設計,又可以在內存中容納大量的數據,進一步避免了頻繁的網絡傳輸影響性能

3.?內存隊列異步發送機制

當一個Packet被塞滿了chunk之后,就會將這個Packet放入一個內存隊列來進行排隊。

然后有一個DataStreamer線程會不斷的獲取隊列中的Packet數據包,通過網絡傳輸直接寫一個Packet數據包給DataNode。

如果一個Block默認是128mb的話,那么一個Block默認會對應兩個Packet數據包,每個Packet數據包是64MB。

也就是說,傳送兩個Packet數據包給DataNode之后,就會發一個通知說,一個Block的數據都傳輸完畢。

這樣DataNode就知道自己收到一個Block了,里面包含了人家發送過來的兩個Packet數據包。

1b72fa5d7d476793e338dd3494b19901.png

總結

OK,大家看完了上面的那個圖以及Hadoop的HDFS采取的大文件上傳機制,是不是感覺設計的很巧妙?

說白了,工業級的大規模分布式系統,都不會采取特別簡單的代碼和模式,那樣性能很低下。

這里都有大量的并發優化、網絡IO優化、內存優化、磁盤讀寫優化的架構設計、生產方案在里面。

所以大家觀察上面那個圖,HDFS客戶端可以快速的將TB級大文件的數據讀出來,然后快速的交給HDFS的輸出流寫入內存。

基于內存里的chunk緩沖機制、packet數據包機制、內存隊列異步發送機制。絕對不會有任何網絡傳輸的卡頓,導致大文件的上傳速度變慢。

反而通過上述幾種機制,可以上百倍的提升一個TB級大文件的上傳性能。

作者簡介:中華石杉,十余年BAT架構經驗傾囊相授

公眾號:石杉的架構筆記(ID:shishan100)

14e46a21f479ff4d7f5186069943f57b.png

熱 文?推 薦

202871630f120ffb276f0e5b08c84702.png

你點的每個“在看”,我都認真當成了喜歡

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/457214.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/457214.shtml
英文地址,請注明出處:http://en.pswp.cn/news/457214.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

CentOS7下安裝Redis — 單節點

2019獨角獸企業重金招聘Python工程師標準>>> 1. 環境準備 安裝編譯所需要的包: yum install gcc tcl 2. 下載redis http://download.redis.io/releases/redis-3.2.7.tar.gz 3. 安裝redis ## 創建redis的安裝目錄 mkdir /usr/local/redis## 解壓redis tar…

筆記本中美化代碼的方法

這里向大家推薦一個很好用的記筆記軟件,微軟的OneNote,這個筆記軟件,支持分區和分區組的創建,而且入門簡單,界面簡潔,很適合從word過渡過來的人來記筆記! 不過如果直接記筆記,對于程序員來說,可能希望代碼在筆記本上更好看一些,那么應該怎么辦呢?下面提供了在OneNote中,讓代碼…

工具使用——印象(匯總)

作者:桂。 時間:2017-02-09 23:11:30 鏈接:http://www.cnblogs.com/xingshansi/articles/6384097.html 說明:轉載請注明出處,謝謝。 前言 本文僅僅介紹印象筆記的使用,至于挖掘機哪家強,本文不…

java final修飾屬性_Java final關鍵字用來修飾類、方法、屬性

1.final修飾類:這個類不能被繼承。如:String類、StringBuffer類、System類。2.final修飾方法:不能被重寫。如:Object類的getClass()方法。3.final修飾屬性:此屬性就是一個常量,一旦初始化就不可再被賦值。習…

SQL SERVER 數據導出JSON

執行下面的存儲過程: SET ANSI_NULLS ONGOSET QUOTED_IDENTIFIER ONGOCREATE PROCEDURE[dbo].[SerializeJSON](ParameterSQL AS VARCHAR(MAX))ASBEGINDECLARE SQL NVARCHAR(MAX)DECLARE XMLString VARCHAR(MAX)DECLARE XML XMLDECLARE Paramlist NVARCHAR(1000)SET …

JSP+Javabean+Servlet實現用戶注冊

在entity包下新建javabean 也就是實體類User 注意id用 Integer 而不用 int, 因為 int 自動初始化為0 public class User { private Integer id; private String username; private String password; 后面是set和get方法... 在Servlet包下創建servlet 右擊Servlet…

main的方法是Java_Java中的main()方法

在Java中,main()方法是Java應用程序的入口方法,也就是說,程序在運行的時候,第一個執行的方法就是main()方法,這個方法和其他的方法有很大的不同,比如方法的名字必須是main,方法必須是public sta…

深入理解Python的logging模塊:從基礎到高級

在Python編程中,日志記錄是一種重要的調試和錯誤追蹤工具。Python的logging模塊提供了一種靈活的框架,用于發出日志消息,這些消息可以被發送到各種輸出源,如控制臺、文件、HTTP GET/POST位置等。本文將深入探討Python的logging模塊…

http請求連接

1、在Info.plist中添加NSAppTransportSecurity類型Dictionary。2、在NSAppTransportSecurity下添加NSAllowsArbitraryLoads類型Boolean,值設為YES轉載于:https://www.cnblogs.com/liuting-1204/p/5919233.html

數據庫不完全恢復 以及恢復到測試環境:

sample 1: 1.清空歸檔日志 RMAN> crosscheck archivelog all; RMAN> delete achivelog all; 2.清空數據文件。 select name from v$datafile; rm v$datafile 3.恢復數據 ##check file date: ##把db數據恢復到:2017-02-05 00:00:00 ls -lt /ngenprdblog/ ls…

centos7安裝java6_CentOS7.6安裝jdk1.8

2、登錄Linux服務器,通過rz命令將jdk導入服務器如果沒有rz命令 需要先安裝lrzszyum install lrzsz -y3、將jdk壓縮包解壓到指定路徑 -C 指定路徑4、配置環境變量編輯/etc/profile文件 在末尾加上以下內容 wq保存退出source /etc/profile文件 使配置文件生效export J…

ubuntu安裝wkhtmltopdf

下載安裝wkhtmltox系統環境 http://wkhtmltopdf.org/downloads.html wget https://bitbucket.org/wkhtmltopdf/wkhtmltopdf/downloads/wkhtmltox-0.13.0-alpha-7b36694_linux-precise-amd64.deb dpkg -i 安裝包名字 當我把它生成pdf的時候我想讓每個塊都是一頁,經過…

人生苦短,我用python——當我在玩python的時候我玩些什么 -

程序的基本思路 用一個txt文件記錄電腦的一天內累計使用時間累計使用時間超過若干小時就會自動關機程序開機自動運行 為什么我最后選擇了python 想著怎么寫、搜資料的時候就發現Java并不適合,雖然不是不能實現,但有好幾個問題解決起來都有點麻煩。對我這…

IO流的練習5 —— 讀取文件中的字符串,排序后寫入另一文件中

需求:已知s.txt文件中有這樣的一個字符串:“hcexfgijkamdnoqrzstuvwybpl”     請編寫程序讀取數據內容,把數據排序后寫入ss.txt中。分析:   A:讀取文件中的數據   B:把數據存在一個字符串中   C…

java解析未知key json_Gson解析JSON中動態未知字段key的方法

前面一篇文章我介紹了Gson的解析的基本方法。但我們在享受Gson解析的高度封裝帶來的便利時,有時可能會遇到一些特殊情況,比如json數據中的字段key是動態可變的時候,由于Gson是使用靜態注解的方式來設置實體對象的,因此我們很難直接…

Twisted入門教程(5)

2019獨角獸企業重金招聘Python工程師標準>>> 第五部分:由Twited支持的詩歌下載服務客戶端 你可以從這里從頭開始閱讀這個系列 抽象地構建客戶端 在第四部分中,我們構建了第一個使用Twisted的客戶端。它確實能很好地工作,但仍有提高…

Jquery 學習之基礎一

1.添加一個CSS類 $("button").click(function(){ $("#div1").addClass("important blue");}); 2.移除一個類 $("button").click(function(){ $("h1,h2,p").removeClass("blue");}); 3.切換類 $("button&…

**print('人生苦短 我愛Python')**

print(‘人生苦短 我愛Python’) 一、變量 **""" 1.代碼自上而下執行 2_運算符和表達式.一行一句,不要把多個語句寫到一行上,可讀性不好 3中文只能出現在引號里,其他地方不能出現中文 4不能隨意縮進 """**pr…

java線程提高速度_如何在JAVA中減慢線程速度

我有這個類,我在其中運行10次for循環.該類實現了Runnable接口.現在在main()中我創建了2個線程.現在兩個都將循環運行到10.但我想檢查每個線程的循環計數.如果t1超過7,則讓它休眠1秒,以便讓t2完成.但是如何實現這一目標呢?請參閱代碼.我嘗試但看起來完全愚蠢.只是如何…

(轉ORCLE導入導出命令)

oracle數據庫導入導出命令!Oracle數據導入導出imp/exp 功能:Oracle數據導入導出imp/exp就相當與oracle數據還原與備份。 大多情況都可以用Oracle數據導入導出完成數據的備份和還原(不會造成數據的丟失)。 Oracle有個好處&…