初識Hadoop:大數據與Hadoop概述

1、大數據概述

大數據(big data),IT行業術語,是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

大數據的主要特點(4V)是:

  1. 數據量大(Volume)
  2. 數據類別復雜(Variety)
  3. 數據處理速度快(Velocity)
  4. 和數據真實性高(Veracity)

還有的將大數據特點定義為6V模型,即增加了Valence(連接)、Value(價值)2V。

大數據相關的技術、框架:

  • 計算框架 離線計算:Hadoop MapReduce、Spark 實時計算:Storm、Spark Streaming、Flink
  • 存儲框架 文件存儲:Hadoop HDFS、Tachyon、KFS NOSQL數據庫:HBase、MongoDB、Redis 全文檢索:ES、Solr
  • 資源管理 YARN、Mesos
  • 日志收集 Flume、Logstash
  • 消息系統 Kafka、StormMQ、ZeroMQ、RabbitMQ
  • 查詢分析 Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid

2、Hadoop

Hadoop 在大數據技術體系中的地位至關重要,Hadoop 是大數據技術的基礎,對Hadoop基礎知識的掌握的扎實程度,會決定在大數據技術道路上走多遠。

hadoop是什么?

  • Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。
  • 主要解決數據存儲和海量數據的分析計算問題。
  • 廣義上說,Hadoop通常指一個廣泛的概念——Hadoop生態圈。

Hadoop的優勢!

  • 高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。
  • 高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
  • 高效性。Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非常快。
  • 高容錯性。Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
  • 低成本。與一體機、商用數據倉庫以及QlikView、Yonghong
    Z-Suite等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。

Hadoop帶有用Java語言編寫的框架,因此運行在 Linux 生產平臺上是非常理想的。

hadoop的組成!

  • HDFS: Hadoop Distributed File System 分布式文件系統
  • YARN: Yet Another Resource Negotiator 資源管理調度系統
  • Mapreduce:分布式運算框架

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/535868.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/535868.shtml
英文地址,請注明出處:http://en.pswp.cn/news/535868.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

W3C近期要聞:W3C戰略重點報告新版發布

作者 | W3C中國 「OpenWeb開發者」依托于BOW(Brillant Open Web)團隊,是一個專門的 Web 技術建設小組,致力于推動 OpenWeb 技術的發展,將不定期為讀者同步W3C要聞。 注:由于微信不支持外鏈,了解…

Hadoop的安裝及配置

PS:最新安裝教程請參考Hadoop的安裝與配置(設置單節點群集)詳細教程 1、Hadoop安裝前準備工作: 在開始Hadoop安裝與配置之前,需要準備的環境:Linux系統、配置JDK環境變量。 2、安裝 我們可以到Apache Hadoop的官網ht…

在 PWA 中使用 App Shell 模型提升性能和用戶感知體驗

作者|潘宇琪 編輯|Daisy 在構建 PWA 應用時,使用 App Shell 模型能夠在視覺和首屏加載速度方面帶來用戶體驗的提升。另外,在配合 Service Worker 離線緩存之后,用戶在后續訪問中將得到快速可靠的瀏覽體驗。 在實踐過…

【轉】超酷的 mip-infinitescroll 無限滾動(無限下拉)

寫在前面 無限滾動技術(又叫做無限下拉技術)被廣泛應用于新聞類,圖片預覽類網站。對用戶來講,使用無限滾動的頁面有源源不斷的信息可以預覽,增加用戶在頁面的停留時長。技術上原理也很簡單,在頁面加載時加…

日常問題——Mac下新建目錄報Read-only file system

問題描述: 今天在根目錄下,新建目錄時出現了Read-only file system提示為只讀的錯誤。電腦最近并沒有非正常關機之類可能導致文件損傷的操作,但是最近倒是進行了一次系統更新。 解決方案(過程): 從系統更…

MongoDB(二):MongoDB的安裝

這里以OSX系統為例,window和linux可以參考https://www.runoob.com/mongodb/mongodb-linux-install.html 1、我們使用 curl 命令來下載安裝: # 進入 /usr/local cd /usr/local# 下載 sudo curl -O https://fastdl.mongodb.org/osx/mongodb-osx-ssl-x86_…

百度推出 MIP Baidu Path鏈接

在站長將站點 MIP 化時,需要關注 URL 的一共有三個:MIP URL, MIP-Cache URL 以及 MIP Baidu Path。 從 URL 說起 在互聯網中,URL 定義頁面的地址,每個 URL 對應一個頁面。而 MIP URL 則是 MIP 頁的原始地址,指向托管…

Postman接口測試(超詳細整理)

常用的接口測試工具主要有以下幾種 Postman:簡單方便的接口調試工具,便于分享和協作。具有接口調試,接口集管理,環境配置,參數化,斷言,批量執行,錄制接口,Mock Server, …

mip-link 組件功能升級說明

背景描述 某個頁面被多少頁面引用(在其他頁面上有指向這個頁面的 a 標簽),是搜索引擎判斷這個頁面價值的其中一個因子。這里的搜索引擎不只是指百度,還包括國內外其他的搜索引擎。 MIP 在最初設計 MIP url 跳轉邏輯實現時&#…

日常問題——使用Xshell 連接虛擬機報錯 Disconnected from remote host

問題描述: 使用Xshell進行連接虛擬機的操作時出現了Disconnected from remote host的錯誤! 解決方案(過程): 1、vim /etc/ssh/sshd_config 2、#UseDNS yes改為UseDNS no 3、重啟service sshd restart 問題解決&…

【轉】AB實驗設計思路及實驗落地

這篇文章會討論: 1. 在什么情況下需要做 AB 實驗 2. 從產品/交互角度,如何設計一個實驗 3. 前端工程師如何打點 4. 如何統計數據,并保證數據準確可信 5. 如何分析實驗數據,有哪些數據需要重點關注 6. 附:如何搭建…

簡單實現MySQL數據實時增量同步到Kafka————Maxwell

任務需求:將MySQL里的數據實時增量同步到Kafka 1、準備工作 1.1、MySQL方面:開啟BinLog 1.1.1、修改my.cnf文件 vi /etc/my.cnf [mysqld] server-id 1 binlog_format ROW1.1.2、重啟MySQL,然后登陸到MySQL之后,查看是否已經修改過來: …

【轉】mip-semi-fixed 走走又停停

寫在前面 MIP 中懸浮元素的特殊情況 其實組件上線已經有一段時間了,最開始看到這個需求是站長提交了一個這中功能的組件過來,不過看過代碼立刻就想到了 MIP 頁面的特殊性:從結果頁打開的 MIP 頁面,是嵌套在一個 iframe 之中的。…

Mac使用Homebrew安裝Kafka

1、使用brew install命令安裝Kafka $ brew install kafka安裝過程將依賴安裝 zookeeper軟件位置 /usr/local/Cellar/zookeeper /usr/local/Cellar/kafka配置文件位置 /usr/local/etc/kafka/zookeeper.properties /usr/local/etc/kafka/server.properties 備注:后…

廣州站長沙龍 MIP 問題及答案

1. mip提交幾個月時間了,生效量比較少,是什么原因? 答:提交 MIP 頁面后,經過收錄、校驗、和生效三個步驟,才能在結果頁看到閃電標。 1)提交 URL 后,spider 會去抓取收錄&#xff1…

日常問題——初始化Hive倉庫報錯com.google.common.base.Preconditions.checkArgument

問題描述: 初始化Hive倉庫報錯Exception in thread “main” java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V 解決方案(過程): com.google.commo…

【轉】百度站長平臺MIP引入工具使用心得

MIP引入主動推送流程 對于 MIP 站點改造好了,我們如何提交數據,并且 MIP 提交后,我們能得到哪些數據的反饋,在這里簡單的寫一篇文章,說一下。 改造 MIP,我們一般是添加了一個二級域名站點進行改造&#x…

Hadoop之HDFS應用

1、通過http://127.0.0.1:8088/即可查看集群所有節點狀態: 2、訪問http://localhost:9870/即可查看文件管理頁面(在3.0.0中在之前的版本中文件管理的端口是50070,替換為了9870端口): ————進入文件系統 ————…

MIP ACCESS細節剖析

什么是 MIP ACCESS MIP ACCESS 由百度 MIP 團隊開發的一種頁面訪問權限控制機制,能夠允許網頁發布者在頁面元素中定義內容標記,并結合用戶訪問情況進行綜合評價,從而展現或隱藏頁面中內容,直至用戶登錄、訂閱或付費后才能夠查看隱…

HDFS常用Shell命令

1、-ls: 顯示目錄信息 hadoop fs -ls /2、-mkdir:在HDFS上創建目錄 hadoop fs -mkdir -p /demo/test3、-moveFromLocal:從本地剪切粘貼到HDFS hadoop fs -moveFromLocal a.txt /demo/test/a.txt4、-appendToFile:追加一個文件到已經存在…