【大數據】最新大數據學習路線(完整詳細版,含整套教程)

大數據學習路線

java(Java se,javaweb)
Linux(shell,高并發架構,lucene,solr)
Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)
機器學習(R,mahout)
Storm(Storm,kafka,redis)
Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)
Python(python,spark python)?
云計算平臺(docker,kvm,openstack)

一、Linux
lucene: 全文檢索引擎的架構
solr: 基于lucene的全文搜索服務器,實現了可配置、可擴展并對查詢性能進行了優化,并且提供了一個完善的功能管理界面。

二、Hadoop
HDFS: 分布式存儲系統,包含NameNode,DataNode。NameNode:元數據,DataNode。DataNode:存數數據。
yarn: 可以理解為MapReduce的協調機制,本質就是Hadoop的處理分析機制,分為ResourceManager NodeManager。
MapReduce: 軟件框架,編寫程序。
Hive: 數據倉庫 可以用SQL查詢,可以運行Map/Reduce程序。用來計算趨勢或者網站日志,不應用于實時查詢,需要很長時間返回結果。
HBase: 數據庫。非常適合用來做大數據的實時查詢。Facebook用Hbase存儲消息數據并進行消息實時的分析
ZooKeeper: 針對大型分布式的可靠性協調系統。Hadoop的分布式同步等靠Zookeeper實現,例如多個NameNode,active standby切換。
Sqoop: 數據庫相互轉移,關系型數據庫和HDFS相互轉移
Mahout: 可擴展的機器學習和數據挖掘庫。用來做推薦挖掘,聚集,分類,頻繁項集挖掘。
Chukwa: 開源收集系統,監視大型分布式系統,建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。
Ambari: 用于配置、管理和監視Hadoop集群,基于Web,界面友好。

二、Cloudera
Cloudera Manager: 管理 監控 診斷 集成
Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera對Hadoop做了相應的改變,發行版本稱為CDH。
Cloudera Flume: 日志收集系統,支持在日志系統中定制各類數據發送方,用來收集數據。
Cloudera Impala: 對存儲在Apache Hadoop的HDFS,HBase的數據提供直接查詢互動的SQL。
Cloudera hue: web管理器,包括hue ui,hui server,hui db。hue提供所有CDH組件的shell界面的接口,可以在hue編寫mr。

三、機器學習/R
R: 用于統計分析、繪圖的語言和操作環境,目前有Hadoop-R
mahout: 提供可擴展的機器學習領域經典算法的實現,包括聚類、分類、推薦過濾、頻繁子項挖掘等,且可通過Hadoop擴展到云中。

四、storm
Storm: 分布式,容錯的實時流式計算系統,可以用作實時分析,在線機器學習,信息流處理,連續性計算,分布式RPC,實時處理消息并更新數據庫。
Kafka: 高吞吐量的分布式發布訂閱消息系統,可以處理消費者規模的網站中的所有動作流數據(瀏覽,搜索等)。相對Hadoop的日志數據和離線分析,可以實現實時處理。目前通過Hadoop的并行加載機制來統一線上和離線的消息處理
Redis: 由c語言編寫,支持網絡、可基于內存亦可持久化的日志型、key-value型數據庫。

五、Spark
Scala: 一種類似java的完全面向對象的編程語言。
jblas: 一個快速的線性代數庫(JAVA)。基于BLAS與LAPACK,矩陣計算實際的行業標準,并使用先進的基礎設施等所有的計算程序的ATLAS藝術的實現,使其非常快。
Spark: Spark是在Scala語言中實現的類似于Hadoop MapReduce的通用并行框架,除了Hadoop MapReduce所具有的優點,但不同于MapReduce的是job中間輸出結果可以保存在內存中,從而不需要讀寫HDFS,因此Spark能更好的適用于數據挖掘與機器學習等需要迭代的MapReduce算法。可以和Hadoop文件系統并行運作,用過Mesos的第三方集群框架可以支持此行為。
Spark SQL: 作為Apache Spark大數據框架的一部分,可用于結構化數據處理并可以執行類似SQL的Spark數據查詢
Spark Streaming: 一種構建在Spark上的實時計算框架,擴展了Spark處理大數據流式數據的能力。
Spark MLlib: MLlib是Spark是常用的機器學習算法的實現庫,目前(2014.05)支持二元分類,回歸,聚類以及協同過濾。同時也包括一個底層的梯度下降優化基礎算法。MLlib以來jblas線性代數庫,jblas本身以來遠程的Fortran程序。
Spark GraphX: GraphX是Spark中用于圖和圖并行計算的API,可以在Spark之上提供一站式數據解決方案,可以方便且高效地完成圖計算的一整套流水作業。
Fortran: 最早出現的計算機高級程序設計語言,廣泛應用于科學和工程計算領域。
BLAS: 基礎線性代數子程序庫,擁有大量已經編寫好的關于線性代數運算的程序。
LAPACK: 著名的公開軟件,包含了求解科學與工程計算中最常見的數值線性代數問題,如求解線性方程組、線性最小二乘問題、特征值問題和奇異值問題等。
ATLAS: BLAS線性算法庫的優化版本。
Spark Python: Spark是由scala語言編寫的,但是為了推廣和兼容,提供了java和python接口。

六、Python
Python: 一種面向對象的、解釋型計算機程序設計語言。

七、云計算平臺
Docker: 開源的應用容器引擎
kvm: (Keyboard Video Mouse)
openstack:開源的云計算管理平臺項目
?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456167.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456167.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456167.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

264編碼基本概念 FFMpeg的解碼流程

下面轉自http://topic.csdn.net/u/20081020/16/7156e0b2-dbfb-4b4f-af59-2be04cf9a420.html 的8樓 1、NAL、Slice與frame意思及相互關系 NAL指網絡提取層,里面放一些與網絡相關的信息Slice是片的意思,264中把圖像分成一幀(frame)…

谷歌瀏覽器開發調試工具中Sources面板 js調試等 完全介紹

這次分享的是Chrome開發工具中最有用的面板Sources。 Sources面板幾乎是我最常用到的Chrome功能面板,也是在我看來決解一般問題的主要功能面板。通常只要是開發遇到了js報錯或者其他代碼問題,在審視一遍自己的代碼而一無所獲之后,我首先就會打…

java XML解析防止外部實體注入

/** * 增加防止部實體注入邏輯* <功能詳細描述>* param reader* throws SAXException* see [類、類#方法、類#成員]*/public static void setReaderFeature(SAXReader reader)throws SAXException{reader.setFeature("http://apache.org/xml/features/disallow-doct…

【Python】最新Python學習路線(完整詳細版,含整套教程)

python目前應用最廣的三個崗位&#xff1a;全棧開發、數據分析、運維開發&#xff0c;今天我們就以這三個重點的崗位來做一下自學Python的規劃&#xff0c;希望你在學之前就能有明確的學習方向。 最近開始整理python的資料&#xff0c;博主建立了一個qq群&#xff0c;希望給大家…

程序員,軟件測試知多少?

送給初級程序員的測試認知文作為開發同學&#xff0c;一些基本的測試崗位相關知識還是很有必要了解一下&#xff0c;免的某些同學在工作中和測試同學斗嘴、打架、群毆等以及被測試鄙視....。 我們常常聽說的一些測試專業術語&#xff0c;比如白盒、黑盒、單元測試&#xff0c;相…

ffmpeg最新源代碼(定期更新)

為了方便那些不能連接到ffmpeg的SVN倉庫更新源代碼的用戶&#xff0c;ffmpeg工程組特開辟一個專區&#xff0c;定期更新ffmpeg的源代碼&#xff0c;并將其快照上傳&#xff0c;有需要的朋友可以長期關注本帖。ffmpeg的編譯指令通常為&#xff1a;1、配置&#xff1a;configurat…

vue 入門環境搭建

公司項目要用vue.js來開發&#xff0c;要使用vue來開發前端框架&#xff0c;首先要有環境&#xff0c;所以給大家介紹一下如何搭建vue環境。其實很簡單&#xff1a; 1.首先下載安裝node.js。 去官網https://nodejs.org/zh-cn/下載安裝包。 2.安裝webpack 打開cmd命令界面&#…

【解決】Win10修改host沒有權限問題

Step1&#xff1a;右鍵文件選擇屬性&#xff0c;選擇安全&#xff0c;點擊編輯&#xff1a; Step2&#xff1a;在彈窗中點擊添加&#xff0c;在彈窗中點擊高級&#xff1a; Step3&#xff1a;在彈窗中點擊立即查找&#xff0c;選中當前用戶&#xff0c;點擊確定&#xff1a; …

[已授權] 互聯網定位技術小談

? 誠邀阿里云先知社區邀請&#xff0c;不勝感激&#xff01;今日小編在此為大家介紹一下互聯網中所應用的定位技術。互聯網的發展日新月異&#xff0c;技術迭代很快&#xff0c;各行各業的智慧在互聯網這片藍天下碰撞結晶&#xff0c;造福大眾。今天要講述的集中定位方式&…

H.264解碼器ffmpeg完整優化代碼(包括PC和Windows Mobile版本)

這里把前段時間對ffmpeg0.48進行簡化和修改&#xff0c;包括修正內存泄漏&#xff0c;修改一些語句使Max Speed能夠打開這些。其實代碼還是比較亂的&#xff0c;也有很大的繼續優化空間。這個工作花費了我一些休息時間&#xff0c;不過&#xff0c;我確實學習到了很多。這個代碼…

1.4.在TypeScript中使用JQuery

我們可以通過類型定義文件(*.d.ts)實現在TS中使用JQ 1.4.1.方式1 通過GitHub項目&#xff0c;手動下載&#xff0c;不過推薦使用第二種方式 項目地址&#xff1a; https://github.com/DefinitelyTyped/DefinitelyTyped 1.4.2.通過typings的方式 項目地址&#xff1a;https://gi…

Python的DataFrame切片大全(包含多重索引)

碼字不易&#xff0c;喜歡請點贊&#xff01;&#xff01;&#xff01; 摘要 這篇主要講解如何對pandas的DataFrame進行切片&#xff0c;包括取某行、某列、某幾行、某幾列、以及多重索引的取數方法。 ? 選取行名、列名、值 ? 以標簽&#xff08;行、列的名字&#xff09;…

sql server 保留小數,向上保留指定位數的小數,僅記錄,勿看。

比如 4.05 要取成 4.1 &#xff0c; 4.16 取成 4.2 &#xff0c;4.5 取成 4.5 &#xff0c;意思就是小數部分第二位不管是多少都丟掉然后加0.1&#xff0c;但是如果是 4.5 這樣完整的就不需要處理。 可以像下面這么寫。 select ceiling(4.56*10)/10轉載于:https://www.cnblogs.…

HelloCsdn

博客聲明我的第一個文章我的第一個文章 從現在開始,我要再這里記錄我的學習心得和體會,讓我們相互學習,一起努力,共同進步.

H264學習指南

因為最近手頭的活基本搞完了&#xff0c;人也閑了下來&#xff0c;這么熱的天氣&#xff0c;突然想寫這么一篇文章。不過首先聲明的是我對H264并不是太熟悉。但多多少少也學習了這么久了&#xff0c;寫點心得出來對自己是個交待&#xff0c;同時也希望給新手們一點幫助&#xf…

什么是數據分析的關鍵指標?

什么是核心關鍵指標呢&#xff1f; 這是一個好問題&#xff0c;不過沒有標準的答案。企業性質不同&#xff0c;所處行業、發展階段不同&#xff0c;關注點當然不同。不過大體可以這樣來劃分。 1、發展階段不同&#xff0c;需求不同 對于一個想要做數據化管理的企業來說&#xf…

01Pandas_數據結構

Pandas數據結構 做python數據分析&#xff0c;數據挖掘&#xff0c;機器學習的童鞋應該都離不開pandas。在做數據的預處理的時候pandas尤為給力。 本文主要介紹pandas中的兩種數據結構&#xff1a;series,dataframe。 import pandas as pd 1.Series 首先來介紹series數據結…

加密函數

MD5&#xff1a;密碼為web頁面做準備&#xff0c;建議使用MD5 PASSWORD() :修改當前用戶或其他用戶密碼 mysql> SELECT MD5(admin); #對admin進行MD5的加密&#xff08;32位&#xff09;----------------------------------| MD5(admin) |--------------------------------…

如何使用notepad運行python程序

關于使用notepad運行python程序 首先要確保python解釋器已經安裝成功,查看方法,windows可以在命令提示符中查看,通過按下winR鍵,調出運行窗口,在輸入框中輸入cmd回車,然后在命令行中輸入python,若出現版本信息,例如Python 3.6.1 (v3.6.1:69c0db5, Mar 21 2017, 18:41:36) [MSC…

H.264學習歷程(天之驕子)

半年前&#xff0c;我知道了H.264這個名詞。那個時候決定學習H.264&#xff0c;可是我連資料都不知道如何收集。而且整個學校就只有我一個人在學習H.264&#xff0c;找不到人交流&#xff0c;所以那個時候學得真的是舉步維艱&#xff0c;很痛苦&#xff0c;而能在網上認識一個學…