大數據的作用:發現過去事件的特征
預測未來
最優化選擇
職位劃分:數據產品經理
數據分析師->商業敏感性,產品經理的助手
數據研發工程師
數據挖掘工程師/數據科學家
需要準備的技術知識:
Linux操作系統與網絡編程:進程/線程通信,內存,TCP/IP,SaaS、PaaS、IaaS
Java:多線程,JVM,反射,設計模式,Springboot
數據結構與算法
Hadoop生態體系:
Hadoop起源與安裝、MapReduce快速入門、Hadoop分布式文件系統、Hadoop文件I/O詳解、MapReduce工作原理、MapReduce編程開發、Hive數據倉庫工具、開源數據庫HBase、Sqoop與Oozie;
Spark生態體系:
Spark簡介、Spark部署和運行、Spark程序開發、Spark編程模型、作業執行解析、Spark SQL與DataFrame、深入Spark Streaming、Spark MLlib與機器學習、GraphX與SparkR、spark項目實戰、scala編程、Python編程;
Storm實時開發:
storm簡介與基本知識、拓撲詳解與組件詳解、Hadoop分布式系統、spout詳解與bolt詳解、zookeeper詳解、storm安裝與集群搭建、storm-starter詳解、開源數據庫HBase、trident詳解;
算法:分類/聚類/關聯/預測,Apriori,決策樹,隨機森林,SVM
BerkeleyX: CS190.1x Scalable Machine Learning
這門課是伯克利開的,教機器學習基礎、Python Spark實現。我很懂機器學習,但不懂spark和python,花了1周多時間看完視頻、做完作業。如果沒機器學習基礎的話幾周應該夠了。學完了可以用spark處理大數據,做分類、推薦系統。
TalkingData