大數據基礎技術和應用

大數據概述

數據的表現形式：

線下數據信息化：數據庫、文字記錄、照片……
互聯網-移動互聯網：網頁數據、用戶行為記錄、數字圖像……
傳感器：設備監控、智能家居、攝像頭……

大數據的4V特征：

大量化（Volume）：存儲量大、增量大；
多樣化（Variety）：來源多、格式多；
快速化（Velocity）：高速數據I/O；
價值密度低（Value）

大數據基礎技術

一、工程技術

Hadoop介紹

Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。
Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS 實現存儲,而 MapReduce實現分析處理。

	關系型數據庫	Hadoop
數據量	GB	PB
使用場景	點查詢或更新	整個數據集，一次寫多次讀，沒有更新
結構化程度	結構化	半結構化及非結構化
擴展性	線性	非線性

Hadoop和網格計算的區別：
網格計算：CPU密集型，各個處理單元接收小批量數據，然后貢獻CPU，最后提交計算結果；
Hadoop：數據本地化，傳輸數據量較大，對網絡帶寬要求較高。

HDFS（Hadoop Distributed File System）基本命令：
%hadoop fs -ls .
%hadoop fs -mkdir books
%hadoop fs -copyFromLocal input/docs/test.txt hdfs://loca1host/user/tom/test.txt

HDFS特點
1.流式訪問：
跑在HDFS上的應用與一般的應用不同，它們主要是以流式讀為主，做批量處理；比之關注數據訪問的低延遲問題，更關鍵的在于數據訪問的高吞吐量。
2.write-one-read-many
一個文件經過創建、寫，關閉之后就不需要改變。這一假設簡化了數據一致性問題，使高吞吐量的數據訪問成為可能。
3.本地計算
移動計算的代價比之移動數據的代價低。一個應用請求的計算，離它操作的數據越近就越高效。將計算移動到數據附近，比之將數據移動到應用所在顯然更好，HDFS提供給應用這樣的接口。
4.容錯及備份
Hadoop有健壯的數據校驗+容災備份。通過配置解決

HIVE
定義：一個構建在Hadoop上的數據倉庫框架。
目的：可以通過類SQL語句快速實現簡單的MapReduce統計，使熟悉SQL的用戶無縫使用Hadoop。
特點：語法基本和MySQL相同，但是功能沒有MySQL豐富，滿足最基本的SQL語法要求。

HIVE的實現邏輯

select year,count(temperature) 
from src 
where year>1990 
group by year 
having count(temperature)>1000;

這個sql的語義是：
1）(map)從src表中選出所有的記錄,選出year>1990的記錄；
2）(partition and shuffle)按照year進行分組（year相同的記錄放到一組）；
3）(reduce)對每個分組計算count(temperature),選出count(temperature)>1000的記錄；
4）最后對于計算結果選出year和count(temperature)的值作為返回結果

小結：

二、策略技術
機器學習中經典算法和對應問題

有監督學習：對具有概念標記（分類）的訓練樣本進行學習，以盡可能對訓練樣本集外的數據進行標記（分類）預測。這里，所有的標記（分類）是已知的。無監督學習：對沒有概念標記（分類）的訓練樣本進行學習，以發現訓練樣本集中的結構性知識。這里，所有的標記（分類）是未知的。因此，訓練樣本的岐義性高。聚類就是典型的無監督學習
定量輸出稱為回歸，或者說是連續變量預測；定性輸出稱為分類，或者說是離散變量預測。

典型應用

精準營銷：廣告變現
精準營銷：推薦引擎
實時監控：上海外灘踩踏事件
智能鏈接：互聯網+O2O
智能鏈接：互聯網+O2O：Uber
輔助決策：智能選股
輔助決策：智能選址

總結

本文參考自牛客網。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/386050.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/386050.shtml
英文地址，請注明出處：http://en.pswp.cn/news/386050.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！