大數據基礎技術和應用

大數據概述

數據的表現形式:

  • 線下數據信息化:數據庫、文字記錄、照片……
  • 互聯網-移動互聯網:網頁數據、用戶行為記錄、數字圖像……
  • 傳感器:設備監控、智能家居、攝像頭……

大數據的4V特征:

  • 大量化(Volume):存儲量大、增量大;
  • 多樣化(Variety):來源多、格式多;
  • 快速化(Velocity):高速數據I/O;
  • 價值密度低(Value)

大數據基礎技術


一、工程技術

Hadoop介紹

Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。
Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS 實現存儲,而 MapReduce實現分析處理。

關系型數據庫Hadoop
數據量GBPB
使用場景點查詢或更新整個數據集,一次寫多次讀,沒有更新
結構化程度結構化半結構化及非結構化
擴展性線性非線性

Hadoop和網格計算的區別:
網格計算:CPU密集型,各個處理單元接收小批量數據,然后貢獻CPU,最后提交計算結果;
Hadoop:數據本地化,傳輸數據量較大,對網絡帶寬要求較高。

HDFS(Hadoop Distributed File System)基本命令:
%hadoop fs -ls .
%hadoop fs -mkdir books
%hadoop fs -copyFromLocal input/docs/test.txt hdfs://loca1host/user/tom/test.txt

HDFS特點
1.流式訪問:
跑在HDFS上的應用與一般的應用不同,它們主要是以流式讀為主,做批量處理;比之關注數據訪問的低延遲問題,更關鍵的在于數據訪問的高吞吐量。
2.write-one-read-many
一個文件經過創建、寫,關閉之后就不需要改變。這一假設簡化了數據一致性問題,使高吞吐量的數據訪問成為可能。
3.本地計算
移動計算的代價比之移動數據的代價低。一個應用請求的計算,離它操作的數據越近就越高效。將計算移動到數據附近,比之將數據移動到應用所在顯然更好,HDFS提供給應用這樣的接口。
4.容錯及備份
Hadoop有健壯的數據校驗+容災備份。通過配置解決

HIVE
定義:一個構建在Hadoop上的數據倉庫框架。
目的: 可以通過類SQL語句快速實現簡單的MapReduce統計,使熟悉SQL的用戶無縫使用Hadoop。
特點:語法基本和MySQL相同,但是功能沒有MySQL豐富,滿足最基本的SQL語法要求。

HIVE的實現邏輯

select year,count(temperature) 
from src 
where year>1990 
group by year 
having count(temperature)>1000;

這個sql的語義是:
1)(map)從src表中選出所有的記錄,選出year>1990的記錄;
2)(partition and shuffle)按照year進行分組(year相同的記錄放到一組);
3)(reduce)對每個分組計算count(temperature),選出count(temperature)>1000的記錄;
4)最后對于計算結果選出year和count(temperature)的值作為返回結果

小結:
小結

二、策略技術
機器學習中經典算法和對應問題
策略技術
有監督學習:對具有概念標記(分類)的訓練樣本進行學習,以盡可能對訓練樣本集外的數據進行標記(分類)預測。這里,所有的標記(分類)是已知的。無監督學習:對沒有概念標記(分類)的訓練樣本進行學習,以發現訓練樣本集中的結構性知識。這里,所有的標記(分類)是未知的。因此,訓練樣本的岐義性高。聚類就是典型的無監督學習
定量輸出稱為回歸,或者說是連續變量預測;定性輸出稱為分類,或者說是離散變量預測。


典型應用


  1. 精準營銷:廣告變現
    `1
  2. 精準營銷:推薦引擎
    2
  3. 實時監控:上海外灘踩踏事件
    3
  4. 智能鏈接:互聯網+O2O
    4
  5. 智能鏈接:互聯網+O2O:Uber
    5
  6. 輔助決策:智能選股
    6.1
    6.2
  7. 輔助決策:智能選址
    7

總結
總結

本文參考自牛客網。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/386050.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/386050.shtml
英文地址,請注明出處:http://en.pswp.cn/news/386050.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

java線程池參數面試題,附贈復習資料

前言 作為同時具備高性能、高可靠和高可擴展性的典型鍵值數據庫,Redis不僅功能強大,而且穩定,理所當然地成為了大型互聯網公司的首選。 眾多大廠在招聘的時候,不僅會要求面試者能簡單地使用Redis,還要能深入地理解底…

Hadoop 大數據平臺架構與實踐

初識Hadoop Hadoop是一個開源的分布式存儲分布式計算平臺。 Hadoop核心組成部分: HDFS:分布式文件系統,存儲海量的數據。MapReduce:并行處理框架,實現任務分解和調度。 Hadoop可以用來做什么? 搭建大型…

java線程池有幾種,講的太透徹了

前言 該文檔在Github上收獲40Kstar的Java面試神技(這贊數,質量多高就不用我多說了吧)非常全面,包涵Java基礎、Java集合、JavaWeb、Java異常、OOP、IO與NIO、反射、注解、多線程、JVM、MySQL、MongoDB、Spring全家桶、計算機網絡、…

HIVE入門

Hive概述 什么是 Hive? * Hive 是建立在 Hadoop HDFS 上的數據庫倉庫基礎建構 * Hive 可以用來進行數據庫提取轉化加載(ETL) * Hive 定義了簡單的類似 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數據 * Hi…

java線程面試題博客園,超詳細

簡介 HikariCP 是用于創建和管理連接,利用“池”的方式復用連接減少資源開銷,和其他數據源一樣,也具有連接數控制、連接可靠性測試、連接泄露控制、緩存語句等功能,另外,和 druid 一樣,HikariCP 也支持監控…

java編寫斐波那契數列,實戰案例

前言 提到插件,相信大家都知道,插件的存在主要是用來改變或者增強原有的功能,MyBatis中也一樣。然而如果我們對MyBatis的工作原理不是很清楚的話,最好不要輕易使用插件,否則的話如果因為使用插件導致了底層工作邏輯被…

用戶畫像

用戶畫像:標簽化、 用標簽描述用戶行為 用戶畫像:動態信息數據 用戶行為產生的數據:注冊、瀏覽、點擊、購買、簽收、評價 比較重要的行為:購買商品、瀏覽商品、放入購物車、關注商品 用戶畫像的用途:分類統計&…

java編程代寫有哪些平臺,學習路線+知識點梳理

前言 今天剛好有空,跟大家聊聊如何學好算法進大廠。 前兩天一個讀者和我說,他堅持刷算法題2個月,薪資翻番去了他夢寐以求的大廠,期間面字節跳動還遇到了原題…其實據我所知目前國內的大廠和一些獨角獸,已經越來越效仿…

大話數據結構—棧與隊列

棧 一、棧的定義 棧是(stack)是限定盡在表尾進行插入和刪除操作的線性表。 棧又稱為后進先出(Last In First Out)的線性表,簡稱LIFO結構。 二、進棧出棧變化形式 注意: 并不是最新進棧的元素只能最后處棧。如,我們…

【工作感悟】java編程規范pdf下載

前言 要相信,你現在所有的努力和付出都會在將來的某一天回報給你! 首先阿里巴巴作為國內互聯網行業的領頭羊,培養了一代又一代的IT技術人才,很多想進阿里這些互聯網大廠的程序員看中的不僅僅是高薪豐厚的福利待遇,同樣…

大話數據結構——串

串(string)是由零個或多個字符組成的有限序列,又名字符串。 字符串有很多函數,replace、ToUpper、ToLower(轉小寫)、Trim(去掉兩邊空格)、IndexOf(從左到右查找子串的位…

【工作感悟】全網最經典26道Spring面試題總結

開頭 學習如逆水行舟,尤其是IT行業有著日新月異的節奏。 而且現在這個浮躁而又拜金的社會,我相信很多人做技術并非出于熱愛,只是被互聯網的高薪吸引,畢竟技術崗位非常枯燥,不僅要面對奇奇怪怪的需求,還要…

大話數據結構——樹

一、樹的定義 樹(Tree)是n(n>0)個結點的有限集。 n0又稱為空樹。在任意一課非空的樹中:(1)有且僅有一個特定的稱為跟(Root)的結點;(2&#xf…

大話數據結構——圖

圖(Graph)是由定點的又窮非空集合和頂點之間邊的集合組成,通常表示為:G(V,E),其中,G表示一個圖,V是圖G中頂點的集合,E是圖G中邊的集合。 一、各種圖的定義 …

【工作感悟】達內java大數據課程

前言 其實前幾篇文章已經寫了好多有關于Spring源碼的文章,事實上,很多同學雖然一直在跟著閱讀、學習這些Spring的源碼教程,但是一直都很迷茫,這些Spring的源碼學習,似乎只是為了面試吹逼用,我大概問過一些…

大話數據結構——查找

查找(Searching)是根據給定的某個值,在查找表中確定一個其關鍵字等于給定值的數據元素(或記錄)。 一、順序表查找 順序查找又叫線性查找,是最基本的查找技術,它的查找過程是:從表中…

【工作經驗分享】java圖片轉文字

前言 又到一年金九銀十之際。 Java作為目前用戶最多,使用范圍最廣的軟件開發技術之一。 Java的技術體系主要由支撐Java程序運行的虛擬機,提供各開發領域接口支持的Java,Java編程語言及許多第三方Jvav框架構成。 其中,以Java的虛擬器為今天的著…

數據挖掘工程師的面試問題與答題思路

一個Java程序可以認為是一系列對象的集合,而這些對象通過調用彼此的方法來協同工作。下面簡要介紹下類、對象、方法和實例變量的概念。 對象:對象是類的一個實例,有狀態和行為。例如,一條狗是一個對象,它的狀態有&…

【干貨】java課程實戰培訓

開頭 消息隊列 RocketMQ 是阿里巴巴集團基于高可用分布式集群技術,自主研發的云正式商用的專業消息中間件,既可為分布式應用系統提供異步解耦和削峰填谷的能力,同時也具備互聯網應用所需的海量消息堆積、高吞吐、可靠重試等特性,…

Java的幾個特點

Java語言是簡單的: Java語言的語法與C語言和C語言很接近,使得大多數程序員很容易學習和使用。另一方面,Java丟棄了C中很少使用的、很難理解的、令人迷惑的那些特性,如操作符重載、多繼承、自動的強制類型轉換。特別地&#xff0c…