寫給大數據開發初學者的話5

見:http://lxw1234.com/archives/2017/01/832.htm



至此,你的大數據平臺底層架構已經成型了,其中包括了數據采集、數據存儲與計算(離線和實時)、數據同步、任務調度與監控這幾大模塊。接下來是時候考慮如何更好的對外提供數據了。

第九章:我的數據要對外

通常對外(業務)提供數據訪問,大體上包含以下方面:

  1. 離線:比如,每天將前一天的數據提供到指定的數據源(DB、FILE、FTP)等;

離線數據的提供可以采用Sqoop、DataX等離線數據交換工具。

  1. 實時:比如,在線網站的推薦系統,需要實時從數據平臺中獲取給用戶的推薦數據,這種要求延時非常低(50毫秒以內)。

根據延時要求和實時數據的查詢需要,可能的方案有:HBase、Redis、MongoDB、ElasticSearch等。

  1. OLAP分析:OLAP除了要求底層的數據模型比較規范,另外,對查詢的響應速度要求也越來越高,可能的方案有:Impala、Presto、SparkSQL、Kylin。如果你的數據模型比較規模,那么Kylin是最好的選擇。
  2. 即席查詢:即席查詢的數據比較隨意,一般很難建立通用的數據模型,因此可能的方案有:Impala、Presto、SparkSQL。

這么多比較成熟的框架和方案,需要結合自己的業務需求及數據平臺技術架構,選擇合適的。原則只有一個:越簡單越穩定的,就是最好的。

如果你已經掌握了如何很好的對外(業務)提供數據,那么你的“大數據平臺”應該是這樣的:

lxw1234

第十章:牛逼高大上的機器學習

關于這塊,我這個門外漢也只能是簡單介紹一下了。數學專業畢業的我非常慚愧,很后悔當時沒有好好學數學。

在我們的業務中,遇到的能用機器學習解決的問題大概這么三類:

  1. 分類問題:包括二分類和多分類,二分類就是解決了預測的問題,就像預測一封郵件是否垃圾郵件;多分類解決的是文本的分類;
  2. 聚類問題:從用戶搜索過的關鍵詞,對用戶進行大概的歸類。
  3. 推薦問題:根據用戶的歷史瀏覽和點擊行為進行相關推薦。

大多數行業,使用機器學習解決的,也就是這幾類問題。

入門學習線路:

  1. 數學基礎;
  2. 機器學習實戰(Machine Learning in Action),懂Python最好;
  3. SparkMlLib提供了一些封裝好的算法,以及特征處理、特征選擇的方法。

機器學習確實牛逼高大上,也是我學習的目標。

那么,可以把機器學習部分也加進你的“大數據平臺”了。

lxw1234

?


寫給大數據開發初學者的話1


寫給大數據開發初學者的話2


第三章:把別處的數據搞到Hadoop上

第四章:把Hadoop上的數據搞到別處去

寫給大數據開發初學者的話3

第五章:快一點吧,我的SQL

第六章:一夫多妻制

寫給大數據開發初學者的話4

第七章:越來越多的分析任務

第八章:我的數據要實時

寫給大數據開發初學者的話5

第九章:我的數據要對外

第十章:牛逼高大上的機器學習




本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/451299.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/451299.shtml
英文地址,請注明出處:http://en.pswp.cn/news/451299.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

3.spring boot Controller獲取請求參數的值

2019獨角獸企業重金招聘Python工程師標準>>> 1.獲取連接中的參數,使用倒的關鍵詞PathVariable RestController public class HelloController {RequestMapping(value "/hello/{id}",method RequestMethod.GET)public String index(PathVariable("i…

斷開的管道 java.io.IOException: Broken pipe 解決方法

斷開的管道 java.io.IOException: Broken pipe 解決方法一、Broken pipe產生原因分析1.當訪問某個服務突然服務器掛了,就會產生Broken pipe;2.客戶端讀取超時關閉了連接,這時服務器往客戶端再寫數據就發生了broken pipe異常!二、方案1.問題一…

登錄與注冊

代碼如下 private void btn_login_Click(object sender, EventArgs e){SqlConnection sqlconnection new SqlConnection();sqlconnection.ConnectionString ConfigurationManager.ConnectionStrings["SQL"].ConnectionString;SqlCommand sqlcommand new SqlComman…

四大電商對壘價格戰:家電高庫存或是推手

摘要:[京東、蘇寧、國美、天貓等電商在家電領域的價格戰,更多是定價方家電廠商的倒逼]  “五一”期間,電商企業發起的價格戰硝煙仍未消散,如今戰火又起。一種較為普遍的看法是,此次價格戰,正是各家電商企…

三分鐘明白 Activiti工作流 -- java運用

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 一、 什么是工作流 以請假為例,現在大多數公司的請假流程是這樣的 員工打電話(或網聊)向上級提出請…

linux命令 ps -ef 的含義

PS是LINUX下最常用的也是非常強大的進程查看命令//以下這條命令是檢查java 進程是否存在. ps -ef |grep java下面對命令選項進行說明:-e 顯示所有進程。-f 全格式。ps -e 列出程序時,顯示每個程序所使用的環境變量。ps -f 用ASCII字符顯示 樹狀結構 &…

vue-i18n使用及踩坑記錄

使用步驟 1. 安裝 npm i vue-i18n 2. vue-cli下使用 //1. 引入 vue-i18n import Vue from vue import VueI18n from vue-i18n Vue.use(VueI18n)//2. 定義messages const messages {en: {text: {hello: hello world}},zh: {text: {hello: 你好、世界}} }//如果messages字段很多…

idea搭建web項目及tomcat部署總結

該文章為引用文章,原地址為:https://www.cnblogs.com/shindo/p/7272646.html 后面有我自己搭建過程中遇到的問題及解決方案,請參考。 一、創建簡單web項目 1、創建一個web project File -> new Project ->選擇project sdk 為1.6&#x…

Activiti工作流框架學習(一)環境的搭建和數據表的了解

一、什么是工作流 工作流(Workflow),就是“業務過程的部分或整體在計算機應用環境下的自動化”,它主要解決的是“使在多個參與者之間按照某種預定義的規則傳遞文檔、信息或任務的過程自動進行,從而實現某個預期的業務目標,或者促使…

中國消費者為何不愿為App付費?

Facebook收購Instagram之后,國內的開發者們唏噓不已。Instagram的用戶不過3000萬,卻能賣出10億美元的價格。如果Instagram在國內的話,就算沒被關閉也會被抄襲。如果通過收費來賺錢的話,也會因為黑卡變得顆粒無收,最終很…

什么是交換分區

SWAP就是LINUX下的虛擬內存 分區,它的作用是在 物理內存 使用完之后,將磁盤空間(也就是SWAP分區)虛擬成內存來使用.它和Windows系統的交換文件作用類似,但是它是一段連續的磁盤空間,并且對用戶不可見。

基礎、語法都不是最重要的,學Python最重要的是什么?編程思路!

論述 一些朋友自學python過程中,發現書也能看懂,書上的玩具代碼也能看懂,但為啥自己不能做習題,不能寫代碼解決問題,自己不能動手寫代碼? 原因 初學者沒有學會計算思維、解決問題的方法、編程思路。編程思路…

Windows下啟動,關閉Nginx命令

啟動 直接點擊Nginx目錄下的nginx.exe 或者 cmd運行start nginx 關閉 nginx -s stop 或者 nginx -s quit stop表示立即停止nginx,不保存相關信息 quit表示正常退出nginx,并保存相關信息 重啟(因為改變了配置,需要重啟) nginx -s reload 轉載于:https://www.cnblogs…

什么是守護進程?

守護進程是在后臺運行不受終端控制的進程(如輸入、輸出等),一般的網絡服務都是以守護進程的方式運行。守護進程脫離終端的主要原因有兩點:(1)用來啟動守護進程的終端在啟動守護進程之后,需要執行…

Activiti工作流引擎的使用

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 Activiti工作流引擎使用 1.簡單介工作流引擎與Activiti 對于工作流引擎的解釋請參考百度百科:工作流引擎 1.1 我與工作流引…

Flurry調查報告:圖片和視頻應用增長速度最快

據外國媒體報道,移動數據分析公司Flurry近期對應用分類的歡迎度進行研究后發現,就用戶使用的時間而言,“圖片和視頻”應用已成為增長最快的移動應用。 Flurry對各種應用分類的800多萬移動用戶進行了調查,并利用其分析工具跟蹤了1…

JS內存管理與垃圾回收

javascript的內存管理Javascript 是那些被稱作垃圾回收語言當中的一員。垃圾回收語言通過周期性地檢查那些之前被分配出去的內存是否可以從應用的其他部分訪問來幫助開發者管理內存。換句話說,當計算機發現有的內存已經不能被訪問到了,就會把它們標記為垃…

牛客網分糖果

題解: 考試的時候沒有想出來。。。 剛開始想了個比較錯誤的dp 后來想到了容斥。。 但是沒有想到怎么去維護這個東西。。 按照一般的套路 至少有一個相鄰相等的-至少有兩個相鄰相等的 但是這道題里這樣并不好維護 我們考慮用dp來算這個東西 f[i]f[j]*min(a[j].....a[…

HTTP 503 錯誤 – 服務不可用 (Service unavailable)

介紹因暫時超載或臨時維護,您的 Web 服務器目前無法處理 HTTP 請求。 其含義是, 這是一個暫時情況,會有一些延誤, 過 后將會得到緩解。 有些服務器在這種情況下也許干脆拒絕套接字(socket) 連接&#xff0c…

SHA 加密是什么( sha1 和 MD5 的區別 )

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 SHA 安全哈希算法(Secure Hash Algorithm)主要適用于數字簽名標準(Digital Signature Standard DSS…