Ignite中的機器學習介紹

為什么80%的碼農都做不了架構師?>>> ??hot3.png

本系列共6篇文章,會通過一些代碼示例,講解如何在Ignite中使用機器學習庫,本文是本系列的第一篇。

從Ignite的2.4版本開始,機器學習就可以用于生產環境了。在這個版本中,進行了大量的開發和改進,其中包括對分區化數據集和遺傳算法的支持,Ignite提供的很多機器學習示例也可以獨立運行,這樣就使入門變得很簡單。并且在本系列的后面,還會使用Ignite支持的一些算法,對一些免費的數據集進行分析,進一步方便開發者學習。

介紹

本文中,先大概看一下機器學習網格,如圖1所示: Ignite提供的機器學習能力,從設計上來說要求實用化,并且要求能夠直接在Ignite中建立預測模型,這就使得用戶在不需要進行昂貴的ETL或者數據轉換的前提下,獲得擴展性和性能的提升,下面稍微討論下細節。

首先,在這之前,機器學習模型需要在不同的系統間進行訓練和部署,比如,數據需要移出Ignite,然后使用其他的工具進行訓練,最后再將模型重新部署進生產系統,這個方式有如下幾個缺點:

  • 昂貴的ETL處理過程,尤其對于大規模數據集,數據集的大小,可能是GB級甚至是TB級;
  • 如果要進行ETL,實際上使用的是數據的一個快照,在ETL之后,線上的生產系統數據,可能已經改變,從而使訓練系統使用的是過時的訓練數據;

其次,現在許多系統可能需要處理大量數據,這些數據通常超過單個服務器的容量。雖然分布式計算提供了一種解決方案,但是有些平臺不是為存儲和操作數據而設計的,可能只適合于訓練目的。因此,開發人員可能需要考慮在生產環境中部署更復雜的解決方案。

Ignite的機器學習能力有助于解決所有的這些問題,甚至更多:

  • Ignite可以直接處理線上的生產數據,避免在不同系統間進行昂貴的ETL;
  • 在數據的存儲和維護上,Ignite可以提供分布式的計算能力;
  • Ignite實現的機器學習算法,針對分布式計算進行了優化,因此可以利用Ignite并置處理的優勢;
  • Ignite可以作為流式數據的接收器,因此可以實時地進行機器學習;
  • 機器學習通常是迭代式的處理,并且算法在執行過程中上下文可能發生變化,因此為了避免延遲以及丟失,Ignite支持容錯的分區化的數據集。

分區化的數據集

Ignite目前支持分區化的數據集,這是一個介于機器學習算法和底層的存儲和計算之間的抽象層,它為計算和緩存的備份使用了類似MapReduce的操作以支持容錯。

在Ignite中,一個哈希算法會被應用于鍵值對(K-V)中的鍵部分,來確定值部分在集群中的存儲位置。值部分實際是存儲于分區中的,分區是原子化的。在圖2中,可以看到兩個節點的集群,有兩個分區(P1和P2): 機器學習算法通常是迭代式的,并且需要上下文和數據,在圖2中,如每個分區中對應的C和D所示。

如果一個節點故障,Ignite會恢復分區和上下文,如圖3所示。比如,P1在節點2有一個備份(灰色所示),如果節點1故障,就可以從節點2恢復P1,數據可能從集群或者本地ETL(標記為D*)中恢復。 圖3

算法和適用領域

下面會看下Ignite支持的機器學習算法,下表會做個總結:

分類回歸聚類預處理
描述根據一組訓練數據確定新的標的屬于哪一類對因變量y和一個或多個自變量x之間的關系進行建模對對象集進行分組,使得同一組內的對象和其他組中的每個對象相比具有更高的相似度特征提取和規范化
適用領域垃圾郵件檢測、圖像識別、信用評分、疾病識別藥物反應,股票價格,超市收入客戶細分、實驗結果分組、購物項目分組對比如文本這樣的輸入數據進行轉換,以便用于機器學習算法,然后提取需要擬合的特征,對數據進行規范化
算法支持向量機(SVM)、最近鄰、決策樹分類和神經網絡線性回歸、決策樹回歸、最近鄰和神經網絡K均值基于分區的數據集自定義預處理

機器學習庫還帶來了一組遺傳算法,其在這里有詳細描述。

總結

Ignite的最新版本提供了許多重要的特性和能力。分區化的數據集通過保存上下文,在節點故障時可以繼續處理機器學習算法。機器學習算法支持廣泛的使用案例,遺傳算法的加入也為復雜數據的處理提供了新的機會。

轉載于:https://my.oschina.net/liyuj/blog/2252890

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/450367.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/450367.shtml
英文地址,請注明出處:http://en.pswp.cn/news/450367.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

4G發牌或提早 電信聯通面臨艱難抉擇

曾幾何時遙不可及的4G,上馬的時間可能要比預期來的要早。今年3月,工信部部長苗圩表示,預計國內需要2-3年才會發放4G牌照。話音猶在耳,苗圩部長9月11日表示,“工信部已決定將于一年左右的時間發放TD-LTE牌照”。 工信部…

mysql 的 sql 執行計劃詳解

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 引言: 實際項目開發中,由于我們不知道實際查詢的時候數據庫里發生了什么事情,數據庫軟件是怎樣掃描…

2018-10-28

我的博客即將入駐“云棲社區”,誠邀技術同仁一同入駐。

win10+vscode部署java開發環境

目錄 Java開發插件配置:調試:快捷鍵:啟動配置文件launch.json:啟動配置說明:Launch:Attach:User Setting:遇到的問題:參考:Java開發插件配置: Microsoft有個官方的插件Java Extension Pack&…

類的帶參方法有哪幾部分構成?

類的帶參方法有哪幾部分構成? 發布于2015-11-08 12:27 main函數可以不帶參數,也可以帶參數,這個參數可以認為是 main函數的形式參數。C語言規定main函數的參數只能有兩個,還規定argc(第一個形參)必須是整型變量,argv( 第二個形參)必須是指向字…

新架構讓數據中心猶如PC

摘要:隨著VL2網絡拓撲結構帶來了對等帶寬,大量數據可以存放在遠方的數據中心,訪問起來卻猶如它們就在本地,這將對數據中心的架構產生重大影響。Todd Hoff參加了Hot Interconnects大會,對微軟VL2架構做了詳細解讀。CSDN…

mongodb分片概念和原理-實戰分片集群

一、分片分片是一種跨多臺機器分發數據的方法。MongoDB使用分片來支持具有非常大的數據集和高吞吐量操作的部署。問題:具有大型數據集或高吞吐量應用程序的數據庫系統可能會挑戰單個服務器的容量。例如,高查詢率會耗盡服務器的CPU容量。工作集大小大于系…

字符串的一些用法

一.Java字符串類基本概念在JAVA語言中,字符串數據實際上由String類所實現的。Java字符串類分為兩類:一類是在程序中不會被改變長度的不變字符串;二類是在程序中會被改變長度的可變字符串。Java環境為了存儲和維護這兩類字符串提供了 String和…

獲取BGR顏色的HSV值

import cv2import numpy as npgreen np.uint8([[[152, 245, 255]]]) # 輸入待轉換顏色的BGR值hsv_green cv2.cvtColor(green, cv2.COLOR_BGR2HSV)print(hsv_green)轉載于:https://www.cnblogs.com/LicwStack/p/10129505.html

HTTP 協議是無狀態協議,怎么理解

HTTP 是一個屬于應用層的面向對象的協議,HTTP 協議一共有五大特點:1、支持客戶/服務器模式;2、簡單快速;3、靈活;4、無連接;5、無狀態。 無連接 無連接的含義是限制每次連接只處理一個請求。服務器處理完客…

加入初創企業需要想清楚的幾個問題

摘要:加入一家初創企業是一段充滿冒險的旅程。沿途不會都是美景,更別忘了最初的夢想。 去初創公司面試,你一般會糾結于被問到什么問題。但更重要的是問自己:你下定決心在接下來的5年中“從頭再來”嗎?你能接受這份薪資…

類和對象的區別

類和對象的區別1,類是一個抽象的概念,它不存在于現實中的時間/空間里,類只是為所有的對象定義了抽象的屬性與行為。就好像“Person(人)”這個類,它雖然可以包含很多個體,但它本身不存在于現實世…

IIS服務器SSL證書安裝

在證書控制臺下載IIS版本證書,下載到本地的是一個壓縮文件,解壓后里面包含.pfx文件是證書文件,pfx_password.txt是證書文件的密碼。 友情提示: 每次下載都會產生新密碼,該密碼僅匹配本次下載的證書。如果需要更新證書文…

attempting to use incompatible return type 提示 解決

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 一、問題:方法返回類型上有紅線,提示信息:... attempting to use incompatible return type 要返回…

地圖市場三足鼎立:諾基亞官方確認與亞馬遜合作

摘要:諾基亞確認為亞馬遜新推出的平板提供地圖服務,至此地圖市場“三家分晉”的格局已趨明朗。 路透社之前曾報道稱亞馬遜在新版Kindle中將使用諾基亞提供的地圖服務。但直到今日,這則消息才得到雙方的確認。諾基亞方面確認將為亞馬遜提供地圖…

關于明晚即將發布的新款 iPad Pro,最大的亮點也許不是 Face ID

北京時間 10 月 30 日晚間 10 點,蘋果將會在美國紐約的布魯克林音樂學院舉行新品發布會。考慮到此前蘋果已經在 9 月的發布會上宣布了 Apple Watch Series 4 和 iPhone XS/Max、iPhone XR 等新品,因此蘋果此次的紐約發布會,大家的目光更多地投…

重載

編程中重載的定義:函數名相同,函數的參數列表不同(包括參數個數和參數類型),至于返回類型可同可不同。重載是可使函數、運算符等處理不同類型數據或接受不同個數的參數的一種方法,關于重載一詞在詞義上有兩種不同的說法:多態:重載…

11. Container With Most Water

題意 給定n個非負整數\(a_1,a_2,...,a_n\),其中每個數表示坐標點\((i,a_i)\),i是數組下標,\(a_i\)是對應高度.尋找兩條線,使得兩條線構成的長方形面積最大,盛水最多. Example: Input: [1,8,6,2,5,4,8,3,7] Output: 49 解 暴力破解 對每種情況進行循環,計算對應的面積,同時保存最…

如何培養編程所需要的邏輯思維?

很少有人能單單通過所謂“邏輯思維”從復雜問題快速找到抽象的,如果有這樣的人,他的經驗,工具,方法和直覺通常起到比邏輯思維更重要的作用。寫代碼需要邏輯思維,但解決復雜問題更需要理解分析,寫代碼只是解…

jws 方式表格導出,excel文件導出,rest風格接口實現

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 一、思路:從數據庫表中查出list ,封裝到 HSSFWorkook 中,再由HSSFWorkook 寫出到 File 中, 用 res…