數據挖掘十大經典算法

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了數據挖掘領域的十大經典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.

不不過選中的十大算法,事實上參加評選的18種算法,實際上隨便拿出一種來都能夠稱得上是經典算法,它們在數據挖掘領域都產生了極為深遠的影響。

?

1. C4.5

C4.5算法是機器學習算法中的一種分類決策樹算法,其核心算法是ID3算法.? C4.5算法繼承了ID3算法的長處,并在下面幾方面對ID3算法進行了改進:

1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
????2) 在樹構造過程中進行剪枝;
????3) 可以完畢對連續屬性的離散化處理;
????4) 可以對不完整數據進行處理。

C4.5算法有例如以下長處:產生的分類規則易于理解,準確率較高。其缺點是:在構造樹的過程中,須要對數據集進行多次的順序掃描和排序,因而導致算法的低效。

?

2. The k-means algorithm 即K-Means算法

k-means algorithm算法是一個聚類算法,把n的對象依據他們的屬性分為k個切割,k < n。它與處理混合正態分布的最大期望算法非常類似,由于他們都試圖找到數據中自然聚類的中心。它如果對象屬性來自于空間向量,而且目標是使各個群組內部的均 方誤差總和最小。

?

3. Support vector machines

支持向量機,英文為Support Vector Machine,簡稱SV機(論文中一般簡稱SVM)。它是一種監督式學習的方法,它廣泛的應用于統計分類以及回歸分析中。支持向量機將向量映射到一個更 高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數據的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假 定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其它分類器進行了比較。

?

4. The Apriori algorithm

Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯規則在分類上屬于單維、單層、布爾關聯規則。在這里,全部支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。

?

5. 最大期望(EM)算法

在統計計算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數最大似然 預計的算法,當中概率模型依賴于無法觀測的隱藏變量(Latent Variabl)。最大期望經經常使用在機器學習和計算機視覺的數據集聚(Data Clustering)領域。

?

6. PageRank

PageRank是Google算法的重要內容。2001年9月被授予美國專利,專利人是Google創始人之中的一個拉里·佩奇(Larry Page)。因此,PageRank里的page不是指網頁,而是指佩奇,即這個等級方法是以佩奇來命名的。

PageRank依據站點的外部鏈接和內部鏈接的數量和質量倆衡量站點的價值。PageRank背后的概念是,每一個到頁面的鏈接都是對該頁面的一次投票, 被鏈接的越多,就意味著被其它站點投票越多。這個就是所謂的“鏈接流行度”——衡量多少人愿意將他們的站點和你的站點掛鉤。PageRank這個概念引自 學術中一篇論文的被引述的頻度——即被別人引述的次數越多,一般推斷這篇論文的權威性就越高。

?

7. AdaBoost

Adaboost是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的終于分類器 (強分類器)。其算法本身是通過改變數據分布來實現的,它依據每次訓練集之中每一個樣本的分類是否正確,以及上次的整體分類的準確率,來確定每一個樣本的權 值。將改動過權值的新數據集送給下層分類器進行訓練,最后將每次訓練得到的分類器最后融合起來,作為最后的決策分類器。

?

8. kNN: k-nearest neighbor classification

K近期鄰(k-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之中的一個。該方法的思路是:假設一個樣本在特征空間中的k個最類似(即特征空間中最鄰近)的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別。

?

9. Naive Bayes

在眾多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)。 樸素貝葉斯模型發源于古典數學理論,有著堅實的數學基礎,以 及穩定的分類效率。同一時候,NBC模型所需預計的參數非常少,對缺失數據不太敏感,算法也比較簡單。理論上,NBC模型與其它分類方法相比具有最小的誤差率。 可是實際上并不是總是如此,這是由于NBC模型如果屬性之間相互獨立,這個如果在實際應用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。在屬 性個數比較多或者屬性之間相關性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時,NBC模型的性能最為良好。

?

10. CART: 分類與回歸樹

CART, Classification and Regression Trees。 在分類樹以下有兩個關鍵的思想。第一個是關于遞歸地劃分自變量空間的想法;第二個想法是用驗證數據進行剪枝。

?

本文來源:http://blog.csdn.net/aladdina/

上面的10篇文章的摘要來源所有轉載自網絡搜索,百度百科內容最多,少量來自中文維基百科以及其它網頁。

?

?

?

轉載于:https://www.cnblogs.com/mengfanrong/p/4303736.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/376191.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/376191.shtml
英文地址,請注明出處:http://en.pswp.cn/news/376191.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

windows dmp文件為0kb

列出一些遇到的情況提供參考&#xff1a; 1、棧溢出&#xff0c;多次調用T2A函數會出現程序崩潰但是dmp為0kb的問題。

dynamic與var

dynamic與var示例 var是一種語法省略寫法&#xff0c;編譯器會根據上下文推斷出正確的類型。 int[] scores new int[] { 1, 2, 7, 9, 8, 4, 6, 5 };foreach (var item in scores){Console.WriteLine(item);} 在大多數情況下&#xff0c;dynamic 類型與 object 類型的行…

線程間的消息(或數據)傳遞

使用“事件”可以實現線程間“消息/數據”的傳遞&#xff0c;非常棒的一種方法。轉載于:https://www.cnblogs.com/changbaishan/p/3471113.html

gt9xx linux 移植_GT9XX驅動移植說明書_for_Android_2014011401.pdf

GT9XXforAndroid驅動移植說明書一、驅動基本信息支持芯片型號 GT911 GT9110 GT9110P GT913 GT915 GT918 GT927 GT928 GT960GT968 GT910 GT912 GT960F GT950 GT968F GT9158 GT967 GT9150GT963GT9271GT917DI2C設備地址(7位) 0x5d、0x14I2C寄存器地址 16位APK工具/ADB工具 支持自動…

spring-session之一:簡介、使用及實現原理

一、背景 http session&#xff08;企業&#xff09;一直都是我們做集群時需要解決的一個難題&#xff0c;我們知道HttpSession是通過Servlet容器創建和管理的&#xff0c;像Tomcat/Jetty都是保存在內存中的。而如果我們把web服務器搭建成分布式的集群&#xff0c;然后利用LVS或…

How to check bad fix

最近做了一個backport的票&#xff0c;backport就是別人以前修復了這個bug&#xff0c;我只需要將fix移植到客戶的系統中。這是一 個沒有技術含量的票&#xff0c;遇到簡單的票&#xff0c;三下五除二就解決了。但是遇到目標版本與master差別大時&#xff0c;也許backport后不好…

cad2017怎么改變選擇方式_家用胎心儀怎么使用?建議孕媽媽選擇數胎動的方式...

一般胎心儀都有說明書&#xff0c;孕媽媽可以根據說明書上的方法去做。 下面介紹比較通用的方法。時間&#xff1a;早中晚餐后的30-60分鐘內 環境&#xff1a;周圍沒有電磁或輻射等干擾 輔助&#xff1a;耦合劑 步驟&#xff1a; 1、平躺&#xff0c;尋找適合胎心位置 在聽胎心…

c#endread怎么打印出來_打印機打印出來是白板是怎么回事

引起針式打印紙空白的原因大多是由于色帶油墨干涸、色帶拉斷、打印頭損壞等&#xff0c;應及時更換色帶或維修打印頭。故障現象:針式打印機有打印聲但打印空白。維修方法:具體解決方法如下:1) 檢查打印機色帶盒是否正確安裝&#xff0c;如果安裝不正確&#xff0c;重新安裝色帶…

使用dnspod遭遇的奇特問題以及背后的原因與臨時解決方法

由于園子里有不少用戶在使用dnspod&#xff0c;我們覺得有必要將這兩天blogjava.net域名在dsnpod遇到的奇特問題分享一下&#xff0c;以免再有人踩著這個坑。 12月11日&#xff0c;我們登錄到dnspod的后臺時&#xff0c;大吃一驚&#xff0c;blogjava.net這個域名竟然消失了。 …

lgg6可以root的版本_Kali Linux 2020.1版本變更內容

kali2020.1于2020年1月28日發布&#xff0c;為2020年的第一個版本&#xff0c;由于此版本相較以前有較大變化&#xff0c;故專篇記錄一下。根據官方說明&#xff0c;主要改變如下&#xff1a;默認用戶改為非root用戶針對不同需求出了單獨的鏡像文件nethunter改為非root用戶改進…

隨機生成六位不重復數值

在《Core JAVA》中有個隨機生成六位不重復數值的算法&#xff0c;大二用過一次&#xff0c;今天在寫《Algorithms》的練習題遇到類似的問題&#xff0c;特貼出&#xff01; 1 // 隨機生成六位不重復的數字2 private static int generate6BitInt() {3 int[] arr {0, 1, 2, …

.net 代理類(WebService代理類的詳解 )

http://hi.baidu.com/654085966/item/53ee8c0f108ad78202ce1b1d -----------轉自 客戶端調用Web Service的方式我現在知道的有三種,分別為Http_Get,Http_Post和通過代理類來調用 直接通過HTTP-GET和直接通過HTTP-POST來請求訪問Web服務是非常底層的且麻煩,(詳細用法請查看C#分…

icem密度盒怎么設置_怎么做好火災自動報警系統施工安裝?

關于火災自動報警系統施工安裝GB50166-2019 《火災自動報警系統施工及驗收標準》 中有明確規定&#xff1a;3.1 一般規定3.1.1 系統部件的設置應符合設計文件和現行國家標準《火災自動報警系統設計規范》GB50116的規定。3.1.2 有爆炸危險性的場所&#xff0c;系統的布線和部件的…

Android 廣播機制以及用法詳解 (轉)

轉&#xff1a;http://blog.sina.com.cn/s/blog_5da93c8f010178zl.html 參考&#xff1a;http://blog.sina.com.cn/s/blog_80723de801014e2g.htmlhttp://blog.csdn.net/jjaze3344/article/details/7259272一、什么是廣播&#xff1f;在android里面有各種各樣的廣播&#xff0c;…

erlzmq

ERROR REPORT 24-Dec-2013::17:01:43 The on_load function for module erlzmq_nif returned {error, {load_failed, "Failed to load NIF library: ./ebin/../priv/erlzmq_drv.so: ELF file OS ABI invalid"}} 發布到不同環境的服務器時報上面的錯誤&#xff0c;解決…

python崗位 上海_上海黑馬Python24期,平均薪資10150元,16個工作日就業率70.73%

黑馬程序員上海中心月薪一萬只是起點關注網紅遍地起&#xff0c;顏值即正義&#xff0c;要說哪個網紅靠實力&#xff0c;Python當屬第一&#xff01;Python作為時下最流行的一門網紅語言&#xff0c;用一句話來證明它的實力就是&#xff1a;Python在手&#xff0c;天下我有&…

在IIS中部署Asp.net Mvc

概述&#xff1a; 最近在做一個MVC 3的項目&#xff0c;在部署服務器時破費了一番功夫&#xff0c;特將過程整理下來&#xff0c;希望可以幫到大家&#xff01; 本文主要介紹在IIS5.1、IIS6.0、IIS7.5中安裝配置MVC 3的具體辦法&#xff01; 正文&#xff1a; IIS5.1 1. 安裝Mi…

idea在分屏拖不回來_朋友圈賞花曬照新玩法,宮格分屏視頻!

? 點擊上方【有科嘮】一起漲姿勢~近期的天氣好的不要不要的&#xff0c;出去賞花是件很愜意的事情&#xff0c;繼《城墻下》推出的近期賞花攻略&#xff0c;嘮科粉們可以跟著攻略賞花一番&#xff0c;賞花的同時&#xff0c;大家肯定會發個朋友圈紀念一下&#xff0c;見過九宮…

MFC窗口實現最小化到托盤 右鍵菜單和還原

//.h文件 void toTray();//最小化到托盤 void DeleteTray();//刪除托盤圖標afx_msg LRESULT OnShowTask(WPARAM wParam,LPARAM lParam) ;//圖標恢復//.cpp文件#define WM_SHOWTASK (WM_USER 1) #define IDR_SHOW 11 #define IDR_OTHER 12 #define IDR_EXIT 13 BEGIN_MESSAGE_MA…

Owner Useful links

1、AS3天地會論壇 http://bbs.9ria.com/forum.php 2、Cocoa China中文網 http://www.cocoachina.com/ 3、IT江湖 http://www.itjhwd.com/ 4、The Swift Programming Language in github https://github.com/numbbbbb/the-swift-programming-language-in-chinese 5、Xcode 工具 …