初學大數據之如何選擇機器學習算法

最近在國外網站看到一篇不錯的文章,所以就翻譯過來給大家分享一下。主要介紹初學者怎么選擇機器學習算法,希望對各位初學者有幫助。
原文如下:
一個初學者面臨各種機器學習算法的典型問題是“我應該使用哪種算法?”問題的答案取決于許多因素,包括:

  • 數據的大小,質量和性質。
  • 可用的計算時間。
  • 任務的緊迫性。
  • 你想對數據做什么

即使是經驗豐富的數據科學家也不能在嘗試不同的算法之前,判斷哪種算法會最好。我們并不主張采取一個完整的方法,但是我們希望根據一些明確的因素,為哪些算法首先提供一些指導。

機器學習算法備忘表

這里寫圖片描述
機器學習算法備忘表 幫助您從各種機器學習算法選擇找到適合您的具體問題適當的算法。本文將引導您完成如何使用工作表的過程。

由于該作弊表是專為初學者數據科學家和分析師設計的,所以在討論算法時,我們將作出一些簡化的假設。

這里推薦的算法來自于數據科學家和機器學習專家和開發人員的編譯反饋和提示。有幾個問題我們還沒有達成協議,對于這些問題,我們試圖突出共同點,調和差異。

稍后將會添加其他算法,因為我們的庫增長以包含更完整的一組可用方法。

如何使用備忘表

將圖表上的路徑和算法標簽讀為“If then use ”。例如:

  • 如果要執行尺寸縮減,則使用主成分分析。
  • 如果您需要快速的數字預測,請使用決策樹或邏輯回歸。
  • 如果需要分層結果,請使用層次聚類。

有時候會有一個以上的分支機構適用,而其他的時間也不會是完美的。重要的是要記住,這些路徑旨在作為經驗法則建議,因此有些建議并不準確。我談到的幾位數據科學家說,找到最好算法的唯一方法就是嘗試所有的算法。

機器學習算法的類型

本節提供最受歡迎的機器學習類型的概述。如果您熟悉這些類別,并希望繼續討論特定的算法,則可以跳過本節并轉到下面的“何時使用特定算法”。

監督學習
受監督的學習算法基于一組示例進行預測。例如,可以使用歷史銷售來估計未來價格。通過監督學習,您有一個輸入變量,由標記的訓練數據和期望的輸出變量組成。您使用算法分析訓練數據,以學習將輸入映射到輸出的功能。這個推斷功能通過從訓練數據推廣來預測未知情況下的結果來映射新的未知示例。

  • 分類:當數據用于預測分類變量時,監督學習也稱為分類。當分配標簽或指示符時,狗或貓分配給圖像就是這種情況。當只有兩個標簽時,這被稱為二進制分類。當有兩類以上時,這些問題被稱為多類分類。
  • 回歸:當預測連續值時,問題成為一個回歸問題。
  • 預測:這是根據過去和現在的數據對未來進行預測的過程。最常用來分析趨勢。一個常見的例子可能是根據今年和前幾年的銷售情況估計下一年的銷售額。

半監督學習

監督學習的挑戰是標注數據可能是昂貴和耗時的。如果標簽有限,您可以使用未標記的示例來增強監督學習。因為在這種情況下機器沒有被完全監督,所以我們說機器是半監督的。使用半監督學習,您可以使用少量標簽數據的未標記示例來提高學習準確性。

無監督學習

執行無監督學習時,機器將呈現完全未標記的數據。被要求發現基礎數據的內在模式,如聚類結構,低維流形或稀疏樹和圖。

  • 聚類:分組一組數據示例,使一個組(或一個集群)中的示例與其他組中的示例更相似(根據某些標準)。這通常用于將整個數據集分成幾組。可以在每個組中執行分析,以幫助用戶找到內在模式。
  • 尺寸扣除:減少考慮的變量數量。在許多應用中,原始數據具有非常高的維度特征,并且一些特征是冗余的或與任務無關的。降低維度有助于找到真實的,潛在的關系。

加強學習

加強學習根據環境的反饋分析和優化代理人的行為。機器嘗試不同的場景來發現哪些行為產生最大的回報,而不是被告知采取哪些行動。試驗和錯誤和延遲獎勵將強化學習與其他技術區分開來。

選擇算法時的注意事項

選擇算法時,請務必考慮這些方面:準確度,培訓時間和易用性。許多用戶將準確度放在第一位,而初學者則傾向于關注他們最了解的算法。

當提供數據集時,首先要考慮的是如何獲得結果,無論這些結果如何。初學者傾向于選擇易于實現的算法,并可以快速獲得結果。這樣做很好,只要這只是過程的第一步。獲得一些結果并熟悉數據后,您可以花費更多時間使用更復雜的算法來加強對數據的理解,從而進一步改進結果。

即使在這個階段,最好的算法可能不是實現最高報告精度的方法,因為算法通常需要仔細調整和廣泛的訓練才能獲得最佳的可實現性能。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456886.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456886.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456886.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Django查詢 – id vs pk

當編寫django查詢時,可以使用id / pk作為查詢參數。 Object.objects.get(id1) Object.objects.get(pk1) pk代表主鍵(primary key), pk更加獨立于實際的主鍵字段,即不必關心主鍵字段是否被稱為id或object_id或其他。 如果您具有不同主鍵字…

Tomcat的Session管理(三)

摘要:PersistentManager與StandardManager的異同。 之前兩篇關于session的文章主要討論了session相關的創建、查詢、過期處理。而我們查看源碼的時候都是默認實現是StandardManager類,實際上實現也可以是PersistentManager類,下面我們就查看下…

計算機基礎的函數公式,大學計算機基礎 excle 公式與函數

《大學計算機基礎 excle 公式與函數》由會員分享,可在線閱讀,更多相關《大學計算機基礎 excle 公式與函數(32頁珍藏版)》請在人人文庫網上搜索。1、,.,場景1,發布日期:2011.11.09,新入職場,經理說: 小張,以后工資發放的事情就交給…

穩定和性能如何兼顧?58大數據平臺的技術演進與實踐

作者|趙健博 編輯|尚劍 本文將為你分享58大數據平臺在最近一年半內技術演進的過程,包括:58大數據平臺目前的整體架構是怎么樣的;最近一年半的時間內我們面臨的問題、挑戰以及技術演進過程;以及未來的規劃。…

Random Forest算法簡介

轉自JoinQuant量化課堂 一、相關概念 分類器:分類器就是給定一個樣本的數據,判定這個樣本屬于哪個類別的算法。例如在股票漲跌預測中,我們認為前一天的交易量和收盤價對于第二天的漲跌是有影響的,那么分類器就是通過樣本的交易量…

MySQL 學習筆記

01 import pymysql#連接數據庫db pymysql.connect("192.168.1.179","root","liuwang","liu")#創建一個cursor對象 cursor db.cursor() sql "select version()"cursor.execute(sql)data cursor.fetchone() print(data)…

簡單交互

控件有著各種事件,例如被點擊的時候,我們可以在事件里面添加動作和命令,讓控件可以和用戶交互,這里我們演示一個簡單的交互:當用戶點擊文字控件的時候,它開始動畫向下移動然后動畫旋轉,效果入下…

綜合素質計算機考點,教師資格證小學綜合素質考點及考試真題:信息處理能力...

小學綜合素質考點及考試真題——信息處理能力大綱要求:具有運用工具書檢索信息、資料的能力。具有運用網絡檢索、交流信息的能力。具有對信息進行篩選、分類、存儲和應用的能力。具有運用教育測量知識進行數據分析與處理的能力。具有根據教育教學的需要,…

API文檔自動生成

本文主要講述自動化API文檔生成——apidoc。網上有幾個篇文章都只是介紹apidoc的,具體怎么在自己的項目中使用以及與其他配合使用都是沒介紹的。最近開始玩服務器,了解到了有Windows與Linux之間共享文件的方法,就是samba。然后具體和apidoc結…

機器學習筆記之SVM(SVR)算法

學過SVM后,看了那么多別人的文章,是時候自己總結一波了。權當寫的筆記供自己日后再回顧吧。 PS:結合自己在工作過程中(我這里用SVR做股票預測)用到的知識來寫的,不會很全面,若有些知識這里沒提及讀者可自行…

[轉]基于圖的機器學習技術:谷歌眾多產品和服務背后的智能

近來機器學習領域實現了很多重大的進展,這些進展讓計算機系統具備了解決復雜的真實世界問題的能力。其中,谷歌的機器學習又是怎樣的 ? 近來機器學習領域實現了很多重大的進展,這些進展讓計算機系統具備了解決復雜的真實世界問題的…

安裝mysql后在安裝目錄下只有my-default.ini沒有my.ini文件 解決-The MySQL server is running with the --secure-file-priv

WIN10 系統環境 安裝mysql后在安裝目錄下只有my-default.ini沒有my.ini文件 。 mysql報錯 ---------- The MySQL server is running with the --secure-file-priv option so it cannot execute this statement -------- 但是更改或想要查找配置文件就需要如下操作 在 安裝…

loewe測試軟件,實測Loewe三角包 最輕的小包最貼心的設計

原標題:實測Loewe三角包 最輕的小包最貼心的設計導語:每周一期的“包治百病”又跟大家見面來啦!“包治百病”全方位評測包包的容量、重量、背法、在不同身高妹子身上的效果、各種驚人的小細節以及可能存在的問題,為有意購買這些包…

hadoop集群的搭建(分布式安裝)

集群 計算機集群是一種計算機系統,他通過一組松散集成的計算機軟件和硬件連接起來高度緊密地協同完成計算工作。集群系統中的單個計算機通常稱為節點,通常通過局域網連接。集群技術的特點:1、通過多臺計算機完成同一個工作。達到更高的效率 2…

解決:Error establishing a database connection阿里云修改數據庫密碼

今天閑來無事想把所有的二級密碼改成一致的,所以就把阿里云的mysql數據庫的密碼改了,結果,打開頁面報錯了,下邊的截圖是我問題解決后,重新復現的。如果修復這個問題后wordpress登錄頁面白板,此時不要著急&a…

機器學習各算法思想(極簡版)

讀到的一篇不錯的文章,拿來和大家分享一下。 轉自–頭條公眾號–極數蝸牛 (1)線性回歸 回歸最早是由高爾頓研究子女身高與父母身高遺傳關系提出的,發現子女平均身高總是向中心回歸而得名。其實“一分辛苦一分才”中就蘊含了線性…

PAT A 1118. Birds in Forest (25)【并查集】

并查集合并 #include<iostream> using namespace std; const int MAX 10010; int father[MAX],root[MAX]; int findfather(int x){if(xfather[x]) return x;else{int Ffindfather(father[x]);father[x]F;return F;} } void Union(int a , int b){int faAfindfather(a);i…

斯坦福計算機錄取難嗎,申請斯坦福究竟有多難? 什么樣條件的人才能被斯坦福錄取?斯坦福大學直播!...

原標題&#xff1a;申請斯坦福究竟有多難&#xff1f; 什么樣條件的人才能被斯坦福錄取&#xff1f;斯坦福大學直播&#xff01;申請斯坦福究竟有多難&#xff1f; 什么樣條件的人才能被斯坦福錄取&#xff1f;斯坦福大學直播&#xff01;西海岸小哈佛之稱的斯坦福大學&#xf…

解決:building 'twisted.test.raiser' extension安裝scrapy報錯

解決&#xff1a;building twisted.test.raiser extension error: Microsoft Visual C 14.0 is required. Get it with "Microsoft Visual C Build Tools": https://visualstudio.microsoft.com/downloads/ 安裝scrapy報錯&#xff0c;在Twisted安裝部分 解決方案…

Linux配置網絡出現Eroor adding default gateway的解決方案

最近在學習有關大數據方面的東西&#xff0c;剛開始要搭建模擬的虛擬機集群。用的是Minimal CentOS6.7版本Linux下的系統。因為我要為各個虛擬機設置靜態IP&#xff0c;所以就參考網上博客說的進行如下操作: 一、安裝完系統后先配置網絡&#xff1a; cd /etc/sysconfig/netwo…