什么是機器學習
本系列博客為你從機器學習的介紹開始,使用大量的代碼實戰和驗證,最終幫助你完全掌握什么是機器學習
人工智能、機器學習和深度學習的關系
人工智能(Artificial Intelligence,AI):是一門研究和開發智能機器或計算機程序的科技領域,旨在使這些系統能夠模擬、延伸和擴展人類的智能行為。
機器學習(Machine Learning,ML):是人工智能領域的一個分支,它專注于研究和開發算法與統計模型,使得計算機系統能夠從數據中自動“學習”規律、模式和特征,并利用這些學習結果對未知數據進行預測、分類、決策或優化任務,而無需進行顯式的編程。換言之,機器學習致力于創建能夠自我改進的程序,其性能隨著經驗(即數據輸入)的增加而不斷提升。
深度學習(Deep Learning,DL):是機器學習的一個子領域,它受到人腦神經網絡工作原理的啟發,采用多層非線性模型對復雜數據進行高效表示和分析。在深度學習中,構建了包含多個處理層(或稱為隱藏層)的神經網絡結構,這些層次能夠逐級提取輸入數據的特征,從原始信號逐步轉化為越來越抽象、更具有辨別力的特征表達。
簡而言之,人工智能包括了機器學習,機器學習包括了深度學習,如下圖所示
巨人的肩膀
這些都是華人在機器學習領域的大牛,我也是通過他們的課程和文章來為你展開機器學習的介紹,我非常建議你可以根據我的博客筆記,來看他們的課程,他們的作品內容肯定要比我更優秀,如果你在學習機器學習過程中遇到什么問題,我也非常歡迎你來和我進行交流。
吳恩達:斯坦福大學副教授,前百度大腦的負責人與百度首席科學家。經典課程:有監督的機器學習:回歸與分類 | Coursera
李航:現任字節跳動科技有限公司人工智能實驗室總監,北京大學、南京大學客座教授,IEEE 會士,ACM 杰出科學家,CCF 高級會員。代表作:《 統計學習方法》
周志華:南京大學計算機科學與技術系主任、人工智能學院院長。代表作:《 機器學習》 (西瓜書)
陳天奇:機器學習領域著名的青年華人學者之一,本科畢業于上海交通大學ACM 班,博士畢業于華盛頓大學計算機系。主要貢獻:設計了XGBoost 算法。
何愷明:本科就讀于清華大學,博士畢業于香港中文大學多媒體實驗室。2016 年,加入Facebook AI Research Research(FAIRFAIR)擔任研究科學家。主要貢獻:設計了ResNets
機器學習的分類
按任務類型:
- 回歸問題:連續型目標變量,如:房價預測
- 分類問題:分類型目標變量,如:圖像識別
- 聚類問題:無需目標變量,如:市場細分、客戶聚類
- 降維問題:無需目標變量,高維空間中的數據映射到低維空間。
按學習方式:
- 有監督學習:基于一組帶有標注的樣本訓練模型,然后用該模型對新的未知結果的樣本作初預測。如:回歸、分類。
- 無監督學習:訓練樣本的結果信息是沒有被標注的。如,聚類、降維。
- 強化學習:又稱再勵學習、評價學習或增強學習,是機器學習的范式和方法論之一。
你現在無須立馬掌握這么多的類型的機器學習,在后續博客中,我會為你一一講解這些不同的機器學習,在理論和代碼的結合中讓你更加熟練地掌握機器學習。
基本術語
- 學習(訓練):從數據中學得模型的過程
- 訓練集:參與模型訓練的樣本集合
- 測試:學得模型后,使用其樣本進行預測的過程
- 測試集:被預測的樣本集合
- 假設:學得模型對應的關于數據的某種潛在規律
- 泛化能力:學得模型適用于新樣本的能力
- 獨立同分布:樣本空間的全體樣本都服從一個未知的分布,且相互獨立
這些基本術語都很簡單,我也會在后面的例子中為你詳細介紹它們。