Chatgpt回答:
- 機器學習:機器學習是人工智能的一個分支,側重于通過數據訓練模型,使計算機能夠根據數據進行預測、分類、回歸等任務。它通過算法從歷史數據中學習規律,然后在新數據上進行推斷。機器學習包括多種算法,如**線性回歸、決策樹、支持向量機(SVM)、K最近鄰(KNN)**等。
- 深度學習:深度學習是機器學習的一個子集,它基于人工神經網絡(特別是深層神經網絡)來模擬人類大腦的學習方式。深度學習能夠處理復雜的數據結構(如圖像、語音、文本等),并能夠自動從原始數據中提取特征,而不需要人工特征工程。
1.統計學習方法概論
監督學習:告訴它哪些東西是好的,哪些東西是壞的,依據這些來學習。
實現步驟:1.得到一個有限的訓練數據集合;2.確定模型的假設空間,也就是所有的備選模型;3.確定模型選擇的準則,即學習策略;4.實現求解最優模型的算法;5.通過學習方法選擇最優模型;6.利用學習的最優模型對新數據進行預測或分析
數據集的劃分
- 訓練集:模型的訓練
- 測試集:模型的選擇
- 驗證集:模型的評估
- 統計學習路線:設計模型->訓練->預測
- 監督學習與非監督學習的聯系與區別
- 統計學習三要素:模型、策略、算法
- 模型的評估:訓練誤差、驗證誤差、測試誤差
- 正則化與交叉嚴重
- 泛化能力:泛化誤差上界
- 生成模型與判別模型的聯想與區別
- 分類問題:準確率、精確率、召回率、F1值
- 標準問題
- 回歸問題:輸出為連續的值
2.感知機——入門的墊腳石
超平面
- 感知機通過構造超平面的形式劃分不同類的點。
- 感知機屬于線性判別模型,因為它的判別邊界是線性的。
- 函數間隔和幾何間隔的區別
3.K近鄰——物以類聚
- K近鄰的思想:物以類聚
- K近鄰沒有顯式的訓練過場
- 距離度量:歐式距離、曼哈頓距離、切比雪夫距離
- 歐式距離:兩點之間直線
- 曼哈頓距離:城市街區距離
- 切比雪夫距離:棋盤距離
- 分類方式:多數表決規則
歐式距離、曼哈頓距離、切比雪夫距離
4.樸素貝葉斯
條件概率公式:
P ( A ∣ B ) = P ( A B ) P ( B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A \mid B)=\frac{P(A B)}{P(B)}=\frac{P(B \mid A) P(A)}{P(B)} P(A∣B)=P(B)P(AB)?=P(B)P(B∣A)P(A)?
表示已發生事件B的情況下,事件A發生的概率。
5.決策樹——每次選一邊
信息熵:在信息論與概率統計中,熵(entropy)是表示隨機變量不確定性的度量。
熵越大,則隨機變量的不確定性越大。
信息增益:表示得知特征X的信息而使得類Y的信息的不確定性減少的程度。
信息增益算法:
輸入:訓練數據集D和特征A
輸出:特征A對訓練數據集D的信息
信息增益比:
如果以信息增益為劃分依據,存在偏向選擇取值較多的特征,信息增益是對這一問題進行矯正。
- 決策樹的核心思想:以樹結構為基礎,每個節點對某特征進行判斷,進入分支,直到到達葉節點。
- 決策樹構造的核心思想:讓信息熵快速下降,從而達到最少的判斷次數獲得標簽。
- 判斷信息熵下降速度的方法:信息增益。
- 構建決策樹算法:ID3(使用信息增益)、C4.5(使用使用信息增益比)。
- 信息增益會導致節點偏向選取取值角度的特征的問題。
6.邏輯斯蒂回歸于最大熵
- 邏輯斯蒂以輸出概率的形式解決了極小距離帶來的+1和-1的天壤之別,同時概率也可作為模型輸出的置信程度。
- 邏輯斯蒂使得了最終的模型函數連續可微,訓練目標與預測目標達成一致。
- 邏輯斯蒂采用了較大似然估計來估計參數。
最大熵:趨向于均勻分布,即可最大
7.支持向量機——升維打擊
Support vector machines (SVM)
這里提到了最優超平面,在感知機里面,我們說的是超平面,現在通過SVM升維,存在最優超平面,就不是線性的了。
升維一定會線性可分?會不會升到無窮維了仍然線性不可分?
答案是不會的,首先要明白,我們的數據集一定是基于真實的某種分布,分為A類的樣本和B類的一定在本質上有區別。只要有區別,就一定可以區分開來,一定在某個高維度上線性可分。