人工智能學習：機器學習相關面試題（一）

1、機器學習中特征的理解

def:?特征選擇和降維

特征選擇：原有特征選擇出子集?，不改變原來的特征空間

降維：將原有的特征重組成為包含信息更多的特征，?改變了原有的特征空間降維的主要方法

????????Principal?Component Analysis?(主成分分析)

????????Singular Value?Decomposition?(奇異值分解)

特征選擇的方法

????????Filter?方法?：卡方檢驗、信息增益、相關系數

????????Wrapper?方法?：其主要思想是：將子集的選擇看作是一個搜索尋優問題?，生成不同的組合?，對組合進行評價?，再與其他的組合進行比較。這樣就將子集的選擇看作是一個是一個優化問題?，這里有很多的優化算法可以解決?，尤其是一些啟發式的優化算法?，如??GA，?PSO，?DE?，ABC?等?，詳見“優化算法?—— ?人工蜂群算法 ?(ABC)”，“優化算法 ?—— ?粒子群算法 ?(PSO)”。

????????Embedded?方法?：其主要思想是?：在模型既定的情況下學習出對提高模型準確性最好的屬性。這句話并不是很好理解?，其實是講在確定模型的過程中?，挑選出那些對模型的訓練有重要意義的屬性。

????????主要方法?：正則化。?嶺回歸就是在基本線性回歸的過程中加入了正則項。

2、機器學習中?，有哪些特征工程方法？

數據和特征決定了機器學習的上限，?而?模型和算法只是逼近這個上限而已

（1）計算每—?個特征與相應變量的相關性：?工?程上常用的手?段有計算皮?爾遜系數和互信息系數，?皮?爾遜系數只能衡量線性相關性而?互信息系數能夠很好地度量各種相關性，但是計算相對復雜—?些，好在很多toolkit里?邊都包含了這個工?具（如??sklearn的MINE）?，得到相關性之后就可以排序選擇特征了；

（2）構建單個特征的模型?，通過模型的準確性為特征排序?，借此來選擇特征；

（3）通過L1正則項來選擇特征：?L1正則方?法具有稀疏解的特性，?因此天然具備特征選擇的特性?，但是要注意，L1沒有選到的特征不代表不重要，原因是兩個具有高?相關性的特征可能只保留了—?個，如果要確定哪個特征重要應再通過L2正則方?法交叉檢驗*；

（4）訓練能夠對特征打分的預選模型：RandomForest和Logistic?Regression等都能對模型的特征打分，通過打分獲得相關性后再訓練最終模型；

（5）通過特征組合后再來選擇特征?：如對用戶id和用戶特征最組合來獲得較大的特征集再來選擇特征?，這種做法在推薦系統和廣?告系統中比?較常見，這也是所謂億級甚至十?億級特征的主要來源?，原因是用?戶數據比?較稀疏?，組合特征能夠同時兼顧全局模型和個性化模型?，這個問題有機會可以展開講。

（6）通過深度學習來進行?特征選擇：?目前這種手?段正在隨著深度學習的流行而?成為—?種手?段?，尤其是在計算機視覺領域?，原因是深度學習具有自動學習特征的能力?，這也是深度學習又叫unsupervised?feature

????????learning的原因。從深度學習模型中選擇某—?神經層的特征后就可以用來進行?最終目標模型的訓練了。

3、機器學習中的正負樣本

????????在分類問題中?，這個問題相對好理解—?點，?比?如人?臉識別中的例子，正樣本很好理解?，就是人?臉的圖片?，

????????負樣本的選取就與問題場景相關?，具體而言，如果你要進行?教室中學生的人?臉識別?，那么負樣本就是教室的窗子、墻等等?，也就是?說?，不能是與你要研究的問題毫不相關的亂七八?糟的場景圖片，這樣的負樣本并沒有意義。負樣本可以根據背景生?成，

????????有時候不需要尋找額外的負樣本。—?般3000-10000的正樣本需要5，000,000-100,000,000的負樣本來學習，在互金?領域—?般在入?模前將正負比?例通過采樣的方?法調整到3）1-5:1。

4、線性分類器與非線性分類器的區別及優劣

區別：所謂線性分類器即用 —?個超平面?將正負樣本分離開?，表達式為 ??y?=wx????。這里?強調的是平面?。

????????而非?線性的分類界面?沒有這個限制，可以是曲面?，多個超平面的組合等。典型的線性分類器有感知機，LDA，邏輯斯特回歸，?SVM（線性核）；

????????典型的非?線性分類器有樸素貝葉斯（有文?章說這個本質是線性的，http://dataunion.org/12344.html），kNN，決策樹，?SVM（?非?線性核）

優缺點：?1.線性分類器判別簡單、易實現、且需要的計算量和存儲量小?。

????????為解決比?較復雜的線性不可分樣本分類問題?，提出非?線性判別函數。超曲面?，?非線性判別函數計算復雜，

????????實際應用上受到較大的限制。在線性分類器的基礎上，?用分段線性分類器可以實現復雜的分類面。解決問題比?較簡便的方?法是采用多個線性分界面?將它們分段連接，?用分段線性判別劃分去逼近分界的超曲面?。

????????如果—?個問題是非?線性問題并且它的類邊界不能夠用線性超平面?估計得很好?，那么非?線性分類器通常會比線性分類器表現得更精準。如果—?個問題是線性的?，那么最好使用簡單的線性分類器來處理。

5、如何解決過擬合問題

解釋過擬合：

????????模型在訓練集表現好?，在真實數據表現不好，?即模型的泛化能力不夠。從另外—?個方面?來講，模型在達到經驗損失最小的時候?，模型復雜度較高?，結構風險沒有達到最優。

解決：

????????學習方?法上：?限制機器的學習?，使機器學習特征時學得不那么徹底，?因此這樣就可以降低機器學到局部特征和錯誤特征的幾?率?，使得識別正確率得到優化.

????????數據上?：要防止?過擬合?，做好特征的選取。訓練數據的選取也是很關鍵的，?良好的訓練數據本身的局部特征應盡可能少，?噪聲也盡可能小 .

6、L1和L2正則的區別，如何選擇L1和L2正則

L0正則化的值是模型參數中非?零參數的個數。

????????也就是如果我們使用 L0范數?，即希望w的大?部分元素都是0.?（?w是稀疏的）所以可以用于ML中做稀疏編碼，特征選擇。通過最小?化L0范數?，來尋找最少最優的稀疏特征項。但不幸的是，?L0范數的最優化問題是—?個NP?hard問題，?而?且理論上有證明，?L1范數是L0范數的最優凸近似，?因此通常使用 L1范數來代替。

L1正則化表示各個參數絕對值之和。

????????L1范數的解通常是稀疏性的?，傾向于選擇數目較少的—?些非?常大?的值或者數目較多的insignificant的小值。

????????L2正則化標識各個參數的平方的和的開方?值。

????????L2范數越小，可以使得w的每個元素都很小，接近于0?，但L1范數不同的是他不會讓它等于0而?是接近于0.

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/94938.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/94938.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/94938.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！