1. 基礎知識
- 什么是監督學習和無監督學習?
- 監督學習是基于已標注的訓練數據來學習預測模型;無監督學習則是在沒有標簽的數據上進行學習,尋找數據的結構或模式。
- 什么是過擬合和欠擬合?
- 過擬合是指模型在訓練數據上表現很好,但在測試數據上表現差。欠擬合是指模型在訓練數據上和測試數據上都表現差。
- 解釋一下偏差-方差權衡。
- 偏差是指模型的預測誤差,方差是指模型對訓練數據的敏感度。過高的偏差通常導致欠擬合,過高的方差通常導致過擬合。
- 什么是交叉驗證?
- 交叉驗證是將數據分成多個子集,使用不同的子集進行訓練和測試,從而評估模型的泛化能力。
2. 常見算法
- 解釋一下線性回歸的原理。
- 線性回歸是通過擬合一條直線來預測輸出,假設輸入特征與輸出之間存在線性關系。
- 什么是邏輯回歸?
- 邏輯回歸是一種分類算法,主要用于二分類問題。它使用sigmoid函數將線性回歸的輸出轉換為概率值。
- 決策樹是如何工作的?
- 決策樹通過遞歸地選擇最佳特征來進行數據劃分,直到滿足停止條件為止,形成樹狀結構。
- 隨機森林與決策樹的區別。
- 隨機森林是集成學習方法,使用多個決策樹的輸出進行投票或平均,通常比單一的決策樹更強大。
- SVM的工作原理是什么?
- 支持向量機(SVM)通過尋找最佳的超平面來分類數據,使得類間的間隔最大化。
3. 模型評估與優化
- 如何評估分類模型的性能?
- 使用準確率、召回率、F1分數、ROC曲線和AUC等指標。