選擇題
- 以下哪項不是機器學習的類型?
A. 監督學習
B.無監督學習
C.半監督學習
D.全監督學習
D
- 哪一個是機器學習的合理定義?
A、機器學習是計算機編程的科學
B、機器學習從標記的數據中學習
C、機器學習是允許機器人智能行動的領域
D、機器學習能使計算機能夠在沒有明確編程的情況下學習
D
- 以下哪項是計算機視覺中用于自動圖片標注的核心技術?
A. 決策樹
B. 卷積神經網絡(CNN)
C. 支持向量機(SVM)
D. 隨機森林
B。
CNN能自動提取圖像特征,是計算機視覺中的核心技術;
支持向量機在許多分類任務中很有效;
- 下列不屬于機器學習的主要流派的是
A.符號主義
B.聯想主義(聯結主義)
C.進化主義
D.行為類推主義
B。聯結主義(或稱連接主義)是指神經網絡等方法,它強調通過神經元的連接模擬學習過程。這個術語通常用于神經網絡或深度學習,并不是機器學習的一個獨立流派,而是屬于其中的一部分。
- 以下哪種損失函數通常用于回歸任務?
A) 交叉熵損失
B) 合頁損失(Hinge Loss)
C) 均方誤差(MSE)
D) KL散度
C。A) 交叉熵損失:交叉熵損失函數通常用于分類任務,尤其是用于衡量分類任務中預測的概率分布與真實標簽之間的差異,因此不適用于回歸任務。
B) 合頁損失(Hinge loss):合頁損失函數通常用于支持向量機(SVM)中的分類任務,而不是回歸任務。它通過計算預測結果與正確標簽之間的“合頁”距離來進行優化。
C) 均方誤差損失(MSE):均方誤差(MSE)是回歸任務中最常用的損失函數,它通過計算預測值與真實值之間的平方差來度量模型的表現。在回歸問題中,目標是最小化這個損失函數。
D) KL散度損失:Kullback-Leibler散度(KL散度)用于衡量兩個概率分布之間的差異,雖然它在一些生成模型(如變分自編碼器)中會使用,但它通常不用于回歸任務。
- 關于機器學習中偏差(Bias)與方差(Variance)的權衡,以下哪種說法??錯誤???
A. 增加模型復雜度通常會降低偏差,但可能增加方差
B. 集成方法(如Bagging)通過降低方差來提升泛化性能
C. 正則化(如L2正則化)通過增加偏差來減少方差
D. 高偏差問題表明模型對訓練數據的擬合不足,應減少正則化強度
D
A. 增加模型復雜度通常會降低偏差,但可能增加方差:這個選項是正確的。通常,隨著模型復雜度的增加(例如增加參數或采用更復雜的模型),模型可以更好地擬合訓練數據,從而降低偏差。然而,模型復雜度增加也可能導致過擬合,使模型在訓練數據上表現很好,但在測試數據上表現較差,導致方差增大。
B. 集成方法(如Bagging)通過降低方差來提升泛化性能:這個選項是正確的。集成方法(如Bagging)通過組合多個弱模型來降低方差,尤其是在數據噪聲較大的情況下。Bagging通過訓練多個獨立的模型,并將它們的預測結果結合起來,從而減少模型的方差,提升泛化能力。
C. 正則化(如L2正則化)通過增加偏差來減少方差:這個選項是正確的。正則化(例如L2正則化)通過對模型的復雜度進行約束,限制模型的自由度,防止過擬合。雖然正則化可能會增加偏差,但它通常能顯著減少方差,從而改善模型的泛化能力。
D. 高偏差問題表明模型對訓練數據的擬合不足,應減少正則化強度:這個選項是錯誤的。高偏差通常意味著模型過于簡單,無法有效捕捉數據中的復雜模式(即欠擬合)。在這種情況下,應該 增加模型復雜度 或 減少正則化強度,以便模型能夠更好地擬合訓練數據。然而,如果模型已經很復雜,過度減少正則化可能會導致方差增加,并引發過擬合問題。因此,問題的描述中,“應減少正則化強度”在特定情況下可能不適用,尤其當模型復雜度已經足夠時,反而需要適度增加正則化。
- 混淆矩陣的精度表示公式為:
A. TP/(TP+FN)
B. TP/(TP+FP)
C. TN/(TN+FN)
D. TN/(TN+TP)
B.
精度表示的是模型預測為正的實例中,實際上為正的比例,計算公式為 TP/(TP+FP)
A. TP / (TP + FN):這個公式表示的是召回率(Recall),也叫敏感度,即模型正確識別的正類實例占所有真實正類實例的比例。
C. TN / (TN + FN):這個公式表示的是特異度(Specificity),也叫真負率,即模型正確識別的負類實例占所有真實負類實例的比例。
- 以下哪種數據類型允許進行算術運算,但不具有絕對零點?
A) 名義變量
B) 序數變量
C) 間隔變量
D) 比率變量
C
- 以下哪項是機器學習模型的過擬合現象?
A.模型在訓練數據上表現良好,但在測試數據表現不佳
B.模型在訓練數據上表現不佳,但在測試數據表現良好
C.模型在訓練數據和測試數據表現良好
D.模型在訓練數據和測試數據表現不佳
A
- 在機器學習中,以下哪種算法屬于監督學習?
A.K-Means 聚類
B.主成分分析(PCA)
C.支持向量機(SVM)
D.自編碼器
C
監督學習需要利用帶有標簽的數據進行訓練,ACD都是無監督學習
常見的監督學習種類:
- 支持向量機(SVM):SVM 是一種用于二分類和多分類任務的強大算法。它通過找到一個最優的超平面來將不同類別的數據分隔開。SVM在高維空間中表現良好,并且可以應用于線性和非線性分類問題。
- 決策樹(Decision Trees):決策樹是一種基于樹結構的分類和回歸算法。它通過在特征上進行遞歸的二分決策來進行分類或預測。決策樹易于理解和解釋,并且對于數據的處理具有良好的適應性。
- 邏輯回歸(Logistic Regression):邏輯回歸是一種廣泛應用于二分類問題的線性模型。盡管名字中帶有"回歸",但它主要用于分類任務。邏輯回歸輸出預測的概率,并使用邏輯函數將連續輸出映射到[0, 1]的范圍內。
- K近鄰算法(K-Nearest Neighbors,KNN):KNN 是一種基于實例的學習方法。它根據距離度量來對新樣本進行分類或回歸預測。KNN使用最接近的K個訓練樣本的標簽來決定新樣本的類別。
- 以下關于機器學習算法應用場景的描述中,錯誤的是:
A. 樸素貝葉斯算法常用于文本分類任務中的垃圾郵件過濾
B. 循環神經網絡(RNN)特別適合處理時間序列數據,如股票價格預測
C. 聚類算法(如 K-Means)需要標注好的訓練樣本才能劃分數據類別
D. 強化學習在自動駕駛領域中通過試錯機制優化決策策略
C
聚類算法(如K-Means)屬于??無監督學習??,其核心特點是不依賴標注數據,而是通過數據內在結構(如距離、密度)自動劃分類別。
標注數據是監督學習的要求。
- 哪個不是測量中心傾向的方法
A均值。B中位數。C眾數。D方差
D
中心傾向指標用于描述數據集的“中心位置”或典型值,方差??屬于??離散程度指標??,衡量數據分布的波動性或分散程度(如數據偏離均值的程度),而非中心位置。
- 在機器學習中,當出現過擬合(Overfitting)現象時,以下哪種方法不能用來解決這個問題?
A. 增加訓練數據
B. 增加模型復雜度
C. 使用數據增強(如翻轉、旋轉、添加噪聲)
D. 使用更強的正則化方法(如 dropout、drop - connect、L?)
B
增加模型復雜度通常會降低偏差,但可能增加方差
- 支持向量機算法屬于 ()
A. 決策樹學習
B. 統計學習
C. 集成學習
D.記憶學習
B
- 以下屬于解決模型欠擬合的方法是?
A、增加訓練數據量
B、對模型進行裁剪
C、增加訓練過程的迭代次數
D、正則化
C.
對于 B,增加訓練數據量??,常用于解決過擬合(通過數據多樣性增強泛化能力),而非改善欠擬合。若模型復雜度不足,增加數據可能無濟于事。
- 在邊緣檢測中,以下哪種算子對噪聲最敏感,且未進行高斯平滑處理?
A. Sobel 算子
B. Prewitt 算子
C. Canny 算子
D. Laplacian 算子
D
- 在卷積神經網絡(CNN)中,關于池化層(Pooling Layer)的作用,以下哪項描述是錯誤的?
A. 池化層通過降采樣減少特征圖的空間尺寸,從而降低計算復雜度。
B. 最大池化(Max Pooling)能夠保留局部區域的顯著特征,增強模型的平移不變性。
C. 平均池化(Average Pooling)通過計算局部區域的平均值,有助于抑制噪聲影響。
D. 池化層通過反向傳播自動學習最優的池化核參數,類似于卷積層的權重更新。
D
池化層(如最大池化、平均池化)是??無參數操作??,其核內計算(如取最大值/平均值)是預定義的,不涉及權重學習。
- 在深度神經網絡的訓練過程中,若遇到梯度消失問題,下面哪種方案最能有效緩解這一問題?
A. 繼續使用 Sigmoid 激活函數
B. 提高學習率以加速梯度傳遞
C. 將激活函數替換為 ReLU 或其變體(如 Leaky ReLU)
D. 增加網絡層數,以強化模型的特征提取能力
C
- 假設有一個釣魚式攻擊或惡意軟件分類模型,其中釣魚式攻擊網站和惡意軟件網站屬于標記為 1(true)的類別,無害網站屬于標記為 0(false)的類別。此模型誤將合法網站歸類為惡意軟件。這叫什么?
A、假負例
B、真正例
C、真負例
D、假正例
D
注意這里將釣魚網站定義為正例。
- 以下哪一項不是單神經元模型的組成部分?
A. 輸入特征x
B. 激活函數g
C. 損失函數L
D. 輸入特征x的平方
B
- 在機器學習中,特征歸一化的目的是什么
A. 增加模型的復雜度
B. 加快模型的訓練
C. 使不同特征的數值范圍一致
D. 減少特征之間的相關性
C
- 以下哪種方法可以緩解過擬合(Overfitting)?
A. 減少訓練數據量 B. 增加模型復雜度 C. 添加L2正則化 D. 刪除部分特征
C
雖然正則化可能帶來偏差,但能極大降低方差,緩解過擬合
此外,增加數據也能緩解過擬合
- 在邏輯回歸中,假設函數 hθ?(x)=g(θTx) 使用的激活函數 g(z) 是:
A. Sigmoid 函數
B. ReLU 函數
C. 雙曲正切函數
D. 恒等函數
A
- 以下關于降維說法不正確的是?
A.降維是將訓練樣本從高維空間轉換到低維空間
B.降維有助于數據可視化
C.通過降維可以更有效地挖掘有意義的數據結構
D.降維不會對數據產生損傷
D
- 決策樹學習的關鍵是?
A.初始結點選擇
B.剪枝
C.選擇最優劃分屬性
D.分枝
C
- 線性回歸和邏輯回歸屬于無監督學習算法
錯誤
回歸是監督學習的一種任務
- Sigmoid函數是一種通用的激活函數,現在大多數情況下都在使用
錯誤
- Sigmoid 的導數在輸入值較大或較小時趨近于零,導致反向傳播時梯度幾乎消失,深層網絡難以訓練。
- Sigmoid 的輸出范圍是 (0,1),導致后續層的輸入始終為正,可能引發參數更新時的鋸齒形路徑,降低收斂效率。
- Sigmoid 涉及指數運算,計算成本高于 ??ReLU?? 的簡單閾值操作(max(0,x))。
??
當前主流激活函數??為 ??ReLU 及其變體??
- 貝葉斯優化(Bayesian Optimization)在超參數調優過程中不依賴任何先驗假設,僅通過隨機采樣選擇下一組評估的超參數。
錯誤
- 當出現過擬合時,驗證集損失(Validation loss)會一直下降。
錯誤
驗證損失持續下降通常表明模型仍在有效學習,而過擬合的標志是驗證損失在達到最低點后明顯回升
- 在深度神經網絡中,Dropout 技術僅在訓練階段啟用以減少過擬合,而在測試階段禁用 Dropout,從而確保所有神經元都參與前向傳播。
正確
- 在機器學習中,K近鄰(KNN)算法在訓練階段不需要進行模型訓練,直接存儲所有訓練數據即可。
正確
- 無監督學習不需要任何標簽數據,完全依靠算法自動發現數據中的模式或結構。
錯誤
- 在機器學習任務中,如果目標是預測一個網站明天是否被DDoS攻擊(是/否),那么這屬于一個回歸問題。
錯誤,這是一個分類問題(具體為二分類任務)
- 主成分分析(PCA)是一種數據增維方法
錯誤
PCA 通過正交變換將原始高維數據投影到低維空間(主成分),??保留最大方差的方向??,從而減少特征數量、去除冗余信息,屬于典型的??降維技術??。
- 聚類只能在已有數據集上進行分簇,不具備對新數據的預測能力
正確
- 在神經網絡中,在反向傳播的向后傳遞過程中,從輸入層開始計算誤差信號(δ),然后向前傳播到輸出層。
錯誤。在神經網絡中,反向傳播的誤差信號(δ)是從輸出層開始計算,然后向后傳遞(即向輸入層方向傳播),而非從輸入層開始向前傳播。?