一、注意力和transformer
一、選擇題
-
注意力機制的核心步驟不包括?
A. 計算注意力分布
B. 加權平均輸入信息
C. 隨機丟棄部分輸入
D. 打分函數計算相關性
答案:C(硬性注意力雖隨機選擇輸入,但核心步驟仍為分布計算與加權) -
Transformer 中使用的注意力打分函數是?
A. 加性模型
B. 縮放點積模型
C. 雙線性模型
D. 余弦相似度
答案:B(公式為dk??Q?KT?,避免高維梯度消失) -
以下哪項不是 Transformer 編碼器的組件?
A. 掩碼自注意力
B. 層歸一化
C. 殘差連接
D. 前饋神經網絡
答案:A(掩碼自注意力屬于解碼器,用于屏蔽未來位置)
二、填空題
-
注意力機制中,softmax 函數的作用是將打分函數輸出轉化為__________。
答案:概率分布(注意力權重) -
自注意力模型中,輸入序列通過線性變換生成 Q、K、__________三個向量。
答案:V(Value) -
Transformer 的位置編碼分為絕對位置編碼和__________,前者基于__________函數實現。
答案:相對位置編碼;正弦和余弦
三、簡答題
-
簡述軟性注意力與硬性注意力的區別。
答:- 軟性注意力對所有輸入加權求和,可微,如機器翻譯中對齊所有單詞;
- 硬性注意力隨機選擇部分輸入(如聚焦圖像某區域),不可微,需用強化學習訓練,計算效率更高但穩定性差。
-
為什么 Transformer 需要位置編碼?自注意力如何結合位置信息?
答:- 自注意力本身不具備序列順序感知能力,位置編碼通過正弦 / 余弦函數為每個位置生成唯一向量,與詞嵌入相加后輸入模型,讓模型理解單詞順序(如 “我吃飯” 和 “吃飯我” 的差異)。
-
解釋殘差連接在 Transformer 中的作用。
答:- 殘差連接通過x+SubLayer(x)避免深層網絡退化,當子層輸出為 0 時,直接傳遞輸入x(恒等映射),保證梯度流通,解決梯度消失問題,允許模型堆疊更多層(如 BERT 的 12 層 / 24 層結構)。
二、緒論
一、選擇題
-
下列關于人工智能、機器學習、深度學習的關系描述正確的是?
A. 機器學習包含人工智能,深度學習是機器學習的子集
B. 深度學習包含機器學習,機器學習是人工智能的子集
C. 人工智能包含機器學習,深度學習是機器學習的子集
D. 人工智能包含深度學習,機器學習是深度學習的子集
答案:C -
人工神經元的輸出計算不包括以下哪個步驟?
A. 輸入信號加權求和
B. 激活函數非線性變換
C. 反饋連接記憶存儲
D. 偏置項添加
答案:C -
深度學習與傳統機器學習的核心區別在于?
A. 是否使用 GPU 加速
B. 是否自動學習特征表示
C. 是否需要標注數據
D. 是否處理圖像數據
答案:B
二、填空題
-
1956 年的________會議首次提出 “人工智能” 概念,被視為 AI 學科誕生的標志。
答案:達特茅斯 -
人工神經網絡的三要素包括激活規則、________和學習算法。
答案:拓撲結構 -
深度學習中,通過多層網絡自動提取特征的過程稱為________。
答案:表示學習
三、機器學習概述?
一、選擇題
-
下列屬于無監督學習的是?
A. 圖像分類
B. 客戶分群聚類
C. 房價預測
D. 圍棋策略學習
答案:B(聚類屬于無監督學習,其他選項為監督學習或強化學習) -
線性回歸中,L2 正則化的作用是?
A. 使參數稀疏化(變為 0)
B. 防止過擬合,平滑參數
C. 加速收斂速度
D. 提高模型擬合能力
答案:B(L2 正則化通過懲罰大參數,減少方差,防止過擬合) -
極大似然估計假設數據服從某種分布,其核心目標是?
A. 最大化先驗概率
B. 最小化預測誤差
C. 最大化觀測數據出現的概率
D. 最小化結構風險
答案:C
二、填空題
-
機器學習四要素包括數據、模型、________和優化算法。
答案:學習準則(或損失函數 / 風險函數) -
監督學習的優化目標是擬合函數?y=f(x)?或________。
答案:條件概率?p(y∣x) -
線性回歸中,當特征矩陣?X?不可逆時,可通過________方法求解參數。
答案:嶺回歸(或 L2 正則化)
?
四、 前饋神經網絡
一、選擇題
-
下列激活函數中,哪一個存在 “死亡神經元” 問題?
A. tanh
B. ReLU
C. sigmoid
D. GELU
答案:B(ReLU 在負輸入時輸出為 0,若梯度長期為 0 則神經元 “死亡”) -
前向傳播中,隱藏層節點的輸出計算順序是?
A. 先激活函數,再線性變換
B. 先線性變換,再激活函數
C. 僅線性變換
D. 僅激活函數
答案:B(先計算凈輸入z=Wx+b,再應用激活函數) -
反向傳播算法的核心依據是?
A. 鏈式法則
B. 奧卡姆剃刀
C. 大數定律
D. 中心極限定理
答案:A(通過鏈式法則計算復合函數梯度)
二、填空題
-
通用近似定理表明,多層感知器可通過增加______層神經元數量,以任意精度擬合復雜函數。
答案:隱藏 -
sigmoid 函數的導數表達式為______。
答案:σ′(x)=σ(x)(1?σ(x)) -
前饋神經網絡中,輸入層到隱藏層的權重矩陣維度為m×n,則輸入特征維度為______,隱藏層節點數為______。
答案:n;m
五、卷積神經網絡
一、選擇題
-
下列哪項不屬于卷積神經網絡的結構特征?
A. 局部連接
B. 權重共享
C. 全連接層
D. 空間次采樣
答案:C(全連接層是 CNN 的組成部分,但非結構特征) -
等寬卷積的填充量計算方式為?
A.?P=0
B.?P=K?1
C.?P=(K?1)/2
D.?P=K
答案:C(等寬卷積通過填充?(K?1)/2?保持輸出尺寸與輸入一致) -
殘差網絡解決的核心問題是?
A. 梯度爆炸
B. 網絡退化
C. 過擬合
D. 計算量過大
答案:B(殘差連接通過恒等映射避免深層網絡訓練誤差上升)
二、填空題
-
卷積神經網絡中,權重共享的作用是__________。
答案:減少參數數量,提取通用特征 -
空洞卷積通過插入__________來擴大感受野。
答案:空洞(或零) -
ResNet 的殘差單元輸出公式為__________。
答案:y=x+F(x)
六、循環神經網絡?
一、選擇題
-
RNN 在反向傳播時梯度消失的主要原因是?
A. 激活函數導數累乘小于 1
B. 學習率設置過小
C. 輸入序列過長
D. 權重矩陣初始化過大
答案:A(激活函數導數如 tanh'∈[0,1],累乘導致梯度衰減) -
LSTM 中控制歷史信息丟棄比例的門是?
A. 輸入門
B. 遺忘門
C. 輸出門
D. 重置門
答案:B -
GRU 與 LSTM 的主要區別是?
A. GRU 沒有記憶單元
B. GRU 合并了遺忘門和輸入門
C. GRU 使用雙向傳播
D. GRU 參數更多
答案:B -
RNN 前向傳播中,隱層狀態更新公式正確的是?
A.?ht?=σ(Uxt?+Wht?1?)
B.?ht?=Uxt?+Wht?1?
C.?ht?=tanh(Uxt??Wht?1?)
D.?ht?=tanh(Uxt?+Wht?1?)
答案:D
二、填空題
-
RNN 反向傳播算法的全稱是__________。
答案:反向傳播通過時間(BPTT) -
LSTM 的記憶單元更新公式為__________。
答案:ct?=ft??ct?1?+it??c~t? -
梯度爆炸的解決方案通常是__________。
答案:梯度截斷 -
GRU 中的 “更新門” 作用是控制__________。
答案:歷史信息保留和新信息輸入的比例
七、網絡優化與正則化
一、選擇題
-
下列哪項不是網絡優化的難點?
A. 非凸優化問題
B. 梯度消失 / 爆炸
C. 凸優化目標函數
D. 超參數敏感
答案:C -
小批量梯度下降(MBGD)的主要優勢是?
A. 計算效率與梯度穩定性平衡
B. 絕對收斂到全局最優
C. 無需調參
D. 適合所有規模數據集
答案:A -
Adam 優化算法結合了哪些技術?
A. 動量法與 Adagrad
B. 動量法與 RMSprop
C. SGD 與 Adadelta
D. 梯度截斷與早停
答案:B
二、填空題
-
網絡優化中,梯度消失的主要原因是__________和__________的累乘。
答案:激活函數導數、權重矩陣 -
批量歸一化(BN)的主要目的是解決__________問題。
答案:內部協變量偏移 -
Dropout 通過隨機丟棄神經元,等效于__________訓練,提升模型泛化性。
答案:集成
八、模型的學習方式
一、選擇題
-
下列屬于集成學習中 Boosting 框架的算法是?
A. 隨機森林
B. AdaBoost
C. Stacking
D. Bagging
答案:B -
多任務學習中,硬共享模式的特點是?
A. 各任務獨立訓練,無參數共享
B. 共享底層網絡,頂層任務特定
C. 通過正則化約束參數相似
D. 按任務相關性分層共享
答案:B -
遷移學習中,源域與目標域特征空間相同但分布不同的場景屬于?
A. 異構遷移
B. 同構遷移
C. 元學習
D. 終身學習
答案:B
二、填空題
-
集成學習的三大框架包括 Boosting、和。
答案:Bagging、Stacking -
多視角學習中,通過交替標注未標記數據的方法稱為__________。
答案:協同訓練(Co-Training) -
遷移學習中,利用預訓練模型在目標任務微調的方法屬于__________策略。
答案:預訓練 - 微調
?九、深度生成模型
一、選擇題
-
下列屬于生成模型的是?
A. 邏輯回歸
B. 支持向量機
C. 生成對抗網絡(GAN)
D. 隨機森林
答案:C -
GAN 的核心架構包含哪兩個網絡?
A. 編碼器與解碼器
B. 生成器與判別器
C. 前向網絡與反向網絡
D. 特征提取器與分類器
答案:B -
生成模型學習的目標是?
A. 直接擬合條件概率?p(y∣x)
B. 學習數據的聯合概率?p(x,y)?或邊緣概率?p(x)
C. 尋找最優決策邊界
D. 最大化分類準確率
答案:B
二、填空題
-
機器學習的兩種范式是__________和__________。
答案:判別模型、生成模型 -
GAN 的目標函數設計遵循__________與__________的對抗優化原則。
答案:生成器、判別器 -
生成模型的兩大核心步驟是__________和__________。
答案:密度估計、采樣