目錄
Q1:僅編碼器(BERT 類)、僅解碼器(GPT 類)和完整的編碼器-解碼器架構各有什么優缺點?
1. 編碼器架構 (Encoder-only) - 代表:BERT系列
2. 解碼器架構 (Decoder-only) - 代表:GPT系列
3. 編碼器-解碼器架構 (Encoder-Decoder) - 代表:T5、BART
升華與總結 (總)
Q2:自注意力機制如何使大模型能夠捕捉長距離依賴關系,它跟 RNN 有什么區別?
面試口述
1.Self-Attention (自注意力) 的方式:全局關聯
2.核心區別總結(列表對比)
3. 升華與總結 (總)
Q3:大模型為什么有上下文長度的概念?為什么它是指輸入和輸出的總長度?
面試口述
1. 為什么有上下文長度的概念?
2. 為什么是輸入和輸出的總長度?
升華與總結 (總)
Q4:大模型的分詞器和傳統的中文分詞有什么區別?對于指定的詞表,一句話是不是只有唯一的分詞方式?
面試口述
1. 核心區別(四大不同)
2. 對于指定的詞表,一句話是否只有唯一的分詞方式?
升華與總結 (總)
類比理解(針對第2問)
Q5:大模型是如何區分聊天歷史中用戶說的話和 AI 說的話的?
Q1:僅編碼器(BERT 類)、僅解碼器(GPT 類)和完整的編碼器-解碼器架構各有什么優缺點?
架構類型 | 代表模型 | 優點 | 缺點 | 典型任務類型 |
---|---|---|---|---|
編碼器(BERT) | BERT、RoBERTa | 雙向理解強、表示學習好 | 不能生成文本 | 分類、抽取、匹配等 |
解碼器(GPT) | GPT、Qwen | 擅長生成、支持 prompt 工程 | 不夠理解、生成慢 | 問答、對話、代碼生成 |
編解碼器(T5) | T5、BART、mT5 | 兼顧理解與生成、靈活的輸入輸出建模 | 訓練推理成本高 | 翻譯、摘要、問答 |
開場白 (總):
編碼器、解碼器和編解碼器是Transformer模型在NLP領域演進的三種核心架構。它們各有側重,分別適用于不同的任務類型。
1. 編碼器架構 (Encoder-only) - 代表:BERT系列
核心特點:雙向上下文理解。通過“完形填空”式的預訓練任務(MLM),讓模型能同時利用一個詞左右兩邊的上下文信息來學習它的深層表示。
優點:
強大的上下文表征能力:生成的詞向量包含了豐富的上下文信息,非常適用于需要深度理解文本的任務。
任務靈活:通過在預訓練模型后添加簡單的任務特定層(如一個線性分類層),就能微調用于各種下游任務。
缺點:
天生不是生成模型:其架構是“所見即所得”,輸入和輸出長度必須嚴格一致,無法自動生成新的文本序列。
典型任務:
文本分類(如情感分析)
序列標注(如命名實體識別NER、詞性標注)
語義相似度/匹配(如判斷兩句話是否表達相同意思)
抽取式問答(從一段文本中抽取出答案 span)
一句話總結:“編碼器就像一個強大的文本理解者和分析者,但它只能處理輸入,不能創造新的輸出。”
2. 解碼器架構 (Decoder-only) - 代表:GPT系列
核心特點:自回歸生成。通過“下一個詞預測”的預訓練任務,從左到右逐個生成 token。在訓練時使用“因果掩碼”(Causal Mask),確保模型在預測第
i
個詞時只能看到它左邊的信息,防止信息泄露。優點:
強大的生成能力:天然適合一切需要生成文本的任務,從寫文章到寫代碼。
支持Prompt工程:通過設計不同的輸入提示(Prompt),可以 zero-shot 或 few-shot 地引導模型完成五花八門的任務,泛化性極強。
缺點:
單向上下文:在理解階段,由于只能看到左側上下文,對文本的“理解”深度理論上不如雙向的編碼器。
推理速度慢:生成時必須一個一個地迭代輸出,無法并行,因此比編碼器的推理速度慢很多。
典型任務:
開放域文本生成(寫故事、寫郵件)
對話系統(如ChatGPT)
代碼生成與補全
通過Prompt實現的各類任務(如分類、翻譯,但并非其最初設計主業)
一句話總結:“解碼器就像一個富有創造力的作家,擅長續寫和創造,但它的閱讀(理解)方式是逐字逐句的,不夠全面。”
3. 編碼器-解碼器架構 (Encoder-Decoder) - 代表:T5、BART
核心特點:序列到序列(Seq2Seq)。結合了前兩者的優點。編碼器負責雙向理解輸入序列,將其壓縮為一個富含語義的上下文向量(Context Vector);解碼器基于這個上下文向量,以自回歸的方式生成輸出序列。
優點:
理解與生成的完美結合:既能夠深度理解輸入文本,又能夠自由地生成輸出文本。
輸入輸出長度靈活:非常適合處理輸入和輸出長度不一致的任務。
缺點:
模型更復雜,成本更高:參數量通常更大,訓練和推理的計算開銷都是三種架構中最高的。
典型任務:
文本摘要(輸入長文,輸出簡短摘要)
機器翻譯(輸入一種語言,輸出另一種語言)
生成式問答(根據問題生成答案,而非抽取)
語義重寫(如文本糾錯、句子潤色)
一句話總結:“編解碼器就像一個專業的翻譯官或總結者,它先通讀全文(編碼器理解),再用自己的話重新組織輸出(解碼器生成)。”
升華與總結 (總)
在回答完三點后,可以做一個更高層次的總結,展示你的視野:
“所以,這三種架構的選擇本質上是任務需求和計算成本之間的權衡。
如果任務純粹是理解、分析、分類,選編碼器,效果最好且高效。
如果任務是開放式的生成,或者希望模型非常靈活,選解碼器。
如果任務需要先深度理解再創造性輸出,即典型的‘序列到序列’問題,那么即使成本高,也值得選擇編解碼器。
另外,值得注意的是,隨著像GPT-3/4這樣超大規模解碼器模型的出現,其強大的涌現能力在一定程度上模糊了這種界限,通過Prompt,一個強大的解碼器模型也能很好地完成理解類任務。但從架構設計的本源上來講,這三者的區別還是非常清晰和重要的。”
#