【AI大模型面試寶典60題】1-5

目錄

Q1:僅編碼器(BERT 類)、僅解碼器(GPT 類)和完整的編碼器-解碼器架構各有什么優缺點?

1. 編碼器架構 (Encoder-only) - 代表:BERT系列

2. 解碼器架構 (Decoder-only) - 代表:GPT系列

3. 編碼器-解碼器架構 (Encoder-Decoder) - 代表:T5、BART

升華與總結 (總)

Q2:自注意力機制如何使大模型能夠捕捉長距離依賴關系,它跟 RNN 有什么區別?

面試口述

1.Self-Attention (自注意力) 的方式:全局關聯

2.核心區別總結(列表對比)

3. 升華與總結 (總)

Q3:大模型為什么有上下文長度的概念?為什么它是指輸入和輸出的總長度?

面試口述

1. 為什么有上下文長度的概念?

2. 為什么是輸入和輸出的總長度?

升華與總結 (總)

Q4:大模型的分詞器和傳統的中文分詞有什么區別?對于指定的詞表,一句話是不是只有唯一的分詞方式?

面試口述

1. 核心區別(四大不同)

2. 對于指定的詞表,一句話是否只有唯一的分詞方式?

升華與總結 (總)

類比理解(針對第2問)

Q5:大模型是如何區分聊天歷史中用戶說的話和 AI 說的話的?



Q1:僅編碼器(BERT 類)、僅解碼器(GPT 類)和完整的編碼器-解碼器架構各有什么優缺點?

架構類型 代表模型 優點 缺點 典型任務類型
編碼器(BERT) BERT、RoBERTa 雙向理解強、表示學習好 不能生成文本 分類、抽取、匹配等
解碼器(GPT) GPT、Qwen 擅長生成、支持 prompt 工程 不夠理解、生成慢 問答、對話、代碼生成
編解碼器(T5) T5、BART、mT5 兼顧理解與生成、靈活的輸入輸出建模 訓練推理成本高 翻譯、摘要、問答

開場白 (總):

編碼器、解碼器和編解碼器是Transformer模型在NLP領域演進的三種核心架構。它們各有側重,分別適用于不同的任務類型。

1. 編碼器架構 (Encoder-only) - 代表:BERT系列

  • 核心特點雙向上下文理解。通過“完形填空”式的預訓練任務(MLM),讓模型能同時利用一個詞左右兩邊的上下文信息來學習它的深層表示。

  • 優點

    • 強大的上下文表征能力:生成的詞向量包含了豐富的上下文信息,非常適用于需要深度理解文本的任務。

    • 任務靈活:通過在預訓練模型后添加簡單的任務特定層(如一個線性分類層),就能微調用于各種下游任務。

  • 缺點

    • 天生不是生成模型:其架構是“所見即所得”,輸入和輸出長度必須嚴格一致,無法自動生成新的文本序列。

  • 典型任務

    • 文本分類(如情感分析)

    • 序列標注(如命名實體識別NER、詞性標注)

    • 語義相似度/匹配(如判斷兩句話是否表達相同意思)

    • 抽取式問答(從一段文本中抽取出答案 span)

一句話總結“編碼器就像一個強大的文本理解者和分析者,但它只能處理輸入,不能創造新的輸出。”


2. 解碼器架構 (Decoder-only) - 代表:GPT系列

  • 核心特點自回歸生成。通過“下一個詞預測”的預訓練任務,從左到右逐個生成 token。在訓練時使用“因果掩碼”(Causal Mask),確保模型在預測第i個詞時只能看到它左邊的信息,防止信息泄露。

  • 優點

    • 強大的生成能力:天然適合一切需要生成文本的任務,從寫文章到寫代碼。

    • 支持Prompt工程:通過設計不同的輸入提示(Prompt),可以 zero-shot 或 few-shot 地引導模型完成五花八門的任務,泛化性極強。

  • 缺點

    • 單向上下文:在理解階段,由于只能看到左側上下文,對文本的“理解”深度理論上不如雙向的編碼器。

    • 推理速度慢:生成時必須一個一個地迭代輸出,無法并行,因此比編碼器的推理速度慢很多。

  • 典型任務

    • 開放域文本生成(寫故事、寫郵件)

    • 對話系統(如ChatGPT)

    • 代碼生成與補全

    • 通過Prompt實現的各類任務(如分類、翻譯,但并非其最初設計主業)

一句話總結“解碼器就像一個富有創造力的作家,擅長續寫和創造,但它的閱讀(理解)方式是逐字逐句的,不夠全面。”


3. 編碼器-解碼器架構 (Encoder-Decoder) - 代表:T5、BART

  • 核心特點序列到序列(Seq2Seq)。結合了前兩者的優點。編碼器負責雙向理解輸入序列,將其壓縮為一個富含語義的上下文向量(Context Vector);解碼器基于這個上下文向量,以自回歸的方式生成輸出序列。

  • 優點

    • 理解與生成的完美結合:既能夠深度理解輸入文本,又能夠自由地生成輸出文本。

    • 輸入輸出長度靈活:非常適合處理輸入和輸出長度不一致的任務。

  • 缺點

    • 模型更復雜,成本更高:參數量通常更大,訓練和推理的計算開銷都是三種架構中最高的。

  • 典型任務

    • 文本摘要(輸入長文,輸出簡短摘要)

    • 機器翻譯(輸入一種語言,輸出另一種語言)

    • 生成式問答(根據問題生成答案,而非抽取)

    • 語義重寫(如文本糾錯、句子潤色)

一句話總結“編解碼器就像一個專業的翻譯官或總結者,它先通讀全文(編碼器理解),再用自己的話重新組織輸出(解碼器生成)。”


升華與總結 (總)

在回答完三點后,可以做一個更高層次的總結,展示你的視野:

“所以,這三種架構的選擇本質上是任務需求計算成本之間的權衡。

  • 如果任務純粹是理解、分析、分類,選編碼器,效果最好且高效。

  • 如果任務是開放式的生成,或者希望模型非常靈活,選解碼器

  • 如果任務需要先深度理解再創造性輸出,即典型的‘序列到序列’問題,那么即使成本高,也值得選擇編解碼器

另外,值得注意的是,隨著像GPT-3/4這樣超大規模解碼器模型的出現,其強大的涌現能力在一定程度上模糊了這種界限,通過Prompt,一個強大的解碼器模型也能很好地完成理解類任務。但從架構設計的本源上來講,這三者的區別還是非常清晰和重要的。”

#


Q2:自注意力機制如何使大模型能夠捕捉長距離依賴關系,它跟 RNN 有什么區別?

自注意力機制允許序列中每個位置直接與所有其他位置交互,通過計算 Query Key 的相似度,對全局信息進行加權聚合。因此,無論依賴關系有多遠,都能在一次計算中捕捉到。
相比之下, RNN 是一步步傳遞信息,遠距離依賴需要多步

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/96726.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/96726.shtml
英文地址,請注明出處:http://en.pswp.cn/web/96726.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

macOS中找不到鑰匙串訪問

如果在macOS中找不到鑰匙串訪問,請操作如下命令: security list-keychains可以看到類似: “/Library/Keychains/System.keychain” 然后執行: open /Library/Keychains/System.keychain然后可以將應用保留在程序塢中保留。

UCOSIII移植——學習筆記1

本文是筆者在學習 正點原子官方 的《【正點原子】手把手教你學UCOS-III實時操作系統》系列視頻時整理的筆記。 視頻講解清晰透徹,非常感謝UP主的無私奉獻!原課程鏈接如下: 👉 B站視頻鏈接:【正點原子】手把手教你學UCO…

SpringBootCodeGenerator使用JSqlParser解析DDL CREATE SQL 語句

🧠 使用 JSqlParser 解析 CREATE TABLE SQL 語句詳解在數據庫開發中,我們常常需要從 SQL 中提取表結構信息,比如字段名、類型、注釋等。相比使用正則表達式,JSqlParser 提供了更可靠的方式來解析 SQL 語句,尤其適用于復…

css3新增-網格Grid布局

目錄flex彈性布局Gird布局開啟網格布局定義網格中的行和列長度值百分比值新單位fr關鍵字函數minmax(min, max)函數-repeatauto-fill vs auto-fit舉例說明grid-template-areasgapgrid-auto-columns和grid-auto-rowsjustify-contentalign-contentjustify-contentalign-contentjus…

最新最強新太極工具3.6 支持Windows和不支持mac電腦,支持免改碼,和改碼,支持12—18系統

溫馨提示:文末有資源獲取方式最新最強太極工具3.6支持Windows和Mac計算機,支持無代碼更改和代碼更改,支持12-18個系統 支持A7-A11芯片、Apple 5s x、iPad A7至A11芯片,支持所有者鎖定、激活鎖定、無法激活(密碼界面和禁…

深入淺出 C++20:新特性與實踐

C20 是 C 編程語言的一次重要更新,引入了許多新特性和改進,旨在提升代碼的簡潔性、安全性和性能。本文將詳細介紹 C20 的一些核心特性,并通過示例代碼幫助讀者理解這些特性的應用場景。C20 新特性總結 以下是 C20 的主要新特性及其簡要描述&a…

CSS 屬性概述

CSS 屬性概述 CSS 屬性用于控制 HTML 元素的樣式和行為,包括布局、顏色、字體、動畫等。以下是常用的 CSS 屬性分類及示例: 布局相關屬性 display: 控制元素的顯示方式,如 block、inline、flex、grid。position: 定義元素的定位方式&#…

--- 統一請求入口 Gateway ---

spring cloud gateway 官方文檔 Spring Cloud Gateway 中文文檔 什么是api網關 對于微服務的每個接口,我們都需要校驗請求的權限是否足夠,而微服務把項目細化除了許多個接口,若這些接口都要對服務進行權限校驗的話,那么無疑加重…

返利app的消息隊列架構:基于RabbitMQ的異步通信與解耦實踐

返利app的消息隊列架構:基于RabbitMQ的異步通信與解耦實踐 大家好,我是阿可,微賺淘客系統及省賺客APP創始人,是個冬天不穿秋褲,天冷也要風度的程序猿! 在返利app的業務流程中,用戶下單、返利計算…

Vue3 響應式失效 debug:Proxy 陷阱導致數據更新異常的深度排查

人們眼中的天才之所以卓越非凡,并非天資超人一等而是付出了持續不斷的努力。1萬小時的錘煉是任何人從平凡變成超凡的必要條件。———— 馬爾科姆格拉德威爾 🌟 Hello,我是Xxtaoaooo! 🌈 “代碼是邏輯的詩篇&#xff0…

【貪心算法】day10

📝前言說明: 本專欄主要記錄本人的貪心算法學習以及LeetCode刷題記錄,按專題劃分每題主要記錄:(1)本人解法 本人屎山代碼;(2)優質解法 優質代碼;&#xff…

LeetCode算法日記 - Day 42: 島嶼數量、島嶼的最大面積

目錄 1. 島嶼數量 1.1 題目解析 1.2 解法 1.3 代碼實現 2. 島嶼的最大面積 2.1 題目解析 2.2 解法 2.3 代碼實現 1. 島嶼數量 https://leetcode.cn/problems/number-of-islands/ 給你一個由 1(陸地)和 0(水)組成的的二維…

短波紅外相機在機器視覺檢測方向的應用

短波紅外相機在機器視覺檢測方向的應用短波紅外相機:機器視覺的“低成本突破者”一、打破成本困局:短波紅外的“平民化”革新二、核心技術:有機材料的“硬核創新”1. 材料革命:有機感光層的優勢2. 工藝兼容:嫁接成熟CM…

【數據結構與算法】圖 Floyd算法

相關題目: 1334. 閾值距離內鄰居最少的城市 - 力扣(LeetCode) 資料 : Floyd算法原理及公式推導 - 知乎 Floyd 算法是一種經典的動態規劃算法,用與求解圖中所有頂點之間的最短短路路徑。它由Robert Floyd 于1962…

衛星通信天線的指向精度,含義、測量和計算

衛星通信天線的指向精度,含義、測量和計算我們在衛星通信天線的技術規格書中,都會看到天線指向精度這個指標。一般來說,技術規格書上的天線指向精度的參數是這么寫的:“天線指向精度≤1/10半功率波束帶寬”今天這個文章&#xff0…

基于LSTM與3秒級Tick數據的金融時間序列預測實現

數據加載模塊解析 def load_data(filepath):df pd.read_csv(filepath)return df該函數承擔基礎數據采集職責,通過Pandas庫讀取CSV格式的高頻交易數據(典型如股票分筆成交明細)。輸入參數為文件路徑字符串,輸出結構化DataFrame對象…

C# --- Field and Property

C# --- Field and Property字段 (Field) vs. 屬性 (Property)Property的聲明初始化方法單例類property錯誤初始化導致線程泄漏字段 (Field) vs. 屬性 (Property) 字段 (Field) - 數據的存儲容器 字段是直接在類或結構中聲明的變量。它是存儲數據的地方,是對象狀態的…

【Python】實現一個文件夾快照與比較工具

1. 工具簡介 在日常開發、項目管理或備份場景中,我們經常需要知道某個文件夾中的文件是否發生變化,例如: 項目源碼是否新增或修改文件?數據集是否被不小心刪除或篡改?備份文件夾是否和上次一致? 本教程將教…

LINUX913 shell:set ip [lindex $argv 0],\r,send_user,spawn ssh root@ip “cat “

問題 獲取公鑰 [codesamba ~]$ cat pub.sh #!/bin/usr/expect set ip "$1" set password 123456 set timeout 20 spawn ssh root192.168.235.100:cat ~/.ssh/id_rsa.pub expect { "yes/no" {send "yes/r";exp_continue} "password:" {…

Acwing算法基礎課--鏈表

一、單鏈表 AcWing 826. 單鏈表 代碼 N 100010 idx 0 e [0] * N ne [0] * N head -1def init():global idx,headidx 0head -1def add_head(x):global idx,heade[idx] xne[idx] headhead idxidx 1def delete(k):ne[k] ne[ne[k]]def add_k(k,x):global idxe[idx] …