LLM大模型工程師面試經驗寶典--基礎版(2024.7月最新)

1.簡單介紹一下大模型【LLMs】?

????????大模型:一般指1億以上參數的模型,但是這個標準一直在升級,目前萬億參數以上的模型也有了。大語言模型(Large Language Model,LLM)是針對語言的大模型。

2.目前主流的開源模型體系有哪些?

????????目前主流的開源模型體系分三種:

1. 第一種:prefix Decoder 系

????????介紹:輸入雙向注意力,輸出單向注意力

????????代表模型:ChatGLM、ChatGLM2、U-PaLM

2. 第二種:causal Decoder 系

????????介紹:從左到右的單向注意力

????????代表模型:LLaMA-7B、LLaMa 衍生物

3. 第三種:Encoder-Decoder

????????介紹:輸入雙向注意力,輸出單向注意力

????????代表模型:T5、Flan-T5、BART

3. prefix Decoder 和 causal Decoder 和 EncoderDecoder 區別是什么?

????????prefix Decoder 和 causal Decoder 和 Encoder-Decoder 區別 在于 attention mask不同:

1. Encoder-Decoder:

2. 在輸入上采用雙向注意力,對問題的編碼理解更充分

3. 適用任務:在偏理解的 NLP 任務上效果好

4. 缺點:在長文本生成任務上效果差,訓練效率低;

5. causal Decoder:

6. 自回歸語言模型,預訓練和下游應用是完全一致的,嚴格遵守只有后面的token才能看到前面的 token的規則;

7. 適用任務:文本生成任務效果好

8. 優點:訓練效率高,zero-shot 能力更強,具有涌現能力

9. prefix Decoder:

10. 特點:prefix部分的token互相能看到,causal Decoder 和 Encoder-Decoder 折中;

11. 缺點:訓練效率低?

4. 大模型LLM的訓練目標是什么?

1. 語言模型 根據 已有詞 預測下一個詞,訓練目標為最大似然函數:

訓練效率:Prefix Decoder < Causal Decoder Causal Decoder 結構會在所有token 上計算損失,而 Prefix Decoder 只會在 輸出上 計算損失。

2. 去噪自編碼器 隨機替換掉一些文本段,訓練語言模型去恢復被打亂的文本段。

目標函數為:

去噪自編碼器的實現難度更高。采用去噪自編碼器作為訓練目標的任務有GLM-130B、T5.

5. 涌現能力是啥原因?

根據前人分析和論文總結,大致是2個猜想:

1. 任務的評價指標不夠平滑;

2. 復雜任務 vs 子任務,這個其實好理解,比如我們假設某個任務 T 有 5 個子任務 Sub-T 構成,每個 sub-T 隨著模型增長,指標從 40% 提升到 60%,但是最終任務的指標只從 1.1% 提升到了 7%,也 就是說宏觀上看到了涌現現象,但是子任務效果其實是平滑增長的。

6.為何現在的大模型大部分是Decoder only結構?

????????因為decoder-only結構模型在沒有任何微調數據的情況下,zero-shot的表現能力最好。而encoderdecoder則需要在一定量的標注數據上做multitask-finetuning才能夠激發最佳性能。 目前的Large LM的訓練范式還是在大規模語料shang 做自監督學習,很顯然zero-shot性能更好的 decoder-only架構才能更好的利用這些無標注的數據。

???????? 大模型使用decoder-only架構除了訓練效率和工程實現上的優勢外,在理論上因為Encoder的雙向注意 力會存在低秩的問題,這可能會削弱模型的表達能力。就生成任務而言,引入雙向注意力并無實質的好處。而Encoder-decoder模型架構之所以能夠在某些場景下表現更好,大概是因為它多了一倍參數。所 以在同等參數量、同等推理成本下,Decoder-only架構就是最優的選擇了。

7. 大模型【LLMs】后面跟的 175B、60B、540B等指什么?

175B、60B、540B等:這些一般指參數的個數,B是Billion/十億的意思,175B是1750億參數,這是 ChatGPT大約的參數規模。

8. 大模型【LLMs】具有什么優點?

1. 可以利用大量的無標注數據來訓練一個通用的模型,然后再用少量的有標注數據來微調模型,以適 應特定的任務。這種預訓練和微調的方法可以減少數據標注的成本和時間,提高模型的泛化能力;

2. 可以利用生成式人工智能技術來產生新穎和有價值的內容,例如圖像、文本、音樂等。這種生成能 力可以幫助用戶在創意、娛樂、教育等領域獲得更好的體驗和效果;

3. 可以利用涌現能力(Emergent Capabilities)來完成一些之前無法完成或者很難完成的任務,例如 數學應用題、常識推理、符號操作等。這種涌現能力可以反映模型的智能水平和推理能力。

9. 大模型【LLMs】具有什么缺點?

1. 需要消耗大量的計算資源和存儲資源來訓練和運行,這會增加經濟和環境的負擔。據估計,訓練一 個GPT-3模型需要消耗約30萬美元,并產生約284噸二氧化碳排放;

2. 需要面對數據質量和安全性的問題,例如數據偏見、數據泄露、數據濫用等。這些問題可能會導致 模型產生不準確或不道德的輸出,并影響用戶或社會的利益;

3. 需要考慮可解釋性、可靠性、可持續性等方面的挑戰,例如如何理解和控制模型的行為、如何保證 模型的正確性和穩定性、如何平衡模型的效益和風險等。這些挑戰需要多方面的研究和合作,以確 保大模型能夠健康地發展。

八股文進階版:http://t.csdnimg.cn/5yxMO

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/38968.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/38968.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/38968.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于布雷格曼偏差校正技術的全變分一維時間序列信號降噪方法(MATLAB R2018A)

信號降噪是信號處理的重要步驟之一&#xff0c;目的是提高所獲得信號數據的質量&#xff0c;以達到更高的定性和定量分析精度。信號降噪能提升信號處理其他環節的性能和人們對信息識別的準確率&#xff0c;給信號處理工作提供更可靠的保證。信號降噪的難點是降低噪聲的同時也會…

69. x 的平方根(簡單)

69. x 的平方根 1. 題目描述2.詳細題解3.代碼實現3.1 Python方法一&#xff1a;逐個遍歷方法二&#xff1a;二分查找 3.2 Java 1. 題目描述 題目中轉&#xff1a;69. x 的平方根 2.詳細題解 不能使用系統內置的函數&#xff0c;尋找某個數&#xff08;假定為x&#xff09;的…

網絡請求的高效處理:C++ libmicrohttpd庫詳解

一、libmicrohttpd簡介 libmicrohttpd是一個小型的C語言庫&#xff0c;用于創建HTTP服務器和客戶端。它提供了HTTP 1.1協議的完整實現&#xff0c;包括持久連接、管道化請求、虛擬主機等特性。libmicrohttpd的特點是&#xff1a; 輕量級&#xff1a;易于集成到C或C項目中。跨…

微信好友不小心拉黑了?這樣操作,友誼的小船不會翻

在數字化時代&#xff0c;微信已成為我們社交生活的核心&#xff0c;它不僅連接著親朋好友&#xff0c;更承載著我們的情感與回憶。 然而&#xff0c;情緒波動時&#xff0c;我們可能會一時沖動&#xff0c;將某些好友誤送入黑名單。但別擔心&#xff0c;今天&#xff0c;就讓…

IMU在手語識別中的應用

近期&#xff0c;一款由美國和中國科研團隊聯合研發的新型的穿戴設備——SignRing&#xff0c;以其獨特的IMU&#xff08;慣性測量單元&#xff09;技術&#xff0c;為聾啞人士的手語識別帶來了革命性的突破。SignRing不僅極大地擴展了手語識別的詞匯量&#xff0c;更提高了識別…

二維數組-----螺旋性矩陣輸出

題目有點難&#xff0c;ok其實是很難。。。 觀察樣例輸出&#xff0c;不難發現&#xff0c;螺旋數組中元素的遞增軌跡為&#xff1a;右右右、下下下、左左左、上上上 簡明為&#xff1a;右、下、左、上。可以設開始遞增的元素1的位置為&#xff08;x&#xff0c;y)&#xff0c…

由跨域引發一些思考

由跨域引發一些思考 前言什么是跨域&#xff1f;為什么會產生跨域&#xff1f;跨域場景示例&#xff1a;跨域常見的解決方法&#xff1a;JSONP&#xff08;JSON with Padding&#xff09;CORS&#xff08;Cross-Origin Resource Sharing&#xff09;document.domain iframeloc…

AutoHotKey自動熱鍵(二)中文版幫助手冊下載和自定義一般鍵盤快捷鍵

所有的操作其實在開發者手冊中已經交待完了,所以我們要使用中文的手冊來進行使用 autohotkey1.1.15中文手冊下載 好了,為什么有了中文手冊,這里還要進行一些具體的介紹呢,就是為了讓大家少踩坑,能夠快速形成生產力 這里先講一下自定義快捷鍵WIN鍵和ALT鍵和CTRL鍵和SHIFT鍵的組…

智慧的網絡爬蟲之CSS概述

智慧的網絡爬蟲之CSS概述 ? CSS 是“Cascading Style Sheet”的縮寫&#xff0c;中文意思為“層疊樣式表”&#xff0c;用于描述網頁的表現形式。如網頁元素的位置、大小、顏色等。css的主要作用是定義網頁的樣式。 CSS樣式 1. 行內樣式 行內樣式&#xff1a;直接定義在 HT…

深入理解Git:fetch與pull的區別與運用

在Git的版本控制世界中&#xff0c;fetch和pull是兩個至關重要的命令&#xff0c;它們都與從遠程倉庫獲取數據有關。然而&#xff0c;這兩個命令在功能和用法上卻存在著顯著的差異。本文將詳細解析fetch和pull的區別&#xff0c;以及它們在實際開發中的應用&#xff0c;幫助讀者…

Qt 5.14.2+Android環境搭建

1. 安裝QT5.14.2的過程中&#xff0c;選中套件&#xff08;kit&#xff09; qt for android。 如果已經安裝了qt creator但沒有安裝該套件&#xff0c;可以找到在qt安裝目錄下的MaintenanceTool.exe&#xff0c;運行該程序添加套件。 2. 安裝jdk8&#xff0c;android sdk&…

五分鐘了解MQ消息集成

一、MQ消息集成的定義 MQ消息集成是通過消息中間件&#xff08;Message Queue&#xff09;實現的一種數據集成方式。它通過將數據發送到中間件中&#xff0c;再從中間件中接收數據&#xff0c;實現不同系統之間的數據交換。在MQ消息集成中&#xff0c;發送者和接收者之間不需要…

vue3.2及以上 父調子的方法defineExpose定義供父調用的方法及屬性

1、定義子類LoginForm&#xff1a; function handleLogin(account, token) {console.log(account,token)}defineExpose({handleLogin,}); 2、父類調用子類組件 const loginFormRef ref(); <LoginForm ref"loginFormRef" />loginFormRef.value.handleLogin(…

代碼隨想錄第38天|動態規劃

1049. 最后一塊石頭的重量 II 參考 備注: 當物體容量也等同于價值時, 01背包問題的含義則是利用好最大的背包容量sum/2, 使得結果盡可能的接近或者小于 sum/2 等價: 盡可能的平分成相同的兩堆, 其差則為結果, 比如 (abc)-d, (ac)-(bd) , 最終的結果是一堆減去另外一堆的和, 問…

Deep-LIBRA:一種用于可靠量化乳腺密度的人工智能方法,并在乳腺癌風險評估中進行了獨立驗證| 文獻速遞-深度學習自動化疾病檢查

Title 題目 Deep-LIBRA: An artificial-intelligence method for robust quantification of breast density with independent validation in breast cancer risk assessment Deep-LIBRA&#xff1a;一種用于可靠量化乳腺密度的人工智能方法&#xff0c;并在乳腺癌風險評估中…

【LeetCode】每日一題:相交鏈表

給你兩個單鏈表的頭節點 headA 和 headB &#xff0c;請你找出并返回兩個單鏈表相交的起始節點。如果兩個鏈表不存在相交節點&#xff0c;返回 null 。 圖示兩個鏈表在節點 c1 開始相交&#xff1a; 題目數據 保證 整個鏈式結構中不存在環。 注意&#xff0c;函數返回結果后&am…

7/1 uart

uart4.c #include "uart4.h"//UART4_RX > PB2 //UART4_TX > PG11char rebuf[51] {0}; //rcc/gpio/uart4初始化 void hal_uart4_init() {/********RCC章節初始化*******///1.使能GPIOB組控制器 MP_AHB4ENSETR[1] 1RCC->MP_AHB4ENSETR | (0x1 << 1)…

【C++11:右值引用,列表初始化】

統一列表初始化&#xff1a; 構造函數的函數名與函數體之間增加一個列表&#xff0c;用于對成員初始化 在實例化對象時&#xff0c;支持單/多參數的隱式轉化&#xff0c;同時也可以省略符號&#xff0c;讓代碼更簡潔 右值的引用 左值&#xff1a; 左值與右值的重要區別就是能…

全國產化飛騰模塊BIOS下修復系統啟動文件

1、背景介紹 全國產飛騰模塊采用麒麟信安操作系統&#xff0c;當系統下面的grub.cfg文件被用戶誤操作導致無法啟動時&#xff0c;可以在BIOS下通過U盤中備份的grub.cfg替換硬盤上原來的grub.cfg文件&#xff0c;從而實現啟動。 2、操作步驟 首先進入BIOS命令行模式&#xff…

Meta低頭,庫克認錯,XR回歸第一性原理

圖片&#xff5c;Photo by Maxim Hopman on Unsplash ©自象限原創 作者丨羅輯 2024年&#xff0c;XR的故事應該怎么講&#xff1f; 如果從數據上看&#xff0c;這應該是個沉重的話題。 根據 IDC 報告&#xff0c;2023 年全球 VR 市場出貨量下滑了 10.7%。2024 年第一…