推薦收藏!字節AI Lab-NLP算法(含大模型)面經總結!

節前,我們組織了一場算法崗技術&面試討論會,邀請了一些互聯網大廠同學、參加社招和校招面試的同學,針對大模型技術趨勢、大模型落地項目經驗分享、新手如何入門算法崗、該如何備戰、面試常考點分享等熱門話題進行了深入的討論。

今天整理我們社群一個同學面試字節 NLP 算法方向的面試題,分享給大家,希望對后續找工作的有所幫助。喜歡記得點贊、收藏、關注。更多技術交流&面經學習,可以加入我們。


我是內推途徑進行面試,速度比較快,在周日投遞簡歷,隔天周一hr就約了周四的面試,結果那天是2面視頻技術面+hr面直接走完了,緊接著就是offer call。整體投遞+面試+發錄用通知函的時間不到一周,而且面試官都是和簡歷對口的,整體體驗非常棒。

面試的崗位是“AI Lab實習生 — 自然語言處理NLP”,一共2面技術和一面hr,這里主要說下其中的技術面試。

一面

20min簡歷 + 30min題

先自我介紹,然后面試官說了句“好的了解”就直接進入項目了。

我的經歷主要是一些競賽,因此也是主要聊競賽,在競賽細節中扣一些細節提問。競賽主要是關于機器閱讀理解MRC的(百度機器閱讀、萊斯杯等),面試官也剛好懂,大致問題如下:

  1. 請你描述一下競賽背景,以及你在其中的工作/職責。

  2. 我看你數據做了很多預處理,這部分重要嗎,具體是如何做的預處理。這個不同項目應該不太一樣,不細說了。

  3. 我看你用了word2vec的詞向量,知道它是如何訓練的嗎,有哪些trick。這個很基礎了,trick就是負采樣和分層softmax。

  4. glove了解嗎,elmo呢?

  5. 你把很多組件改成了transformer 的 multi-head attention,為什么要舍棄lstm的結構而選用它呢。我回答的是可并行+更強大的特征提取能力,順便還解釋了self attention的原理以及multi-head的作用。

  6. 說一下bidaf的匹配層,解釋了bidaf的c2q和q2c的意義和具體做法。

  7. 你取得top2的成績還有其他優化嗎。這部分答了很多,當時吃了沒用bert的虧,所以在很多方面進行了一定的優化。

  8. 你的第二個競賽用roberta,它和bert的區別。動態mask+去除NSP+大力出奇跡(更大的batch,更多的數據,更多的step)。

  9. xlnet和bert有啥不同。自回歸&&自編碼的知識,其中解釋了xlnet排列語言模型以及雙流attention。

  10. albert了解嗎?embedding層矩陣分解+參數共享 + SOP + 工程細節。

其他還有些小問題想不起來了,總體來說問的面不廣,但是扣了些細節。

兩道算法題:

  1. 順時針打印數組

  2. 編輯距離

大模型題目:

  • 怎么解決大語言模型的幻覺問題,RLHF可以嗎?

  • 為什么模型越大,貌似更多地具備AGI的能力?這背后的邏輯是什么?

  • 有做過大模型訓練的實踐嗎,有哪些收獲或者感悟?

  • 關于微調的方法有哪些?

  • 如何評估大模型中數據集的質量?

  • 怎么解決大語言模型的幻覺問題,RLHF可以嗎?

  • PPO算法和DQN算法的區別是什么?

二面

先同樣是自我介紹。

然后出了一道“智力題”?

10個袋子,1000個球,你用球填充袋子,然后就固定了。現在來一個客戶,無論他要1~1000哪個數量,你都能通過組裝幾個袋子給他。

我開始對面試官說可以動態規劃:第一個袋子放1個,第二個袋子放2個,這個時候3=1+2,所以第三個袋子不用放3個,放4個;此時5=4+1,6=4+2,7=4+2+1都能組合得到,所以第四個袋子放8個,以此類推。后來一想,這不就是個1,2,4,8的等比數列嗎…

因為我提到了動態規劃,面試官為了使用動態規劃要滿足的條件是什么?什么情況下時候動態規劃比較好呢?答:使用dp需要滿足最優子結構性質 + 無后效性,在子問題有重疊的時候可以自頂向下的記憶化搜索,或者直接寫成自底向上的dp。

問我了一個C++的問題,后來看我很懵逼,看一眼簡歷說哦你是會Java啊,那我們換個問題,你說一下堆和棧。我說了數據結構的堆和棧,被打斷,他說是內存分配中的堆和棧。這部分答得不好。

接著是簡歷了,主要也是問競賽相關,聽我這些競賽的細節,然后針對細節提問,沒咋問transformer、bert相關,問了更偏傳統機器學習一些, 主要是一些關于gbdt、xgb、crf。

gbdt和xgb的就不細說了。

crf部分問的很詳細,例如它的具體定義?什么是馬爾可夫隨機場?講講你對crf的理解?crf和hmm的區別知道嗎,為什么ner任務用crf而不是hmm?crf具體如何預測?感覺答得一般。

2道算法題

  1. 口述了一道算法題,我記不起來了,是一道dp題來著,反正很快想到了方法,就pass了。

  2. 安卓手機的解碼方式多少種,就是那種9個點,可以上下左右、左上、左下、右上、右下連線的解鎖,最少一個第一點,最多可以全連上,一個點只能用一次。我用的dfs直接做的。

大模型題目:

  • 大模型的網絡結構有哪幾個部分?
  • 除了數據之外,還有哪些方向的工作可以進一步優化大模型的效果?
  • 如果讓你訓練一個模型,基座,數據,finetune的方法怎么選?
  • prefix LM 和 causal LM 區別是什么?
  • 垂直領域數據訓練后,通用能力往往會有所下降,如何緩解模型遺忘通用能力?

技術交流群

前沿技術資訊、算法交流、求職內推、算法競賽、面試交流(校招、社招、實習)等、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企開發者互動交流~

我們建了算法崗技術與面試交流群, 想要進交流群、需要源碼&資料、提升技術的同學,可以直接加微信號:mlc2060。加的時候備注一下:研究方向 +學校/公司+CSDN,即可。然后就可以拉你進群了。

方式①、微信搜索公眾號:機器學習社區,后臺回復:加群
方式②、添加微信號:mlc2060,備注:技術交流

用通俗易懂方式講解系列

  • 用通俗易懂的方式講解:自然語言處理初學者指南(附1000頁的PPT講解)
  • 用通俗易懂的方式講解:1.6萬字全面掌握 BERT
  • 用通俗易懂的方式講解:NLP 這樣學習才是正確路線
  • 用通俗易懂的方式講解:28張圖全解深度學習知識!
  • 用通俗易懂的方式講解:不用再找了,這就是 NLP 方向最全面試題庫
  • 用通俗易懂的方式講解:實體關系抽取入門教程
  • 用通俗易懂的方式講解:靈魂 20 問幫你徹底搞定Transformer
  • 用通俗易懂的方式講解:圖解 Transformer 架構
  • 用通俗易懂的方式講解:大模型算法面經指南(附答案)
  • 用通俗易懂的方式講解:十分鐘部署清華 ChatGLM-6B,實測效果超預期
  • 用通俗易懂的方式講解:內容講解+代碼案例,輕松掌握大模型應用框架 LangChain
  • 用通俗易懂的方式講解:如何用大語言模型構建一個知識問答系統
  • 用通俗易懂的方式講解:最全的大模型 RAG 技術概覽
  • 用通俗易懂的方式講解:利用 LangChain 和 Neo4j 向量索引,構建一個RAG應用程序
  • 用通俗易懂的方式講解:使用 Neo4j 和 LangChain 集成非結構化知識圖增強 QA
  • 用通俗易懂的方式講解:面了 5 家知名企業的NLP算法崗(大模型方向),被考倒了。。。。。
  • 用通俗易懂的方式講解:NLP 算法實習崗,對我后續找工作太重要了!。
  • 用通俗易懂的方式講解:理想汽車大模型算法工程師面試,被問的瑟瑟發抖。。。。
  • 用通俗易懂的方式講解:基于 Langchain-Chatchat,我搭建了一個本地知識庫問答系統
  • 用通俗易懂的方式講解:面試字節大模型算法崗(實習)
  • 用通俗易懂的方式講解:大模型算法崗(含實習)最走心的總結
  • 用通俗易懂的方式講解:大模型微調方法匯總

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/714060.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/714060.shtml
英文地址,請注明出處:http://en.pswp.cn/news/714060.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python調用ChatGPT API使用國內中轉key 修改接口教程

大家好,我是淘小白~ 有的客戶使用4.0的apikey ,直接使用官方直連的apikey消費很高,有一位客戶一個月要消費2萬,想使用4.0中轉的apikey,使用中轉的apikey 需要修改官方的openai庫,下面具體說下。 1、首先確保安裝的op…

Java ElasticSearch-Linux面試題

Java ElasticSearch-Linux面試題 前言1、守護線程的作用?2、鏈路追蹤Skywalking用過嗎?3、你對G1收集器了解嗎?4、你們項目用的什么垃圾收集器?5、內存溢出和內存泄露的區別?6、什么是Spring Cloud Bus?7、…

安裝ProxySQL,教程及安裝鏈接(網盤自提)

一、網盤下載,本地直傳 我網盤分享的是proxysql-2.5.5-1-centos8.x86_64.rpm,yum或者dnf直接安裝就行 提取碼:rhelhttps://pan.baidu.com/s/1nmx8-h8JEhrxQE3jsB7YQw 官方安裝地址 官網下載地址https://repo.proxysql.com/ProxySQL/ 二、…

題解:CF1889C1-Doremy‘s Drying Plan (Easy Version)

題解:CF1889C1-Doremy’s Drying Plan (Easy Version) 一、 題意描述 1. 題目鏈接 (1) CF鏈接 CodeForces (2) 洛谷鏈接 洛谷 2. 題目翻譯 有一個長度為 n n n 的序列,上面有 n n n 個點&#xf…

快速搭建項目運行環境(JDK+Maven+Git+Docker+Mysql+Redis+Node.js+Nginx)+前后端項目分別部署

JDK ①、從oracle官方網站上下載1.8版本中的最新版的JDK https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html ②、把文件通過WinSCP或者XFTP上傳到服務器上 ③、解壓和配置環境變量 #進入安裝包目錄,解壓 cd /data/tmp tar -zxvf jdk-8…

【AIGC】“光影交織的戀曲:絕美情侶在藍天下的深情互動“

外貌特征 (Physical Appearance):給遠景鏡頭,這對情侶擁有出眾的容貌和氣質。男子身材挺拔,五官立體鮮明,陽光灑在他俊朗的臉龐上,更顯英氣逼人;女子則擁有一頭柔順亮麗的秀發,明亮的眼睛如同星…

代碼隨想錄| 深搜、797.所有可能的路徑

回溯算法其實就是深搜&#xff0c;只不過這里的深搜是側重于在圖上搜索&#xff0c;回溯大多是在樹上搜索。 797.所有可能的路徑 完成 代碼 模板題 class Solution {List<List<Integer>> res new ArrayList<>();List<Integer> path new ArrayList…

GPT-4論文精讀【論文精讀·53】

Toolformer 今天我們來聊一下 GPT 4&#xff0c;但其實在最開始準備這期視頻的時候&#xff0c;我是準備講 Toolformer 這篇論文的&#xff0c;它是 Meta AI 在2月初的時候放出來的一篇論文。說這個大的語言模型可以利用工具了&#xff0c;比如說它就可以去調用各種各樣的API&a…

騰訊云優惠券領取的三個渠道,一個比一個優惠!

騰訊云代金券領取渠道有哪些&#xff1f;騰訊云官網可以領取、官方媒體賬號可以領取代金券、完成任務可以領取代金券&#xff0c;大家也可以在騰訊云百科蹲守代金券&#xff0c;因為騰訊云代金券領取渠道比較分散&#xff0c;騰訊云百科txybk.com專注匯總優惠代金券領取頁面&am…

Unity(第二十四部)UI

在游戲開發中&#xff0c;用戶界面&#xff08;UI&#xff09;是至關重要的一部分。它負責與玩家進行交互&#xff0c;提供信息&#xff0c;并增強游戲的整體體驗。Unity 提供了強大的工具和功能來創建和管理 UI。 ui的底層就是畫布&#xff0c;創建畫布的時候會同時創建一個事…

19.2 基于SpringBoot電商項目:一刷(????)

19.2 基于SpringBoot電商項目一刷 1. 項目介紹2. 準備階段2.1 idea插件2.2 log4j2日志整合1. 排除springweb依賴的Logback依賴2. 引入log4j2依賴3. log4j2.xml文件3. 用戶模塊3.1 統一響應對象1. 統一響應對象2. 異常信息枚舉類3. 簡單案例3.2 業務異常處理1. 自定義業務異常類…

python筆記_位運算

A&#xff0c;原碼反碼補碼 1&#xff0c;二進制 二進制的最高位是符號位&#xff0c;0為正&#xff0c;1為負 例 3 > 0000 0011 -3 > 1000 0011 2&#xff0c;正數 正數的原碼&#xff0c;反碼&#xff0c;補碼都一樣&#xff08;三碼合一&#xff09; 例 3 > 00…

docker 安裝(一)

docker的安裝 官方文檔&#xff1a;https://docs.docker.com/manuals/ 卸載舊版 首先如果系統中已經存在舊的docker&#xff0c;則先卸載&#xff1a;yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \dock…

C++ STL標準程序庫開發指南學習筆記

一、類模板簡介&#xff1a; 在現今的C標準模板庫中&#xff0c;幾乎所有的東西都被設計為template形式&#xff0c;不支持模板&#xff0c;就無法使用標準程序庫。模板庫可以認為是針對一個或多個尚未明確的類型而編寫一套函數或類型。模板是C的一個新特性。通過使用模板&…

【前端素材】推薦優質電商類后臺管理系統網頁Vuesax平臺模板(附源碼)

一、需求分析 在線后臺管理系統是指供管理員或運營人員使用的Web應用程序&#xff0c;用于管理和監控網站、應用程序或系統的運行和數據。它通常包括一系列工具和功能&#xff0c;用于管理用戶、內容、權限、數據等。下面是關于在線后臺管理系統的詳細分析&#xff1a; 1、功…

前端 css 實現標簽的效果

效果如下圖 直接上代碼&#xff1a; <div class"label-child">NEW</div> // css樣式 // 父元素 class .border-radius { position: relative; overflow: hidden; } .label-child { position: absolute; width: 150rpx; height: 27rpx; text-align: cente…

JavaScript中的this

在實際應用中&#xff0c;了解 this 的行為是非常重要的&#xff0c;特別是在編寫庫或框架時&#xff0c;或者當你需要在回調函數中訪問特定的上下文時&#xff0c;通常推薦使用箭頭函數或者其他方法來確保 this 的正確指向。 在ES6中&#xff0c;this 的值取決于它是如何被調用…

web服務器nginx下載及在win11的安裝

一.背景 還是為了公司安排的師帶徒任務。 操作系統版本&#xff1a;win11 家庭版 mginx版本&#xff1a;1.24.0 二.nginx版本選擇與下載 我之前也寫過下載nginx下載_ngnix stable 下載-CSDN博客 不想看尋找過程的&#xff0c;直接點這里去下載https://nginx.org/download…

Docker 使用原理流程

# docker 是如何來的&#xff1f; a. linux 內核本身支持容器技術&#xff0c;LXC (市面上有很多基于 LXC 開發的容器管理軟件&#xff0c;如創建容器&#xff0c;查看容器&#xff0c;管理容器&#xff0c; docker 作為管理容器的一款代表工具軟件) b. 容器的作用&#xff0c;…

利用python批量將.shp文件轉換坐標生成.geojson文件,再將.geojson轉換成.csv文件,最后將csv文件插入數據庫表

第一步&#xff1a;.shp批量轉.geojson # author: JMY # 創建時間: 2024/2/26 17:12 # 批量將.shp文件生成geojson文件并轉換坐標為3857import os import geopandas as gpd# 定義輸入和輸出文件夾路徑 input_folder shp文件 output_folder geojson文件# 定義輸入和輸出坐標系…