搜廣推校招面經四十九

tiktok廣告算法

一、倒排索引原理及Map中Key的處理

具體使用方法見【搜廣推校招面經三十六】
倒排索引(Inverted Index)是信息檢索系統中常用的一種數據結構,用于快速查找包含某個關鍵詞的文檔。以下是倒排索引的原理及Map中Key的處理方式的詳細說明。

1.1. 倒排索引的原理

(1) 基本概念

  • 正排索引:以文檔為單位,記錄每個文檔包含的關鍵詞。
  • 倒排索引:以關鍵詞為單位,記錄每個關鍵詞出現在哪些文檔中。

(2) 數據結構

倒排索引通常由兩部分組成:

  1. 詞典(Dictionary):存儲所有關鍵詞。
  2. 倒排列表(Posting List):記錄每個關鍵詞對應的文檔列表及其相關信息(如詞頻、位置等)。

2. Map中Key的處理

在實現倒排索引時,通常使用Map(或字典)來存儲詞典和倒排列表。以下是Map中Key的處理方式:

(1) Key的選擇

  • Key:關鍵詞(Term)。
  • Value:倒排列表(Posting List),通常是一個列表或數組,存儲文檔ID及其相關信息。

(2) Key的存儲

  • 哈希表:使用哈希表(如Python的dict或Java的HashMap)存儲Key-Value對,確保快速查找。
  • 排序存儲:將Key按字典序排序,便于范圍查詢和前綴匹配。

(3) Key的沖突處理

  • 哈希沖突:當兩個不同的Key映射到同一個哈希值時,使用鏈地址法或開放地址法解決沖突。
  • 重復Key:在倒排索引中,Key是唯一的,不會出現重復。

二、Transformer的結構、原理、優點、除 d k \sqrt{d_k} dk? ?、手寫自注意力機制一套。

見【搜廣推校招面經三十四、搜廣推校招面經二】

三、MMoE與PLE的計算方式及區別

MMoE(Multi-gate Mixture of Experts)和PLE(Progressive Layered Extraction)是多任務學習(Multi-task Learning, MTL)中常用的模型結構。它們通過共享部分參數和引入特定機制來處理多任務學習中的任務沖突問題。

3.1. MMoE(Multi-gate Mixture of Experts)

(1) 核心思想

MMoE通過引入多個專家(Experts)和一個門控網絡(Gating Network)來建模任務之間的關系,從而緩解任務沖突。

(2) 計算方式

  • 專家網絡:多個獨立的子網絡(Experts),每個專家負責學習不同的特征表示。
  • 門控網絡:為每個任務分配一個門控網絡,用于動態調整各專家對當前任務的貢獻。

(3)公式

對于任務 k k k,其輸出 y k y_k yk? 計算如下:
y k = h k ( ∑ i = 1 n g i k ( x ) ? f i ( x ) ) y_k = h^k \left( \sum_{i=1}^{n} g_i^k(x) \cdot f_i(x) \right) yk?=hk(i=1n?gik?(x)?fi?(x))
其中:

  • x x x:輸入特征
  • f i ( x ) f_i(x) fi?(x):第 i i i 個專家的輸出
  • g i k ( x ) g_i^k(x) gik?(x):任務 k k k 的門控網絡對第 i i i 個專家的權重(通過一個softmax計算)
  • h k h^k hk:任務 k k k 的輸出層

3.2. PLE(Progressive Layered Extraction)

(1) 核心思想

PLE通過分層提取共享特征和任務特定特征,逐步分離任務間的共享信息和特定信息,從而更好地處理任務沖突。

(2) 計算方式

  • 共享專家:多個共享專家(Shared Experts),用于提取任務間的共享特征。
  • 任務特定專家:每個任務有自己的特定專家(Task-specific Experts),用于提取任務特定特征。
  • 門控網絡:為每個任務分配一個門控網絡,用于動態調整共享專家和任務特定專家的貢獻。

(3)公式

對于任務 k k k,其輸出 y k y_k yk? 計算如下:
y k = h k ( ∑ i = 1 n s g s , i k ( x ) ? f s , i ( x ) + ∑ j = 1 n t g t , j k ( x ) ? f t , j k ( x ) ) y_k = h^k \left( \sum_{i=1}^{n_s} g_{s,i}^k(x) \cdot f_{s,i}(x) + \sum_{j=1}^{n_t} g_{t,j}^k(x) \cdot f_{t,j}^k(x) \right) yk?=hk(i=1ns??gs,ik?(x)?fs,i?(x)+j=1nt??gt,jk?(x)?ft,jk?(x))
其中:

  • f s , i ( x ) f_{s,i}(x) fs,i?(x):第 i i i 個共享專家的輸出
  • f t , j k ( x ) f_{t,j}^k(x) ft,jk?(x):任務 k k k 的第 j j j 個特定專家的輸出
  • g s , i k ( x ) g_{s,i}^k(x) gs,ik?(x):任務 k k k 的門控網絡對第 i i i 個共享專家的權重(通過一個softmax計算)
  • g t , j k ( x ) g_{t,j}^k(x) gt,jk?(x):任務 k k k 的門控網絡對第 j j j 個特定專家的權重(通過一個softmax計算)
  • n s n_s ns?:共享專家的數量
  • n t n_t nt?:任務特定專家的數量

3.3. MMoE與PLE的區別

特性MMoEPLE
核心思想通過門控網絡動態調整專家權重分層提取共享特征和任務特定特征
專家類型所有任務共享一組專家共享專家 + 任務特定專家
門控網絡每個任務一個門控網絡每個任務一個門控網絡
任務沖突處理動態調整專家權重分層分離共享信息和任務特定信息
適用場景任務相關性較弱的多任務場景任務相關性較強的多任務場景

3.4. 參考資料

  • MMoE論文
  • PLE論文

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/72273.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/72273.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/72273.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【零基礎入門unity游戲開發——unity3D篇】3D物理系統之 —— 3D剛體組件Rigidbody

考慮到每個人基礎可能不一樣,且并不是所有人都有同時做2D、3D開發的需求,所以我把 【零基礎入門unity游戲開發】 分為成了C#篇、unity通用篇、unity3D篇、unity2D篇。 【C#篇】:主要講解C#的基礎語法,包括變量、數據類型、運算符、流程控制、面向對象等,適合沒有編程基礎的…

C# net deepseek RAG AI開發 全流程 介紹

deepseek本地部署教程及net開發對接 步驟詳解:安裝教程及net開發對接全流程介紹 DeepSeekRAG 中的 RAG,全稱是 Retrieval-Augmented Generation(檢索增強生成),是一種結合外部知識庫檢索與大模型生成能力的技術架構。其…

用舊的手機搭建 MQTT Broker

MQTT Broker搭建 在Android上搭建MQTT所需工具: termux 通過網盤分享的文件:termux-app_v0.118.1+github-debug_armeabi-v7a.apk 鏈接: https://pan.baidu.com/s/1Iii2szXAc02cKVGdP1EuzQ?pwd=fqsc 提取碼: fqsc 在 Termux 中使用 MQTT(Message Queuing Telemetry Trans…

b站視頻下載工具軟件怎么下載

自行配置FFMPEG環境 請優先選擇批量下載,會自處理視頻和音頻文件。 如果要下載更高質量請登陸。 沒有配置FFMPEG下載后會有報錯提示,視頻音頻文件無法合并生成mp4文件 更新批量下載標題,只取視頻原標題,B站反爬機制登陸后下載多了…

# linux有哪些桌面環境?有哪些顯示服務器協議及顯示服務器?有哪些用于開發圖形用戶界面的工具包?

linux有哪些桌面環境?有哪些顯示服務器協議及顯示服務器?有哪些用于開發圖形用戶界面的工具包? 文章目錄 linux有哪些桌面環境?有哪些顯示服務器協議及顯示服務器?有哪些用于開發圖形用戶界面的工具包?1 顯…

Java 大視界 -- Java 大數據分布式計算中的資源調度與優化策略(131)

💖親愛的朋友們,熱烈歡迎來到 青云交的博客!能與諸位在此相逢,我倍感榮幸。在這飛速更迭的時代,我們都渴望一方心靈凈土,而 我的博客 正是這樣溫暖的所在。這里為你呈上趣味與實用兼具的知識,也…

躲藏博弈中的策略優化:整合歷史數據、概率論與博弈論

躲藏博弈中的策略優化:整合歷史數據、概率論與博弈論 一、引言 躲藏博弈(Hiding Games)作為一類特殊的博弈模型,廣泛存在于軍事對抗、網絡安全、商業競爭甚至日常生活中。其核心在于一方(躲藏者)試圖避免被另一方(尋找者)發現,雙方各自選擇…

時序數據庫 TDengine 到 MySQL 數據遷移同步

簡述 TDengine 是一款開源、高性能、云原生的時序數據庫,專為物聯網、車聯網、工業互聯網、金融、IT 運維等場景優化設計。在工業自動化的時代,時序數據庫在電力、軌道交通、智能制造等領域有著廣泛的應用。 MySQL 是全球廣泛使用的開源關系型數據庫&a…

基于YOLO11深度學習的舌苔舌象檢測識別與診斷系統【python源碼+Pyqt5界面+數據集+訓練代碼】

《------往期經典推薦------》 一、AI應用軟件開發實戰專欄【鏈接】 項目名稱項目名稱1.【人臉識別與管理系統開發】2.【車牌識別與自動收費管理系統開發】3.【手勢識別系統開發】4.【人臉面部活體檢測系統開發】5.【圖片風格快速遷移軟件開發】6.【人臉表表情識別系統】7.【…

【愚公系列】《高效使用DeepSeek》003-DeepSeek文檔處理和其他頂級 AI模型的區別

標題詳情作者簡介愚公搬代碼頭銜華為云特約編輯,華為云云享專家,華為開發者專家,華為產品云測專家,CSDN博客專家,CSDN商業化專家,阿里云專家博主,阿里云簽約作者,騰訊云優秀博主,騰訊云內容共創官,掘金優秀博主,亞馬遜技領云博主,51CTO博客專家等。近期榮譽2022年度…

正新雞排:在變革浪潮中領航,打造連鎖餐飲新生態

在當下風云變幻的餐飲市場中,連鎖品牌猶如逆水行舟,不進則退。作為國內坐擁萬店的知名連鎖餐飲品牌,正新雞排2023年賣出了7.2億片雞排,集團營收同比增長28%。在《2024年中國雞排連鎖品牌10強榜單》中,正新雞排以高達95…

MyBatis 的一級、二級緩存

文章目錄 1?? 一級緩存(Local Cache)📌 定義🚀 示例代碼 2?? 二級緩存(Global Cache)📌 定義🚀 使用方式 3?? 一級緩存 vs. 二級緩存 📊4?? 數據共享問題&#x…

軟件性能測試與功能測試聯系和區別

隨著軟件開發技術的迅猛發展,軟件性能測試和功能測試成為了確保軟件質量的兩個重要環節。那么只有一字之差的性能測試和功能測試分別是什么?又有哪些聯系和區別呢? 一、軟件性能測試是什么?   軟件性能測試是為了評估軟件系統在特定條件下的表現,包…

Vue 框架使用難點與易錯點剖析:避開陷阱,提升開發效率

Vue.js 作為當下最流行的前端框架之一,以其輕量、易用和靈活的特性深受開發者喜愛。然而,即使是經驗豐富的開發者,在使用 Vue 的過程中也難免會遇到一些難點和易錯點。本文將深入分析 Vue 開發中常見的“坑”,并提供解決方案和代碼…

基于大模型的上瞼下垂手術全流程預測與方案優化研究報告

目錄 一、引言 1.1 研究背景與目的 1.2 研究意義 1.3 研究方法與創新點 二、上瞼下垂相關理論基礎 2.1 上瞼下垂的定義與分類 2.2 發病機制與影響 2.3 傳統治療方法概述 三、大模型技術原理與應用 3.1 大模型概述 3.2 在醫療領域的應用現狀 3.3 用于上瞼下垂預測的…

Odoo Http鑒權+調用后端接口

最近在調研Odoo18,包括它的前后端原理、源碼等。發現官方的開發文檔并不十分實用,比如標題這種簡單的實用需求,竟然浪費了一點時間,特此記錄。 官方文檔:External API — Odoo 18.0 documentation 前提:首…

【Go每日一練】實現簡單的控制臺計算器

👻創作者:丶重明 👻創作時間:2025年3月7日 👻擅長領域:運維 目錄 1.😶?🌫?題目:簡單的控制臺計算器2.😶?🌫?代碼輸出3.😶?&#…

Linux常見問題與分析

操作系統進行線程切換時進行的動作 1. 保存當前線程的上下文 寄存器狀態:保存 CPU 寄存器(如通用寄存器、程序計數器 PC、棧指針 SP 等)到當前線程的 線程控制塊(TCB) 中。內核棧信息:如果線程在內核態運…

HTML塊級元素和內聯元素(簡單易懂)

在HTML中,元素可以分為塊級元素(Block-level elements)和內聯元素(Inline elements)。這兩類元素在頁面布局和樣式應用上有不同的特點和用途。 一、塊級元素(Block-level elements) 1. 定義 …

VSTO(C#)Excel開發6:與窗體交互

初級代碼游戲的專欄介紹與文章目錄-CSDN博客 我的github:codetoys,所有代碼都將會位于ctfc庫中。已經放入庫中我會指出在庫中的位置。 這些代碼大部分以Linux為目標但部分代碼是純C的,可以在任何平臺上使用。 源碼指引:github源…