大模型前處理-CPU

前處理包含哪些流程

  • 分詞 tokenization
  • embedding?

CPU可以做哪些優化

分詞

分詞在做什么?

?什么是詞元化?

詞元化(Tokenization)是把一段自然語言文本拆分成更小的單元(稱為“詞元”,即 Token)的過程。詞元可以是:

  • 單詞:例如,“I love NLP” 分成 ["I", "love", "NLP"]。
  • 子詞:例如,“loving” 分成 ["lov", "##ing"]。
  • 字符:例如,“hello” 分成 ["h", "e", "l", "l", "o"]。

這些詞元最終會被轉換成數字表示(模型的輸入),因為機器只能處理數字。

如何優化:CPU可選擇高效的分詞引擎&多線程

高效分詞器:FlashTokenizer: 基于C++的高性能分詞引擎,速度可以提升8-15倍-阿里云開發者社區

friso:git clone https://github.com/lionsoul2014/friso.git
項目首頁 - manticoresearch:manticoresoftware/manticoresearch: 這是一個用于快速搜索和索引數據的搜索引擎。適合用于需要快速搜索和索引數據的場景。特點:易于使用,支持多種數據格式,具有高性能和可擴展性。 - GitCode

探秘高性能中文分詞器——Jcseg-CSDN博客

tiktoken - 為OpenAI模型優化的高性能BPE分詞器 - 懂AI

上面這個鏈接有多線程示例

分詞器關注指標?對e2e的影響

Qwen是什么分詞器;llama又是什么分詞器;為什么說qwen的分詞器在中文壓縮上比llama更好;_qwen 分詞器-CSDN博客

embedding 文本嵌入

embedding 在做啥?

大模型推理中的Embedding(Token級)

文本先通過分詞器拆分成最小語言單位token,例如 :"unbelievable" → ["un", "believ", "able"]。

接著查詢詞表,每個token被映射成一個數字編號,比如:"un"→1087。

根據編號查詢Embedding矩陣,快速取出對應的浮點數向量,例如:"un"→[0.24,-0.31,0.88,…, 0.05]。

生成Token級的Embedding,是大模型理解輸入文本的第一步

如何優化?

玩轉RAG應用:如何選對Embedding模型?-騰訊云開發者社區-騰訊云

位置編碼

Transformer輸入Embedding及位置編碼詳解_transformer embedding-CSDN博客

詞向量之間需要有一個相對位置關系,如果全部不分序輸入那處理肯定不方便,不同詞之間組合意思也會發生變化,于是就要給詞向量加位置信息

Transformer的PE(position embedding),即位置編碼理解-CSDN博客

Transformer中Position Embedding的原理與思考 | Erwin Feng Blog

看不懂

位置編碼深度剖析:從正弦波到RoPE、ALiBi —— 讓AI記住順序的奧秘-CSDN博客

這篇可以?

附錄:

一文搞懂大模型的前處理_大模型處理-CSDN博客

AI大模型中BERT的Embedding到底是個什么?看完小白也懂了! - 知乎

【超詳細】【原理篇&實戰篇】一文讀懂Transformer-CSDN博客

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/82337.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/82337.shtml
英文地址,請注明出處:http://en.pswp.cn/web/82337.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Kafka數據怎么保障不丟失

在分布式消息系統中,數據不丟失是核心可靠性需求之一。Apache Kafka 通過生產者配置、副本機制、持久化策略、消費者偏移量管理等多層機制保障數據可靠性。以下從不同維度解析 Kafka 數據不丟失的核心策略,并附示意圖輔助理解。 一、生產者端&#xff1a…

圖像處理篇---face_recognition庫實現人臉檢測

以下是使用face_recognition庫實現人臉檢測的詳細步驟、實例代碼及解釋: 一、環境準備 1. 安裝依賴庫 pip install face_recognition opencv-python # 核心庫 pip install matplotlib # 用于顯示圖像(可選)2. 依賴說明 face_recognitio…

vb.net oledb-Access 數據庫本身不支持命名參數,賦值必須和參數順序一致才行

參數順序問題:OleDb 通常依賴參數添加的順序而非名稱,為什么順序要一樣? OleDbParameter 順序依賴性的原因 OleDb 數據提供程序依賴參數添加順序而非名稱,這是由 OLE DB 規范和 Access 數據庫的工作機制共同決定的。理解這個問題需要從數據庫底層通信…

Syslog 全面介紹及在 C 語言中的應用

Syslog 概述 Syslog 是一種工業標準的日志記錄協議,用于在網絡設備之間傳遞日志消息。它最早由 Eric Allman 在 1980 年代為 BSD Unix 開發,現在已成為系統和網絡管理的重要組成部分。Syslog 協議允許設備將事件消息發送到中央服務器(稱為 sy…

HackMyVM-Art

信息搜集 主機發現 ┌──(kali?kali)-[~] └─$ nmap -sn 192.168.43.0/24 Starting Nmap 7.95 ( https://nmap.org ) at 2025-05-31 03:00 EDT Nmap scan report for 192.168.43.1 Host is up (0.0047s latency). MAC Address: C6:45:66:05:91:88 (Unknown) Nmap scan rep…

[paddle]paddle2onnx無法轉換Paddle3.0.0的json格式paddle inference模型

使用PDX 3.0rc1 訓練時序缺陷檢測后導出的模型無法轉換 Informations (please complete the following information): Inference engine for deployment: PD INFERENCE 3.0-->onnxruntime Why convert to onnx:在端側設備上部署 Paddle2ONNX Version: 1.3.1 解…

DOCKER使用記錄

1、拉取鏡像 直接使用docker pull <image>&#xff0c;大概率會出現下面的報錯信息&#xff1a; (base) jetsonyahboom:~$ docker pull ubuntu:18.04 Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http: request canceled while …

Java實習面試題

一、理想汽車一面 1、總結你這個人擅長什么&#xff0c;你的優勢是什么&#xff1f; 2、挑一個項目詳細講講&#xff0c;重點講下你怎么設計的&#xff0c;你的思路是什么&#xff0c;你做的過程中遇到什么難點&#xff0c;怎么克服這些難點&#xff1f; 3、使用RabbitMQ處理…

單元測試報錯

報錯信息如下所示&#xff1a; 五月 30, 2025 5:35:44 下午 org.junit.vintage.engine.descriptor.RunnerTestDescriptor warnAboutUnfilterableRunner 警告: Runner org.junit.internal.runners.ErrorReportingRunner (used on class redis.demo.RedisTemplateTest) does not…

00 QEMU源碼分析中文注釋與架構講解(v8.2.4版本)

QEMU-v8.2.4源碼中文注釋與架構講解 文檔會不定期更新 注釋作者將狼才鯨創建日期2025-05-30更新日期2025-06-02 CSDN閱讀地址&#xff1a;QEMU源碼中文注釋與架構講解Gitee源碼倉庫地址&#xff1a;才鯨嵌入式/qemu 一、前言 其它參考教程的網址&#xff1a; QEMU 源碼目錄…

線段樹刷題記錄

一篇講解很好的線段樹博客&#xff1a;數據結構--線段樹篇_數據結構線段樹-CSDN博客 一、區間查詢 無修改&#xff1a; &#xff08;一&#xff09;最值問題&#xff1a; 1.P1816 忠誠 - 洛谷 思路&#xff1a; 模板。 注意&#xff1a; 無。 代碼&#xff1a; #include …

從一到無窮大 #46:探討時序數據庫Deduplicate與Compaction的設計權衡

本作品采用知識共享署名-非商業性使用-相同方式共享 4.0 國際許可協議進行許可。 本作品 (李兆龍 博文, 由 李兆龍 創作)&#xff0c;由 李兆龍 確認&#xff0c;轉載請注明版權。 文章目錄 引言Compaction AlgorithmsCompact Execution Flow Based On VeloxLocalMergeSource的…

大廠前端研發崗位設計的30道Webpack面試題及解析

文章目錄 一、基礎核心二、配置進階三、性能優化四、Loader原理五、Plugin機制六、高級應用七、工程化實戰八、原理深挖九、異常處理十、綜合場景一、基礎核心 Webpack的核心概念是什么? 解析:入口(entry)、輸出(output)、加載器(loader)、插件(plugins)、模式(mode)。Loader…

pytest 常用命令參數

以下是 pytest 常用命令參數 的整理&#xff0c;涵蓋測試運行、過濾、調試、報告等常見場景&#xff0c;方便你高效使用 pytest&#xff1a; 1. 基本測試運行 命令說明pytest運行當前目錄及子目錄下所有測試&#xff08;test_*.py 或 *_test.py&#xff09;pytest path/to/tes…

利用openwrt路由器和隨身WIFI搭建CPE

背景&#xff1a; 最近5GCPE挺火&#xff0c;各種硬件層出不窮&#xff0c;包括DY上很多商家在推的AX3000疊加展銳RM500 5G模塊&#xff0c;自己組裝CPE&#xff0c;成本也在300 看了下開源硬件&#xff0c;其實就是一個開源的openwrt系統&#xff0c;硬件上5G模塊通過usb協議…

Python中使用pandas

使用Pandas進行數據處理和分析 Pandas是Python中最流行的數據處理和分析庫之一。下面我將介紹Pandas的基本使用方法。 安裝Pandas pip install pandas 基本數據結構 1. Series - 一維數組 import pandas as pd# 創建Series s pd.Series([1, 3, 5, 7, 9]) print(s) 2. D…

ISO18436-2 CATII級振動分析師能力矩陣

ISO18436-2021是當前針對針對分析師的一個標準&#xff0c;它對振動分析師的能力和知識體系做了4級分類&#xff0c;這里給出的是一家公司響應ISO18436的CATII級標準&#xff0c;做的一個專題培訓的教學大綱。摘自&#xff1a; 【振動噪音產學技術聯盟】04/19-23 ISO 18436-2…

Qt實現的水波進度條和溫度進度條

一.效果 二.原理 1.水波 要模擬波浪,就要首先畫出一條波浪線,正弦余弦曲線就很適合。 y=A*sin(ω*x+φ)+k y=A*cos(ω*x+φ)+k 這是正弦余弦曲線的公式,要想實現水波效果,那需要兩條曲線,一條曲線的波峰對著另外一條曲線的波谷,要實現這樣的曲線效果,只有讓正弦曲線前移…

《Python 應用中的藍綠部署與滾動更新:持續集成中的實踐與優化》

《Python 應用中的藍綠部署與滾動更新:持續集成中的實踐與優化》 引言 在現代軟件開發中,持續集成與持續部署(CI/CD)已成為標準實踐。面對頻繁發布與升級需求,藍綠部署和滾動更新兩種策略為 Python 應用提供了穩定、安全的發布方式。本文將深入探討這兩種策略的原理、適…

4.2.2 Spark SQL 默認數據源

在本實戰概述中&#xff0c;我們探討了如何在 Spark SQL 中使用 Parquet 格式作為默認數據源。首先&#xff0c;我們了解了 Parquet 文件的存儲特性&#xff0c;包括其二進制存儲方式和內嵌的 Schema 信息。接著&#xff0c;通過一系列命令&#xff0c;我們演示了如何在 HDFS 上…