大模型前處理-CPU

大模型前處理-CPU

web/2025/7/1 16:33:21/文章來源:https://blog.csdn.net/attack_city_lion/article/details/148387312

前處理包含哪些流程

分詞 tokenization
embedding?

CPU可以做哪些優化

分詞

分詞在做什么？

?什么是詞元化？

詞元化（Tokenization）是把一段自然語言文本拆分成更小的單元（稱為“詞元”，即 Token）的過程。詞元可以是：

單詞：例如，“I love NLP” 分成 ["I", "love", "NLP"]。
子詞：例如，“loving” 分成 ["lov", "##ing"]。
字符：例如，“hello” 分成 ["h", "e", "l", "l", "o"]。

這些詞元最終會被轉換成數字表示（模型的輸入），因為機器只能處理數字。

如何優化：CPU可選擇高效的分詞引擎&多線程

高效分詞器：FlashTokenizer: 基于C++的高性能分詞引擎，速度可以提升8-15倍-阿里云開發者社區

friso:git clone https://github.com/lionsoul2014/friso.git
項目首頁 - manticoresearch:manticoresoftware/manticoresearch: 這是一個用于快速搜索和索引數據的搜索引擎。適合用于需要快速搜索和索引數據的場景。特點：易于使用，支持多種數據格式，具有高性能和可擴展性。 - GitCode

探秘高性能中文分詞器——Jcseg-CSDN博客

tiktoken - 為OpenAI模型優化的高性能BPE分詞器 - 懂AI

上面這個鏈接有多線程示例

分詞器關注指標？對e2e的影響

Qwen是什么分詞器；llama又是什么分詞器；為什么說qwen的分詞器在中文壓縮上比llama更好；_qwen 分詞器-CSDN博客

embedding 文本嵌入

embedding 在做啥？

大模型推理中的Embedding(Token級)

文本先通過分詞器拆分成最小語言單位token，例如 :"unbelievable" → ["un", "believ", "able"]。

接著查詢詞表，每個token被映射成一個數字編號，比如:"un"→1087。

根據編號查詢Embedding矩陣，快速取出對應的浮點數向量，例如:"un"→[0.24,-0.31,0.88,…, 0.05]。

生成Token級的Embedding，是大模型理解輸入文本的第一步。

如何優化？

玩轉RAG應用：如何選對Embedding模型？-騰訊云開發者社區-騰訊云

位置編碼

Transformer輸入Embedding及位置編碼詳解_transformer embedding-CSDN博客

詞向量之間需要有一個相對位置關系，如果全部不分序輸入那處理肯定不方便，不同詞之間組合意思也會發生變化，于是就要給詞向量加位置信息。

Transformer的PE(position embedding),即位置編碼理解-CSDN博客

Transformer中Position Embedding的原理與思考 | Erwin Feng Blog

看不懂

位置編碼深度剖析：從正弦波到RoPE、ALiBi —— 讓AI記住順序的奧秘-CSDN博客

這篇可以?

附錄：

一文搞懂大模型的前處理_大模型處理-CSDN博客

AI大模型中BERT的Embedding到底是個什么？看完小白也懂了！ - 知乎

【超詳細】【原理篇&實戰篇】一文讀懂Transformer-CSDN博客

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/82337.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/82337.shtml
英文地址，請注明出處：http://en.pswp.cn/web/82337.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Kafka數據怎么保障不丟失

Kafka數據怎么保障不丟失

在分布式消息系統中，數據不丟失是核心可靠性需求之一。Apache Kafka 通過生產者配置、副本機制、持久化策略、消費者偏移量管理等多層機制保障數據可靠性。以下從不同維度解析 Kafka 數據不丟失的核心策略，并附示意圖輔助理解。一、生產者端&#xff1a…

閱讀更多...

圖像處理篇---face_recognition庫實現人臉檢測

圖像處理篇---face_recognition庫實現人臉檢測

以下是使用face_recognition庫實現人臉檢測的詳細步驟、實例代碼及解釋： 一、環境準備 1. 安裝依賴庫 pip install face_recognition opencv-python # 核心庫 pip install matplotlib # 用于顯示圖像（可選）2. 依賴說明 face_recognitio…

閱讀更多...

vb.net oledb-Access 數據庫本身不支持命名參數,賦值必須和參數順序一致才行

vb.net oledb-Access 數據庫本身不支持命名參數,賦值必須和參數順序一致才行

參數順序問題：OleDb 通常依賴參數添加的順序而非名稱,為什么順序要一樣? OleDbParameter 順序依賴性的原因 OleDb 數據提供程序依賴參數添加順序而非名稱，這是由 OLE DB 規范和 Access 數據庫的工作機制共同決定的。理解這個問題需要從數據庫底層通信…

閱讀更多...

Syslog 全面介紹及在 C 語言中的應用

Syslog 全面介紹及在 C 語言中的應用

Syslog 概述 Syslog 是一種工業標準的日志記錄協議，用于在網絡設備之間傳遞日志消息。它最早由 Eric Allman 在 1980 年代為 BSD Unix 開發，現在已成為系統和網絡管理的重要組成部分。Syslog 協議允許設備將事件消息發送到中央服務器（稱為 sy…

閱讀更多...

HackMyVM-Art

HackMyVM-Art

信息搜集主機發現 ┌──(kali?kali)-[~] └─$ nmap -sn 192.168.43.0/24 Starting Nmap 7.95 ( https://nmap.org ) at 2025-05-31 03:00 EDT Nmap scan report for 192.168.43.1 Host is up (0.0047s latency). MAC Address: C6:45:66:05:91:88 (Unknown) Nmap scan rep…

閱讀更多...

[paddle]paddle2onnx無法轉換Paddle3.0.0的json格式paddle inference模型

[paddle]paddle2onnx無法轉換Paddle3.0.0的json格式paddle inference模型

使用PDX 3.0rc1 訓練時序缺陷檢測后導出的模型無法轉換 Informations (please complete the following information): Inference engine for deployment: PD INFERENCE 3.0-->onnxruntime Why convert to onnx：在端側設備上部署 Paddle2ONNX Version: 1.3.1 解…

閱讀更多...

DOCKER使用記錄

DOCKER使用記錄

1、拉取鏡像直接使用docker pull <image>，大概率會出現下面的報錯信息： (base) jetsonyahboom:~$ docker pull ubuntu:18.04 Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http: request canceled while …

閱讀更多...

Java實習面試題

Java實習面試題

一、理想汽車一面 1、總結你這個人擅長什么，你的優勢是什么？ 2、挑一個項目詳細講講，重點講下你怎么設計的，你的思路是什么，你做的過程中遇到什么難點，怎么克服這些難點？ 3、使用RabbitMQ處理…

閱讀更多...

單元測試報錯

單元測試報錯

報錯信息如下所示： 五月 30, 2025 5:35:44 下午 org.junit.vintage.engine.descriptor.RunnerTestDescriptor warnAboutUnfilterableRunner 警告: Runner org.junit.internal.runners.ErrorReportingRunner (used on class redis.demo.RedisTemplateTest) does not…

閱讀更多...

00 QEMU源碼分析中文注釋與架構講解（v8.2.4版本）

00 QEMU源碼分析中文注釋與架構講解（v8.2.4版本）

QEMU-v8.2.4源碼中文注釋與架構講解文檔會不定期更新注釋作者將狼才鯨創建日期2025-05-30更新日期2025-06-02 CSDN閱讀地址：QEMU源碼中文注釋與架構講解Gitee源碼倉庫地址：才鯨嵌入式/qemu 一、前言其它參考教程的網址： QEMU 源碼目錄…

閱讀更多...

線段樹刷題記錄

線段樹刷題記錄

一篇講解很好的線段樹博客：數據結構--線段樹篇_數據結構線段樹-CSDN博客一、區間查詢無修改： （一）最值問題： 1.P1816 忠誠 - 洛谷思路： 模板。注意： 無。代碼： #include …

閱讀更多...

從一到無窮大 #46：探討時序數據庫Deduplicate與Compaction的設計權衡

從一到無窮大 #46：探討時序數據庫Deduplicate與Compaction的設計權衡

本作品采用知識共享署名-非商業性使用-相同方式共享 4.0 國際許可協議進行許可。本作品 (李兆龍博文, 由李兆龍創作)，由李兆龍確認，轉載請注明版權。文章目錄引言Compaction AlgorithmsCompact Execution Flow Based On VeloxLocalMergeSource的…

閱讀更多...

大廠前端研發崗位設計的30道Webpack面試題及解析

大廠前端研發崗位設計的30道Webpack面試題及解析

文章目錄一、基礎核心二、配置進階三、性能優化四、Loader原理五、Plugin機制六、高級應用七、工程化實戰八、原理深挖九、異常處理十、綜合場景一、基礎核心 Webpack的核心概念是什么？解析：入口(entry)、輸出(output)、加載器(loader)、插件(plugins)、模式(mode)。Loader…

閱讀更多...

pytest 常用命令參數

pytest 常用命令參數

以下是 pytest 常用命令參數的整理，涵蓋測試運行、過濾、調試、報告等常見場景，方便你高效使用 pytest： 1. 基本測試運行命令說明pytest運行當前目錄及子目錄下所有測試（test_*.py 或 *_test.py）pytest path/to/tes…

閱讀更多...

利用openwrt路由器和隨身WIFI搭建CPE

利用openwrt路由器和隨身WIFI搭建CPE

背景： 最近5GCPE挺火，各種硬件層出不窮，包括DY上很多商家在推的AX3000疊加展銳RM500 5G模塊，自己組裝CPE，成本也在300 看了下開源硬件，其實就是一個開源的openwrt系統，硬件上5G模塊通過usb協議…

閱讀更多...

Python中使用pandas

Python中使用pandas

使用Pandas進行數據處理和分析 Pandas是Python中最流行的數據處理和分析庫之一。下面我將介紹Pandas的基本使用方法。安裝Pandas pip install pandas 基本數據結構 1. Series - 一維數組 import pandas as pd# 創建Series s pd.Series([1, 3, 5, 7, 9]) print(s) 2. D…

閱讀更多...

ISO18436-2 CATII級振動分析師能力矩陣

ISO18436-2 CATII級振動分析師能力矩陣

ISO18436-2021是當前針對針對分析師的一個標準，它對振動分析師的能力和知識體系做了4級分類，這里給出的是一家公司響應ISO18436的CATII級標準，做的一個專題培訓的教學大綱。摘自： 【振動噪音產學技術聯盟】04/19-23 ISO 18436-2…

閱讀更多...

Qt實現的水波進度條和溫度進度條

Qt實現的水波進度條和溫度進度條

一.效果二.原理 1.水波要模擬波浪，就要首先畫出一條波浪線，正弦余弦曲線就很適合。 y=A*sin(ω*x+φ)+k y=A*cos(ω*x+φ)+k 這是正弦余弦曲線的公式，要想實現水波效果，那需要兩條曲線，一條曲線的波峰對著另外一條曲線的波谷，要實現這樣的曲線效果，只有讓正弦曲線前移…

閱讀更多...

《Python 應用中的藍綠部署與滾動更新：持續集成中的實踐與優化》

《Python 應用中的藍綠部署與滾動更新：持續集成中的實踐與優化》

《Python 應用中的藍綠部署與滾動更新：持續集成中的實踐與優化》引言在現代軟件開發中，持續集成與持續部署（CI/CD）已成為標準實踐。面對頻繁發布與升級需求，藍綠部署和滾動更新兩種策略為 Python 應用提供了穩定、安全的發布方式。本文將深入探討這兩種策略的原理、適…

閱讀更多...

4.2.2 Spark SQL 默認數據源

4.2.2 Spark SQL 默認數據源

在本實戰概述中，我們探討了如何在 Spark SQL 中使用 Parquet 格式作為默認數據源。首先，我們了解了 Parquet 文件的存儲特性，包括其二進制存儲方式和內嵌的 Schema 信息。接著，通過一系列命令，我們演示了如何在 HDFS 上…

閱讀更多...

最新文章