tiktoken學習

1.tiktoken是OpenAI編寫的進行高效分詞操作的庫文件。

2.操作過程:

enc = tiktoken.get_encoding("gpt2")
train_ids = enc.encode_ordinary(train_data)
val_ids = enc.encode_ordinary(val_data)

以這段代碼為例,get_encoding是創建了一個Encoding對象,結構如下:

{"name": "gpt2",    #Encoding的名稱"pat_str": r"""'s|'t|'re|'ve|'m|'ll|'d| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+""",  #分詞正則表達式"mergeable_ranks": {b"!": 0, b"\"": 1, ...},  # 50,000+ 條目  #存儲預加載的分詞表"special_tokens": {"<|endoftext|>": 50256},   #特殊分詞"explicit_n_vocab": 50257  #增加的特殊分詞
}

encode_ordinary是利用BPE合并來對輸入的train_data進行編碼。

BPE合并:利用預加載的mergeable_ranks字典,通過最大前綴匹配查找最大字詞映射對train_data編碼。

while current_byte in mergeable_ranks:find next byte that forms existing tokenmerge if found in ranks

3.為什么說tiktoken高效?

使用高性能語言Rust實現

避免Python解釋器開銷;直接操作字節數組,避免Python對象的創建開銷;并行處理。

基于Trie樹的高效查找

struct TrieNode {children: HashMap<u8, TrieNode>,token_id: Option<u32>,  // 匹配成功時返回 token ID
}

優化:Aho-Corasick 自動機,可以通過增加失敗指針fail來避免每次失敗從頭遍歷。就相當于這條路走不通,但是不會從頭走,而是會走附近的分岔路看看有沒有可以走的。

BPE合并的增量處理

fn encode_bytes(bytes: &[u8], trie: &Trie) -> Vec<u32> {let mut tokens = Vec::new();let mut start = 0;while start < bytes.len() {let (end, token_id) = trie.longest_match(&bytes[start..]);tokens.push(token_id);start += end;}tokens
}

單次遍歷:在掃描過程中同時完成匹配和合并

貪心最長匹配:總是選擇可能的最長token

預加載mergeable_ranks

不需要實時建立,提高效率

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/81983.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/81983.shtml
英文地址,請注明出處:http://en.pswp.cn/web/81983.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

DeepSeek 賦能文化遺產數字化修復:AI 重構千年文明密碼

目錄 一、引言二、文化遺產數字化修復概述2.1 文化遺產數字化修復的意義2.2 傳統數字化修復方法與局限 三、DeepSeek 技術剖析3.1 DeepSeek 技術原理與核心優勢3.2 相比其他技術的獨特之處 四、DeepSeek 在文化遺產數字化修復中的應用4.1 破損文物的智能修復4.2 文化遺產的虛擬…

leetcode題解513:找樹左下角的值(遞歸中的回溯處理)!

一、題目內容&#xff1a; 題目要求找到一個二叉樹的最底層最左邊節點的值。具體來說&#xff0c;我們需要從根節點開始遍歷二叉 樹&#xff0c;找到最深的那層中的最左邊的節點&#xff0c;并返回該節點的值。因為要先找到最底層左側的值&#xff0c;所以我們選擇遍歷順序一定…

C#面試問題41-60

41. What is the Singleton design pattern? Singleton is a class that only allows creating a single instance of itselt. 單例設計模式是一個類&#xff0c;它只允許創建自己的單個實例。 構造函數防止他在單例類以外的地方被調用。 使用情景&#xff1a;need a sing…

筆記思考法

掌握麥肯錫流筆記術&#xff0c;對大家來說有以下幾種好處: 1) 可以將自己的思考可視化&#xff0c;使之變得更加清晰 2) 避免無用功 3) 經常能夠提出有創意的想法 4) 遇到問題時能夠及時找到解決辦法 5) 不管面對什么情況都能夠找出真正有效的解決辦法 為什么僅僅通過改變使用…

Rust 學習筆記:關于閉包的練習題

Rust 學習筆記&#xff1a;關于閉包的練習題 Rust 學習筆記&#xff1a;關于閉包的練習題問題 1問題 2以下程序能否通過編譯&#xff1f;若能&#xff0c;輸出是&#xff1f;以下程序能否通過編譯&#xff1f;若能&#xff0c;輸出是&#xff1f;考慮該 API&#xff0c;空白處填…

(一)微服務(垂直AP/分布式緩存/裝飾器Pattern)

文章目錄 項目地址一、創建第一個垂直API1.1 創建Common層1. ICommand接口2. IQuery接口 1.2 創建API1. 實體2. Handler3. endpoint 1.3 使用Marten作為ORM 二、Redis緩存2.1 使用緩存裝飾器1. 創建裝飾器2. 注冊裝飾器 2.2 創建docker-compose1. docker-compose2. docker-comp…

Spring AI系列之使用 Spring AI 轉錄音頻文件(基于OpenAI)

概述 企業常常需要從各種類型的音頻內容中提取有價值的數據&#xff0c;例如&#xff1a;將客戶支持通話轉錄用于情感分析、為視頻生成字幕&#xff0c;或整理會議紀要。然而&#xff0c;手動轉錄音頻文件既耗時又昂貴。 為了解決這一問題&#xff0c;OpenAI 提供了強大的語…

室內VR全景助力房產營銷及裝修

在當今的地產行業&#xff0c;VR全景已成為不可或缺的應用工具。從地產直播到樓市VR地圖&#xff0c;從效果圖到水電家裝施工記錄&#xff0c;整個地產行業的上下游生態中&#xff0c;云VR全景的身影無處不在。本文將探討VR全景在房產營銷及裝修領域的應用&#xff0c;并介紹眾…

Sentinel限流熔斷機制實戰

1、核心概念 1.1、流量控制 流量控制是為了 防止系統被過多的請求壓垮&#xff0c;確保資源合理分配并保持服務的可用性&#xff0c;比如對請求數量的限制。 流量控制的 3 個主要優勢&#xff1a; 防止過載&#xff1a;當瞬間涌入的請求量超出系統處理能力時&#xff0c;會…

深度解析 torch.mean 的替代方案

torch.mean 是什么意思 代碼效果解釋 segment_vector = torch.mean(segment_embedding, dim=1) # [1, hidden_dim] 這行代碼的作用是在指定維度上對張量 segment_embedding 求平均值,實現類似平均池化的效果。 具體來說,dim=1 表示沿著索引為1的維度進行操作。假設 segment…

Paraformer語音模型:一種語音模型加速方法

隨著智能語音技術的普及&#xff0c;語音識別&#xff08;ASR&#xff09;、語音合成&#xff08;TTS&#xff09;、聲紋識別等應用場景對模型推理效率提出了極高要求&#xff0c;本文介紹將Paraformer語音模型從預訓練模型導出為ONNX格式&#xff0c;并使用ONNX Runtime進行推…

本地部署FreeGPT+內網穿透公網遠程訪問,搞定ChatGPT外網訪問難題

?FreeGPT?是一個基于GPT 3.5/4的ChatGPT聊天網頁用戶界面&#xff0c;提供了一個開放的聊天界面&#xff0c;開箱即用?。ChatGPT是非常熱門的&#xff0c;但訪問體驗一直不太理想。為了解決這一問題&#xff0c;出現了各類方法和工具&#xff0c;其中FreeGPT是一款非常實用的…

ElasticSearch遷移至openGauss

Elasticsearch 作為一種高效的全文搜索引擎&#xff0c;廣泛應用于實時搜索、日志分析等場景。而 openGauss&#xff0c;作為一款企業級關系型數據庫&#xff0c;強調事務處理與數據一致性。那么&#xff0c;當這兩者的應用場景和技術架構發生交集時&#xff0c;如何實現它們之…

品優購項目(HTML\CSS)

項目效果可訪問 http://zhousunyu.3vdo.club 查看 主頁 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><titl…

因泰立科技:鐳眸T51激光雷達,打造智能門控新生態

在高端門控行業&#xff0c;安全與效率是永恒的追求。如今&#xff0c;隨著科技的飛速發展&#xff0c;激光雷達與TOF相機技術的融合&#xff0c;為門控系統帶來了前所未有的智能感知能力&#xff0c;開啟了精準守護的新時代。因泰立科技的鐳眸T51激光雷達&#xff0c;作為這一…

MyBatisPlus--快速入門

MyBatisPlus介紹 從名字中就可以感覺到MybatisPlus與MyBatis之間的淵源&#xff0c;而MyBatis是一個非常流行的持久層框架&#xff0c;主要來做數據庫的增刪改查&#xff0c;而MyBatisPlus這種命名方式讓人不得不往MyBatis的升級版去聯想&#xff0c;事實也確實如此&#xff0…

redis持久化策略

RDB 是通過生成數據快照來實現持久化的&#xff0c;相當于給內存中的數據拍一張"照片"保存到磁盤上。AOF 記錄所有寫操作命令&#xff0c;以Redis協議格式追加到文件末尾。 RDB 在滿足特定條件時觸發內存快照&#xff0c;生成新的RDB文件替換舊文件 AOF 先寫入內…

Spring Boot中使用@JsonAnyGetter和@JsonAnySetter處理動態JSON屬性

Spring Boot 中使用 @JsonAnyGetter 和 @JsonAnySetter 處理動態 JSON 屬性 在實際的后端開發中,尤其是使用 Spring Boot 構建 API 時,我們經常會遇到需要處理動態 JSON 屬性的場景。例如,前端傳遞過來的 JSON 數據結構不固定,或者業務需求變更頻繁,導致實體類無法預先定…

拉取gitlab項目

一、下載nvm管理node 先下載配置好nvm,再用nvm下載node 下載鏈接&#xff1a;開始 下載nvm - nvm中文官網 情況&#xff1a;npm i 下載依賴緩慢&#xff0c;可能是node版本不對&#xff0c;可能node版本太高 可能得問題&#xff1a;使用nvm 下載低版本的node時&#xff0c;…

【解決辦法】ubuntu重啟不起來,輸入用戶名和密碼進不去,又重新返回登錄頁。

項目場景&#xff1a; ubuntu重啟不起來&#xff0c;輸入用戶名和密碼進不去&#xff0c;又重新返回登錄頁。 問題描述 在華碩天選一代筆記本上面安裝了ubuntu22.04.5桌面版&#xff0c;但是重啟以后出現&#xff0c;輸入了用戶名和密碼&#xff0c;等待一會還讓輸入用戶名和…