咬文嚼字:詞元是當今生成式人工智能失敗的一個重要原因

生成式人工智能模型處理文本的方式與人類不同。了解它們基于"標記"的內部環境可能有助于解釋它們的一些奇怪行為和頑固的局限性。從 Gemma 這樣的小型設備上模型到 OpenAI 業界領先的 GPT-4o 模型,大多數模型都建立在一種稱為轉換器的架構上。由于轉換器在文本和其他類型數據之間建立關聯的方式,它們無法接收或輸出原始文本–至少在沒有大量計算的情況下是如此。

在這里插入圖片描述
因此,出于實用性和技術性的考慮,今天的轉換器模型使用的文本已經被分解成更小、更小的片段,這些片段被稱為標記–這一過程被稱為標記化。

詞元可以是單詞,如"fantastic"。也可以是音節,如"fan"、“tas"和"tic”。根據標記化器(標記化模型)的不同,它們甚至可以是單詞中的單個字符(例如,“f”、“a”、“n”、“t”、“a”、“s”、“t”、“i”、“c”)。

使用這種方法,轉換器可以在達到稱為上下文窗口的上限之前接收更多信息(語義意義上的)。但標記化也會帶來偏差。

有些標記符有奇特的間距,這會使轉換器出錯。例如,詞元轉換器可能會將"once upon a time"編碼為"once"、“on”、“a”、“time”,而將"once upon a"(有尾部空白)編碼為"once"、“on”、“a”、“.”。根據對模型的提示方式–“once upon a"還是"once upon a ,”–結果可能完全不同,因為模型并不能理解(就像人一樣)意思是一樣的。

標記符號化器處理大小寫的方式也不同。對模型來說,“Hello"并不一定等同于"HELLO”;"hello"通常是一個標記(取決于標記化器),而"HELLO"可能有三個標記(“HE”、“El"和"O”)。這就是許多轉換器無法通過大寫字母測試的原因。

東北大學研究大型語言模型可解釋性的博士生 Sheridan Feucht 對此表示:"對于語言模型來說,'詞’到底應該是什么,這個問題有點難以解決,即使我們讓人類專家就完美的標記詞匯達成一致,模型可能仍然會認為進一步’分塊’是有用的。“我的猜測是,由于這種模糊性,不存在完美的標記符號生成器。”

這種"模糊性"給英語以外的語言帶來了更多問題。許多標記化方法都認為句子中的空格表示一個新詞。這是因為它們是針對英語設計的。但并非所有語言都使用空格來分隔單詞。漢語和日語不使用空格,韓語、泰語和高棉語也不使用。

2023 年牛津大學的一項研究發現,由于非英語語言的標記化方式不同,轉換器完成一項非英語語言任務所需的時間可能是英語任務的兩倍。同一項研究和另一項研究發現,"標記效率"較低的語言的用戶很可能會看到更差的模型性能,但卻要支付更高的使用費用,因為許多人工智能供應商是按標記收費的。

標記化器通常將邏各斯書寫系統中的每個字符(在這種系統中,印刷符號代表單詞,而與發音無關,如中文)視為一個獨立的標記,從而導致標記數較高。同樣,標記化器在處理凝集語(單詞由稱為詞素的有意義的小詞元組成,如土耳其語)時,往往會將每個詞素變成一個標記,從而增加總體標記數。(在泰語中,"hello"的對應詞??????有六個標記)。

2023 年,Google DeepMind 人工智能研究員 Yennie Jun進行了一項分析,比較了不同語言的標記化及其下游效果。通過使用一個翻譯成 52 種語言的平行文本數據集,Jun 發現有些語言需要多達 10 倍的標記才能表達英語中的相同含義。

除了語言上的不平等,標記化也可以解釋為什么今天的模型數學不好。

數字標記化很少能保持一致。因為它們并不真正了解數字是什么,標記符號化器可能會將"380"視為一個標記符號,而將"381"表示為一對(“38"和"1”)–這實際上破壞了數字之間的關系以及方程和公式中的結果。結果就是轉換器混亂;最近的一篇論文表明,模型很難理解重復的數字模式和上下文,尤其是時間數據。(參見:GPT-4認為7735 大于 7926)。

這也是模型不擅長解決變位問題或顛倒單詞的原因。標記化顯然給生成式人工智能帶來了挑戰。它們能被解決嗎?也許吧。

Feucht 指出,像MambaByte 這樣的"字節級"狀態空間模型,通過完全取消標記化,可以攝取比轉換器多得多的數據,而不會影響性能。MambaByte 可直接處理代表文本和其他數據的原始字節,在語言分析任務方面可與某些轉換器模型媲美,同時還能更好地處理"噪音",如帶有交換字符、間距和大寫字母的單詞。

不過,像 MambaByte 這樣的模式還處于早期研究階段。

"最好的辦法可能是讓模型直接查看字符,而不強加標記化,但現在這對變換器來說在計算上是不可行的,"Feucht 說。“特別是對于變換器模型來說,計算量與序列長度成二次方關系,因此我們真的希望使用簡短的文本表示”。

如果不能在詞元化方面取得突破,新的模型架構似乎將成為關鍵。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/42722.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/42722.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/42722.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Ubuntu24.04清理常見跟蹤軟件tracker

盡量一天一更,不刷視頻,好好生活 打開系統監視器,發現開機有個tracker-miner-fs-fs3的跟蹤程序,而且上傳了10kb的數據。 搜索知,該程序會搜集應用和文件的信息。 刪除tracker 顯示帶tracker的apt程序 sudo apt lis…

ThreadLocal的內存泄漏

什么是內存泄漏 程序在申請內存后,無法釋放已申請的內存空間在定義變量時,需要一段內存空間來存儲數據信息,而這段內存如果一直不被釋放,那么就會導致內存被占用光,而被占用的這個對象,一直不能被回收掉&am…

書生·浦語2.5開源,推理能力再創新標桿

導讀 2024 年 7 月 3 日,上海人工智能實驗室與商湯科技聯合香港中文大學和復旦大學正式發布新一代大語言模型書?浦語2.5(InternLM2.5)。相比上一代模型,InternLM2.5 有三項突出亮點: 推理能力大幅提升,在…

VUE與React的生命周期對比

前言 在前端開發中,Vue和React是兩個非常流行的JavaScript框架,它們各自有著獨特的生命周期機制。了解并熟練掌握這些生命周期,對于開發高效、可維護的前端應用至關重要。本文將詳細對比Vue和React的生命周期,幫助開發者更好地理…

Python | Leetcode Python題解之第222題完全二叉樹的節點個數

題目: 題解: # Definition for a binary tree node. # class TreeNode: # def __init__(self, val0, leftNone, rightNone): # self.val val # self.left left # self.right right class Solution:def countNodes(self,…

好玩的珠璣妙算-加作弊帶概率空間+日志存儲240705mindMaster

Python代碼 import random import time import datetimeNUM_DIGITS 10 #NUM_NON_ZERO_DIGITS 9failFlag 0class Mastermind:def __init__(self, code_length, max_attempts, secret01code, game_id): # def __init__(self, code_length, max_attempts):self.code_length…

【Elasticsearch】Elasticsearch倒排索引詳解

文章目錄 📑引言一、倒排索引簡介二、倒排索引的基本結構三、Elasticsearch中的倒排索引3.1 索引和文檔3.2 創建倒排索引3.3 倒排索引的存儲結構3.4 詞典和倒排列表的優化 四、倒排索引的查詢過程4.1 過程4.2 示例 五、倒排索引的優缺點5.1 優點5.2 缺點 六、倒排索…

【Excel】求和帶文字的數據

目錄標題 1. 給出樣例2. CtrlE3. CtrlH → A替換為 → 全部替換 1. 給出樣例 2. CtrlE 3. CtrlH → A替換為 → 全部替換

算法期末函數題

R6-1 可重復選擇的組合數問題 【考核知識點】可重復選擇的組合計數 【問題描述】 有n個不同元素&#xff08;1<n<20&#xff09;&#xff0c;每個元素可以選多次&#xff0c;一共需要選出k個元素出來&#xff08;1<k<20&#xff09;&#xff0c;問有多少種選取的…

監控易V7.6.6.15升級詳解2:設備管理功能

隨著企業IT架構的日益復雜&#xff0c;對設備管理的需求也在不斷提升。為了滿足廣大用戶對于設備管理的高效、精準需求&#xff0c;我們榮幸地宣布監控易系統已完成了一次重要的版本升級。本次升級不僅優化了原有功能&#xff0c;還新增了一系列實用特性&#xff0c;旨在為用戶…

仿qq音樂播放微信小程序模板源碼

手機qq音樂應用小程序&#xff0c;在線音樂播放器微信小程序網頁模板。包含&#xff1a;音樂歌曲主頁、推薦、排行榜、搜索、音樂播放器、歌單詳情等。 仿qq音樂播放微信小程序模板源碼

【ubuntu自啟shell腳本】——在ubuntu中如何使用系統自帶的啟動應用程序設置開機自啟自己的本地shell腳本

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 文章目錄 前言一、設置開機自啟shell腳本1.使用 gnome-session-properties2.測試的shell例程代碼 總結 前言 在Ubuntu系統中設置開機自啟腳本是一種重要的自動化方法。開機自…

YOLO-World實時開集檢測論文閱讀

論文&#xff1a;《YOLO-World: Real-Time Open-Vocabulary Object Detection》 代碼&#xff1a;https://github.com/AILab-CVC/YOLO-World 1.Abstract 我們介紹了YOLO World&#xff0c;這是一種創新的方法&#xff0c;通過在大規模數據集上進行視覺語言建模和預訓練&#…

js之彈性布局使用方法

彈性布局&#xff08;Flexbox&#xff09;是一種現代化的 CSS 布局方法&#xff0c;它可以讓您更方便地創建響應式和動態布局。在本篇文檔中&#xff0c;我們將介紹彈性布局的基本概念以及如何在項目中使用它。 一、基本概念 容器&#xff08;Container&#xff09;&#xff…

WPF中邏輯樹和視覺樹

在WPF&#xff08;Windows Presentation Foundation&#xff09;中&#xff0c;“邏輯樹”&#xff08;Logical Tree&#xff09;和“可視樹”&#xff08;Visual Tree&#xff09;是兩個重要的概念&#xff0c;它們代表了不同的對象層次結構&#xff0c;用于描述應用程序的組織…

洛谷 [SNCPC2024] 寫都寫了,交一發吧 題解

分析 顯然&#xff0c;兩個相同的數去按位與的結果還是該數。 由于一個代碼可以提交多次&#xff0c;那么可以把得分最高的代碼提交兩次&#xff0c;這樣的得分就是這個代碼的得分&#xff0c;很明顯&#xff0c;這樣是最優的。 Code #include<iostream> using names…

STM32微控制器的SPI存儲解決方案:W25Q64 Flash存儲器深度應用

摘要 在嵌入式系統設計中&#xff0c;存儲解決方案對于數據的持久化至關重要。W25Q64 Flash存儲器以其高效的存儲能力和與SPI總線的兼容性&#xff0c;成為STM32微控制器項目中的優選。本文將深入探討STM32微控制器的SPI存儲解決方案&#xff0c;重點介紹W25Q64 Flash存儲器的…

vue3+antd 實現點擊按鈕彈出對話框

格式1&#xff1a;確認對話框 按鈕&#xff1a; 點擊按鈕之后&#xff1a; 完整代碼&#xff1a; <template><div><a-button click"showConfirm">Confirm</a-button></div> </template> <script setup> import {Mod…

如何查看程序是否在運行-Linux

1.命令 ps aux | grep RiboCode2_manythreads.py2.結果&#xff1a; 2020200 1063124 99.8 19.2 56105444 50796184 pts/0 Sl 18:40 114:36 python RiboCode2_manythreads.py -a ./RiboCode_annot -c config15d.txt -o ./ORFs_15d_final_result --gtf -t 15從輸出結果可以看出…

階段三:項目開發---大數據開發運行環境搭建:任務4:安裝配置Spark集群

任務描述 知識點&#xff1a;安裝配置Spark 重 點&#xff1a; 安裝配置Spark 難 點&#xff1a;無 內 容&#xff1a; Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop …