在自然語言處理(NLP)中,input_ids
是什么
在自然語言處理(NLP)中,input_ids
是將文本轉換為模型可處理的數字表示后的結果,是模型輸入的核心參數之一。
一、基本概念
-
文本數字化
- 原始文本(如 “Hello world!”)無法直接被模型處理,需要通過分詞器(Tokenizer) 將其轉換為數字序列。
input_ids
就是這個數字序列,每個數字對應詞匯表(Vocabulary)中的一個 token(詞元)。
-
詞匯表(Vocabulary)
- 模型預訓練時定義的詞典,包含所有可能的 token 及其對應的唯一編號。
- 例如:詞匯表可能將 “Hello” 映射為
101
,“world” 映射為202
。