Token 在 LLM-EW帮帮网

大语言模型不能理解原始文本，所以需要把原始文本转换成大语言模型可以理解的数字表示形式，经过大模型处理以后，需要将该数字表示形式转换为人可以理解的文本。

在这里插入图片描述

原始文本到 token

原始文本转换为token序列的过程通常是在LLM的预处理阶段完成的。

在大型语言模型(LLM)中,token是指模型输入或输出序列中的基本单元。通常情况下,一个token可能是一个单词、一个字符或一个字节序列,这取决于模型的预处理方式。
Token在LLM中扮演着非常重要的角色,主要有以下几个原因:

总的来说,token是LLM进行序列建模和生成的基本单位,对于输入理解、输出生成、上下文捕获和参数大小等都有重要影响。合理的token设计对于LLM的性能至关重要。

根据不同的Tokenization(分词)策略,Token可以是单词、子词或者字符等。

以下是一些常见Token的例子:

单词Token
- 句子: “The quick brown fox jumps over the lazy dog.”
- Tokens: “The”, “quick”, “brown”, “fox”, “jumps”, “over”, “the”, “lazy”, “dog”
子词Token
- 单词: “Unbelievable”
- BPE子词Tokens: “Unbeli”, “evable”
字符Token
- 单词: “Hello”
- 字符Tokens: “H”, “e”, “l”, “l”, “o”
SentencePiece Token
- 句子: “The student studies at university.”
- SentencePiece Tokens: “The”, " stu", “dent”, " studi", “es”, " at", " un", “ivers”, “ity”, “.”

不同Token粒度会影响模型的词汇表大小、输入长度等,需要根据具体任务和模型权衡选择。通常单词是最自然的Token单元,但对于特殊词或未见词,需使用子词或字符Token处理。

值得注意的是,不同NLP模型可能对同一个单词使用不同的Token划分方式,如BERT使用的是WordPiece子词Token。合理的Token设计对模型性能有很大影响。

https://platform.openai.com/tokenizer

在这里插入图片描述