模型推理

模型推理指利用训练好的模型进行运算,利用输入的新数据来一次性获得正确结论的过程。

1. 分词(Tokenization)

分词器将提示拆分为标记列表。根据模型的词汇表,某些单词可能会被拆分为多个标记。每个令牌都由一个唯一的数字表示。

2. 嵌入(Embedding)

每个数字标记都会转换为embedding向量。embedding向量是固定大小的向量,以 LLM 更有效处理的方式表示标记。所有embedding一起形成embedding矩阵。

3. Transformer 计算

嵌入矩阵用作Transformer的输入。Transformer 是一个神经网络,是LLM的核心。Transformer 由多层layer组成。每层都采用输入矩阵并使用模型参数对其执行各种数学运算,最值得注意的是self-attention机制。该层的输出用作下一层的输入。

4. 输出 Logits

最终的神经网络将 Transformer 的输出转换为logits。每个可能的下一个标记都有一个相应的 logit,它表示该标记是句子"正确"延续的概率。

5. 采样(Sampling)

使用多种采样技术之一从 logits 列表中选择下一个标记。

6. 自回归生成

所选token作为输出返回。要继续生成token,请将所选令牌附加到步骤 1 中的令牌列表,然后重复该过程。这可以继续下去,直到生成所需数量的token,或者 LLM 发出特殊的流结束 (EOS) 令牌。

💡 提示:整个推理过程是"自回归"的——每次生成一个 token,把它追加到输入中,再生成下一个 token,如此循环直到结束。这就是为什么大模型生成文本是逐字出现的,而不是一次性的。

目录