模型推理 - Tech Notes

模型推理指利用训练好的模型进行运算，利用输入的新数据来一次性获得正确结论的过程。

1. 分词（Tokenization）

分词器将提示拆分为标记列表。根据模型的词汇表，某些单词可能会被拆分为多个标记。每个令牌都由一个唯一的数字表示。

每个数字标记都会转换为embedding向量。embedding向量是固定大小的向量，以 LLM 更有效处理的方式表示标记。所有embedding一起形成embedding矩阵。

嵌入矩阵用作Transformer的输入。Transformer 是一个神经网络，是LLM的核心。Transformer 由多层layer组成。每层都采用输入矩阵并使用模型参数对其执行各种数学运算，最值得注意的是self-attention机制。该层的输出用作下一层的输入。

最终的神经网络将 Transformer 的输出转换为logits。每个可能的下一个标记都有一个相应的 logit，它表示该标记是句子"正确"延续的概率。

使用多种采样技术之一从 logits 列表中选择下一个标记。

所选token作为输出返回。要继续生成token，请将所选令牌附加到步骤 1 中的令牌列表，然后重复该过程。这可以继续下去，直到生成所需数量的token，或者 LLM 发出特殊的流结束 (EOS) 令牌。

💡 提示：整个推理过程是"自回归"的——每次生成一个 token，把它追加到输入中，再生成下一个 token，如此循环直到结束。这就是为什么大模型生成文本是逐字出现的，而不是一次性的。