训练微调与强化学习

1. 训练

训练是大模型学习的起点,通过在海量数据上进行预训练,模型学会理解和生成语言。这是最消耗算力和数据的阶段。

2. 微调

微调是在预训练模型的基础上,用特定领域或特定格式的数据继续训练,让模型获得专业化能力。微调所需的数据量和算力远小于预训练,但能显著提升模型在目标场景的表现。

3. 强化学习

强化学习是让模型通过"试错+奖励"的方式学习,核心思想是让模型在多种可能的输出中选择人类更偏好的那个,从而对齐人类价值观和期望。

4. 将大模型类比成操作系统的内核

大模型与操作系统内核有惊人的对应关系:

操作系统概念大模型对应
硬盘/网络互联网浏览、本地文件检索(RAG)
内存(RAM)上下文窗口(Context Window)。这是大模型的"工作记忆",有限且珍贵。
CPU大模型本身的推理计算
外设/工具计算器、代码解释器、搜索引擎、图像生成器...
App Store各种定制化的 Agent / GPTs

4.1 生态层面的相似性

  • 闭源操作系统 → Windows / macOS ↔ GPT / Claude / Gemini
  • 开源操作系统 → Linux 生态 ↔ Llama / Mistral / Qwen 生态

这个类比对理解 Agent 架构太有用了。当你在做 Agent 开发的时候,你其实就是在这个"LLM 操作系统"上开发应用。你的 Agent 就像操作系统上的一个应用程序:

  • 它通过"系统调用"使用工具(Tool Use)
  • 它通过上下文窗口管理"工作记忆"(Memory Management)
  • 它需要在有限的资源(token 预算)内完成任务
  • 它可以调度多个子任务(Multi-threading / Multi-Agent)

4.2 更多操作系统概念的对应

操作系统概念大模型对应
内核态 vs 用户态System Prompt vs User Prompt
进程调度Agent 的任务编排(Orchestration)
文件系统外部知识库 / 向量数据库
IPC(进程间通信)多 Agent 之间的消息传递
目录