1. 训练
训练是大模型学习的起点,通过在海量数据上进行预训练,模型学会理解和生成语言。这是最消耗算力和数据的阶段。
2. 微调
微调是在预训练模型的基础上,用特定领域或特定格式的数据继续训练,让模型获得专业化能力。微调所需的数据量和算力远小于预训练,但能显著提升模型在目标场景的表现。
3. 强化学习
强化学习是让模型通过"试错+奖励"的方式学习,核心思想是让模型在多种可能的输出中选择人类更偏好的那个,从而对齐人类价值观和期望。
4. 将大模型类比成操作系统的内核
大模型与操作系统内核有惊人的对应关系:
| 操作系统概念 | 大模型对应 |
|---|---|
| 硬盘/网络 | 互联网浏览、本地文件检索(RAG) |
| 内存(RAM) | 上下文窗口(Context Window)。这是大模型的"工作记忆",有限且珍贵。 |
| CPU | 大模型本身的推理计算 |
| 外设/工具 | 计算器、代码解释器、搜索引擎、图像生成器... |
| App Store | 各种定制化的 Agent / GPTs |
4.1 生态层面的相似性
- 闭源操作系统 → Windows / macOS ↔ GPT / Claude / Gemini
- 开源操作系统 → Linux 生态 ↔ Llama / Mistral / Qwen 生态
这个类比对理解 Agent 架构太有用了。当你在做 Agent 开发的时候,你其实就是在这个"LLM 操作系统"上开发应用。你的 Agent 就像操作系统上的一个应用程序:
- 它通过"系统调用"使用工具(Tool Use)
- 它通过上下文窗口管理"工作记忆"(Memory Management)
- 它需要在有限的资源(token 预算)内完成任务
- 它可以调度多个子任务(Multi-threading / Multi-Agent)
4.2 更多操作系统概念的对应
| 操作系统概念 | 大模型对应 |
|---|---|
| 内核态 vs 用户态 | System Prompt vs User Prompt |
| 进程调度 | Agent 的任务编排(Orchestration) |
| 文件系统 | 外部知识库 / 向量数据库 |
| IPC(进程间通信) | 多 Agent 之间的消息传递 |