Transformer 全面拆解：从「预测下一个词」到改变世界的技术

Mon, 20 Apr 2026 14:00:00 +0800

写给那些不满足于"注意力机制很强大"这种解释的人。

本文目标：把一个"黑箱"，拆成你能 mentally simulate 的系统。

引言：一个看似简单的问题

你有没有想过——ChatGPT 为什么"看起来懂你"？

当你问它"帮我写一封拒绝朋友请求的礼貌邮件"，它不仅能写出来，还能感知到"拒绝"和"礼貌"之间的张力，给出一封语气恰当、逻辑自洽的信。这不是简单的模板填充，也不是数据库检索。

它真的理解语言吗？

答案比你想象的既更简单，也更深刻。

Transformer 本质上只做一件事：预测下一个 Token。

没有世界模型，没有常识库，没有专门的语法规则。就是反复地、大规模地、在海量文本上——预测下一个词。

然而就是这个看似朴素的任务，催生出了 GPT-4、Claude、Gemini 这些震动世界的系统。

为什么？

因为"完美预测下一个词"，在信息论上，等价于"完全理解语言背后的结构"。而 Transformer 架构，提供了一种前所未有的、可大规模扩展的方式去逼近这个目标。

这篇文章，我们就来把这个"黑箱"，一层一层地拆开。

读完之后，你不一定能写出 GPT-4，但你应该能：

在脑子里模拟 token 从输入到输出的完整流程
理解为什么 Transformer 打败了 RNN
知道为什么模型越大越聪明，以及这条路的边界在哪里
对"模型到底理解了什么"有自己批判性的判断

不需要记公式，但需要你认真思考。

让我们开始。

第一部分：核心直觉

1. Transformer 的本质：信息如何在序列中流动？

在理解任何细节之前，先建立最重要的直觉：

Transformer 是一台"信息路由机器"。

给定一个 token 序列（比如一句话），Transformer 的核心任务是：让每个 token 能够"看到"并"收集"序列中其他位置的相关信息，然后据此更新自己的表示。

这句话有三个关键词：

看到：不是所有 token 都同等重要，需要有选择地关注
收集：把分散在序列中的信息汇聚到当前位置
更新：根据收集到的信息，修正自己对这个 token 的"理解"

这个过程，在每一层 Transformer Block 里都会发生一次。一个现代 LLM 有 96 层甚至更多，也就是说，每个 token 会经历 96 次这样的"信息更新"。

最终输出的向量，已经不再是孤立的词义，而是包含了整个上下文信息的、高度压缩的语义表示。

LLM 微调实战指南：从原理到落地的完整路径

Mon, 20 Apr 2026 10:00:00 +0800

一、是否需要微调？

很多工程师一遇到大模型效果不好，第一反应是"我们去微调一下"。这个直觉并不总是错的，但它跳过了一个至关重要的问题：微调真的是你现在需要的吗？

微调不是万能药。它有成本（数据、算力、人力、维护），有风险（过拟合、灾难性遗忘、对齐破坏），有边界（不能弥补知识截止日期的缺陷，不能替代架构层面的问题）。在你投入资源之前，先把决策做对，比把微调做对更重要。

1.1 预训练(Pre-training)模型的能力边界

预训练大语言模型（LLM）是在海量文本上通过 Next Token Prediction 训练出来的，它内化了：

语言能力：语法、语义
世界知识：训练数据截止日前的大量事实
推理能力：链式推理、类比、归纳
泛化能力：zero-shot / few-shot 泛化

但它的边界同样清晰：

类型	描述	能否靠 Prompt 解决？
知识截止	不知道训练后发生的事	需要 RAG 或工具调用
领域深度不足	医疗/法律细分知识密度低	部分可以，复杂情况需微调
语言风格统一	品牌语气、客服话术	Prompt 可以但难以持续一致
私有数据注入	公司内部文档	需要 RAG 或微调
高并发低延迟	推理成本敏感	需要小模型微调

核心判断原则：如果你的问题本质是"模型不知道某件事"，RAG 是更优先的选择；如果是"模型知道但表达/行为方式不对"，微调才是你要的。

1.2 三种主流方案对比：Prompt Engineering vs RAG vs Fine-tuning

这三种方案不是竞争关系，而是递进关系。实践中应该先穷尽轻量方案，再考虑重量级方案。

Prompt Engineering → RAG → Fine-tuning
 最轻量 最重量
 最快速 最慢速
 最易维护 最难维护
 效果有上限 效果上限最高

Prompt Engineering

零成本，快速迭代
无需数据，无需训练
受 context window 限制
无法改变模型底层行为
可被用户 jailbreak

RAG（检索增强生成）

Llm on Zhengdong.jzd 个人博客