<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Llm on Zhengdong.jzd 个人博客</title><link>https://xautjzd.github.io/tags/llm/</link><description>Recent content in Llm on Zhengdong.jzd 个人博客</description><generator>Hugo</generator><language>zh-cn</language><copyright>© jzd</copyright><lastBuildDate>Mon, 20 Apr 2026 14:00:00 +0800</lastBuildDate><atom:link href="https://xautjzd.github.io/tags/llm/index.xml" rel="self" type="application/rss+xml"/><item><title>Transformer 全面拆解：从「预测下一个词」到改变世界的技术</title><link>https://xautjzd.github.io/posts/2026-04-20-transformer-deep-dive/</link><pubDate>Mon, 20 Apr 2026 14:00:00 +0800</pubDate><guid>https://xautjzd.github.io/posts/2026-04-20-transformer-deep-dive/</guid><description>&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;写给那些不满足于&amp;quot;注意力机制很强大&amp;quot;这种解释的人。&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;本文目标：把一个&amp;quot;黑箱&amp;quot;，拆成你能 mentally simulate 的系统。&lt;/p&gt;
&lt;h2 id="引言一个看似简单的问题"&gt;引言：一个看似简单的问题&lt;/h2&gt;
&lt;p&gt;你有没有想过——ChatGPT 为什么&amp;quot;看起来懂你&amp;quot;？&lt;/p&gt;
&lt;p&gt;当你问它&amp;quot;帮我写一封拒绝朋友请求的礼貌邮件&amp;quot;，它不仅能写出来，还能感知到&amp;quot;拒绝&amp;quot;和&amp;quot;礼貌&amp;quot;之间的张力，给出一封语气恰当、逻辑自洽的信。这不是简单的模板填充，也不是数据库检索。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;它真的理解语言吗？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;答案比你想象的既更简单，也更深刻。&lt;/p&gt;
&lt;p&gt;Transformer 本质上只做一件事：&lt;strong&gt;预测下一个 Token&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;没有世界模型，没有常识库，没有专门的语法规则。就是反复地、大规模地、在海量文本上——预测下一个词。&lt;/p&gt;
&lt;p&gt;然而就是这个看似朴素的任务，催生出了 GPT-4、Claude、Gemini 这些震动世界的系统。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;为什么？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;因为&amp;quot;完美预测下一个词&amp;quot;，在信息论上，等价于&amp;quot;完全理解语言背后的结构&amp;quot;。而 Transformer 架构，提供了一种前所未有的、可大规模扩展的方式去逼近这个目标。&lt;/p&gt;
&lt;p&gt;这篇文章，我们就来把这个&amp;quot;黑箱&amp;quot;，一层一层地拆开。&lt;/p&gt;
&lt;p&gt;读完之后，你不一定能写出 GPT-4，但你应该能：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;在脑子里模拟 token 从输入到输出的完整流程&lt;/li&gt;
&lt;li&gt;理解为什么 Transformer 打败了 RNN&lt;/li&gt;
&lt;li&gt;知道为什么模型越大越聪明，以及这条路的边界在哪里&lt;/li&gt;
&lt;li&gt;对&amp;quot;模型到底理解了什么&amp;quot;有自己批判性的判断&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;不需要记公式，但需要你认真思考。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;让我们开始。&lt;/p&gt;
&lt;h1 id="第一部分核心直觉"&gt;第一部分：核心直觉&lt;/h1&gt;
&lt;h2 id="1-transformer-的本质信息如何在序列中流动"&gt;1. Transformer 的本质：信息如何在序列中流动？&lt;/h2&gt;
&lt;p&gt;在理解任何细节之前，先建立最重要的直觉：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Transformer 是一台&amp;quot;信息路由机器&amp;quot;。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;给定一个 token 序列（比如一句话），Transformer 的核心任务是：让每个 token 能够&amp;quot;看到&amp;quot;并&amp;quot;收集&amp;quot;序列中其他位置的相关信息，然后据此更新自己的表示。&lt;/p&gt;
&lt;p&gt;这句话有三个关键词：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;看到&lt;/strong&gt;：不是所有 token 都同等重要，需要有选择地关注&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;收集&lt;/strong&gt;：把分散在序列中的信息汇聚到当前位置&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;更新&lt;/strong&gt;：根据收集到的信息，修正自己对这个 token 的&amp;quot;理解&amp;quot;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这个过程，在每一层 Transformer Block 里都会发生一次。一个现代 LLM 有 96 层甚至更多，也就是说，每个 token 会经历 96 次这样的&amp;quot;信息更新&amp;quot;。&lt;/p&gt;
&lt;p&gt;最终输出的向量，已经不再是孤立的词义，而是&lt;strong&gt;包含了整个上下文信息的、高度压缩的语义表示&lt;/strong&gt;。&lt;/p&gt;</description></item><item><title>LLM 微调实战指南：从原理到落地的完整路径</title><link>https://xautjzd.github.io/posts/2026-04-20-how-to-fine-tuning-llm/</link><pubDate>Mon, 20 Apr 2026 10:00:00 +0800</pubDate><guid>https://xautjzd.github.io/posts/2026-04-20-how-to-fine-tuning-llm/</guid><description>&lt;h2 id="一是否需要微调"&gt;一、是否需要微调？&lt;/h2&gt;
&lt;p&gt;很多工程师一遇到大模型效果不好，第一反应是&amp;quot;我们去微调一下&amp;quot;。这个直觉并不总是错的，但它跳过了一个至关重要的问题：&lt;strong&gt;微调真的是你现在需要的吗？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;微调不是万能药。它有成本（数据、算力、人力、维护），有风险（过拟合、灾难性遗忘、对齐破坏），有边界（不能弥补知识截止日期的缺陷，不能替代架构层面的问题）。在你投入资源之前，先把决策做对，比把微调做对更重要。&lt;/p&gt;
&lt;h3 id="11-预训练pre-training模型的能力边界"&gt;1.1 预训练(Pre-training)模型的能力边界&lt;/h3&gt;
&lt;p&gt;预训练大语言模型（LLM）是在海量文本上通过 Next Token Prediction 训练出来的，它内化了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;语言能力&lt;/strong&gt;：语法、语义&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;世界知识&lt;/strong&gt;：训练数据截止日前的大量事实&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;推理能力&lt;/strong&gt;：链式推理、类比、归纳&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;泛化能力&lt;/strong&gt;：zero-shot / few-shot 泛化&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但它的边界同样清晰：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;类型&lt;/th&gt;
 &lt;th&gt;描述&lt;/th&gt;
 &lt;th&gt;能否靠 Prompt 解决？&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;知识截止&lt;/td&gt;
 &lt;td&gt;不知道训练后发生的事&lt;/td&gt;
 &lt;td&gt;需要 RAG 或工具调用&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;领域深度不足&lt;/td&gt;
 &lt;td&gt;医疗/法律细分知识密度低&lt;/td&gt;
 &lt;td&gt;部分可以，复杂情况需微调&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;语言风格统一&lt;/td&gt;
 &lt;td&gt;品牌语气、客服话术&lt;/td&gt;
 &lt;td&gt;Prompt 可以但难以持续一致&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;私有数据注入&lt;/td&gt;
 &lt;td&gt;公司内部文档&lt;/td&gt;
 &lt;td&gt;需要 RAG 或微调&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;高并发低延迟&lt;/td&gt;
 &lt;td&gt;推理成本敏感&lt;/td&gt;
 &lt;td&gt;需要小模型微调&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;核心判断原则&lt;/strong&gt;：如果你的问题本质是&amp;quot;模型不知道某件事&amp;quot;，RAG 是更优先的选择；如果是&amp;quot;模型知道但表达/行为方式不对&amp;quot;，微调才是你要的。&lt;/p&gt;
&lt;h3 id="12-三种主流方案对比prompt-engineering-vs-rag-vs-fine-tuning"&gt;1.2 三种主流方案对比：Prompt Engineering vs RAG vs Fine-tuning&lt;/h3&gt;
&lt;p&gt;这三种方案不是竞争关系，而是递进关系。实践中应该先穷尽轻量方案，再考虑重量级方案。&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;Prompt Engineering → RAG → Fine-tuning
 最轻量 最重量
 最快速 最慢速
 最易维护 最难维护
 效果有上限 效果上限最高
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;&lt;strong&gt;Prompt Engineering&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;零成本，快速迭代&lt;/li&gt;
&lt;li&gt;无需数据，无需训练&lt;/li&gt;
&lt;li&gt;受 context window 限制&lt;/li&gt;
&lt;li&gt;无法改变模型底层行为&lt;/li&gt;
&lt;li&gt;可被用户 jailbreak&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;RAG（检索增强生成）&lt;/strong&gt;&lt;/p&gt;</description></item></channel></rss>