第 1 章：认识 Claude Code

LLM 的概率本质

为什么 AI 会"胡说"

当你向 ChatGPT、Claude 或任何大语言模型（LLM）提问时，它给出的回答往往流畅、有条理，甚至令人信服。但有时候，它会"一本正经地胡说八道"——编造不存在的事实、引用虚假的论文、给出错误的日期。这种现象被称为幻觉（Hallucination），它是 LLM 概率本质的固有副产品，而非某种可以简单"修复"的 bug。

要理解为什么 AI 会"胡说"，我们需要从底层机制出发，揭开 Next-Token Prediction、Tokenization、采样策略和涌现能力的面纱。

一、Next-Token Prediction：LLM 的核心机制

1.1 一句话概括

所有自回归 LLM（如 GPT、Claude、Gemini）的核心任务只有一个：给定前面的文本，预测下一个 token 的概率分布。

这就是 LLM 的"心跳"——一个不断重复的循环：

接收当前上下文（你输入的问题 + 已生成的文本）
计算词汇表中每个 token 的预测概率
按某种策略选择一个 token
将选中的 token 追加到上下文，回到步骤 1

1.2 数学表达

从数学上看，生成过程是一个条件概率的链式分解：

P(x₁, x₂, ..., xₙ) = P(x₁) × P(x₂|x₁) × P(x₃|x₁,x₂) × ... × P(xₙ|x₁,...,xₙ₋₁)

其中每个 P(xₜ | x<ₜ) 都是模型在当前时刻对下一个 token 的概率预测。模型内部通过 Transformer 架构的**掩码自注意力（Masked Self-Attention）和前馈网络（Feed-Forward Networks）**来计算这个分布，最终通过 Softmax 层将原始分数（logits）归一化为概率。¹

1.3 直观类比

想象一个超级 autocomplete（自动补全）。当你在手机上打字时，输入法会根据你已输入的内容，预测下一个最可能的字或词。LLM 做的本质上就是这件事——只不过它的"训练数据"是整个互联网上的文本，它的"参数"有数百亿甚至数千亿个，它的预测能力远超任何输入法。

但关键区别在于：LLM 的能力源于统计学习，它通过预测下一个 token 的概率分布来生成文本。²

二、Token 是什么：文本的数字化切片

2.1 Token 的本质

LLM 不直接处理文字，它处理的是 token——文本被分词器（Tokenizer）切分后的最小单元。一个 token 可以是：

一个完整的英文单词（如 "cat"）
一个单词的一部分（如 "play" + "ing"）
一个中文字符或字符组合
一个标点符号
甚至一段代码片段

2.2 分词算法：BPE 与 SentencePiece

现代 LLM 主要使用两种子词（subword）分词算法：³

Byte-Pair Encoding（BPE）：从字符级别开始，迭代合并训练数据中最频繁的相邻字符对。例如，如果 "th" 在语料中频繁出现，它就会被合并为一个独立的 token。GPT 系列模型使用的就是 BPE。

SentencePiece（一种无监督文本分词器）：直接操作原始文本的 Unicode 字节流，不依赖空格预分词。它将空格也视为一个可学习的 token（通常用 ▁ 表示），因此对多语言和噪声文本更鲁棒。T5、LLaMA 等模型采用此方案。

2.3 不同语言的 Token 差异

这是许多中文用户容易忽视的一点：不同语言的 token 效率差异巨大。

语言	示例文本	大致 Token 数
英语	"Hello world"	2
中文	"你好世界"	4-8
日语	"こんにちは"	5-10
代码	`function main()`	3-5

中文通常比英文消耗更多 token，这意味着：同样的上下文窗口，中文能容纳的内容更少；同样的输出长度，中文的推理成本更高。这是因为主流分词器的训练语料以英文为主，对中文的压缩效率较低。³

2.4 词汇表大小

典型 LLM 的词汇表大小在 30,000 到 100,000 个 token 之间。词汇表越大，单个序列需要的 token 数越少（更好的压缩），但嵌入层（Embedding Layer）的参数量和内存占用也越大。这是一个需要权衡的设计决策。³

三、概率分布与采样策略：控制"创造力"的旋钮

当模型计算出下一个 token 的概率分布后，如何选择具体的 token？这就是**解码策略（Decoding Strategy）**的作用。不同的策略在"确定性"和"多样性"之间做出不同权衡。⁴

3.1 Greedy Decoding（贪心解码）

每次都选择概率最高的 token。优点是简单、确定性强；缺点是输出容易陷入重复、缺乏变化，像是一个只会说"标准答案"的机器人。

3.2 Temperature（温度）

Temperature 是一个控制概率分布"尖锐程度"的参数：

Temperature → 0：分布变得极度尖锐，接近贪心解码，输出高度确定
Temperature = 1：保持原始概率分布不变
Temperature > 1：分布被"压平（flatten）"，低概率 token 获得更多机会，输出更随机、更有"创意"

数学上，Temperature 通过对 logits 进行缩放来实现：logits' = logits / temperature。温度越低，高概率 token 的优势越明显；温度越高，概率分布越均匀。⁴

3.3 Top-k 采样

只从概率最高的 k 个 token 中采样，其余 token 的概率置为零。例如 Top-50 意味着模型只在最可能的 50 个词中选择。这避免了选中极度不可能的"怪词"，同时保留了一定的随机性。

3.4 Top-p（Nucleus Sampling，核采样）

比 Top-k 更动态的策略：从累积概率达到阈值 p 的最小 token 集合中采样。例如 Top-p=0.9 意味着只考虑概率累积到 90% 的那些 token，无论这个集合包含 10 个还是 1000 个 token。

Top-p 的优势在于自适应：当模型对下一个词"很确定"时（某个词概率高达 95%），集合可能只包含 1-2 个词；当模型"不确定"时，集合会自动扩大，纳入更多候选。⁴

3.5 实际调参建议

以下参数建议基于社区实践经验总结，非官方推荐。OpenAI 官方 API 文档建议不同时调整 Temperature 和 Top-p，通常只调整其中一个参数即可。⁴

场景	推荐参数（二选一）
代码生成、数学推理	Temperature: 0.0-0.3 或 Top-p: 0.1-0.5
问答、事实检索	Temperature: 0.1-0.5 或 Top-p: 0.5-0.9
创意写作、头脑风暴	Temperature: 0.7-1.0 或 Top-p: 0.9

注意：不同模型对参数的取值范围不同。例如 Anthropic 模型的 Temperature 范围为 0-1，而 OpenAI 模型支持 0-2。Top-p=1.0 意味着完全取消限制，通常不推荐在生产环境中使用。

四、为什么 LLM 会"幻觉"：概率机制的固有副产品

4.1 幻觉的定义

幻觉指模型生成看似合理但实际错误的内容。OpenAI 在 2025 年发表的研究论文《Why Language Models Hallucinate》中给出了一个核心论断：语言模型产生幻觉，是因为标准的训练和评估流程奖励"猜测"而非"承认不确定"。⁵

4.2 预训练阶段的统计根源

预训练阶段，模型通过预测海量文本中的下一个词来学习。关键在于：训练数据中只有"正面例子"（真实出现的文本），没有"负面标签"（标注哪些陈述是假的）。⁵

OpenAI 的研究者打了一个比方：在图像识别中，如果数百万张猫狗照片被标注为"猫"或"狗"，算法可以学会可靠分类。但如果标注的是每只宠物的生日——而生日本质上是随机的——那么无论算法多先进，这个任务必然产生错误。

不过需要注意，与图像识别不同，语言模型中的许多事实（如"巴黎是法国首都"）可以从训练数据的高频共现中被准确学习。幻觉主要发生在低频、任意或时效性强的事实上，而非所有事实。

同理，在预训练中：

拼写和括号遵循一致的模式，随着模型规模增大，这类错误会消失
低频的任意事实（如某人的生日、某篇论文的标题）无法从统计模式中被准确预测，因此必然导致幻觉⁵

4.3 评估机制的激励扭曲

当前主流的模型评估方式加剧了幻觉问题。大多数基准测试只关注准确率（答对的比例），而不区分"答错"和"不回答"。⁵

想象一场选择题考试：你不知道答案时，盲猜有 1/4 的概率得分；留空则 guaranteed 零分。在只统计准确率的评分体系下，猜测的模型比诚实的模型"看起来更好"。OpenAI 的实验数据显示：⁵

指标	gpt-5-thinking-mini	OpenAI o4-mini
弃权率（不回答）	52%	1%
准确率	22%	24%
错误率（幻觉）	26%	75%

从准确率看，o4-mini 略胜一筹；但它的错误率（幻觉率）是前者的近 3 倍。 strategically guessing when uncertain improves accuracy but increases errors and hallucinations.

4.4 校准（Calibration）与真相

预训练后的模型通常是校准良好（well-calibrated）的——即模型输出的概率与真实正确率大致匹配。但 OpenAI 的研究者指出："校准良好"不等于"说真话"。一个模型可以非常一致地、自信地犯错。⁶

校准意味着：当模型说"我有 80% 把握"时，它确实在约 80% 的情况下是对的。但如果那 20% 的错误恰好发生在关键事实上，对用户来说仍然是灾难。

4.5 为什么模型不说"我不知道"

根本原因在于训练目标的错位。模型被训练来最大化训练数据的似然（即让预测尽可能接近真实文本），而不是最大化真实性。在训练数据中，"我不知道"出现的频率远低于直接猜测的尝试。此外，后训练阶段（如基于人类反馈的强化学习，RLHF）如果不对"错误回答"和"弃权"做差异化惩罚，模型就没有动力去承认不确定。⁵

五、为什么 LLM 不是"思考"而是统计模式匹配

5.1 "随机鹦鹉"（Stochastic Parrot）隐喻

2021 年，华盛顿大学的 Emily M. Bender 等学者在论文《On the Dangers of Stochastic Parrots》中提出了这个著名隐喻：LLM 就像一只随机鹦鹉——它并不理解所说内容的含义，只是根据统计模式"鹦鹉学舌"般地组合词语。⁷

这个隐喻的核心论点是：

LLM 从训练数据中学习的是形式上的共现模式，而非语义上的因果理解
模型可以流畅地讨论"重力"，但它从未"体验"过物体下落
模型可以生成关于"疼痛"的描述，但它没有神经系统

5.2 模式匹配 vs. 推理

当 LLM 解决一道数学题时，它并非在"推理"——至少不是人类意义上的推理。它是在匹配训练数据中见过的类似问题的文本模式：²

不过，2025-2026 年的研究表明，大模型内部确实形成了可解释的概念表征和推理路径。o1/o3 系列通过延长"思考链"显著提升了数学和逻辑推理的可靠性。因此，"统计模式匹配"与"推理"之间的界限可能比我们想象的更模糊——问题的关键不在于 LLM 是否"真正理解"，而在于它在什么条件下可靠、在什么条件下会失败。

识别问题中的关键词和结构（"如果...那么..."、"求解 x"）
检索训练数据中相似问题的"解答模板"
按概率填充模板中的变量和中间步骤
输出看起来最"合理"的答案

这个过程在很多时候能得到正确答案，因为训练数据包含了大量人类解答的数学问题。但一旦遇到训练数据中未覆盖的变体，模式匹配就会失效——而模型仍然会以同样的自信输出错误答案。

5.3 涌现的"推理"表象

需要承认的是，随着模型规模增大，LLM 确实展现出了一些令人惊讶的能力——链式思考（Chain-of-Thought）、少样本学习（Few-Shot Learning）、甚至某种程度的抽象概括。Anthropic 的研究团队通过**回路追踪（Circuit Tracing）**技术，发现模型内部确实存在可解释的概念表征（如"大小"、"相反"等概念的特征激活）。⁸

但这并不改变根本事实：这些能力是从统计学习中涌现出来的，而非通过符号逻辑或因果理解获得的。正如 Anthropic 的研究者所言，理解 LLM 的挑战类似于生物学理解生物体——虽然基本进化原理简单，但产生的机制极其复杂。⁸

六、涌现能力从何而来

6.1 什么是涌现能力

Google Research 在 2022 年的论文《Emergent Abilities of Large Language Models》中定义：涌现能力是指在小模型中不存在、但在大模型中出现的能力。这类能力无法通过外推小模型的性能来预测。⁹

典型的涌现能力包括：

上下文学习（In-Context Learning）：从提示中的几个例子学习新任务
链式思考推理（Chain-of-Thought Reasoning）：通过生成中间步骤解决复杂问题
指令遵循（Instruction Following）：理解并执行自然语言指令
多语言翻译：在从未显式训练翻译任务的情况下进行跨语言转换

6.2 涌现的三大驱动力

规模（Scale）：模型参数量从百万级增长到千亿级，带来了质的变化。更大的模型能够学习更复杂的表征，捕捉更长距离的依赖关系。但涌现并非线性——它往往在特定的"临界点"突然发生。⁹

预训练数据（Data）：训练数据的数量、质量和多样性直接决定了模型能学到什么模式。现代 LLM 通常在数万亿 token 的文本上训练，涵盖书籍、网页、代码、论文等多种来源。数据的"覆盖度"决定了模型能处理的任务范围。

架构（Architecture）：Transformer 架构的自注意力机制（Self-Attention）允许模型在任意两个 token 之间建立直接联系，无论它们在文本中相距多远。这种全局上下文能力是涌现能力的技术基础。2017 年的论文《Attention Is All You Need》奠定了这一架构，它通过 Query-Key-Value 机制计算 token 间的相关性权重，实现了高效的并行处理。¹⁰

6.3 涌现的争议

并非所有研究者都认同"涌现"是一个真实的、不可预测的现象。2023 年，Schaeffer 等人在论文《Are Emergent Abilities of Large Language Models a Mirage?》中提出：所谓的"涌现"可能只是评估指标的非线性变化所致——当使用离散的 pass/fail 评估指标时，能力看起来是"突变"的；但如果改用连续的评估指标（如 token 编辑距离），能力的提升实际上是平滑的。⁹

这一质疑的核心论点是：涌现并非模型本身的属性，而是评估方式的人为产物。如果换一种度量方式，许多"涌现能力"就会呈现渐进式增长。但即便如此，大模型确实展现出了小模型不具备的复杂行为，这一点是共识——争议的焦点在于这种能力的出现方式是否"不可预测"，而非能力本身是否真实。

七、对开发者的实际意义

7.1 正确设定预期

理解 LLM 的概率本质后，开发者应该建立以下认知：

LLM 不是数据库：它不会"查找"事实，而是"生成"看似合理的陈述。不要把它当作搜索引擎或知识库使用。

LLM 不是计算器：对于精确计算，它可能给出错误答案。复杂数学应交给专门的计算工具。

LLM 不是法律/医疗/金融顾问：在受监管领域，它的输出必须经过专业人士审核。

置信度不等于正确性：模型输出得越自信，不代表它越正确。校准良好的模型仍然可能自信地犯错。

7.2 降低幻觉的工程实践

检索增强生成（RAG）：让模型在生成回答前先检索相关文档，将生成约束在检索到的内容范围内。这是目前最有效的幻觉抑制手段之一。

工具使用（Tool Use）：将计算、查询、验证等任务交给外部工具（如计算器、数据库、API），让 LLM 专注于理解和编排。

提示工程（Prompt Engineering）：在提示中明确要求模型"如果不确定，请说不知道"、"请基于提供的资料回答"。虽然不能完全消除幻觉，但可以降低其发生率。

温度调低：对于需要高准确性的任务，将 Temperature 设为 0 或接近 0，减少随机性带来的错误。

7.3 何时需要人工审查

根据 Comet 公司博客中的实践建议（注：Comet 为 ML 实验追踪平台提供商，该文章包含其产品推广内容），以下场景必须引入人工审查（Human-in-the-Loop）：¹¹

高风险决策：医疗诊断、法律建议、金融投资、招聘评估等
事实敏感场景：新闻报道、学术研究、历史陈述等
品牌和安全敏感场景：对外发布的客服回复、社交媒体内容、营销文案等
边缘案例：模型训练数据中未充分覆盖的罕见场景
合规要求：受监管行业通常要求保留人工审核记录

人工审查不是" babysit the AI forever"，而是" teach the system how to evaluate itself"。通过结构化的人类反馈（评分、注释、纠正），可以持续改进提示、评估指标和系统行为。¹¹

7.4 评估策略的反思

OpenAI 的研究者呼吁：主流评估基准需要从"准确率优先"转向"惩罚过度自信"。具体建议包括：⁵

正确答案：得分 +1
"我不知道"/弃权：得分 0
错误答案：得分负值（如 -t/(1-t)，其中 t 为置信度阈值）

只有当评估机制奖励谦逊、惩罚盲猜时，模型才会有动力学会"知之为知之，不知为不知"。

八、总结

LLM 的"胡说"不是 bug，而是其概率本质的必然表现。理解这一点，有助于我们：

建立合理预期——LLM 是强大的文本生成器，但不是全知全能的 oracle
选择正确的使用场景——创意生成、头脑风暴、文本润色是它的强项；精确事实、关键决策需要额外验证
设计更可靠的系统——通过 RAG、工具使用、人工审查等手段，将 LLM 的能力与人类的判断力结合
推动评估进步——倡导更合理的评估标准，奖励诚实而非盲猜

正如 OpenAI 的研究者所言："预训练产生的是预测性语言模型——擅长预测文本，甚至能把语法搞对。但后训练应该产生的是生成性模型——不幻觉，知道何时弃权。"⁶

在 AI 能力飞速提升的今天，理解它的局限性，比盲目崇拜它的能力更加重要。

参考来源

OpenAI, "How LLMs work." OpenAI API Docs. https://platform.openai.com/docs/guides/prompt-engineering ↩
Anthropic, "Claude's capabilities." Anthropic Docs. https://code.claude.com/docs/en/about-claude/models ↩ ↩²
DigitalOcean, "LLM Tokenizers Simplified: BPE, SentencePiece, and More". https://www.digitalocean.com/community/conceptual-articles/llm-tokenizers-bpe-sentencepiece-custom-vs-pretrained ↩ ↩² ↩³
OpenAI Community, "Cheat Sheet: Mastering Temperature and Top_p in ChatGPT API." https://community.openai.com/t/cheat-sheet-mastering-temperature-and-top-p-in-chatgpt-api/172683 ↩ ↩² ↩³ ↩⁴
OpenAI, "Why Language Models Hallucinate", 2025. https://openai.com/index/why-language-models-hallucinate/ (论文 arXiv:2509.04664) ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷
OpenAI Research, "Calibration and Truthfulness in Language Models." 基于 OpenAI "Why Language Models Hallucinate" 研究。 ↩ ↩²
Bender, E. M., et al. "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" FAccT 2021. https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf ↩
Anthropic, "On the Biology of a Large Language Model", Transformer Circuits, 2025. https://transformer-circuits.pub/2025/attribution-graphs/biology.html ↩ ↩²
Wei, J., et al. "Emergent Abilities of Large Language Models." arXiv:2206.07682, Google Research, 2022. https://arxiv.org/abs/2206.07682; Schaeffer, R., et al. "Are Emergent Abilities of Large Language Models a Mirage?" arXiv:2304.15004, 2023. https://arxiv.org/abs/2304.15004 ↩ ↩² ↩³
Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017. (Transformer 架构原始论文) ↩
Comet, "Human-in-the-Loop Review Workflows for LLM Applications & Agents", 2025. https://www.comet.com/site/blog/human-in-the-loop/ (注：Comet 为 ML 实验追踪平台提供商，该文章包含其产品推广内容) ↩ ↩²

AI 编程助手生态全景与选型指南

从聊天机器人到 Agent

Planning + Memory + Tool Use