第 1 章:认识 Claude Code

LLM 的概率本质

为什么 AI 会"胡说"

当你向 ChatGPT、Claude 或任何大语言模型(LLM)提问时,它给出的回答往往流畅、有条理,甚至令人信服。但有时候,它会"一本正经地胡说八道"——编造不存在的事实、引用虚假的论文、给出错误的日期。这种现象被称为幻觉(Hallucination),它是 LLM 概率本质的固有副产品,而非某种可以简单"修复"的 bug。

要理解为什么 AI 会"胡说",我们需要从底层机制出发,揭开 Next-Token Prediction、Tokenization、采样策略和涌现能力的面纱。


一、Next-Token Prediction:LLM 的核心机制

1.1 一句话概括

所有自回归 LLM(如 GPT、Claude、Gemini)的核心任务只有一个:给定前面的文本,预测下一个 token 的概率分布。

这就是 LLM 的"心跳"——一个不断重复的循环:

  1. 接收当前上下文(你输入的问题 + 已生成的文本)
  2. 计算词汇表中每个 token 的预测概率
  3. 按某种策略选择一个 token
  4. 将选中的 token 追加到上下文,回到步骤 1

1.2 数学表达

从数学上看,生成过程是一个条件概率的链式分解:

P(x₁, x₂, ..., xₙ) = P(x₁) × P(x₂|x₁) × P(x₃|x₁,x₂) × ... × P(xₙ|x₁,...,xₙ₋₁)

其中每个 P(xₜ | x<ₜ) 都是模型在当前时刻对下一个 token 的概率预测。模型内部通过 Transformer 架构的**掩码自注意力(Masked Self-Attention)前馈网络(Feed-Forward Networks)**来计算这个分布,最终通过 Softmax 层将原始分数(logits)归一化为概率。1

1.3 直观类比

想象一个超级 autocomplete(自动补全)。当你在手机上打字时,输入法会根据你已输入的内容,预测下一个最可能的字或词。LLM 做的本质上就是这件事——只不过它的"训练数据"是整个互联网上的文本,它的"参数"有数百亿甚至数千亿个,它的预测能力远超任何输入法。

但关键区别在于:LLM 的能力源于统计学习,它通过预测下一个 token 的概率分布来生成文本。2


二、Token 是什么:文本的数字化切片

2.1 Token 的本质

LLM 不直接处理文字,它处理的是 token——文本被分词器(Tokenizer)切分后的最小单元。一个 token 可以是:

  • 一个完整的英文单词(如 "cat")
  • 一个单词的一部分(如 "play" + "ing")
  • 一个中文字符或字符组合
  • 一个标点符号
  • 甚至一段代码片段

2.2 分词算法:BPE 与 SentencePiece

现代 LLM 主要使用两种子词(subword)分词算法:3

Byte-Pair Encoding(BPE):从字符级别开始,迭代合并训练数据中最频繁的相邻字符对。例如,如果 "th" 在语料中频繁出现,它就会被合并为一个独立的 token。GPT 系列模型使用的就是 BPE。

SentencePiece(一种无监督文本分词器):直接操作原始文本的 Unicode 字节流,不依赖空格预分词。它将空格也视为一个可学习的 token(通常用 表示),因此对多语言和噪声文本更鲁棒。T5、LLaMA 等模型采用此方案。

2.3 不同语言的 Token 差异

这是许多中文用户容易忽视的一点:不同语言的 token 效率差异巨大

语言示例文本大致 Token 数
英语"Hello world"2
中文"你好世界"4-8
日语"こんにちは"5-10
代码function main()3-5

中文通常比英文消耗更多 token,这意味着:同样的上下文窗口,中文能容纳的内容更少;同样的输出长度,中文的推理成本更高。这是因为主流分词器的训练语料以英文为主,对中文的压缩效率较低。3

2.4 词汇表大小

典型 LLM 的词汇表大小在 30,000 到 100,000 个 token 之间。词汇表越大,单个序列需要的 token 数越少(更好的压缩),但嵌入层(Embedding Layer)的参数量和内存占用也越大。这是一个需要权衡的设计决策。3


三、概率分布与采样策略:控制"创造力"的旋钮

当模型计算出下一个 token 的概率分布后,如何选择具体的 token?这就是**解码策略(Decoding Strategy)**的作用。不同的策略在"确定性"和"多样性"之间做出不同权衡。4

3.1 Greedy Decoding(贪心解码)

每次都选择概率最高的 token。优点是简单、确定性强;缺点是输出容易陷入重复、缺乏变化,像是一个只会说"标准答案"的机器人。

3.2 Temperature(温度)

Temperature 是一个控制概率分布"尖锐程度"的参数:

  • Temperature → 0:分布变得极度尖锐,接近贪心解码,输出高度确定
  • Temperature = 1:保持原始概率分布不变
  • Temperature > 1:分布被"压平(flatten)",低概率 token 获得更多机会,输出更随机、更有"创意"

数学上,Temperature 通过对 logits 进行缩放来实现:logits' = logits / temperature。温度越低,高概率 token 的优势越明显;温度越高,概率分布越均匀。4

3.3 Top-k 采样

只从概率最高的 k 个 token 中采样,其余 token 的概率置为零。例如 Top-50 意味着模型只在最可能的 50 个词中选择。这避免了选中极度不可能的"怪词",同时保留了一定的随机性。

3.4 Top-p(Nucleus Sampling,核采样)

比 Top-k 更动态的策略:从累积概率达到阈值 p 的最小 token 集合中采样。例如 Top-p=0.9 意味着只考虑概率累积到 90% 的那些 token,无论这个集合包含 10 个还是 1000 个 token。

Top-p 的优势在于自适应:当模型对下一个词"很确定"时(某个词概率高达 95%),集合可能只包含 1-2 个词;当模型"不确定"时,集合会自动扩大,纳入更多候选。4

3.5 实际调参建议

以下参数建议基于社区实践经验总结,非官方推荐。OpenAI 官方 API 文档建议不同时调整 Temperature 和 Top-p,通常只调整其中一个参数即可。4

场景推荐参数(二选一)
代码生成、数学推理Temperature: 0.0-0.3 Top-p: 0.1-0.5
问答、事实检索Temperature: 0.1-0.5 Top-p: 0.5-0.9
创意写作、头脑风暴Temperature: 0.7-1.0 Top-p: 0.9

注意:不同模型对参数的取值范围不同。例如 Anthropic 模型的 Temperature 范围为 0-1,而 OpenAI 模型支持 0-2。Top-p=1.0 意味着完全取消限制,通常不推荐在生产环境中使用。


四、为什么 LLM 会"幻觉":概率机制的固有副产品

4.1 幻觉的定义

幻觉指模型生成看似合理但实际错误的内容。OpenAI 在 2025 年发表的研究论文《Why Language Models Hallucinate》中给出了一个核心论断:语言模型产生幻觉,是因为标准的训练和评估流程奖励"猜测"而非"承认不确定"。5

4.2 预训练阶段的统计根源

预训练阶段,模型通过预测海量文本中的下一个词来学习。关键在于:训练数据中只有"正面例子"(真实出现的文本),没有"负面标签"(标注哪些陈述是假的)5

OpenAI 的研究者打了一个比方:在图像识别中,如果数百万张猫狗照片被标注为"猫"或"狗",算法可以学会可靠分类。但如果标注的是每只宠物的生日——而生日本质上是随机的——那么无论算法多先进,这个任务必然产生错误。

不过需要注意,与图像识别不同,语言模型中的许多事实(如"巴黎是法国首都")可以从训练数据的高频共现中被准确学习。幻觉主要发生在低频、任意或时效性强的事实上,而非所有事实。

同理,在预训练中:

  • 拼写和括号遵循一致的模式,随着模型规模增大,这类错误会消失
  • 低频的任意事实(如某人的生日、某篇论文的标题)无法从统计模式中被准确预测,因此必然导致幻觉5

4.3 评估机制的激励扭曲

当前主流的模型评估方式加剧了幻觉问题。大多数基准测试只关注准确率(答对的比例),而不区分"答错"和"不回答"。5

想象一场选择题考试:你不知道答案时,盲猜有 1/4 的概率得分;留空则 guaranteed 零分。在只统计准确率的评分体系下,猜测的模型比诚实的模型"看起来更好"。OpenAI 的实验数据显示:5

指标gpt-5-thinking-miniOpenAI o4-mini
弃权率(不回答)52%1%
准确率22%24%
错误率(幻觉)26%75%

从准确率看,o4-mini 略胜一筹;但它的错误率(幻觉率)是前者的近 3 倍。 strategically guessing when uncertain improves accuracy but increases errors and hallucinations.

4.4 校准(Calibration)与真相

预训练后的模型通常是校准良好(well-calibrated)的——即模型输出的概率与真实正确率大致匹配。但 OpenAI 的研究者指出:"校准良好"不等于"说真话"。一个模型可以非常一致地、自信地犯错。6

校准意味着:当模型说"我有 80% 把握"时,它确实在约 80% 的情况下是对的。但如果那 20% 的错误恰好发生在关键事实上,对用户来说仍然是灾难。

4.5 为什么模型不说"我不知道"

根本原因在于训练目标的错位。模型被训练来最大化训练数据的似然(即让预测尽可能接近真实文本),而不是最大化真实性。在训练数据中,"我不知道"出现的频率远低于直接猜测的尝试。此外,后训练阶段(如基于人类反馈的强化学习,RLHF)如果不对"错误回答"和"弃权"做差异化惩罚,模型就没有动力去承认不确定。5


五、为什么 LLM 不是"思考"而是统计模式匹配

5.1 "随机鹦鹉"(Stochastic Parrot)隐喻

2021 年,华盛顿大学的 Emily M. Bender 等学者在论文《On the Dangers of Stochastic Parrots》中提出了这个著名隐喻:LLM 就像一只随机鹦鹉——它并不理解所说内容的含义,只是根据统计模式"鹦鹉学舌"般地组合词语7

这个隐喻的核心论点是:

  • LLM 从训练数据中学习的是形式上的共现模式,而非语义上的因果理解
  • 模型可以流畅地讨论"重力",但它从未"体验"过物体下落
  • 模型可以生成关于"疼痛"的描述,但它没有神经系统

5.2 模式匹配 vs. 推理

当 LLM 解决一道数学题时,它并非在"推理"——至少不是人类意义上的推理。它是在匹配训练数据中见过的类似问题的文本模式2

不过,2025-2026 年的研究表明,大模型内部确实形成了可解释的概念表征和推理路径。o1/o3 系列通过延长"思考链"显著提升了数学和逻辑推理的可靠性。因此,"统计模式匹配"与"推理"之间的界限可能比我们想象的更模糊——问题的关键不在于 LLM 是否"真正理解",而在于它在什么条件下可靠、在什么条件下会失败。

  1. 识别问题中的关键词和结构("如果...那么..."、"求解 x")
  2. 检索训练数据中相似问题的"解答模板"
  3. 按概率填充模板中的变量和中间步骤
  4. 输出看起来最"合理"的答案

这个过程在很多时候能得到正确答案,因为训练数据包含了大量人类解答的数学问题。但一旦遇到训练数据中未覆盖的变体,模式匹配就会失效——而模型仍然会以同样的自信输出错误答案。

5.3 涌现的"推理"表象

需要承认的是,随着模型规模增大,LLM 确实展现出了一些令人惊讶的能力——链式思考(Chain-of-Thought)、少样本学习(Few-Shot Learning)、甚至某种程度的抽象概括。Anthropic 的研究团队通过**回路追踪(Circuit Tracing)**技术,发现模型内部确实存在可解释的概念表征(如"大小"、"相反"等概念的特征激活)。8

但这并不改变根本事实:这些能力是从统计学习中涌现出来的,而非通过符号逻辑或因果理解获得的。正如 Anthropic 的研究者所言,理解 LLM 的挑战类似于生物学理解生物体——虽然基本进化原理简单,但产生的机制极其复杂。8


六、涌现能力从何而来

6.1 什么是涌现能力

Google Research 在 2022 年的论文《Emergent Abilities of Large Language Models》中定义:涌现能力是指在小模型中不存在、但在大模型中出现的能力。这类能力无法通过外推小模型的性能来预测。9

典型的涌现能力包括:

  • 上下文学习(In-Context Learning):从提示中的几个例子学习新任务
  • 链式思考推理(Chain-of-Thought Reasoning):通过生成中间步骤解决复杂问题
  • 指令遵循(Instruction Following):理解并执行自然语言指令
  • 多语言翻译:在从未显式训练翻译任务的情况下进行跨语言转换

6.2 涌现的三大驱动力

规模(Scale):模型参数量从百万级增长到千亿级,带来了质的变化。更大的模型能够学习更复杂的表征,捕捉更长距离的依赖关系。但涌现并非线性——它往往在特定的"临界点"突然发生。9

预训练数据(Data):训练数据的数量、质量和多样性直接决定了模型能学到什么模式。现代 LLM 通常在数万亿 token 的文本上训练,涵盖书籍、网页、代码、论文等多种来源。数据的"覆盖度"决定了模型能处理的任务范围。

架构(Architecture):Transformer 架构的自注意力机制(Self-Attention)允许模型在任意两个 token 之间建立直接联系,无论它们在文本中相距多远。这种全局上下文能力是涌现能力的技术基础。2017 年的论文《Attention Is All You Need》奠定了这一架构,它通过 Query-Key-Value 机制计算 token 间的相关性权重,实现了高效的并行处理。10

6.3 涌现的争议

并非所有研究者都认同"涌现"是一个真实的、不可预测的现象。2023 年,Schaeffer 等人在论文《Are Emergent Abilities of Large Language Models a Mirage?》中提出:所谓的"涌现"可能只是评估指标的非线性变化所致——当使用离散的 pass/fail 评估指标时,能力看起来是"突变"的;但如果改用连续的评估指标(如 token 编辑距离),能力的提升实际上是平滑的。9

这一质疑的核心论点是:涌现并非模型本身的属性,而是评估方式的人为产物。如果换一种度量方式,许多"涌现能力"就会呈现渐进式增长。但即便如此,大模型确实展现出了小模型不具备的复杂行为,这一点是共识——争议的焦点在于这种能力的出现方式是否"不可预测",而非能力本身是否真实。


七、对开发者的实际意义

7.1 正确设定预期

理解 LLM 的概率本质后,开发者应该建立以下认知:

LLM 不是数据库:它不会"查找"事实,而是"生成"看似合理的陈述。不要把它当作搜索引擎或知识库使用。

LLM 不是计算器:对于精确计算,它可能给出错误答案。复杂数学应交给专门的计算工具。

LLM 不是法律/医疗/金融顾问:在受监管领域,它的输出必须经过专业人士审核。

置信度不等于正确性:模型输出得越自信,不代表它越正确。校准良好的模型仍然可能自信地犯错。

7.2 降低幻觉的工程实践

检索增强生成(RAG):让模型在生成回答前先检索相关文档,将生成约束在检索到的内容范围内。这是目前最有效的幻觉抑制手段之一。

工具使用(Tool Use):将计算、查询、验证等任务交给外部工具(如计算器、数据库、API),让 LLM 专注于理解和编排。

提示工程(Prompt Engineering):在提示中明确要求模型"如果不确定,请说不知道"、"请基于提供的资料回答"。虽然不能完全消除幻觉,但可以降低其发生率。

温度调低:对于需要高准确性的任务,将 Temperature 设为 0 或接近 0,减少随机性带来的错误。

7.3 何时需要人工审查

根据 Comet 公司博客中的实践建议(注:Comet 为 ML 实验追踪平台提供商,该文章包含其产品推广内容),以下场景必须引入人工审查(Human-in-the-Loop):11

  • 高风险决策:医疗诊断、法律建议、金融投资、招聘评估等
  • 事实敏感场景:新闻报道、学术研究、历史陈述等
  • 品牌和安全敏感场景:对外发布的客服回复、社交媒体内容、营销文案等
  • 边缘案例:模型训练数据中未充分覆盖的罕见场景
  • 合规要求:受监管行业通常要求保留人工审核记录

人工审查不是" babysit the AI forever",而是" teach the system how to evaluate itself"。通过结构化的人类反馈(评分、注释、纠正),可以持续改进提示、评估指标和系统行为。11

7.4 评估策略的反思

OpenAI 的研究者呼吁:主流评估基准需要从"准确率优先"转向"惩罚过度自信"。具体建议包括:5

  • 正确答案:得分 +1
  • "我不知道"/弃权:得分 0
  • 错误答案:得分负值(如 -t/(1-t),其中 t 为置信度阈值)

只有当评估机制奖励谦逊、惩罚盲猜时,模型才会有动力学会"知之为知之,不知为不知"。


八、总结

LLM 的"胡说"不是 bug,而是其概率本质的必然表现。理解这一点,有助于我们:

  1. 建立合理预期——LLM 是强大的文本生成器,但不是全知全能的 oracle
  2. 选择正确的使用场景——创意生成、头脑风暴、文本润色是它的强项;精确事实、关键决策需要额外验证
  3. 设计更可靠的系统——通过 RAG、工具使用、人工审查等手段,将 LLM 的能力与人类的判断力结合
  4. 推动评估进步——倡导更合理的评估标准,奖励诚实而非盲猜

正如 OpenAI 的研究者所言:"预训练产生的是预测性语言模型——擅长预测文本,甚至能把语法搞对。但后训练应该产生的是生成性模型——不幻觉,知道何时弃权。"6

在 AI 能力飞速提升的今天,理解它的局限性,比盲目崇拜它的能力更加重要。


参考来源

Footnotes

  1. OpenAI, "How LLMs work." OpenAI API Docs. https://platform.openai.com/docs/guides/prompt-engineering
  2. Anthropic, "Claude's capabilities." Anthropic Docs. https://code.claude.com/docs/en/about-claude/models 2
  3. DigitalOcean, "LLM Tokenizers Simplified: BPE, SentencePiece, and More". https://www.digitalocean.com/community/conceptual-articles/llm-tokenizers-bpe-sentencepiece-custom-vs-pretrained 2 3
  4. OpenAI Community, "Cheat Sheet: Mastering Temperature and Top_p in ChatGPT API." https://community.openai.com/t/cheat-sheet-mastering-temperature-and-top-p-in-chatgpt-api/172683 2 3 4
  5. OpenAI, "Why Language Models Hallucinate", 2025. https://openai.com/index/why-language-models-hallucinate/ (论文 arXiv:2509.04664) 2 3 4 5 6 7
  6. OpenAI Research, "Calibration and Truthfulness in Language Models." 基于 OpenAI "Why Language Models Hallucinate" 研究。 2
  7. Bender, E. M., et al. "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" FAccT 2021. https://s10251.pcdn.co/pdf/2021-bender-parrots.pdf
  8. Anthropic, "On the Biology of a Large Language Model", Transformer Circuits, 2025. https://transformer-circuits.pub/2025/attribution-graphs/biology.html 2
  9. Wei, J., et al. "Emergent Abilities of Large Language Models." arXiv:2206.07682, Google Research, 2022. https://arxiv.org/abs/2206.07682; Schaeffer, R., et al. "Are Emergent Abilities of Large Language Models a Mirage?" arXiv:2304.15004, 2023. https://arxiv.org/abs/2304.15004 2 3
  10. Vaswani, A., et al. "Attention Is All You Need." NeurIPS 2017. (Transformer 架构原始论文)
  11. Comet, "Human-in-the-Loop Review Workflows for LLM Applications & Agents", 2025. https://www.comet.com/site/blog/human-in-the-loop/ (注:Comet 为 ML 实验追踪平台提供商,该文章包含其产品推广内容) 2