LLM 是什么?
Agent 在其核心需要 AI 模型,LLM 是用于此目的的最常见的 AI 模型类型。
1. 什么是大语言模型?
LLM 是擅长理解和生成人类语言的 AI 模型类型。
它们在大量文本数据上进行训练,使它们能够学习模式、结构甚至语言的细微差别。这些模型通常由数百万个参数组成。
如今,大多数 LLM 都基于 Transformer 架构构建,Transformer 是基于“注意力”算法的深度学习架构,自 2018 年谷歌发布 BERT 以来,该架构引起人们的极大兴趣。

原始的 Transformer 架构如上图所示,左边是编码器,右边是解码器。
Transformer 有三种类型:
- 编码器
基于编码器的 Transformer 接受文本(或其它数据)作为输入,并且输出该文本的稠密表示(或 Embedding)。
- 示例:Google 的 BERT
- 使用场景:文本分类,语义搜索,命名实体识别
- 典型大小:数百万参数
- 解码器
基于解码器的 Transformer 专注于生成新 Token 以完成序列,每次生成一个 Token。
- 示例:Meta 的 Llama
- 使用场景:文本生成,聊天机器人,代码生成
- 典型大小:数十亿参数
- Seq2Seq(编码器-解码器)
sequence-to-sequence Transformer 组合编码器和解码器。编码器首先将输入序列处理成上下文表示,然后解码器生成输出序列。
- 示例:T5、BART
- 使用场景:翻译,总结,解释
- 典型大小:数百万参数
尽管大语言模型有各种形式,但 LLM 通常是具有数十亿参数的基于解码器的模型。以下是知名的 LLM:
Model | Provider |
Deepseek-R1 | DeepSeek |
GPT4 | OpenAI |
Llama 3 | Meta (Facebook AI Research) |
SmolLM2 | Hugging Face |
Gemma | |
Mistral | Mistral |
LLM 的基本原则很简单,但非常有效:其目标是在给定之前的 Token 序列的情况下预测下一个 Token。“Token”是 LLM 使用的信息单位。可以将“token”想象成“单词”,但出于效率原因,LLM 不使用全部单词。
比如,英语大约有 60 万个单词,而 LLM 可能有大约 32000 个 Token 的词汇表(Llama 2 的情况就是如此)。Token 化通常工作在可以组合的子单词单元上。
比如,思考如何将 Token “interest”与“ing”组合成“interesting”,或者追加“ed”形成“interested”。
每种 LLM 都有一些特定于模型的特殊 Token。LLM 使用这些 Token 打开和关闭其生成的结构化组件。比如,显示序列、消息或响应的开始或结束。此外,传递给模型的输入提示词也使用特殊的 Token 进行结构化。其中最重要的是序列结束 Token(EOS)。
特殊 Token 的形式在不同的模型提供者之间是高度多样化的。
下表说明特殊 Token 的多样性。
Model | Provider | EOS Token | Functionality |
GPT4 | OpenAI | <|endoftext|> | End of message text |
Llama 3 | Meta (Facebook AI Research) | <|eot_id|> | End of sequence |
Deepseek-R1 | DeepSeek | <|end_of_sentence|> | End of message text |
SmolLM2 | Hugging Face | <|im_end|> | End of instruction or message |
Gemma | <end_of_turn> | End of conversation turn |
2. 理解下一个 Token 预测
LLM 被认为是自回归的(autoregressive),这意味着一个阶段的输出将成为下一个阶段的输入。该循环持续到模型预测下一个 Token 是 EOS Token,此时模型可以停止。

换言之,LLM 将对文本进行解码,直到到达 EOS。但是在单个解码循环中将发生什么呢?
虽然对于学习 Agent 而言,整个过程可能非常技术,但下面是简要的概述:
- 一旦输入文本 Token 化(tokenized),模型将计算序列的表示,该表示捕获输入序列中每个 Token 的含义和位置信息。
- 该表示进入模型,模型输出分数,对词汇表中每个 Token 作为序列中下一个 Token 的可能性进行排序。

基于分数,可以使用多种策略选择 Token,完成句子。
- 最简单的策略是总是选择具有最大分数的 Token
- 但还有更高级的解码策略。比如 beam search 搜索多个候选序列,找到总分最高的序列 - 即使某些单个 Token 的分数较低
3. Attention 就是一切
Transformer 架构的一个关键方面是注意力(Attention)。在预测下一个单词时,并非句子中的每个单词都同等重要;像“France”和“capital”这样的词在“the capital of France is…”这句话中承担最重要的语义。

通过识别最相关单词的方式,预测下一个 Token 的过程已被证明非常有效。
尽管自 GPT-2 以来,LLM 的基本原理(预测下个 Token)一直保持一致,但在扩展神经网络和使注意力机制适用于越来越长的序列方面已经取得重大进展。
术语上下文长度(context length)指的是 LLM 可以处理的最大 Token 数量,及其具有的最大注意力广度(attention span)。
4. 提示 LLM 很重要
考虑到 LLM 的唯一工作是通过查看每个输入 Token,预测下个 Token,并且选择哪些 Token 是“重要的”,因此输入序列的单词非常重要。
提供给 LLM 的输入序列被称为提示词(Prompt)。仔细设计 Prompt 可以更容易地引导 LLM 生成所需的输出。
5. 如何训练 LLM?
LLM 是在大型文本数据集上训练的,它们通过自监督或屏蔽语言建模目标学习预测序列中的下一个单词。
从无监督学习中,模型学习语言结构和文本中的底层模式,从而使模型泛化到不可见数据。
在最初的预训练(pre-train)后,可以根据监督学习目标微调 LLM,以执行特定任务。比如一些模型针对会话结构或工具使用进行训练,而其它模型则侧重于分类或代码生成。
6. 如何使用 LLM?
有两个主要选项:
- 在本地运行(如果有足够的硬件)
- 使用云/API(比如通过 Hugging Face Serverless Inference API)
7. 在 AI Agent 中如何使用 LLM?
LLM 是 AI Agent 的关键组件,它为理解和生成人类语言提供基础。
LLM 可以解释用户指令,维护会话上下文,定义规划和决定使用哪些工具。
LLM 是 Agent 的大脑。