2026年4月19日

术语表

> 按拼音/字母排序，每个术语附简要定义和 wikilink。

知识库大模型总览llmmodelglossary

模型知识术语表

按拼音/字母排序，每个术语附简要定义和 wikilink。

A

Accelerate — HuggingFace 的分布式训练抽象层 → 训练生态工具
Adapter — 插入模型中的可训练模块，如 LoRA → PEFT总览
AdaLoRA — 自适应 rank 分配的 LoRA 变体 → PEFT扩展方法
ALiBi — 基于线性偏置的位置编码方法 → 位置编码
AlpacaEval — 基于 LLM 的自动评测基准 → 偏好优化评测
Attention — 让模型关注输入中相关部分的机制 → 注意力机制
AWQ — Activation-aware Weight Quantization，感知激活的权重量化 → 量化

B

Base Model — 仅经过预训练、未经指令调优的模型 → 基座与指令模型
BERT — Bidirectional Encoder Representations from Transformers，encoder-only 模型 → 编码器与解码器
BF16 — Brain Float 16，大模型训练常用精度 → 训练流程
BPE — Byte-Pair Encoding，字节对编码分词算法 → 分词器

C

Causal Masking — 因果掩码，防止看到未来 token → Transformer
Chat Template — 对话格式模板，影响训练和推理一致性 → 分词器
CLM — Causal Language Modeling，因果语言建模 → 预训练目标
Continuous Batching — 持续批处理，推理优化技术 → vLLM
Constitutional AI — Anthropic 提出的安全对齐方法 → 对齐方法总览
Cross-Attention — 交叉注意力，一个序列关注另一个序列 → 注意力机制
CPO — Contrastive Preference Optimization → 偏好优化DPO_GRPO

D

Decoder-Only — 只有解码器的架构（GPT 类）→ 编码器与解码器
DeepSpeed — 微软的分布式训练框架 → 训练生态工具
DoRA — Weight-Decomposed Low-Rank Adaptation → PEFT扩展方法
DPO — Direct Preference Optimization，直接偏好优化 → 偏好优化DPO_GRPO
Double Quantization — QLoRA 中的二次量化技术 → LoRA与QLoRA

E

Encoder-Decoder — 编码器-解码器架构（T5 类）→ 编码器与解码器
Encoder-Only — 只有编码器的架构（BERT 类）→ 编码器与解码器

F

FFN — Feed-Forward Network，前馈网络 → 归一化与残差连接
FlashAttention — IO 感知的高效注意力实现 → 推理加速
FP16 — 半精度浮点 → 训练流程
FSDP — Fully Sharded Data Parallel，全分片数据并行 → 训练生态工具
Full Fine-Tuning — 全参数微调 → LoRA与QLoRA

G

GPTQ — 基于近似二阶信息的后训练量化 → 量化
Gradient Accumulation — 梯度累积，模拟大 batch → 训练流程
Gradient Checkpointing — 梯度检查点，用计算换显存 → 训练流程
GRPO — Group Relative Policy Optimization → GRPO与推理训练
GQA — Grouped-Query Attention → 注意力优化前沿
GSM8K — 小学数学推理评测集 → 离线评测

H

Hallucination — 幻觉，模型生成不准确内容 → 安全与稳定性
HumanEval — 代码生成评测集 → 离线评测

I

IA³ — Infused Adapter by Inhibition → PEFT扩展方法
Instruction Tuning — 指令调优 → 指令微调

K

KV Cache — Key-Value 缓存，加速自回归推理 → KV Cache
KTO — Kahneman-Tversky Optimization → 偏好优化DPO_GRPO

L

Latency — 推理延迟 → 吞吐与延迟
LayerNorm — Layer Normalization → 归一化与残差连接
Liger Kernel — 训练 kernel 优化库 → 训练生态工具
LoRA — Low-Rank Adaptation，低秩适配 → LoRA与QLoRA

M

Mamba — 状态空间模型，Transformer 替代方案 → 注意力优化前沿
Mixed Precision — 混合精度训练 → 训练流程
MLM — Masked Language Modeling → 预训练目标
MMLU — 大规模多任务语言理解评测 → 离线评测
MoE — Mixture of Experts，混合专家模型 → 推理优化前沿
MQA — Multi-Query Attention → 注意力优化前沿
MT-Bench — 多轮对话评测基准 → 偏好优化评测
Multi-Head Attention — 多头注意力 → 归一化与残差连接

O

ORPO — Odds Ratio Preference Optimization → 偏好优化DPO_GRPO
Outcome Reward — 结果奖励 → 过程奖励与结果奖励

P

PagedAttention — 分页注意力，vLLM 核心 → vLLM
PEFT — Parameter-Efficient Fine-Tuning → PEFT总览
Perplexity — 困惑度，语言模型评测指标 → 困惑度详解
PPO — Proximal Policy Optimization → PPO训练细节
Positional Encoding — 位置编码 → 位置编码
Preference Data — 偏好数据，用于 RLHF/DPO → 奖励模型
Process Reward — 过程奖励 → 过程奖励与结果奖励

Q

Q/K/V — Query/Key/Value，注意力机制核心 → 注意力机制
QLoRA — 量化 + LoRA 的组合方案 → LoRA与QLoRA
Quantization — 量化，降低模型精度以减少资源 → 量化

R

Reasoning Model — 推理增强模型（如 o1, DeepSeek-R1）→ 推理模型vs聊天模型
Red Teaming — 红队测试，安全评测方法 → 安全与稳定性
Residual Connection — 残差连接 → 归一化与残差连接
Reward Model — 奖励模型，学习人类偏好 → 奖励模型
RMSNorm — Root Mean Square Normalization → 归一化与残差连接
RLHF — Reinforcement Learning from Human Feedback → 人类反馈强化学习RLHF
RoPE — Rotary Position Embedding，旋转位置编码 → 位置编码

S

Scaling Law — 缩放定律，参数/数据/算力关系 → 预训练
Self-Attention — 自注意力，序列关注自身 → 注意力机制
Seq2Seq — Sequence-to-Sequence → 预训练目标
SentencePiece — 分词工具库 → 分词器
SFT — Supervised Fine-Tuning，监督微调 → 监督微调SFT
Speculative Decoding — 投机解码，推理加速 → 推理加速

T

Throughput — 吞吐量 → 吞吐与延迟
Tokenizer — 分词器 → 分词器
Tool Calling — 工具调用，让模型调用外部函数 → 工具调用
TRL — Transformer Reinforcement Learning，HuggingFace 训练库 → 训练生态工具
TTFT — Time To First Token，首 token 延迟 → 吞吐与延迟

U

Unigram — 单字分词算法 → 分词器
Unsloth — 训练加速框架 → 训练生态工具

V

vLLM — 高性能 LLM 推理引擎 → vLLM
VLM — Vision-Language Model，视觉语言模型 → VLM基础

常见缩写对照

缩写	全称	中文
CLM	Causal Language Modeling	因果语言建模
DPO	Direct Preference Optimization	直接偏好优化
FFN	Feed-Forward Network	前馈网络
FSDP	Fully Sharded Data Parallel	全分片数据并行
GQA	Grouped-Query Attention	分组查询注意力
GRPO	Group Relative Policy Optimization	组相对策略优化
KTO	Kahneman-Tversky Optimization	卡尼曼-特沃斯基优化
KV	Key-Value	键值
LoRA	Low-Rank Adaptation	低秩适配
MLM	Masked Language Modeling	掩码语言建模
MoE	Mixture of Experts	混合专家
MQA	Multi-Query Attention	多查询注意力
NF4	NormalFloat 4-bit	4-bit 正态浮点
ORPO	Odds Ratio Preference Optimization	优势比偏好优化
PEFT	Parameter-Efficient Fine-Tuning	参数高效微调
PPO	Proximal Policy Optimization	近端策略优化
PRM	Process Reward Model	过程奖励模型
QLoRA	Quantized LoRA	量化低秩适配
RM	Reward Model	奖励模型
RMSNorm	Root Mean Square Normalization	均方根归一化
RLHF	Reinforcement Learning from Human Feedback	基于人类反馈的强化学习
RoPE	Rotary Position Embedding	旋转位置编码
SFT	Supervised Fine-Tuning	监督微调
TTFT	Time To First Token	首 token 延迟
VLM	Vision-Language Model	视觉语言模型