模型知识术语表
按拼音/字母排序,每个术语附简要定义和 wikilink。
A
- Accelerate — HuggingFace 的分布式训练抽象层 → 训练生态工具
- Adapter — 插入模型中的可训练模块,如 LoRA → PEFT总览
- AdaLoRA — 自适应 rank 分配的 LoRA 变体 → PEFT扩展方法
- ALiBi — 基于线性偏置的位置编码方法 → 位置编码
- AlpacaEval — 基于 LLM 的自动评测基准 → 偏好优化评测
- Attention — 让模型关注输入中相关部分的机制 → 注意力机制
- AWQ — Activation-aware Weight Quantization,感知激活的权重量化 → 量化
B
- Base Model — 仅经过预训练、未经指令调优的模型 → 基座与指令模型
- BERT — Bidirectional Encoder Representations from Transformers,encoder-only 模型 → 编码器与解码器
- BF16 — Brain Float 16,大模型训练常用精度 → 训练流程
- BPE — Byte-Pair Encoding,字节对编码分词算法 → 分词器
C
- Causal Masking — 因果掩码,防止看到未来 token → Transformer
- Chat Template — 对话格式模板,影响训练和推理一致性 → 分词器
- CLM — Causal Language Modeling,因果语言建模 → 预训练目标
- Continuous Batching — 持续批处理,推理优化技术 → vLLM
- Constitutional AI — Anthropic 提出的安全对齐方法 → 对齐方法总览
- Cross-Attention — 交叉注意力,一个序列关注另一个序列 → 注意力机制
- CPO — Contrastive Preference Optimization → 偏好优化DPO_GRPO
D
- Decoder-Only — 只有解码器的架构(GPT 类)→ 编码器与解码器
- DeepSpeed — 微软的分布式训练框架 → 训练生态工具
- DoRA — Weight-Decomposed Low-Rank Adaptation → PEFT扩展方法
- DPO — Direct Preference Optimization,直接偏好优化 → 偏好优化DPO_GRPO
- Double Quantization — QLoRA 中的二次量化技术 → LoRA与QLoRA
E
F
- FFN — Feed-Forward Network,前馈网络 → 归一化与残差连接
- FlashAttention — IO 感知的高效注意力实现 → 推理加速
- FP16 — 半精度浮点 → 训练流程
- FSDP — Fully Sharded Data Parallel,全分片数据并行 → 训练生态工具
- Full Fine-Tuning — 全参数微调 → LoRA与QLoRA
G
- GPTQ — 基于近似二阶信息的后训练量化 → 量化
- Gradient Accumulation — 梯度累积,模拟大 batch → 训练流程
- Gradient Checkpointing — 梯度检查点,用计算换显存 → 训练流程
- GRPO — Group Relative Policy Optimization → GRPO与推理训练
- GQA — Grouped-Query Attention → 注意力优化前沿
- GSM8K — 小学数学推理评测集 → 离线评测
H
I
K
- KV Cache — Key-Value 缓存,加速自回归推理 → KV Cache
- KTO — Kahneman-Tversky Optimization → 偏好优化DPO_GRPO
L
- Latency — 推理延迟 → 吞吐与延迟
- LayerNorm — Layer Normalization → 归一化与残差连接
- Liger Kernel — 训练 kernel 优化库 → 训练生态工具
- LoRA — Low-Rank Adaptation,低秩适配 → LoRA与QLoRA
M
- Mamba — 状态空间模型,Transformer 替代方案 → 注意力优化前沿
- Mixed Precision — 混合精度训练 → 训练流程
- MLM — Masked Language Modeling → 预训练目标
- MMLU — 大规模多任务语言理解评测 → 离线评测
- MoE — Mixture of Experts,混合专家模型 → 推理优化前沿
- MQA — Multi-Query Attention → 注意力优化前沿
- MT-Bench — 多轮对话评测基准 → 偏好优化评测
- Multi-Head Attention — 多头注意力 → 归一化与残差连接
O
- ORPO — Odds Ratio Preference Optimization → 偏好优化DPO_GRPO
- Outcome Reward — 结果奖励 → 过程奖励与结果奖励
P
- PagedAttention — 分页注意力,vLLM 核心 → vLLM
- PEFT — Parameter-Efficient Fine-Tuning → PEFT总览
- Perplexity — 困惑度,语言模型评测指标 → 困惑度详解
- PPO — Proximal Policy Optimization → PPO训练细节
- Positional Encoding — 位置编码 → 位置编码
- Preference Data — 偏好数据,用于 RLHF/DPO → 奖励模型
- Process Reward — 过程奖励 → 过程奖励与结果奖励
Q
- Q/K/V — Query/Key/Value,注意力机制核心 → 注意力机制
- QLoRA — 量化 + LoRA 的组合方案 → LoRA与QLoRA
- Quantization — 量化,降低模型精度以减少资源 → 量化
R
- Reasoning Model — 推理增强模型(如 o1, DeepSeek-R1)→ 推理模型vs聊天模型
- Red Teaming — 红队测试,安全评测方法 → 安全与稳定性
- Residual Connection — 残差连接 → 归一化与残差连接
- Reward Model — 奖励模型,学习人类偏好 → 奖励模型
- RMSNorm — Root Mean Square Normalization → 归一化与残差连接
- RLHF — Reinforcement Learning from Human Feedback → 人类反馈强化学习RLHF
- RoPE — Rotary Position Embedding,旋转位置编码 → 位置编码
S
- Scaling Law — 缩放定律,参数/数据/算力关系 → 预训练
- Self-Attention — 自注意力,序列关注自身 → 注意力机制
- Seq2Seq — Sequence-to-Sequence → 预训练目标
- SentencePiece — 分词工具库 → 分词器
- SFT — Supervised Fine-Tuning,监督微调 → 监督微调SFT
- Speculative Decoding — 投机解码,推理加速 → 推理加速
T
- Throughput — 吞吐量 → 吞吐与延迟
- Tokenizer — 分词器 → 分词器
- Tool Calling — 工具调用,让模型调用外部函数 → 工具调用
- TRL — Transformer Reinforcement Learning,HuggingFace 训练库 → 训练生态工具
- TTFT — Time To First Token,首 token 延迟 → 吞吐与延迟
U
V
常见缩写对照
| 缩写 | 全称 | 中文 |
|---|---|---|
| CLM | Causal Language Modeling | 因果语言建模 |
| DPO | Direct Preference Optimization | 直接偏好优化 |
| FFN | Feed-Forward Network | 前馈网络 |
| FSDP | Fully Sharded Data Parallel | 全分片数据并行 |
| GQA | Grouped-Query Attention | 分组查询注意力 |
| GRPO | Group Relative Policy Optimization | 组相对策略优化 |
| KTO | Kahneman-Tversky Optimization | 卡尼曼-特沃斯基优化 |
| KV | Key-Value | 键值 |
| LoRA | Low-Rank Adaptation | 低秩适配 |
| MLM | Masked Language Modeling | 掩码语言建模 |
| MoE | Mixture of Experts | 混合专家 |
| MQA | Multi-Query Attention | 多查询注意力 |
| NF4 | NormalFloat 4-bit | 4-bit 正态浮点 |
| ORPO | Odds Ratio Preference Optimization | 优势比偏好优化 |
| PEFT | Parameter-Efficient Fine-Tuning | 参数高效微调 |
| PPO | Proximal Policy Optimization | 近端策略优化 |
| PRM | Process Reward Model | 过程奖励模型 |
| QLoRA | Quantized LoRA | 量化低秩适配 |
| RM | Reward Model | 奖励模型 |
| RMSNorm | Root Mean Square Normalization | 均方根归一化 |
| RLHF | Reinforcement Learning from Human Feedback | 基于人类反馈的强化学习 |
| RoPE | Rotary Position Embedding | 旋转位置编码 |
| SFT | Supervised Fine-Tuning | 监督微调 |
| TTFT | Time To First Token | 首 token 延迟 |
| VLM | Vision-Language Model | 视觉语言模型 |