2026年4月19日

术语表

> 按拼音/字母排序,每个术语附简要定义和 wikilink。

知识库大模型总览llmmodelglossary

模型知识术语表

按拼音/字母排序,每个术语附简要定义和 wikilink。

A

  • Accelerate — HuggingFace 的分布式训练抽象层 → 训练生态工具
  • Adapter — 插入模型中的可训练模块,如 LoRA → PEFT总览
  • AdaLoRA — 自适应 rank 分配的 LoRA 变体 → PEFT扩展方法
  • ALiBi — 基于线性偏置的位置编码方法 → 位置编码
  • AlpacaEval — 基于 LLM 的自动评测基准 → 偏好优化评测
  • Attention — 让模型关注输入中相关部分的机制 → 注意力机制
  • AWQ — Activation-aware Weight Quantization,感知激活的权重量化 → 量化

B

  • Base Model — 仅经过预训练、未经指令调优的模型 → 基座与指令模型
  • BERT — Bidirectional Encoder Representations from Transformers,encoder-only 模型 → 编码器与解码器
  • BF16 — Brain Float 16,大模型训练常用精度 → 训练流程
  • BPE — Byte-Pair Encoding,字节对编码分词算法 → 分词器

C

  • Causal Masking — 因果掩码,防止看到未来 token → Transformer
  • Chat Template — 对话格式模板,影响训练和推理一致性 → 分词器
  • CLM — Causal Language Modeling,因果语言建模 → 预训练目标
  • Continuous Batching — 持续批处理,推理优化技术 → vLLM
  • Constitutional AI — Anthropic 提出的安全对齐方法 → 对齐方法总览
  • Cross-Attention — 交叉注意力,一个序列关注另一个序列 → 注意力机制
  • CPO — Contrastive Preference Optimization → 偏好优化DPO_GRPO

D

E

F

G

H

I

K

L

M

O

P

Q

  • Q/K/V — Query/Key/Value,注意力机制核心 → 注意力机制
  • QLoRA — 量化 + LoRA 的组合方案 → LoRA与QLoRA
  • Quantization — 量化,降低模型精度以减少资源 → 量化

R

S

  • Scaling Law — 缩放定律,参数/数据/算力关系 → 预训练
  • Self-Attention — 自注意力,序列关注自身 → 注意力机制
  • Seq2Seq — Sequence-to-Sequence → 预训练目标
  • SentencePiece — 分词工具库 → 分词器
  • SFT — Supervised Fine-Tuning,监督微调 → 监督微调SFT
  • Speculative Decoding — 投机解码,推理加速 → 推理加速

T

U

V

  • vLLM — 高性能 LLM 推理引擎 → vLLM
  • VLM — Vision-Language Model,视觉语言模型 → VLM基础

常见缩写对照

缩写 全称 中文
CLM Causal Language Modeling 因果语言建模
DPO Direct Preference Optimization 直接偏好优化
FFN Feed-Forward Network 前馈网络
FSDP Fully Sharded Data Parallel 全分片数据并行
GQA Grouped-Query Attention 分组查询注意力
GRPO Group Relative Policy Optimization 组相对策略优化
KTO Kahneman-Tversky Optimization 卡尼曼-特沃斯基优化
KV Key-Value 键值
LoRA Low-Rank Adaptation 低秩适配
MLM Masked Language Modeling 掩码语言建模
MoE Mixture of Experts 混合专家
MQA Multi-Query Attention 多查询注意力
NF4 NormalFloat 4-bit 4-bit 正态浮点
ORPO Odds Ratio Preference Optimization 优势比偏好优化
PEFT Parameter-Efficient Fine-Tuning 参数高效微调
PPO Proximal Policy Optimization 近端策略优化
PRM Process Reward Model 过程奖励模型
QLoRA Quantized LoRA 量化低秩适配
RM Reward Model 奖励模型
RMSNorm Root Mean Square Normalization 均方根归一化
RLHF Reinforcement Learning from Human Feedback 基于人类反馈的强化学习
RoPE Rotary Position Embedding 旋转位置编码
SFT Supervised Fine-Tuning 监督微调
TTFT Time To First Token 首 token 延迟
VLM Vision-Language Model 视觉语言模型