2026年4月19日

论文索引

> 按主题分类，标注重要程度和对应笔记。

知识库大模型总览llmmodelpapers

论文索引

按主题分类，标注重要程度和对应笔记。

基础架构

论文	年份	重要程度	对应笔记
Attention Is All You Need (Vaswani et al.)	2017	必读	Transformer
BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al.)	2018	必读	编码器与解码器
Language Models are Unsupervised Multitask Learners (GPT-2, Radford et al.)	2019	必读	编码器与解码器
Language Models are Few-Shot Learners (GPT-3, Brown et al.)	2020	必读	预训练
Generating Sequences with Recurrent Neural Networks (Graves)	2013	了解	Transformer

预训练与缩放

论文	年份	重要程度	对应笔记
Scaling Laws for Neural Language Models (Kaplan et al.)	2020	必读	预训练
Training Compute-Optimal Large Language Models (Chinchilla, Hoffmann et al.)	2022	必读	预训练
LLaMA: Open and Efficient Foundation Language Models (Touvron et al.)	2023	必读	基座与指令模型
GPT-4 Technical Report (OpenAI)	2023	必读	基座与指令模型
Qwen Technical Report (Bai et al.)	2023	重点读	基座与指令模型
Mistral 7B (Jiang et al.)	2023	重点读	注意力优化前沿
Gemma: Open Models Based on Gemini (Gemma Team)	2024	了解	基座与指令模型

分词

论文	年份	重要程度	对应笔记
Neural Machine Translation of Rare Words with Subword Units (BPE, Sennrich et al.)	2015	必读	分词器
SentencePiece: A simple and language independent subword tokenizer (Kudo et al.)	2018	必读	分词器
Subword Regularization (Unigram, Kudo)	2018	重点读	分词器

后训练与对齐

论文	年份	重要程度	对应笔记
Training language models to follow instructions with human feedback (InstructGPT, Ouyang et al.)	2022	必读	人类反馈强化学习RLHF
Direct Preference Optimization (DPO, Rafailov et al.)	2023	必读	偏好优化DPO_GRPO
ORPO: Monolithic Preference Optimization without Reference Model	2024	重点读	偏好优化DPO_GRPO
KTO: Model Alignment as Prospect Theoretic Optimization	2024	重点读	偏好优化DPO_GRPO
Constitutional AI (Bai et al.)	2022	重点读	对齐方法总览
Let's Verify Step by Step (PRM, Lightman et al.)	2023	必读	过程奖励与结果奖励
DeepSeek-R1	2025	必读	GRPO与推理训练

GRPO → GRPO与推理训练
Mistral (Sliding Window Attention) → 注意力优化前沿
Mixtral (MoE) → 推理优化前沿

PEFT 与微调

论文	年份	重要程度	对应笔记
LoRA: Low-Rank Adaptation of Large Language Models (Hu et al.)	2021	必读	LoRA与QLoRA
QLoRA: Efficient Finetuning of Quantized LLMs (Dettmers et al.)	2023	必读	LoRA与QLoRA
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning	2023	重点读	PEFT扩展方法

DoRA → PEFT扩展方法
IA³ → PEFT扩展方法
PiSSA → PEFT扩展方法
LoRA+ → PEFT扩展方法

推理优化

论文	年份	重要程度	对应笔记
FlashAttention (Dao et al.)	2022	必读	推理加速
FlashAttention-2 (Dao)	2023	必读	推理加速
Efficient Memory Management for Large Language Model Serving with PagedAttention (vLLM, Kwon et al.)	2023	必读	vLLM
GPTQ: Accurate Post-Training Quantization	2022	必读	量化
AWQ: Activation-aware Weight Quantization	2023	重点读	量化

Speculative Decoding → 推理加速
Medusa → 推理加速

分布式训练

论文	年份	重要程度	对应笔记
ZeRO: Memory Optimizations Toward Training Trillion Parameter Models (DeepSpeed, Rajbhandari et al.)	2020	必读	训练生态工具
PyTorch FSDP	2023	重点读	训练生态工具

研究前沿

论文	年份	重要程度	对应笔记
Mamba: Linear-Time Sequence Modeling	2023	重点读	注意力优化前沿

GQA / MQA → 注意力优化前沿
Self-Reward Language Models → 后训练新趋势
Iterative DPO → 后训练新趋势

评测

论文	年份	重要程度	对应笔记
Holistic Evaluation of Language Models (HELM)	2022	重点读	离线评测

AlpacaEval → 偏好优化评测
Red Teaming → 安全与稳定性