论文索引
按主题分类,标注重要程度和对应笔记。
基础架构
| 论文 | 年份 | 重要程度 | 对应笔记 |
|---|---|---|---|
| Attention Is All You Need (Vaswani et al.) | 2017 | 必读 | Transformer |
| BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al.) | 2018 | 必读 | 编码器与解码器 |
| Language Models are Unsupervised Multitask Learners (GPT-2, Radford et al.) | 2019 | 必读 | 编码器与解码器 |
| Language Models are Few-Shot Learners (GPT-3, Brown et al.) | 2020 | 必读 | 预训练 |
| ** Generating Sequences with Recurrent Neural Networks** (Graves) | 2013 | 了解 | Transformer |
预训练与缩放
| 论文 | 年份 | 重要程度 | 对应笔记 |
|---|---|---|---|
| Scaling Laws for Neural Language Models (Kaplan et al.) | 2020 | 必读 | 预训练 |
| Training Compute-Optimal Large Language Models (Chinchilla, Hoffmann et al.) | 2022 | 必读 | 预训练 |
| LLaMA: Open and Efficient Foundation Language Models (Touvron et al.) | 2023 | 必读 | 基座与指令模型 |
| GPT-4 Technical Report (OpenAI) | 2023 | 必读 | 基座与指令模型 |
| Qwen Technical Report (Bai et al.) | 2023 | 重点读 | 基座与指令模型 |
| Mistral 7B (Jiang et al.) | 2023 | 重点读 | 注意力优化前沿 |
| Gemma: Open Models Based on Gemini (Gemma Team) | 2024 | 了解 | 基座与指令模型 |
分词
| 论文 | 年份 | 重要程度 | 对应笔记 |
|---|---|---|---|
| Neural Machine Translation of Rare Words with Subword Units (BPE, Sennrich et al.) | 2015 | 必读 | 分词器 |
| SentencePiece: A simple and language independent subword tokenizer (Kudo et al.) | 2018 | 必读 | 分词器 |
| Subword Regularization (Unigram, Kudo) | 2018 | 重点读 | 分词器 |
后训练与对齐
| 论文 | 年份 | 重要程度 | 对应笔记 |
|---|---|---|---|
| Training language models to follow instructions with human feedback (InstructGPT, Ouyang et al.) | 2022 | 必读 | 人类反馈强化学习RLHF |
| Direct Preference Optimization (DPO, Rafailov et al.) | 2023 | 必读 | 偏好优化DPO_GRPO |
| ORPO: Monolithic Preference Optimization without Reference Model | 2024 | 重点读 | 偏好优化DPO_GRPO |
| KTO: Model Alignment as Prospect Theoretic Optimization | 2024 | 重点读 | 偏好优化DPO_GRPO |
| Constitutional AI (Bai et al.) | 2022 | 重点读 | 对齐方法总览 |
| Let's Verify Step by Step (PRM, Lightman et al.) | 2023 | 必读 | 过程奖励与结果奖励 |
| DeepSeek-R1 | 2025 | 必读 | GRPO与推理训练 |
PEFT 与微调
| 论文 | 年份 | 重要程度 | 对应笔记 |
|---|---|---|---|
| LoRA: Low-Rank Adaptation of Large Language Models (Hu et al.) | 2021 | 必读 | LoRA与QLoRA |
| QLoRA: Efficient Finetuning of Quantized LLMs (Dettmers et al.) | 2023 | 必读 | LoRA与QLoRA |
| AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning | 2023 | 重点读 | PEFT扩展方法 |
推理优化
| 论文 | 年份 | 重要程度 | 对应笔记 |
|---|---|---|---|
| FlashAttention (Dao et al.) | 2022 | 必读 | 推理加速 |
| FlashAttention-2 (Dao) | 2023 | 必读 | 推理加速 |
| Efficient Memory Management for Large Language Model Serving with PagedAttention (vLLM, Kwon et al.) | 2023 | 必读 | vLLM |
| GPTQ: Accurate Post-Training Quantization | 2022 | 必读 | 量化 |
| AWQ: Activation-aware Weight Quantization | 2023 | 重点读 | 量化 |
分布式训练
| 论文 | 年份 | 重要程度 | 对应笔记 |
|---|---|---|---|
| ZeRO: Memory Optimizations Toward Training Trillion Parameter Models (DeepSpeed, Rajbhandari et al.) | 2020 | 必读 | 训练生态工具 |
| PyTorch FSDP | 2023 | 重点读 | 训练生态工具 |
研究前沿
| 论文 | 年份 | 重要程度 | 对应笔记 |
|---|---|---|---|
| Mamba: Linear-Time Sequence Modeling | 2023 | 重点读 | 注意力优化前沿 |
评测
| 论文 | 年份 | 重要程度 | 对应笔记 |
|---|---|---|---|
| Holistic Evaluation of Language Models (HELM) | 2022 | 重点读 | 离线评测 |