大模型总索引
上级索引:知识体系总索引 研究入口:研究总索引
这一组内容按“基础原理 -> 训练与对齐 -> 推理与系统 -> 提示词与上下文 -> 检索增强 -> 智能体 -> 评测 -> 安全 -> 应用 -> 案例复盘”的顺序整理,适合直接当成一个连续专题来看。
推荐阅读顺序
分类导航
总览
用于放整套知识库的入口、学习顺序和术语导航。
基础原理
用于放模型为什么能工作这一层的内容。
训练与对齐
- 预训练
- 预训练目标
- 数据工程
- 基座与指令模型
- 监督微调SFT
- 指令微调
- 人类反馈强化学习RLHF
- PPO训练细节
- 偏好优化DPO_GRPO
- GRPO与推理训练
- 奖励模型
- 过程奖励与结果奖励
- 对齐方法总览
- 后训练新趋势
- LoRA与QLoRA
- PEFT总览
- PEFT扩展方法
- Adapter管理
- 蒸馏
- 小模型与蒸馏
- 训练流程
- 训练生态工具
- 训练失败排障
- 推理RL训练
用于放模型如何被训练、微调和对齐出来。
推理与系统
用于放模型如何高效运行、部署和优化。
提示词与上下文
用于放提示词设计、上下文组织和输出控制。
检索增强
用于放知识库、检索、GraphRAG、多模态检索与相关问题。
智能体与工具调用
用于放智能体、工具调用、多智能体和编排机制。
评测
用于放评测方法、指标体系和回归机制。
安全与护栏
用于放安全、护栏、防注入和权限控制。
应用场景
用于放通用业务场景与方案沉淀。
案例复盘
- 案例复盘总览
- Solvely-AIO
- Study-Guide
- Flashcards与Quiz
- 智能体提示词自动调优
- HiveMote
- TraitTutor
- SFT_RLHF_LoRA怎么讲
- Transformer高频题
- 微调方案选型题
- 训练资源估算题
- 部署与推理优化题
- 项目深挖题
用于放具体项目、架构决策、复盘和经验总结。
放置规则
- 模型原理,放
基础原理/ - 训练、微调、对齐,放
训练与对齐/ - 推理优化、部署、系统工程,放
推理与系统/ - 提示词、结构化输出、上下文控制,放
提示词与上下文/ - 检索增强、知识库、多模态检索,放
检索增强/ - 智能体、工具调用、多智能体,放
智能体与工具调用/ - 评测、指标、回归测试,放
评测/ - 安全、护栏、权限与防护,放
安全与护栏/ - 场景方案,放
应用场景/ - 项目沉淀和复盘,放
案例复盘/
说明
这套结构按"原理 → 训练 → 推理 → 输入控制 → 外部知识 → 工具执行 → 评测 → 安全 → 场景 → 案例"展开。
新增内容时,先判断它属于哪一层,再决定放哪里。