量化方法对比:INT8 / INT4 / GPTQ / AWQ
将模型权重(通常 FP16/BF16)映射到更低比特的表示(INT8、INT4 等),以减少模型大小和推理显存需求。
Blog
技术思考与项目记录
将模型权重(通常 FP16/BF16)映射到更低比特的表示(INT8、INT4 等),以减少模型大小和推理显存需求。
KV Cache 大小与序列长度**线性增长**:
从请求发出到模型生成第一个 Token 的时间。
数据准备 → 分布式训练 → 模型导出 → 量化/压缩 → 推理部署
当输入文本超出或接近模型的上下文窗口时,面临三个核心挑战:
对话状态是指维护在多轮交互中的关键信息,确保模型能够在上下文中保持一致性和连贯性。
vLLM 是一个高性能 LLM 推理与服务引擎,由 UC Berkeley 团队开发。其核心创新是 **PagedAttention**,借鉴操作系统虚拟内存分页机制管理 KV Cache。
消息结构:
上下文窗口是模型单次能处理的最大 Token 数量,直接影响模型的信息处理能力:
标准自注意力计算:
在生产环境中,大模型的输出需要被下游系统解析和处理:
1. **清晰明确**:任务描述不含歧义,目标明确
LLM 推理采用**自回归生成**:每次生成一个 Token,每个新 Token 都需要对之前所有 Token 做 Attention 计算。
思维链是一种提示技术,通过引导大模型逐步推理,将复杂问题分解为中间步骤,从而显著提升模型在推理任务上的表现。
这个页面更适合写成“方法案例”而非“某个唯一命名项目复盘”。原因是:
本页用于说明本目录各案例的证据状态,避免把占位标题直接写成“看起来完整”的项目复盘。
`Flashcards与Quiz` 更像学习产品中的功能模块总结,而不是目前能独立证实的单个项目。
基于现有公开信息,HiveMote 至少可以被描述为:
`Solvely-AIO` 很可能意图指向一个“围绕 Solvely 这类学习辅助产品的 All-in-One 方案”或“学习工作流集合页”,但从当前证据看,名称中的 `AIO` 没有足够公开来源支撑,不应擅自解释为某个确定的内部版本或架构...
`Study-Guide` 更像这个“多模态学习系统”中的功能页或能力模块,而不是已经能独立验证的单独项目名。
TraitTutor 更像一个“研究型教育 Agent 项目”,不是已经公开上线的消费级产品。它的核心目标是:将人格特质、情绪状态与检索增强结合,生成更适配学习者的教案或 lesson plan。
**OpenAI o1(2024.9)**
LLM 系统中任何环节的变更都可能导致能力退化:
一个完整的 Agent 模型需要具备以下核心能力:
1. 小型**草稿模型**快速生成 K 个候选 token
面试中遇到部署/推理优化系统设计题,使用以下框架:
面试中遇到微调方案选型题,使用以下四步法:
**训练 FLOPs = 6 x N x D**
**回答模板:**
| 方法 | 年份 | 核心思想 |
困惑度是衡量语言模型对 held-out 语料预测能力的标准指标:
| 基准 | 评测内容 | 方法 |
预训练 -> SFT -> RLHF (PPO)
请解释 Self-Attention 的计算过程,为什么要除以 sqrt(d_k)?
代表:GPT-4o, Claude 3.5 Sonnet, DeepSeek-V3, LLaMA 3.3
训练失败
大语言模型的训练是一条多阶段 Pipeline,从原始数据到可部署模型,历经数据工程、预训练、后训练对齐、评估与部署五个核心阶段。
┌─────────────────────────────────────────────────────────────────┐
markdown
markdown
markdown
markdown
这一组笔记覆盖深度学习的核心知识,从 CNN 到 Transformer,从优化器到正则化,偏工程实践视角。
这一组笔记覆盖机器学习的核心知识,从经典算法到现代 LLM 相关技术,偏工程落地视角。
CNN 架构的演进史是一部"如何让网络更深更宽"的工程史,同时也是一部"如何解决梯度消失"的工程史:
GBDT(梯度提升决策树)是表格数据上最强的机器学习模型家族,XGBoost / LightGBM / CatBoost 是这个家族的三个主流实现。
模型压缩是解决"大模型在有限资源下部署"的标准方法。三个方向解决的问题不同:
序列建模是处理"有顺序关系的数据"(文本、语音、时间序列、视频帧)的核心能力。演进路径是:
优化器的选择和学习率调度是训练深度网络最关键的两个工程决策:
Transformer、Diffusion、MoE 是当前 AI 系统的三大核心架构:
正则化解决的是"训练误差低、测试误差高"的过拟合问题。深度学习的正则化和传统 ML 相比有两个特点:一是网络参数多到几乎必然过拟合,二是 BatchNorm 等技术同时有正则化效果。
大模型的 Fine-tuning 不是"训一次",而是一套从预训练到对齐的完整流程:
这组技术解决的是**怎么让训练更稳定、泛化更好**的问题——它们不是模型结构的改变,而是训练过程中的工程技巧:
MLOps 解决的是"模型训出来后,怎么管、怎么部署、怎么监控"的问题。没有 MLOps,模型会变成"实验时能用,上线就出问题"的尴尬状态。核心三件事:**实验可追踪(Experiment Tracking)**、**特征可复用(Featu...
评估指标选错了,模型就选错了。不同任务(分类 / 排序 / 回归 / 生成)有不同的指标体系,同一个 Accuracy 在类别不平衡时完全不可信。AUC-ROC 看的是排序能力而不是准确率,LogLoss 衡量的是概率校准质量,MRR 是推...
| 维度 | 预训练 | SFT | RLHF (PPO) | DPO | GRPO |
| 框架 | 负责层 | 必须掌握 | 对应笔记 |
> 按拼音/字母排序,每个术语附简要定义和 wikilink。
> 按主题分类,标注重要程度和对应笔记。
> 这套知识库覆盖从 Transformer 基础到最新研究前沿的完整模型知识体系,面向工程师和算法面试。
从 Prompt Engineering 走向 System Engineering:用 21 种可组合的设计模式,构建可规划、可反思、可协作、可治理的 Agentic AI 系统。
从生成能力走向行动能力:基于 P-E-R 模型的人格感知教育 Agent 设计与验证。
评测指标体系涵盖**语言建模指标**(PPL)、**分类指标**(Accuracy/Precision/Recall/F1)、**检索指标**(MRR/nDCG)、**代码生成指标**(pass@k)和**对话质量指标**(LLM 打分),...
AI 智能体是指以 LLM 为核心决策引擎,能够**感知环境、规划任务、调用工具、根据反馈自主调整**的自主系统,实现了从"只能说话"到"能做事"的关键跃迁。
安全与偏见评测旨在检测大模型是否存在有害输出(毒性内容、偏见歧视)、是否可被恶意利用(越狱攻击),以及是否在安全与有用性之间取得合理平衡,主要通过毒性检测基准、公平性测试和红队测试(Red Teaming)三大手段实现。
小模型与蒸馏是指通过知识蒸馏、剪枝、量化等模型压缩技术,将大模型的能力转移到参数量更小的模型中,在保持相当性能的同时大幅降低部署成本和推理延迟,使 AI 能力在端侧和资源受限环境中落地。
推理任务的强化学习训练是指通过奖励信号(如数学题的对错、代码是否通过测试)优化大语言模型的推理策略,使其学会生成更高质量的多步推理过程,核心方法包括 PPO、GRPO 和 Process Reward Model(PRM)。
风险处置是指当模型出现安全、合规或业务风险事件时,对异常进行识别、分级、遏制、恢复、通报和复盘的全过程。
大模型在教育场景中的核心价值,不是直接替学生答题,而是作为可交互的学习支架,支持个性化讲解、练习生成、学习路径规划与形成性评估。
用 LangGraph 管编排、用 openclaw 管权限与审计,构建企业级可恢复、可追溯 Agent 系统。
奖励模型(RM)是将 (prompt, response) 映射为标量偏好分数的模型,偏好数据是人类对多个回复的排序信号。
检索模式决定了 RAG 系统如何从知识库中找到与查询相关的文档片段,是影响 RAG 端到端质量的关键环节,主要包含**稀疏检索**、**稠密检索**、**混合检索**和**递归检索**四大类。
护栏是部署在模型调用链路中的约束与校验层,用来限制输入、上下文、工具调用和输出,降低不安全、不合规和不可靠行为的概率。
技能是把一段可复用的任务能力封装成“触发条件 + 操作说明 + 所需上下文 / 工具”的模块,让 Agent 能在合适时机按需加载能力包,而不是每次从零规划。
通过 AutoFeedbackLoop、结构化扰动和状态机约束,让多 Agent 在复杂任务中持续纠错。
RAG 系统在实践中面临**检索质量**、**生成质量**和**系统工程**三大类共七大痛点,每个痛点都有对应的诊断方法和解决方案。
Transformer 是一种完全基于注意力机制的序列到序列模型架构,通过自注意力、前馈网络、残差连接和层归一化的堆叠组合,实现了高效并行训练和强大的长距离依赖建模能力。
指令调优让模型学会「听从指令执行任务」,对话调优进一步让模型能在多轮对话中持续交互。
Transformer 中的 FFN(Position-wise Feed-Forward Network)是一个逐位置应用的两层全连接网络,负责在自注意力层的"横向"信息交互之后进行"纵向"的非线性特征变换;激活函数的选择(从 ReLU ...
DPO、ORPO、KTO、CPO、GRPO 这类偏好优化方法,试图在不走完整 PPO-RLHF 复杂流程的前提下,直接用偏好数据或相对比较信号优化模型行为,是当前后训练里最重要的一类工业方法。
Attention 是一种让模型在处理序列时,能够动态地"聚焦"于输入中最相关部分的机制;Self-Attention 是 Attention 的特例,其中 Query、Key、Value 全部来自同一个序列,使序列中的每个位置都能与所有其...
SFT(Supervised Fine-Tuning)是用少量高质量「指令-回复」对在预训练模型上进行监督微调,将其从文本续写器改造为指令遵循助手的过程。
GRPO 用组内相对奖励替代价值函数,是 DeepSeek-R1 等推理模型的核心训练方法。
Tokenizer 是将原始文本转换为模型可处理整数序列的桥梁,其设计直接决定模型的词汇覆盖度、多语言能力和推理效率。
RAG 评测是对检索增强生成系统的**检索质量**和**生成质量**进行量化评估,核心目标是回答"检索到的内容是否相关"和"生成的回答是否忠实于检索内容且切题"。
大模型在办公场景中的核心价值,是把邮件、会议、文档、表格与流程自动串起来,降低信息整理和重复表达成本。
Transformer 架构可以从完整的 Encoder-Decoder 中拆分出三种变体:仅编码器(如 BERT)擅长理解任务,仅解码器(如 GPT)擅长生成任务,编码器-解码器(如 T5)兼顾两者但参数效率较低。
Tool Use 是指 LLM 根据用户请求,生成结构化的工具调用指令(如 JSON 格式的函数名和参数),从而与外部系统交互以完成语言模型自身无法独立完成的任务。
安全与偏见评测旨在检测大模型是否存在有害输出(毒性内容、偏见歧视)、是否可被恶意利用(越狱攻击),以及是否在安全与有用性之间取得合理平衡,主要通过毒性检测基准、公平性测试和红队测试(Red Teaming)三大手段实现。
从长文档生成到多轮对话优化,用规划-执行-反馈闭环把 Agent 从 Demo 变成生产力。
位置编码是为 Transformer 输入注入序列顺序信息的方法,因为自注意力机制本身是排列不变的(对输入的任何排列产生相同的输出),必须通过额外的位置信号告诉模型每个 token 的位置。
多模态场景是指大模型能够联合理解和生成文本、图像、音频、视频与文档版面等多种信号,用于更接近真实世界输入输出的交互与自动化。
基础 RAG(Naive RAG)是最简单的检索增强生成管线,由**索引构建**和**查询生成**两个阶段组成,是所有高级 RAG 方案的基线和起点。
残差连接通过让梯度直接跳过子层的"捷径"实现深层网络的可训练性,归一化通过稳定每一层的激活值分布保证训练过程的数值稳定性——两者共同构成了使深层 Transformer 可训练的基础设施。
基于 SUMO 仿真的交通信号控制研究,比较 Q-Learning 与 DQN 在复杂路况下的控制表现,并沉淀可复现实验流程。
1. 将每个样本分配给最近的中心点。
其中 \( g(z) = \frac{1}{1 + e^{-z}} \) 是 sigmoid 函数。
代码生成与执行能力是指 LLM 理解自然语言需求、生成可运行的程序代码、并通过沙箱环境执行验证的能力,是 AI 从"语言助手"迈向"工程助手"的核心能力。
单智能体是一个核心 Agent 统一负责规划、工具调用和结果整合;多智能体则把任务拆给多个角色化 Agent,通过 supervisor、handoff 或 group chat 完成协作。
结果奖励只评估最终答案是否正确,过程奖励则逐步评估推理链中每一步的质量;两者的核心差异在于奖励信号的粒度和信用分配能力。
RLHF 是通过收集人类偏好数据、训练奖励模型、再用强化学习优化语言模型的三个阶段流程,使模型输出更符合人类期望。
在心理健康场景里,微调目标不是更会聊天,而是更可控、更可靠、更有边界。
大模型在研究场景中,更像研究助理而不是研究员替代,擅长资料搜集、证据整理、结构化归纳和初稿生成,但结论仍需人类审阅。
Transformer 注意力优化的核心目标是降低 $O(n^2)$ 的计算和内存复杂度,同时保持模型质量,主要从推理效率(KV Cache 压缩)和训练效率(硬件感知计算)两个维度展开。
面试中讲解技术方案时,使用 **"是什么 -> 为什么 -> 怎么做 -> 效果 -> 权衡"** 五步法。
权限控制是指对模型、代理、工具和用户之间的可访问资源、可执行操作、数据范围和审批流程进行约束,核心原则是最小权限、显式授权和可审计。
大模型安全涵盖**幻觉防御、对齐安全(HHH)、对抗攻击防御、隐私保护和输出可控性**,确保模型在落地中不会产生有害、错误或不可预测的内容。
在企业场景中,先把训练与评估流程标准化,再谈模型升级,才能让 LLM 落地真正可持续。
在线评测是在生产环境中通过**真实用户交互数据**评估模型的延迟、吞吐、成本和用户满意度,是验证模型实际部署效果的金标准。
提示注入是指攻击者通过用户输入、外部文档、网页、工具结果或历史上下文向模型植入与开发者目标冲突的指令,诱导模型泄露信息、绕过策略或执行未授权行为。
GraphRAG 是一种基于知识图谱的检索增强策略,通过从文档中抽取实体和关系构建知识图谱,利用图结构进行社区检测和层次化摘要,从而解决传统 RAG 在**全局性问答**和**多跳推理**上的固有缺陷。
Function Calling 是让 LLM 根据用户输入和可用工具定义,生成结构化的工具调用请求(通常是 JSON 格式),从而与外部 API、数据库、代码执行器等交互,是 Agent 能力的基础。
链路追踪是对一次用户请求在模型系统中的完整执行路径进行关联记录,覆盖入口请求、提示构造、检索、工具调用、模型生成、评测、缓存命中和最终响应。
> 上级索引:[[知识体系总索引|知识体系总索引]]
幻觉(Hallucination)指大模型生成看似合理但事实错误或与给定上下文矛盾的内容,幻觉检测与缓解的核心任务是识别并降低这种现象,特别在 RAG(检索增强生成)场景中通过忠实度(Faithfulness)指标衡量生成内容是否忠实于检索...
预训练数据工程是将原始互联网文本转化为高质量训练语料的全流程,包括数据源选择、配比设计、清洗去重和质量过滤,直接决定模型能力的上限。
MoE(Mixture of Experts)是一种通过条件计算(conditional computation)让每个输入 token 仅激活模型中一小部分参数的架构,从而在保持总参数量巨大的同时显著降低推理和训练的计算开销。
MCP 是一个开放协议,用统一的客户端-服务端接口把模型运行时与外部工具、资源和提示模板连接起来,解决 Agent 生态里重复接入、重复适配的问题。
离线评测是在标准化 benchmark 数据集上,通过自动化指标(准确率、pass@k、LLM 打分等)量化评估模型能力,是模型选型和迭代过程中成本最低、效率最高的评测方式。
幻觉(Hallucination)是指大语言模型生成**看似合理但事实错误、与输入矛盾或无法被验证**的内容,是大模型落地最大的阻碍之一。
大模型在搜索场景中的作用,是把“检索文档”升级为“理解意图、检索证据、组织答案并保留可跳转来源”的组合式系统。
检索增强生成(Retrieval-Augmented Generation, RAG)是指在 LLM 生成回答之前,先从外部知识库中检索相关文档片段,将其作为上下文注入提示词,从而提升回答的准确性、时效性和可追溯性。
Agent 框架的核心作用,是提供工具集成、状态管理、工作流编排、多智能体协作和可观测性能力,帮助开发者把“会聊天的模型”变成“能执行任务的系统”。
对齐方法总览讨论的是:如何让预训练模型从“会续写文本”变成“更符合人类偏好、任务目标和安全边界的助手”,以及不同对齐范式之间的目标、成本和取舍。
大模型在编码场景中的价值,已经从代码补全扩展到理解需求、生成实现、发现问题、修复缺陷、生成测试和协助 code review 的全链路开发协同。
重排序(Reranking)是对初步检索结果进行精排以提升相关性,查询路由(Query Routing)是根据查询特征动态选择最佳检索策略,二者共同提升 RAG 系统的检索质量和系统灵活性。
合成数据是指由 AI 模型(通常是更强的"教师"模型)生成的、用于训练其他模型的数据;数据蒸馏则是指通过合成数据将大模型的知识转移到小模型中的系统化流程,已成为 2024-2025 年 LLM 训练的核心范式之一。
Test-Time Compute(测试时计算)是指在推理阶段投入更多计算资源(生成更长的思维链、进行多次采样和验证),以换取模型在复杂推理任务上更优表现的技术范式,OpenAI o1/o3 和 DeepSeek-R1 是其代表性模型。
基座模型通过预测下一个 token 学会了语言的统计规律,指令模型在此基础上经过 SFT 和偏好对齐(RLHF/DPO)学会按人类期望的方式使用这些知识。
PPO 式 RLHF 使用四个模型(策略、参考、奖励、价值函数)联合训练,通过裁剪策略更新比例防止训练不稳定。
多模态检索增强是指在 RAG 系统中,不只检索纯文本片段,而是同时处理图像、表格、文档版面、音视频帧和跨模态表示,让模型能够基于更完整的证据回答问题。
预训练目标定义了模型从无标注数据中学习什么:CLM 预测下一个 token,MLM 预测被遮盖的 token,Seq2Seq 从噪声输入重建原始序列——不同的目标塑造模型完全不同的能力。
大模型评测是对 LLM 在**知识能力、推理能力、指令遵循、安全性、稳定性**等多个维度上进行量化评估,是模型选型、能力迭代和上线决策的核心依据。
视觉语言模型(Vision-Language Model, VLM)是一类能够同时理解图像和文本输入、并生成文本输出的深度学习模型,其核心在于将视觉信息与语言信息映射到共享的语义空间中。
缩放定律揭示了 LLM 性能与模型参数量、训练数据量和计算预算之间的幂律关系,指导我们在有限算力下如何最优分配资源。
工作流编排是把 LLM 推理、工具调用、状态流转、条件分支、并发执行和人工审批组织成可重复执行的流程,用确定性骨架约束不确定性模型。
人类评估(Human Evaluation)是通过真实用户的偏好判断来评估大模型质量的方法,以 Chatbot Arena 为代表平台,采用 A/B 盲测和 Elo 等级分系统进行大规模人类偏好排名,是目前公认最能反映模型实际使用体验的评估...