Blog

博客

技术思考与项目记录

2026年4月19日

量化方法对比:INT8 / INT4 / GPTQ / AWQ

将模型权重(通常 FP16/BF16)映射到更低比特的表示(INT8、INT4 等),以减少模型大小和推理显存需求。

知识库大模型推理与系统
2026年4月19日

系统优化

KV Cache 大小与序列长度**线性增长**:

知识库大模型推理与系统inferenceoptimizationmemory
2026年4月19日

部署架构

数据准备 → 分布式训练 → 模型导出 → 量化/压缩 → 推理部署

知识库大模型推理与系统inferencedeploymentdistributed-training
2026年4月19日

长上下文处理

当输入文本超出或接近模型的上下文窗口时,面临三个核心挑战:

知识库大模型提示词与上下文promptinglong-context
2026年4月19日

状态控制

对话状态是指维护在多轮交互中的关键信息,确保模型能够在上下文中保持一致性和连贯性。

知识库大模型提示词与上下文promptingstate
2026年4月19日

vLLM 核心:PagedAttention 与 Continuous Batching

vLLM 是一个高性能 LLM 推理与服务引擎,由 UC Berkeley 团队开发。其核心创新是 **PagedAttention**,借鉴操作系统虚拟内存分页机制管理 KV Cache。

知识库大模型推理与系统
2026年4月19日

系统提示词

消息结构:

知识库大模型提示词与上下文promptingsystem-prompt
2026年4月19日

上下文工程

上下文窗口是模型单次能处理的最大 Token 数量,直接影响模型的信息处理能力:

知识库大模型提示词与上下文promptingcontext
2026年4月19日

结构化输出

在生产环境中,大模型的输出需要被下游系统解析和处理:

知识库大模型提示词与上下文promptingstructured-outputjson
2026年4月19日

提示词基础

1. **清晰明确**:任务描述不含歧义,目标明确

知识库大模型提示词与上下文promptingllm
2026年4月19日

KV Cache 基础:原理与显存计算

LLM 推理采用**自回归生成**:每次生成一个 Token,每个新 Token 都需要对之前所有 Token 做 Attention 计算。

知识库大模型推理与系统
2026年4月19日

思维链与推理策略

思维链是一种提示技术,通过引导大模型逐步推理,将复杂问题分解为中间步骤,从而显著提升模型在推理任务上的表现。

知识库大模型提示词与上下文promptingcotreasoningchain-of-thought
2026年4月19日

智能体提示词自动调优

这个页面更适合写成“方法案例”而非“某个唯一命名项目复盘”。原因是:

知识库大模型案例复盘case-study
2026年4月19日

案例复盘总览

本页用于说明本目录各案例的证据状态,避免把占位标题直接写成“看起来完整”的项目复盘。

知识库大模型案例复盘case-studyreview
2026年4月19日

Flashcards与Quiz

`Flashcards与Quiz` 更像学习产品中的功能模块总结,而不是目前能独立证实的单个项目。

知识库大模型案例复盘case-study
2026年4月19日

HiveMote

基于现有公开信息,HiveMote 至少可以被描述为:

知识库大模型案例复盘case-study
2026年4月19日

Solvely-AIO

`Solvely-AIO` 很可能意图指向一个“围绕 Solvely 这类学习辅助产品的 All-in-One 方案”或“学习工作流集合页”,但从当前证据看,名称中的 `AIO` 没有足够公开来源支撑,不应擅自解释为某个确定的内部版本或架构...

知识库大模型案例复盘case-study
2026年4月19日

Study-Guide

`Study-Guide` 更像这个“多模态学习系统”中的功能页或能力模块,而不是已经能独立验证的单独项目名。

知识库大模型案例复盘case-study
2026年4月19日

TraitTutor

TraitTutor 更像一个“研究型教育 Agent 项目”,不是已经公开上线的消费级产品。它的核心目标是:将人格特质、情绪状态与检索增强结合,生成更适配学习者的教案或 lesson plan。

知识库大模型案例复盘case-study
2026年4月19日

回归测试与 A/B 评测

LLM 系统中任何环节的变更都可能导致能力退化:

知识库大模型评测
2026年4月19日

推理优化前沿

1. 小型**草稿模型**快速生成 K 个候选 token

知识库大模型推理与系统
2026年4月19日

部署与推理优化题

面试中遇到部署/推理优化系统设计题,使用以下框架:

知识库大模型案例复盘
2026年4月19日

微调方案选型题

面试中遇到微调方案选型题,使用以下四步法:

知识库大模型案例复盘
2026年4月19日

项目深挖题

**回答模板:**

知识库大模型案例复盘
2026年4月19日

偏好优化评测

| 方法 | 年份 | 核心思想 |

知识库大模型评测
2026年4月19日

预训练与困惑度

困惑度是衡量语言模型对 held-out 语料预测能力的标准指标:

知识库大模型评测
2026年4月19日

Transformer 基础高频题

请解释 Self-Attention 的计算过程,为什么要除以 sqrt(d_k)?

知识库大模型案例复盘
2026年4月19日

训练流程总览

大语言模型的训练是一条多阶段 Pipeline,从原始数据到可部署模型,历经数据工程、预训练、后训练对齐、评估与部署五个核心阶段。

知识库大模型训练与对齐
2026年4月19日

训练框架生态:Unsloth / Liger / TRL / PEFT

┌─────────────────────────────────────────────────────────────────┐

知识库大模型训练与对齐
2026年4月19日

01-PEFT 总览

markdown

知识库大模型训练与对齐
2026年4月19日

深度学习总览

这一组笔记覆盖深度学习的核心知识,从 CNN 到 Transformer,从优化器到正则化,偏工程实践视角。

知识库深度学习deep-learningdl
2026年4月19日

机器学习总览

这一组笔记覆盖机器学习的核心知识,从经典算法到现代 LLM 相关技术,偏工程落地视角。

知识库机器学习machine-learningmlengineering
2026年4月19日

XGBoost / LightGBM / CatBoost 对比

GBDT(梯度提升决策树)是表格数据上最强的机器学习模型家族,XGBoost / LightGBM / CatBoost 是这个家族的三个主流实现。

知识库机器学习machine-learninggbdtxgboostlightgbmcatboost
2026年4月19日

模型压缩(剪枝 / 蒸馏 / 量化)

模型压缩是解决"大模型在有限资源下部署"的标准方法。三个方向解决的问题不同:

知识库机器学习machine-learningmodel-compressionpruningdistillationquantization
2026年4月19日

序列建模(RNN / LSTM / GRU / Transformer)

序列建模是处理"有顺序关系的数据"(文本、语音、时间序列、视频帧)的核心能力。演进路径是:

知识库深度学习deep-learningsequence-modelingrnnlstmtransformer
2026年4月19日

正则化与泛化(Dropout / BatchNorm / Label Smoothing)

正则化解决的是"训练误差低、测试误差高"的过拟合问题。深度学习的正则化和传统 ML 相比有两个特点:一是网络参数多到几乎必然过拟合,二是 BatchNorm 等技术同时有正则化效果。

知识库深度学习deep-learningregularizationbatchnormdropout
2026年4月19日

LLM Fine-tuning(LoRA / RLHF / DPO)

大模型的 Fine-tuning 不是"训一次",而是一套从预训练到对齐的完整流程:

知识库机器学习llmfine-tuninglorarlhfdpomachine-learning
2026年4月19日

MLOps 工程实践

MLOps 解决的是"模型训出来后,怎么管、怎么部署、怎么监控"的问题。没有 MLOps,模型会变成"实验时能用,上线就出问题"的尴尬状态。核心三件事:**实验可追踪(Experiment Tracking)**、**特征可复用(Featu...

知识库机器学习mlopsmachine-learningdeploymentexperiment-trackingengineering
2026年4月19日

模型评估指标

评估指标选错了,模型就选错了。不同任务(分类 / 排序 / 回归 / 生成)有不同的指标体系,同一个 Accuracy 在类别不平衡时完全不可信。AUC-ROC 看的是排序能力而不是准确率,LogLoss 衡量的是概率校准质量,MRR 是推...

知识库机器学习machine-learningmetricsevaluation
2026年4月19日

训练范式对照表

| 维度 | 预训练 | SFT | RLHF (PPO) | DPO | GRPO |

知识库大模型总览llmmodelcomparison
2026年4月19日

框架索引

| 框架 | 负责层 | 必须掌握 | 对应笔记 |

知识库大模型总览llmmodelframeworks
2026年4月19日

术语表

> 按拼音/字母排序,每个术语附简要定义和 wikilink。

知识库大模型总览llmmodelglossary
2026年4月19日

论文索引

> 按主题分类,标注重要程度和对应笔记。

知识库大模型总览llmmodelpapers
2026年4月19日

MOC 模型知识总览

> 这套知识库覆盖从 Transformer 基础到最新研究前沿的完整模型知识体系,面向工程师和算法面试。

知识库大模型总览llmmodelmoc
2025年12月17日

指标体系

评测指标体系涵盖**语言建模指标**(PPL)、**分类指标**(Accuracy/Precision/Recall/F1)、**检索指标**(MRR/nDCG)、**代码生成指标**(pass@k)和**对话质量指标**(LLM 打分),...

知识库大模型评测evaluationmetrics
2025年12月13日

智能体总览

AI 智能体是指以 LLM 为核心决策引擎,能够**感知环境、规划任务、调用工具、根据反馈自主调整**的自主系统,实现了从"只能说话"到"能做事"的关键跃迁。

知识库大模型智能体与工具调用agentoverview
2025年12月13日

安全与偏见评测:毒性、公平性、红队测试

安全与偏见评测旨在检测大模型是否存在有害输出(毒性内容、偏见歧视)、是否可被恶意利用(越狱攻击),以及是否在安全与有用性之间取得合理平衡,主要通过毒性检测基准、公平性测试和红队测试(Red Teaming)三大手段实现。

知识库大模型安全与护栏security
2025年12月12日

小模型与蒸馏

小模型与蒸馏是指通过知识蒸馏、剪枝、量化等模型压缩技术,将大模型的能力转移到参数量更小的模型中,在保持相当性能的同时大幅降低部署成本和推理延迟,使 AI 能力在端侧和资源受限环境中落地。

知识库大模型训练与对齐llmalignment
2025年11月29日

Reasoning 与 RL 训练

推理任务的强化学习训练是指通过奖励信号(如数学题的对错、代码是否通过测试)优化大语言模型的推理策略,使其学会生成更高质量的多步推理过程,核心方法包括 PPO、GRPO 和 Process Reward Model(PRM)。

知识库大模型训练与对齐llmalignment
2025年11月21日

风险处置

风险处置是指当模型出现安全、合规或业务风险事件时,对异常进行识别、分级、遏制、恢复、通报和复盘的全过程。

知识库大模型安全与护栏securityincident-response
2025年11月5日

教育场景

大模型在教育场景中的核心价值,不是直接替学生答题,而是作为可交互的学习支架,支持个性化讲解、练习生成、学习路径规划与形成性评估。

知识库大模型应用场景applicationeducation
2025年10月13日

奖励模型与偏好数据

奖励模型(RM)是将 (prompt, response) 映射为标量偏好分数的模型,偏好数据是人类对多个回复的排序信号。

知识库大模型训练与对齐llmmodelalignmentreward-model
2025年10月8日

检索模式

检索模式决定了 RAG 系统如何从知识库中找到与查询相关的文档片段,是影响 RAG 端到端质量的关键环节,主要包含**稀疏检索**、**稠密检索**、**混合检索**和**递归检索**四大类。

知识库大模型检索增强ragretrieval
2025年10月8日

护栏设计

护栏是部署在模型调用链路中的约束与校验层,用来限制输入、上下文、工具调用和输出,降低不安全、不合规和不可靠行为的概率。

知识库大模型安全与护栏securityguardrails
2025年7月28日

技能机制

技能是把一段可复用的任务能力封装成“触发条件 + 操作说明 + 所需上下文 / 工具”的模块,让 Agent 能在合适时机按需加载能力包,而不是每次从零规划。

知识库大模型智能体与工具调用agentskillstool-use
2025年7月15日

检索增强常见问题

RAG 系统在实践中面临**检索质量**、**生成质量**和**系统工程**三大类共七大痛点,每个痛点都有对应的诊断方法和解决方案。

知识库大模型检索增强ragtroubleshooting
2025年7月13日

Transformer 架构详解

Transformer 是一种完全基于注意力机制的序列到序列模型架构,通过自注意力、前馈网络、残差连接和层归一化的堆叠组合,实现了高效并行训练和强大的长距离依赖建模能力。

知识库大模型基础原理llmmodeltransformerarchitecture
2025年6月20日

指令调优与对话调优

指令调优让模型学会「听从指令执行任务」,对话调优进一步让模型能在多轮对话中持续交互。

知识库大模型训练与对齐llmmodelsftinstruction-tuning
2025年6月16日

FFN 与激活函数

Transformer 中的 FFN(Position-wise Feed-Forward Network)是一个逐位置应用的两层全连接网络,负责在自注意力层的"横向"信息交互之后进行"纵向"的非线性特征变换;激活函数的选择(从 ReLU ...

知识库大模型基础原理llmmodeltransformeractivation
2025年6月11日

偏好优化 DPO / ORPO / KTO / CPO / GRPO

DPO、ORPO、KTO、CPO、GRPO 这类偏好优化方法,试图在不走完整 PPO-RLHF 复杂流程的前提下,直接用偏好数据或相对比较信号优化模型行为,是当前后训练里最重要的一类工业方法。

知识库大模型训练与对齐llmmodelalignmentdpoorpoktocpogrpo
2025年5月12日

Attention 与 Self-Attention 机制

Attention 是一种让模型在处理序列时,能够动态地"聚焦"于输入中最相关部分的机制;Self-Attention 是 Attention 的特例,其中 Query、Key、Value 全部来自同一个序列,使序列中的每个位置都能与所有其...

知识库大模型基础原理llmmodeltransformerattention
2025年5月4日

SFT 基础

SFT(Supervised Fine-Tuning)是用少量高质量「指令-回复」对在预训练模型上进行监督微调,将其从文本续写器改造为指令遵循助手的过程。

知识库大模型训练与对齐llmmodelsftalignment
2025年4月24日

GRPO 与 Reasoning 模型后训练

GRPO 用组内相对奖励替代价值函数,是 DeepSeek-R1 等推理模型的核心训练方法。

知识库大模型训练与对齐llmmodelalignmentgrporeasoning
2025年4月18日

检索增强评测

RAG 评测是对检索增强生成系统的**检索质量**和**生成质量**进行量化评估,核心目标是回答"检索到的内容是否相关"和"生成的回答是否忠实于检索内容且切题"。

知识库大模型检索增强ragevaluation
2025年4月12日

办公场景

大模型在办公场景中的核心价值,是把邮件、会议、文档、表格与流程自动串起来,降低信息整理和重复表达成本。

知识库大模型应用场景applicationoffice
2025年4月12日

仅编码器、仅解码器与编码器-解码器架构对比

Transformer 架构可以从完整的 Encoder-Decoder 中拆分出三种变体:仅编码器(如 BERT)擅长理解任务,仅解码器(如 GPT)擅长生成任务,编码器-解码器(如 T5)兼顾两者但参数效率较低。

知识库大模型基础原理llmmodeltransformerarchitecture
2025年4月9日

工具调用

Tool Use 是指 LLM 根据用户请求,生成结构化的工具调用指令(如 JSON 格式的函数名和参数),从而与外部系统交互以完成语言模型自身无法独立完成的任务。

知识库大模型智能体与工具调用agenttool-use
2025年4月5日

安全与偏见评测:毒性、公平性、红队测试

安全与偏见评测旨在检测大模型是否存在有害输出(毒性内容、偏见歧视)、是否可被恶意利用(越狱攻击),以及是否在安全与有用性之间取得合理平衡,主要通过毒性检测基准、公平性测试和红队测试(Red Teaming)三大手段实现。

知识库大模型安全与护栏security
2024年12月29日

位置编码

位置编码是为 Transformer 输入注入序列顺序信息的方法,因为自注意力机制本身是排列不变的(对输入的任何排列产生相同的输出),必须通过额外的位置信号告诉模型每个 token 的位置。

知识库大模型基础原理llmmodeltransformerposition-encoding
2024年12月26日

多模态场景

多模态场景是指大模型能够联合理解和生成文本、图像、音频、视频与文档版面等多种信号,用于更接近真实世界输入输出的交互与自动化。

知识库大模型应用场景applicationmultimodal
2024年12月15日

基础检索增强

基础 RAG(Naive RAG)是最简单的检索增强生成管线,由**索引构建**和**查询生成**两个阶段组成,是所有高级 RAG 方案的基线和起点。

知识库大模型检索增强ragbasics
2024年12月14日

归一化与残差连接

残差连接通过让梯度直接跳过子层的"捷径"实现深层网络的可训练性,归一化通过稳定每一层的激活值分布保证训练过程的数值稳定性——两者共同构成了使深层 Transformer 可训练的基础设施。

知识库大模型基础原理llmmodeltransformernormalization
2024年11月9日

统计学方法

1. 将每个样本分配给最近的中心点。

知识库机器学习
2024年11月9日

机器学习

其中 \( g(z) = \frac{1}{1 + e^{-z}} \) 是 sigmoid 函数。

知识库机器学习
2024年10月22日

04-Code 能力与执行

代码生成与执行能力是指 LLM 理解自然语言需求、生成可运行的程序代码、并通过沙箱环境执行验证的能力,是 AI 从"语言助手"迈向"工程助手"的核心能力。

知识库大模型智能体与工具调用agent
2024年10月13日

单智能体与多智能体

单智能体是一个核心 Agent 统一负责规划、工具调用和结果整合;多智能体则把任务拆给多个角色化 Agent,通过 supervisor、handoff 或 group chat 完成协作。

知识库大模型智能体与工具调用agentmulti-agent
2024年10月4日

过程奖励与结果奖励

结果奖励只评估最终答案是否正确,过程奖励则逐步评估推理链中每一步的质量;两者的核心差异在于奖励信号的粒度和信用分配能力。

知识库大模型训练与对齐llmmodelalignmentprmorm
2024年9月13日

RLHF 总览

RLHF 是通过收集人类偏好数据、训练奖励模型、再用强化学习优化语言模型的三个阶段流程,使模型输出更符合人类期望。

知识库大模型训练与对齐llmmodelalignmentrlhf
2024年9月5日

研究场景

大模型在研究场景中,更像研究助理而不是研究员替代,擅长资料搜集、证据整理、结构化归纳和初稿生成,但结论仍需人类审阅。

知识库大模型应用场景applicationresearch
2024年8月21日

Transformer 改进与注意力优化前沿

Transformer 注意力优化的核心目标是降低 $O(n^2)$ 的计算和内存复杂度,同时保持模型质量,主要从推理效率(KV Cache 压缩)和训练效率(硬件感知计算)两个维度展开。

知识库大模型基础原理llmmodeltransformerattentionoptimization
2024年7月24日

面试框架:SFT、RLHF、LoRA 怎么讲

面试中讲解技术方案时,使用 **"是什么 -> 为什么 -> 怎么做 -> 效果 -> 权衡"** 五步法。

知识库大模型案例复盘case-study
2024年7月5日

权限控制

权限控制是指对模型、代理、工具和用户之间的可访问资源、可执行操作、数据范围和审批流程进行约束,核心原则是最小权限、显式授权和可审计。

知识库大模型安全与护栏securityauthorization
2024年7月3日

安全总览

大模型安全涵盖**幻觉防御、对齐安全(HHH)、对抗攻击防御、隐私保护和输出可控性**,确保模型在落地中不会产生有害、错误或不可预测的内容。

知识库大模型安全与护栏safetyoverview
2024年6月4日

在线评测

在线评测是在生产环境中通过**真实用户交互数据**评估模型的延迟、吞吐、成本和用户满意度,是验证模型实际部署效果的金标准。

知识库大模型评测evaluationonline
2024年5月25日

提示注入

提示注入是指攻击者通过用户输入、外部文档、网页、工具结果或历史上下文向模型植入与开发者目标冲突的指令,诱导模型泄露信息、绕过策略或执行未授权行为。

知识库大模型安全与护栏securityprompt-injection
2024年5月11日

GraphRAG

GraphRAG 是一种基于知识图谱的检索增强策略,通过从文档中抽取实体和关系构建知识图谱,利用图结构进行社区检测和层次化摘要,从而解决传统 RAG 在**全局性问答**和**多跳推理**上的固有缺陷。

知识库大模型检索增强raggraphknowledge-graph
2024年3月31日

函数调用

Function Calling 是让 LLM 根据用户输入和可用工具定义,生成结构化的工具调用请求(通常是 JSON 格式),从而与外部 API、数据库、代码执行器等交互,是 Agent 能力的基础。

知识库大模型智能体与工具调用agentfunction-calling
2024年3月18日

链路追踪

链路追踪是对一次用户请求在模型系统中的完整执行路径进行关联记录,覆盖入口请求、提示构造、检索、工具调用、模型生成、评测、缓存命中和最终响应。

知识库大模型评测evaluationtracing
2024年3月17日

大模型专题索引

> 上级索引:[[知识体系总索引|知识体系总索引]]

知识库大模型llmaiindex
2024年1月21日

幻觉检测与缓解:Hallucination 评测与 RAG 忠实度

幻觉(Hallucination)指大模型生成看似合理但事实错误或与给定上下文矛盾的内容,幻觉检测与缓解的核心任务是识别并降低这种现象,特别在 RAG(检索增强生成)场景中通过忠实度(Faithfulness)指标衡量生成内容是否忠实于检索...

知识库大模型评测evaluation
2023年12月28日

预训练数据工程 — 配比 / 清洗 / 去重 / 过滤

预训练数据工程是将原始互联网文本转化为高质量训练语料的全流程,包括数据源选择、配比设计、清洗去重和质量过滤,直接决定模型能力的上限。

知识库大模型训练与对齐llmpretrainingdatadedupfilteringmixture
2023年12月6日

MoE 架构:混合专家模型

MoE(Mixture of Experts)是一种通过条件计算(conditional computation)让每个输入 token 仅激活模型中一小部分参数的架构,从而在保持总参数量巨大的同时显著降低推理和训练的计算开销。

知识库大模型基础原理llmmodeltransformermoearchitecture
2023年12月5日

MCP

MCP 是一个开放协议,用统一的客户端-服务端接口把模型运行时与外部工具、资源和提示模板连接起来,解决 Agent 生态里重复接入、重复适配的问题。

知识库大模型智能体与工具调用agentmcptool-use
2023年12月3日

离线评测

离线评测是在标准化 benchmark 数据集上,通过自动化指标(准确率、pass@k、LLM 打分等)量化评估模型能力,是模型选型和迭代过程中成本最低、效率最高的评测方式。

知识库大模型评测evaluationoffline
2023年11月18日

幻觉

幻觉(Hallucination)是指大语言模型生成**看似合理但事实错误、与输入矛盾或无法被验证**的内容,是大模型落地最大的阻碍之一。

知识库大模型安全与护栏safetyhallucination
2023年11月13日

搜索场景

大模型在搜索场景中的作用,是把“检索文档”升级为“理解意图、检索证据、组织答案并保留可跳转来源”的组合式系统。

知识库大模型应用场景applicationsearch
2023年11月12日

检索增强总览

检索增强生成(Retrieval-Augmented Generation, RAG)是指在 LLM 生成回答之前,先从外部知识库中检索相关文档片段,将其作为上下文注入提示词,从而提升回答的准确性、时效性和可追溯性。

知识库大模型检索增强ragoverview
2023年10月27日

框架对比

Agent 框架的核心作用,是提供工具集成、状态管理、工作流编排、多智能体协作和可观测性能力,帮助开发者把“会聊天的模型”变成“能执行任务的系统”。

知识库大模型智能体与工具调用agentframeworkcomparison
2023年10月27日

对齐方法总览

对齐方法总览讨论的是:如何让预训练模型从“会续写文本”变成“更符合人类偏好、任务目标和安全边界的助手”,以及不同对齐范式之间的目标、成本和取舍。

知识库大模型训练与对齐llmmodelalignmentoverview
2023年10月20日

编码场景

大模型在编码场景中的价值,已经从代码补全扩展到理解需求、生成实现、发现问题、修复缺陷、生成测试和协助 code review 的全链路开发协同。

知识库大模型应用场景applicationcoding
2023年10月16日

重排与路由

重排序(Reranking)是对初步检索结果进行精排以提升相关性,查询路由(Query Routing)是根据查询特征动态选择最佳检索策略,二者共同提升 RAG 系统的检索质量和系统灵活性。

知识库大模型检索增强ragrerankingrouting
2023年10月4日

合成数据与数据蒸馏

合成数据是指由 AI 模型(通常是更强的"教师"模型)生成的、用于训练其他模型的数据;数据蒸馏则是指通过合成数据将大模型的知识转移到小模型中的系统化流程,已成为 2024-2025 年 LLM 训练的核心范式之一。

知识库大模型训练与对齐llmalignment
2023年9月20日

推理模型与 Test-Time Compute

Test-Time Compute(测试时计算)是指在推理阶段投入更多计算资源(生成更长的思维链、进行多次采样和验证),以换取模型在复杂推理任务上更优表现的技术范式,OpenAI o1/o3 和 DeepSeek-R1 是其代表性模型。

知识库大模型推理与系统inference
2023年9月2日

基座模型 vs 指令模型

基座模型通过预测下一个 token 学会了语言的统计规律,指令模型在此基础上经过 SFT 和偏好对齐(RLHF/DPO)学会按人类期望的方式使用这些知识。

知识库大模型训练与对齐llmpretrainingbase-modelinstructalignmentRLHFDPO
2023年8月24日

PPO 式 RLHF

PPO 式 RLHF 使用四个模型(策略、参考、奖励、价值函数)联合训练,通过裁剪策略更新比例防止训练不稳定。

知识库大模型训练与对齐llmmodelalignmentppo
2023年6月26日

多模态检索增强

多模态检索增强是指在 RAG 系统中,不只检索纯文本片段,而是同时处理图像、表格、文档版面、音视频帧和跨模态表示,让模型能够基于更完整的证据回答问题。

知识库大模型检索增强ragmultimodal
2023年5月28日

预训练目标 — CLM / MLM / Seq2Seq

预训练目标定义了模型从无标注数据中学习什么:CLM 预测下一个 token,MLM 预测被遮盖的 token,Seq2Seq 从噪声输入重建原始序列——不同的目标塑造模型完全不同的能力。

知识库大模型训练与对齐llmpretrainingobjectiveCLMMLMseq2seq
2023年4月17日

评测总览

大模型评测是对 LLM 在**知识能力、推理能力、指令遵循、安全性、稳定性**等多个维度上进行量化评估,是模型选型、能力迭代和上线决策的核心依据。

知识库大模型评测evaluationoverview
2023年4月15日

01-多模态基础:视觉语言模型(VLM)

视觉语言模型(Vision-Language Model, VLM)是一类能够同时理解图像和文本输入、并生成文本输出的深度学习模型,其核心在于将视觉信息与语言信息映射到共享的语义空间中。

知识库大模型智能体与工具调用agent
2023年2月18日

工作流编排

工作流编排是把 LLM 推理、工具调用、状态流转、条件分支、并发执行和人工审批组织成可重复执行的流程,用确定性骨架约束不确定性模型。

知识库大模型智能体与工具调用agentworkfloworchestration
2023年2月9日

人类评估与 A/B 测试:Chatbot Arena 与人工评估流程

人类评估(Human Evaluation)是通过真实用户的偏好判断来评估大模型质量的方法,以 Chatbot Arena 为代表平台,采用 A/B 盲测和 Elo 等级分系统进行大规模人类偏好排名,是目前公认最能反映模型实际使用体验的评估...

知识库大模型评测evaluation