2026年4月19日

Agent 模型需要什么训练数据

一个完整的 Agent 模型需要具备以下核心能力:

知识库大模型检索增强

Agent 模型需要什么训练数据

一、Agent 模型的能力需求

一个完整的 Agent 模型需要具备以下核心能力:

  • 感知环境(理解输入、解析状态)
  • 规划与推理(分解任务、制定策略)
  • 工具调用(选择并执行外部工具)
  • 记忆管理(利用上下文和历史信息)
  • 自我反思(评估结果、纠正错误)
  • 多轮交互(与用户/环境持续对话)

二、训练数据分类体系

2.1 基座预训练数据

数据类型 说明 规模
通用网页文本 常识和世界知识 数十万亿 token
代码 编程和逻辑推理能力 数万亿 token
数学/科学论文 数理推理 数千亿 token
书籍 深度知识和长文本理解 数千亿 token

2.2 指令微调数据

  • 格式:(Prompt, Response)对
  • 覆盖范围:问答、摘要、编程、分析、创意写作等
  • 关键数据集:Open-Orca, Alpaca, ShareGPT, UltraFeedback, OpenHermes
  • 质量要求:数据质量远比数量重要(LIMA 证明 1000 条高质量数据即可显著提升对齐)

2.3 工具调用数据

Agent 最重要的差异化训练数据:

  • API 调用格式:JSON Schema 描述 + 结构化调用
  • 多步推理链:ReAct 风格(Reason + Act)的完整轨迹
  • 错误恢复:工具调用失败后的重试策略
  • 关键数据集:ToolBench, API-Bank, Gorilla Training Data, BFCL

2.4 推理与规划数据

  • 链式思维(CoT)数据:分步推理过程
  • ReAct 轨迹数据:交替的推理和行动步骤
  • 任务分解数据:将复杂任务拆解为子任务
  • 关键数据集:HotPotQA, GSM8K + CoT 标注, ReAct 训练集

2.5 多轮交互数据

  • 带有上下文持续性的对话数据
  • 包含用户澄清、目标细化和状态跟踪
  • 模拟真实 Agent 与用户的交互流程

2.6 轨迹/经验数据

用于 RL 训练的 Agent 轨迹:

  • 成功和失败的任务轨迹
  • 奖励信号(人工或自动)
  • 自我博弈/环境交互日志
  • 关键工作:AgentTrek, AgentInstruct, RAGEN, OpenAI 的强化微调

2.7 反馈与偏好数据

  • 人类偏好对(chosen vs rejected)用于 RLHF/DPO
  • 安全标注和红队测试数据
  • LLM-as-a-Judge 评分数据

三、数据构造策略

3.1 合成数据生成

2024-2025 最重要趋势:使用强模型生成 Agent 训练轨迹。

  • 用 GPT-4 / Claude 生成高质量的多步 Agent 轨迹
  • 在沙盒环境中验证轨迹正确性
  • 自动过滤低质量轨迹

3.2 环境交互收集

  • 在真实或模拟环境中运行 Agent
  • 记录完整的交互轨迹(状态-动作-奖励)
  • 用于 RL 训练或轨迹学习

3.3 人工标注与校验

  • 专家编写高质量 Agent 演示轨迹
  • 对合成数据进行人工校验
  • 构建黄金测试集

四、Agent 训练数据配比建议

数据类型 配比 优先级
通用指令数据 40% 基础能力
工具调用数据 20% Agent 核心能力
推理/规划数据 20% 复杂任务处理
多轮交互数据 10% 对话能力
安全/对齐数据 10% 安全保障

五、关键评测基准

  • SWE-bench:软件工程 Agent 评测
  • WebArena / OSWorld:Web/操作系统交互评测
  • tau-bench:工具使用评测
  • AgentBench:通用 Agent 能力评测

六、前沿趋势

  1. 强化微调(RFT):OpenAI 等提供基于 RL 的领域特定 Agent 微调
  2. 多 Agent 数据:多个 Agent 协作或辩论的训练数据
  3. 环境感知训练:在沙盒环境中训练 Agent 处理真实场景
  4. 持续学习:Agent 从部署后的反馈中持续改进