Agent 模型需要什么训练数据
一、Agent 模型的能力需求
一个完整的 Agent 模型需要具备以下核心能力:
- 感知环境(理解输入、解析状态)
- 规划与推理(分解任务、制定策略)
- 工具调用(选择并执行外部工具)
- 记忆管理(利用上下文和历史信息)
- 自我反思(评估结果、纠正错误)
- 多轮交互(与用户/环境持续对话)
二、训练数据分类体系
2.1 基座预训练数据
| 数据类型 | 说明 | 规模 |
|---|---|---|
| 通用网页文本 | 常识和世界知识 | 数十万亿 token |
| 代码 | 编程和逻辑推理能力 | 数万亿 token |
| 数学/科学论文 | 数理推理 | 数千亿 token |
| 书籍 | 深度知识和长文本理解 | 数千亿 token |
2.2 指令微调数据
- 格式:(Prompt, Response)对
- 覆盖范围:问答、摘要、编程、分析、创意写作等
- 关键数据集:Open-Orca, Alpaca, ShareGPT, UltraFeedback, OpenHermes
- 质量要求:数据质量远比数量重要(LIMA 证明 1000 条高质量数据即可显著提升对齐)
2.3 工具调用数据
Agent 最重要的差异化训练数据:
- API 调用格式:JSON Schema 描述 + 结构化调用
- 多步推理链:ReAct 风格(Reason + Act)的完整轨迹
- 错误恢复:工具调用失败后的重试策略
- 关键数据集:ToolBench, API-Bank, Gorilla Training Data, BFCL
2.4 推理与规划数据
- 链式思维(CoT)数据:分步推理过程
- ReAct 轨迹数据:交替的推理和行动步骤
- 任务分解数据:将复杂任务拆解为子任务
- 关键数据集:HotPotQA, GSM8K + CoT 标注, ReAct 训练集
2.5 多轮交互数据
- 带有上下文持续性的对话数据
- 包含用户澄清、目标细化和状态跟踪
- 模拟真实 Agent 与用户的交互流程
2.6 轨迹/经验数据
用于 RL 训练的 Agent 轨迹:
- 成功和失败的任务轨迹
- 奖励信号(人工或自动)
- 自我博弈/环境交互日志
- 关键工作:AgentTrek, AgentInstruct, RAGEN, OpenAI 的强化微调
2.7 反馈与偏好数据
- 人类偏好对(chosen vs rejected)用于 RLHF/DPO
- 安全标注和红队测试数据
- LLM-as-a-Judge 评分数据
三、数据构造策略
3.1 合成数据生成
2024-2025 最重要趋势:使用强模型生成 Agent 训练轨迹。
- 用 GPT-4 / Claude 生成高质量的多步 Agent 轨迹
- 在沙盒环境中验证轨迹正确性
- 自动过滤低质量轨迹
3.2 环境交互收集
- 在真实或模拟环境中运行 Agent
- 记录完整的交互轨迹(状态-动作-奖励)
- 用于 RL 训练或轨迹学习
3.3 人工标注与校验
- 专家编写高质量 Agent 演示轨迹
- 对合成数据进行人工校验
- 构建黄金测试集
四、Agent 训练数据配比建议
| 数据类型 | 配比 | 优先级 |
|---|---|---|
| 通用指令数据 | 40% | 基础能力 |
| 工具调用数据 | 20% | Agent 核心能力 |
| 推理/规划数据 | 20% | 复杂任务处理 |
| 多轮交互数据 | 10% | 对话能力 |
| 安全/对齐数据 | 10% | 安全保障 |
五、关键评测基准
- SWE-bench:软件工程 Agent 评测
- WebArena / OSWorld:Web/操作系统交互评测
- tau-bench:工具使用评测
- AgentBench:通用 Agent 能力评测
六、前沿趋势
- 强化微调(RFT):OpenAI 等提供基于 RL 的领域特定 Agent 微调
- 多 Agent 数据:多个 Agent 协作或辩论的训练数据
- 环境感知训练:在沙盒环境中训练 Agent 处理真实场景
- 持续学习:Agent 从部署后的反馈中持续改进