最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
AgentOps:用户快速调教好你的Agent的关键功能
时间:2026-07-03 08:54:52 编辑:袖梨 来源:一聚教程网
快速调教好Agent的关键在于实现可观测与可追溯,让AI真正成为生产力工具而非隐患。核心内容:1. B端场景下AgentOps的刚需与核心要求2. 通过CI修复Agent的极端案例揭示问题本质3. 一条最小可用的运行trace所揭示的具体改进点
对于大部分 C 端场景,AI 回答得不好,人可以换个问法,或者不用这段答案,厂商基本不用承担法律责任。但 B 端不行,如果你给客户推荐的供应商、商品出现了问题(如不符合其公司红线要求等),人家是可能找你麻烦的。所以 AgentOps 对 B 端,或者 C 端某些重要场景(如交易场景),非常重要,这就要求我们给用户的 Agent 要可见、可溯源、可归因、可复盘等:如果做不到这些,就直接给客户使用的话,那么就永远只能停留在助手的定位,不能真正成为客户的生产力。举几个例子讲讲:
01
例子一:CI 修复 Agent 把测试修绿了,但把断言改松了这个是对前面提到的 AI First 研发平台这类产品。先看一个研发场景。某个 PR 改了订单优惠计算逻辑,CI 里有一个单测失败。团队让 CI 修复 Agent 自动分析、修复,并开一个补丁 PR。它也正常执行了,且测试用例跑过。第一眼看,Agent 很能干:
| 指标 | 结果 |
|---|---|
| 任务耗时 | 7 分 42 秒 |
| 模型调用 | 6 次 |
| 工具调用 | 11 次 |
| 修改文件 | 2 个 |
| 测试结果 | 订单模块单测通过 |
| 输出结果 | 自动开出修复 PR |
| 时间 | 步骤 | 关键记录 |
|---|---|---|
| 10:12:03 | 接收任务 | PR-4821,目标:修复 order-discount 单测失败 |
| 10:12:11 | 读取日志 | 失败用例:should_apply_coupon_after_member_discount |
| 10:12:29 | 检索文件 | 读取 discount_calculator.go、discount_calculator_test.go |
| 10:13:08 | 生成计划 | 判断失败原因:测试期望值与当前实现不一致 |
| 10:14:22 | 第一次修改 | 修改测试断言,放宽期望值 |
| 10:15:10 | 运行测试 | go test ./order/... 通过 |
| 10:15:33 | 风险检查 | 未命中“断言放宽”规则 |
| 10:19:45 | 开 PR | 输出:修复单测失败 |
| 10:36:18 | 人工 Review | 驳回原因:断言被放松,没有证明业务逻辑正确 |
- CI 修复 Agent 的目标改成:优先修实现,其次修测试数据,禁止无证据放松断言。
- 增加一个静态检查:测试断言从精确值改成宽泛判断时,必须触发人工确认。
- trace 里新增字段:changed_assertion_type,记录断言是否变弱。
02
例子二:采购 Agent 推荐了高风险供应商,trace 发现是工具返回字段不够再看一个 SaaS 的业务场景。采购同学发起一个低值耗材寻源项目,希望 采购 Agent 根据报价、历史履约和供应商资质等,给出推荐供应商。采购 Agent 输出:“建议选择 A 供应商。该供应商本轮报价最低,历史交付及时率 96%,综合评分最高。”第一眼看挺合理。但人工复核时发现,A 供应商上个月刚因为质量异常被该品类临时冻结,按规则不能进入推荐名单。这种错误很危险。采购侧不是写错一句话那么简单,它可能影响定标、合同、履约和供应链风险。后面真出了质量事故,没人会接受“这是模型没看到字段”的解释。如果没有 AgentOps,复盘很容易变成互相甩锅:
- 模型为什么乱说?
- 知识库是不是过期?
- 采购规则是不是没写清楚?
- 工具是不是查漏了供应商状态?
| 步骤 | Agent 看到的内容 | 问题 |
|---|---|---|
| 意图识别 | 任务:为 MRO 低值耗材寻源项目推荐供应商 | 正确 |
| 寻源项目查询 | 项目金额:18 万;品类:办公耗材;候选供应商:A、B、C | 正确 |
| 报价查询 | A 供应商报价最低,低于第二名 4.8% | 正确 |
| 供应商查询 | A 供应商状态:合作中;历史交付及时率:96%;评分:92 | 少了“品类冻结”和“质量处罚”字段 |
| 采购规则检索 | 召回“低值耗材优先价格和交付稳定性”规则 | 没命中“冻结供应商不得推荐”规则 |
| 风险判断 | 风险等级:低 | 应为高风险 |
| 结果写回 | 写入“建议选择 A 供应商” | 错误推荐被固化 |
- 供应商查询工具增加字段:品类准入状态、临时冻结状态、质量处罚、资质有效期、黑名单标记。
- 知识召回增加优先级:风险拦截规则高于价格、交付和评分规则。
- 风险规则写死:冻结 / 黑名单 / 资质过期 / 品类未准入 = 不得自动推荐,必须转人工复核。
| 指标 | 修改前 | 修改后目标 |
|---|---|---|
| 高风险供应商拦截率 | 71% | 98% 以上 |
| 错误推荐数 | 每周 2 起 | 连续 4 周为 0 |
| 供应商风险字段缺失导致失败 | 每周 4 起 | 每周复盘清零 |
| 高风险寻源项目人工接管率 | 22% | 60% 以上 |
03
Agent 实现里,trace 要作为一等功能来做两个核心点:
- 在 Agent Runtime 或 Harness 层,把Agent 每一步关键动作,都通过统一的运行单和事件流记录,而不是让每个 Agent 自己随手写日志(Harness团队不给力的时候就自己搞)。
- 为用户提供一个总结、提炼的入口与能力:SAAS的Agent不可能是自己玩的,得靠用户、客户积累。
1. 任务运行单:先有 run_id,再开始干活每次 Agent 开始执行前,先创建一张任务运行单。
| 字段 | 示例 | 作用 |
|---|---|---|
| run_id | sourcing-agent-20260629-0008 | 串起一次完整运行 |
| agent_id | supplier_recommend_agent | 知道是谁干的 |
| tenant_id | tenant_037 | 支持租户隔离和审计 |
| task_type | supplier_recommendation | 分场景统计 |
| trigger_type | sourcing_project_submitted | 人触发还是流程触发 |
| input_object_id | sourcing_project_9042 | 回查业务对象 |
| risk_level | medium | 决定是否允许自动执行 |
| owner | 采购负责人 / 项目负责人 | 发生问题找得到责任人 |
| status | running / blocked / completed / rejected | 运行状态 |
2. 上下文快照:记录“它当时看见了什么”Agent 做错,很多时候不是推理能力问题,而是看错了世界。所以 Context Builder 每次给 Agent 装配上下文时,要记录一份上下文快照。但注意,不一定要把所有原文都落库,尤其是 B 端场景里有客户数据、供应商资料、合同和价格。至少要记录这些:
| 字段 | 示例 |
|---|---|
| source_type | 供应商主数据 / 采购规则 / 历史履约 / 质量异常 |
| source_id | supplier_ A、rule_2026_08 |
| source_version | v12、2026-06-20 |
| permission_scope | 当前用户可见 / 当前项目可见 / 脱敏后可见 |
| retrieval_reason | 因为任务品类是办公耗材,所以召回该品类准入规则 |
| data_quality_flag | 字段完整 / 字段缺失 / 版本可能过期 |
| content_hash | 用于证明当时读取的是哪一版内容 |
3. 工具调用包装器:所有工具都要经过统一网关所以工具调用不要让 Agent 直接散着调。建议统一走 Tool Gateway 或 Tool Wrapper。每次工具调用记录这些:
| 字段 | 示例 |
|---|---|
| tool_name | supplier_profile_query |
| tool_version | v3.4 |
| request_schema_version | 2026-06 |
| params_summary | 品类:办公耗材;候选供应商:A/B/C |
| params_hash | 避免敏感参数明文扩散 |
| permission_decision | allow / deny / require_approval |
| response_summary | A 供应商合作中,评分 92 |
| missing_fields | category_freeze_status、quality_penalty |
| latency_ms | 283 |
| error_code | 无 / 超时 / 权限不足 / 数据不完整 |
4. 决策事件:记录它为什么选择这一步Agent 不是传统程序,它中间会做很多判断。比如:是否推荐 A 供应商。是否转人工。是否开 PR。是否放弃本轮修复。这些关键判断要单独记成 decision_event,不能只埋在模型输出文本里。
| 字段 | 示例 |
|---|---|
| decision_type | recommend_supplier |
| candidate_action | 推荐 A 供应商 |
| evidence_refs | 报价最低、交付及时率 96%、评分 92 |
| rule_hits | 命中低值耗材价格优先规则 |
| risk_rule_hits | 未命中供应商冻结规则 |
| confidence | 0.78 |
| alternative_actions | 推荐 B;转人工;补充查询 |
| why_not_human | 系统判断为中低风险 |
5. 验证事件:不要只记录“完成”,要记录“怎么证明完成”Agent 说“我完成了”没意义。关键是它靠什么证明自己完成。研发 Agent 的验证可能是测试、lint、静态检查、人工 Review。采购 Agent 的验证可能是供应商状态回查、黑名单校验、资质有效期校验、品类准入规则校验、审批状态确认。所以要有 validation_event:
| 字段 | 示例 |
|---|---|
| validation_type | 供应商风险校验 |
| check_name | 黑名单 / 冻结 / 资质有效期 / 品类准入 |
| check_result | pass / fail / skipped |
| evidence_ref | supplier_risk_query_0007 |
| skipped_reason | 工具未返回字段 / 权限不足 / 规则未配置 |
| must_human_review | true / false |
6. 人工反馈回写:Review 结果必须回到 trace 和 evalAgent 被人工驳回,不应该只停留在审批页面里。比如采购负责人驳回了 A 供应商推荐,理由是“供应商处于该品类冻结期”。这个反馈至少要写回三处:
- 写回 run_id 对应的 trace,作为本次运行结果。
- 写回失败案例库,归因为工具字段缺失 / 风险规则未命中。
- 写回 eval 样本,下次模型、工具、规则变更时必须回归。
04
一个最小可用的 Agent 运行记录示例结合上面两个例子和实现拆解,要做一个合理规划版本,每个 Agent task 都可以记录这些字段。
| 字段 | 例子 | 用途 |
|---|---|---|
| run_id | ci-fix-20260628-0017 | 串起一次完整运行 |
| task_type | CI 修复、供应商推荐、发布说明 | 分场景统计 |
| trigger | CI 失败、寻源项目提交、release 创建 | 看触发来源 |
| risk_level | 低 / 中 / 高 | 决定是否自动执行 |
| input_object | PR-4821、寻源项目-9042、发布单-126 | 回查业务对象 |
| context_sources | 日志、供应商资质、采购规则版本、发布记录 | 判断是否看错事实 |
| plan_steps | 读取日志、检索代码、修改文件、跑测试 | 回放行动路径 |
| tool_calls | 调用供应商查询、寻源比价、测试命令、发布系统查询 | 追踪工具和权限 |
| decision_points | 是否转人工、是否开 PR、是否拦截推荐、是否发布草稿 | 复盘关键判断 |
| validation | 测试通过、规则命中、人工确认 | 判断结果是否可信 |
| cost | token、耗时、模型调用次数 | 控制成本 |
| outcome | 成功、人工驳回、用户投诉、测试失败 | 进入看板 |
| follow_up | 改 prompt、补工具字段、加 eval case | 进入改进闭环 |
05
用户侧周复盘:把 Agent 用成自己的业务学习系统与普通软件产品ops用户是产品的运维、运营人员,AgentOps的用户有很大一部分应该是终端用户。有了 trace、运行单、上下文快照、工具调用和人工反馈之后,SaaS 产品(自用产品也一样)要给用户一个可视化、可接入的入口,让用户能看见 Agent 的行为,评估它的判断,最后决定哪些东西要沉淀到知识和记忆里。以采购部负责人的视角为例,他不关心底层有多少日志。他更关心这张表:
| 复盘项 | 本周看到的问题 | 用户侧改进 |
|---|---|---|
| 自动完成 | 低风险耗材推荐基本稳定 | 继续放开低风险品类 |
| 人工驳回 | A 供应商因品类冻结被驳回 | 补充冻结规则和供应商状态字段 |
| 规则问题 | 老采购知道的红线系统不知道 | 把红线写成规则和审批条件 |
| 使用问题 | 有人把 Agent 建议当最终结论 | 明确“建议、审批、执行”的责任边界 |
登录查看剩余 70% 内容
相关文章
- 原神法尔伽角色详情 07-03
- 不改一行代码:看透 AI Agent 的每一次调用 07-03
- 让 AI 真正接入 CAD:一次 Onshape 和 LLM 的云台工作流实践 07-03
- baoyu-comic 知识漫画Skill - 真正厉害的是将知识变成分镜 07-03
- 梁汝波全员信:对HR应对AI时代组织未来的启示 07-03
- LLM Wiki 构建手册:可直接落地的标准流程 07-03