一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

AI Infra 全景图:Agent Framework:调度:编排:沙箱:记忆管理:Tracing 分层拆解

时间:2026-07-02 08:58:02 编辑:袖梨 来源:一聚教程网

2026年,AI Agent遍地开花,但真正能投入生产的却寥寥无几。本文将为你揭示从底层资源到上层应用的9层架构全景与4个横切能力,助你构建坚如磐石的生产级AI Infra。
核心内容:
1. 剖析AI Agent项目难以投入生产的核心症结——Infra缺失
2. 逐层拆解从基础资源到可观测运营的9层纵向架构
3. 解读贯穿所有层的4大横切能力:安全、CI/CD、成本与开发者体验

2026 年,几乎每家公司都在做 AI Agent。

但一个残酷的事实是:绝大多数 Agent 项目停留在Demo阶段,无法融入生产。

不是模型不行,不是算法不行——是 Infra 不行。

构建一个生产级 AI Agent 系统,你需要的远不止一个大模型和一个向量库。你需要算力调度、模型网关、数据管道、Prompt 管理、Agent 编排、工具沙箱、记忆系统、评测体系、可观测平台——还要让安全、CI/CD、成本和开发者体验贯穿每一层。

这就是完整的 AI Infra。

本文从 L0 到 L8,逐层拆解 9 层架构 + 4 个横切能力,给出工具选型和生产级最佳实践。

全景图:9 层 + 4 横切

先看全景,再逐层拆解。

纵向 9 层(从底层资源到上层应用):

层级名称核心问题
L0基础资源层模型和应用运行在哪里?
L1模型与推理层用哪个模型?怎么调用?怎么降本?
L2数据与知识层模型如何安全、准确地使用企业私有知识?
L3Prompt 与上下文层如何组织模型能可靠执行的输入?
L4编排与 Agent 层复杂任务如何被拆解、调度、执行?
L5工具执行层Agent 能做什么?执行边界在哪里?
L6状态与记忆层系统如何记住一切而不越权?
L7评测与质量层改动后质量是变好了还是变坏了?
L8可观测与运营层出了问题能否定位?成本能否归因?

横向 4 个能力(贯穿所有层):

  • 安全治理
  • CI/CD 与发布治理
  • FinOps 成本治理
  • 开发者体验(DevEx)

关键洞察:大多数团队只关注 L4(Agent Framework)+ L2(向量库),忽略了其他 7 层和 4 个横切能力。但生产级 Agent 的稳定性,恰恰取决于那些「不起眼」的基础设施。

L0:基础资源层——算力、存储、网络

L0 是所有 AI 系统的物理和云原生底座。

核心组件:

类别技术代表工具
计算GPU / TPU / NPU / CPUNVIDIA A100/H100、Google TPU v5e
编排容器调度Kubernetes、Ray、Slurm、Volcano、Kueue
存储对象 / 块 / 文件S3、MinIO、JuiceFS、Alluxio
网络高速互联RDMA、InfiniBand、VPC、服务网格
镜像容器与模型Harbor、Artifact Registry、HuggingFace Hub
安全密钥与隔离Secret Manager、KMS、多租户隔离

这一层回答的问题:模型和 AI 应用运行在哪里,资源如何调度,如何保证稳定、弹性和成本可控。

生产级实践:

  • 推理用 GPU 按需弹性伸缩(如 Modal、RunPod Serverless),避免空跑
  • 训练用 Ray Cluster + Kueue 做任务队列,多租户公平调度
  • 模型权重统一存到 Artifact Registry,版本化管理,禁止散落本地磁盘

L1:模型与推理层——模型服务与智能网关

L1 管理模型的来源、调用和路由,是 AI Infra 的「神经中枢」。

核心组件清单:

  • Model Gateway:统一入口,屏蔽不同供应商 API 差异
  • Model Router:根据任务类型智能选择模型
  • Inference Server:vLLM、TGI、TensorRT-LLM 等高性能推理引擎
  • Model Registry:模型版本管理、元数据、A/B 测试
  • Fallback / Rate Limit / Quota:容错、限流、配额
  • Cache / Batching / Streaming:缓存、批处理、流式输出
  • Quantization / KV Cache:量化和 KV 缓存优化

主流工具对比:

工具定位特点
LiteLLM开源网关100+ 模型统一接口,自动 Fallback
Portkey商业网关内置缓存、重试、日志、成本分析
vLLM推理引擎PagedAttention,高吞吐
OpenRouterSaaS 路由按量计费,零部署
自建网关完全控制可定制路由策略、合规审计

生产级最佳实践:

  1. 智能路由:简单任务用小模型(降本),复杂任务用大模型(保质量)
  2. 自动 Fallback:主模型超时或报错,自动切换备用模型
  3. 成本控制:设置每用户 / 每应用的 Token 预算,超额自动降级
  4. KV Cache 复用:相同前缀的请求共享 KV Cache,减少重复计算

L2:数据与知识层——让模型安全使用企业私有知识

L2 负责把企业数据变成模型可用的上下文,是 RAG 的基础。

完整数据管道:

数据源 → 解析/清洗 → Chunking → Embedding → 向量索引 → 检索 → Rerank → 注入 Prompt

每个环节都有技术选型:

环节技术选项
数据源连接API、数据库 CDC、网页抓取、文件系统
文档解析OCR、表格解析、PDF 解析(PyMuPDF、Marker)
Chunking固定长度、语义分割、递归分割
Embeddingtext-embedding-3-large、BGE-M3、Cohere embed-v3
向量索引Pinecone、Qdrant、Milvus、Weaviate、pgvector
混合检索向量 + 全文 + 知识图谱
RerankCohere Rerank、BGE-Reranker、Cross-Encoder
权限继承ACL、文档级 / 字段级权限控制

向量数据库对比(2026):

数据库部署方式适用场景
Pinecone全托管 SaaS快速上线,不想管基础设施
Qdrant自托管 / Cloud大规模数据,性能敏感
Milvus自托管十亿级向量,企业级分布式
Weaviate自托管 / Cloud多模态 RAG,GraphQL API
pgvectorPostgreSQL 插件已有 PG,数据量不大
ChromaDB嵌入式本地开发,原型验证

从朴素 RAG 到 Agentic RAG:

  • 朴素 RAG:Query → 检索 Top-K → 拼接 Prompt → 生成
  • Advanced RAG:Query Rewrite → 混合检索 → Rerank → Citation → 生成
  • Agentic RAG:Agent 主动决定何时检索、检索什么、是否需要二次检索

L3:Prompt 与上下文层——PromptOps 与上下文工程

L3 负责管理进入模型的上下文结构——这是最容易被忽视但最影响质量的一层。

上下文的组成:

一次 LLM 调用的输入由多个部分拼装而成:

  • System Prompt:角色定义、行为约束
  • Developer Prompt:工具说明、输出格式
  • RAG 结果:检索到的知识片段
  • Few-shot Examples:示范输入输出
  • 用户画像:用户偏好、历史行为
  • 会话记忆:最近 N 轮对话
  • User Prompt:用户当前问题

PromptOps 核心能力:

能力说明
Prompt 版本管理每个 Prompt 有版本号,可回滚
Prompt Registry统一管理所有 Prompt 模板
Prompt 实验A/B 测试,数据说话
Prompt 审批修改需 Review,不能随意上线
上下文压缩Token 超限时自动压缩/截断
Token Budget控制每个组件的 Token 分配

主流工具:

工具核心能力
LangSmithPrompt Hub + Tracing + Evaluation
LangFuse开源 Prompt 版本管理 + 追踪
PromptLayerPrompt 版本管理 + A/B 测试
自建(Git + YAML)最大灵活性,已有 CI/CD 的团队

最佳实践:Prompt 即代码——将 Prompt 纳入版本控制、Code Review、灰度发布。

L4:编排与 Agent 层——Workflow 与 Agent Runtime

L4 是 AI Infra 的核心层,负责将大模型的能力组织成可执行的工作流。

四大主流 Agent Framework 对比(2025-2026):

维度LangGraphCrewAIAutoGen (0.4+)OpenAI Agents SDK
架构模式有向图状态机角色扮演 + 任务分工异步事件驱动简单链式 + Handoff
多 Agent原生支持内置角色协作对话式协作Handoff 模式
状态管理Checkpoint 持久化内置 Memory异步状态简单上下文
学习曲线陡峭平缓中等最平缓
最新版本0.6 (2025.06)Flows 特性0.5.32025.03

选型建议:

  • 复杂工作流、精细控制 → LangGraph
  • 多角色协作、团队分工 → CrewAI
  • 实时对话、事件驱动 → AutoGen 0.4+
  • 快速原型、OpenAI 生态 → OpenAI Agents SDK

除了 Agent Framework,还需要 Workflow Engine:

工具定位
Temporal持久化工作流,适合长时间运行的 Agent 任务
Airflow / Dagster数据管道编排,适合批量 RAG 索引构建
PrefectPython 原生工作流,适合 ML Pipeline

LangGraph 的核心优势——有向图状态机:

  • 节点(Node):每个步骤是一个函数
  • 边(Edge):定义步骤之间的转移逻辑
  • 状态(State):全局共享的可持久化状态

天然支持:循环、分支、并行、断点恢复(Checkpoint)。

L5:工具执行层——沙箱、集成与执行边界

当 Agent 需要执行代码、调用 API、操作数据库时,你不能让它在生产服务器上直接跑 exec()

工具执行层的完整能力矩阵:

能力说明
函数调用Agent 调用预定义函数
MCP Server标准化工具协议,即插即用
API Connector连接企业 SaaS(CRM、ERP、工单)
代码解释器沙箱内执行 Python / Node.js
浏览器自动化Playwright、Puppeteer
RPA操作传统 GUI 系统
权限校验最小权限,按需申请
沙箱隔离每次执行一个独立环境
输出校验工具返回结果格式校验
幂等 / 事务失败可重试,副作用可补偿

沙箱方案对比:

方案启动速度隔离级别适用场景
E2B< 150msVM 级Agent 代码执行首选
Modal< 500ms容器级GPU 密集型任务
Fly.io Machines< 300msVM 级全球分布式执行
Docker(自建)1-3s弱隔离开发环境

安全设计三原则:

  • 最小权限:Agent 只能访问必要的资源
  • 网络隔离:默认禁止外网,按需开放白名单
  • 资源限制:CPU、内存、磁盘、执行时间全部设上限

L6:状态与记忆层——让 Agent 记住一切而不越权

L6 保存系统运行过程中的短期和长期状态。

记忆的分层模型:

类型时间范围存储方式典型场景
工作记忆当前对话Context Window对话上下文
短期记忆最近 N 轮内存 / Redis多轮对话连贯性
长期记忆跨会话向量数据库用户偏好、历史事实
情景记忆特定事件结构化存储「上次你说过……」
语义记忆通用知识知识图谱 / 向量「Python 是一种编程语言」

主流记忆管理工具:

工具特点适用场景
Mem0自动提取 + 存储用户记忆个人助理,需要「认识」用户
LangGraph MemoryCheckpoint + 命名空间读写LangGraph 生态内的 Agent
Zep长期记忆 + 事实提取客服、对话型 Agent

必须管理的能力:

  • TTL:记忆过期自动清除
  • 隐私:PII 脱敏,用户可要求删除
  • 写入策略:哪些信息值得记忆
  • 召回策略:如何从海量记忆中检索最相关的

L7:评测与质量层——AI 系统能否生产化的关键

L7 是整个架构中最容易被跳过、但决定项目生死的一层。

没有评测,你就是在「盲飞」——改了 Prompt、换了模型、调了 RAG 参数,不知道质量是变好了还是变坏了。

评测的三个层次:

层次时机方法
离线评测上线前Golden Set、合成数据、回归测试
在线评测运行中实时指标、用户反馈、A/B 测试
人审抽检定期人工标注、安全红队

关键评测指标:

指标衡量什么
RAG Faithfulness回答是否忠于检索到的上下文
Answer Relevance回答是否与问题相关
Context Precision检索的内容是否精准
Tool Success Rate工具调用是否成功
Agent Completion RateAgent 任务完成率
Toxicity / Bias输出是否有害或有偏见
幻觉检测是否编造了不存在的事实

评测工具:

工具核心能力
RAGASRAG 评测框架,Faithfulness / Relevance / Precision
DeepEvalLLM 输出评测,支持自定义指标
LangSmith Evaluation在线 + 离线评测一体化
自建 Golden Set最高控制力,贴合业务场景

最佳实践:发布门禁——每次 Prompt / 模型 / RAG / 工具改动,必须通过评测门禁才能上线。

L8:可观测与运营层——看见系统里发生了什么

L8 是 AI Infra 的「眼睛」——没有它,你就是在黑暗中运行 Agent。

AI 可观测性的三大支柱:

  1. Tracing(追踪):记录每次调用的完整链路
  2. Metrics(指标):Token 用量、成本、延迟、错误率
  3. Logs(日志):中间状态和输出记录

一次完整的 Trace 应包含:

  • 用户原始问题
  • 实际发送的完整 Prompt
  • Tool Calls 及参数
  • Tool Results
  • LLM 原始输出
  • 最终回复
  • Token 用量、延迟、成本

主流工具对比:

工具类型核心能力
LangSmith商业Tracing + Eval + Prompt Hub
LangFuse开源Tracing + Prompt 管理,可自建
OpenTelemetry开源标准通用追踪协议,厂商中立
Arize Phoenix开源Tracing + 模型漂移检测

OpenTelemetry 作为通用基础:

OpenTelemetry(OTel)是 CNCF 项目,提供厂商中立的 traces、metrics、logs 采集标准。许多 AI 可观测工具(LangFuse、Arize)都支持 OTel 协议,让你不被锁定在特定供应商。

四个横切能力:贯穿所有 9 层

除了纵向 9 层,还有 4 个能力必须贯穿每一层:

横切 1:安全治理

覆盖所有层的安全能力:

  • 身份认证与权限:谁能调用哪个模型、访问哪个知识库
  • 租户隔离:多租户场景下数据和计算资源隔离
  • PII / DLP:防止敏感数据泄露
  • Prompt Injection 防护:检测和阻止恶意 Prompt
  • 工具调用审批:高风险操作需人工确认
  • 审计日志:所有操作可追溯
  • 模型供应链安全:模型来源、许可证合规

横切 2:CI/CD 与发布治理

不只是代码需要版本化——AI 系统的所有组件都需要:

  • 代码:标准 CI/CD
  • Prompt:版本管理 + A/B 测试 + 审批
  • 模型:Model Registry + 灰度发布 + 回滚
  • RAG 索引:增量更新 + 版本回滚
  • 工具 Schema:变更审批 + 兼容性检查
  • Workflow:版本管理 + 断点续跑

横切 3:FinOps 成本治理

AI 系统的成本构成复杂,需要全链路计量:

  • Token 消耗(按模型、按应用、按用户)
  • GPU 计算(训练 + 推理)
  • 向量数据库存储和查询
  • Embedding / Rerank 调用
  • 日志和追踪数据留存
  • 带宽和存储

目标:每一笔成本都能归因到具体的应用、用户和任务。

横切 4:开发者体验(DevEx)

降低 AI 应用开发门槛:

  • Playground:在线调试 Prompt 和 Agent
  • Trace 回放:可视化查看每次调用的完整链路
  • Prompt 调试:对比不同版本的 Prompt 效果
  • RAG 调试:查看检索结果和注入过程
  • Eval 看板:实时监控质量指标
  • SDK / CLI:标准化开发工具
  • 模板工程:常见场景的脚手架

一次完整的 Agent 调用:穿越 9 层

看一次真实的 Agent 调用如何穿越所有层:

场景:用户问 Agent 「帮我分析这份 CSV 文件里的销售趋势」

  1. L0:请求到达 Kubernetes 集群,调度到 GPU 节点
  2. L1:LLM 网关路由到 GPT-4o(复杂分析任务),启用 KV Cache
  3. L2:Agent 从向量数据库检索 「CSV 分析最佳实践」
  4. L3:System Prompt + RAG 结果 + 用户偏好拼装成完整上下文
  5. L4:LangGraph 启动工作流——Agent 决定需要读取文件 + 执行代码
  6. L5:Agent 在 E2B 沙箱中启动 Python 环境,执行 pandas 分析代码
  7. L6:Agent 读取用户偏好(「偏好中文报告」),写入分析结果到长期记忆
  8. L7:离线评测确认分析质量达标,在线指标监控幻觉率
  9. L8:LangFuse 记录完整 Trace——Prompt、Tool Calls、Token 消耗、延迟

每一步都有日志,每一步都可追溯,每一步都有 Fallback。

这就是生产级 Agent 和 Demo 级 Agent 的区别。

技术选型路线图

阶段 1:验证期(1-2 周)

  • L1:直接 OpenAI API
  • L2:ChromaDB(嵌入式)
  • L3:Prompt 硬编码在代码中
  • L4:LangChain 简单 Chain
  • L5:本地 Docker
  • L6:简单变量存储
  • L7:人工检查输出
  • L8:print() 日志

阶段 2:原型期(1-2 月)

  • L1:LiteLLM(统一接口 + Fallback)
  • L2:Pinecone / Qdrant Cloud
  • L3:LangFuse Prompt 管理
  • L4:LangGraph / CrewAI
  • L5:E2B 沙箱
  • L6:LangGraph Memory
  • L7:RAGAS + Golden Set
  • L8:LangFuse(开源部署)

阶段 3:生产期(持续迭代)

  • L0:K8s + GPU 弹性伸缩
  • L1:自建网关 + vLLM + 智能路由
  • L2:Milvus / Qdrant 集群 + Advanced RAG
  • L3:Prompt Registry + 审批流程
  • L4:LangGraph + Temporal 持久化工作流
  • L5:E2B + Modal(GPU 任务)+ MCP
  • L6:Mem0 + 自建记忆策略
  • L7:在线评测 + 发布门禁 + 人审抽检
  • L8:OpenTelemetry + Grafana + 告警
  • 横切:安全治理、CI/CD、FinOps、DevEx 全面落地

总结:一句话定义完整 AI Infra

完整 AI Infra 不是 「模型 + LangChain + 向量库」,而是:

算力资源底座 + 模型服务与网关 + 数据 / RAG 管道 + Prompt / Context 管理 + Agent / Workflow 编排 + 工具执行沙箱 + 状态记忆系统 + 评测质量体系 + 可观测 / SRE + 安全治理 / 合规 + 成本与开发者平台。

9 层纵向架构 + 4 个横切能力,缺一不可。

Demo 只需要 L1 + L4。生产需要全部 9 层 + 4 横切。

参考资料:

  1. LangGraph 官方文档(https://langchain-ai.github.io/langgraph/)
  2. CrewAI 官方文档(https://docs.crewai.com/)
  3. Microsoft AutoGen(https://microsoft.github.io/autogen/)
  4. OpenAI Agents SDK(https://platform.openai.com/docs/guides/agents)
  5. E2B 沙箱官方文档(https://e2b.dev/docs)
  6. Mem0 记忆管理(https://docs.mem0.ai/)
  7. LangFuse 开源可观测性(https://langfuse.com/docs)
  8. OpenTelemetry GenAI 语义约定(https://opentelemetry.io/blog/2024/genai/)
  9. RAGAS RAG 评测框架(https://docs.ragas.io/)
  10. vLLM 推理引擎(https://docs.vllm.ai/)
  11. LiteLLM 统一网关(https://docs.litellm.ai/)
  12. Pinecone 向量数据库(https://docs.pinecone.io/)
  13. Qdrant 向量数据库(https://qdrant.tech/documentation/)

作者:Knock | 约 7500 字

如果觉得有用,欢迎转发给正在搭建 AI 系统的朋友。

登录查看剩余 70% 内容

热门栏目