01 · 先给一句人话
AI Agent 是会循环做事的 AI 系统。
普通聊天机器人回答一句话。Agent 会围绕目标反复执行:理解现状,决定下一步,调用工具,观察结果,修正计划,直到完成或请求人类接管。
02 · 拆成七层
不要把 Agent 当黑箱。它是七层工程结构。
看懂这张图,你就能判断一个“Agent 产品”到底只是套壳聊天,还是具备真正做事能力。
7 · Deployment运行环境、权限、密钥、成本、回滚。
6 · Evaluation成功标准、测试集、人工复核、可观测性。
5 · Memory短期状态、长期偏好、项目知识、检索索引。
4 · ToolsMCP、API、浏览器、文件系统、数据库、部署平台。
3 · Context任务、约束、当前文件、历史决策、领域语言。
2 · Model推理、规划、代码生成、判断不确定性。
1 · Goal要完成什么,完成证据是什么。
03 · 核心循环
Agent 的生命体征:Observe → Plan → Act → Verify。
如果没有这个闭环,它只是一次性生成器。闭环越短,Agent 越可靠;证据越强,越适合自动化。
Observe读上下文
Plan拆任务
Act调工具
Verify验结果
04 · 工具调用
工具不是插件列表,是 Agent 的手和眼睛。
模型负责判断,工具负责接触世界。MCP 的价值,是把外部系统统一成 Agent 可发现、可调用、可返回证据的 Interface。
Model
我要知道页面是否部署成功
Tool
curl / browser / Cloudflare Pages
Observation
HTTP 200、截图、日志、部署 ID
Decision
完成,或继续修复
05 · 上下文与记忆
Agent 聪明不聪明,常常取决于给它看什么。
上下文不是越多越好。好上下文像工作台:当前目标放中间,约束在旁边,长期知识可检索,过期信息及时丢掉。
06 · 可靠性
可靠 Agent 不是“不犯错”,而是错误能被发现。
把风险画出来:幻觉、权限过大、上下文污染、工具失败、目标漂移、成本爆炸。每类风险都要有对应的 guardrail 和 eval。
幻觉
权限
工具失败
成本
目标漂移
上下文污染
Eval
07 · 从零搭一个最小 Agent
最小可用,不是最小聊天框。
按这个顺序做,能避免一上来就陷入 prompt 魔法。
- 定义目标一句话说明完成状态和证据。
- 限定工具只给必须工具,先少后多。
- 设计循环Observe、Plan、Act、Verify,每步可记录。
- 加测试集正常、边界、失败、恶意输入。
- 上线观测日志、成本、成功率、人工接管。
08 · 判断清单
看到一个 Agent,问这 8 个问题。
summary
一句话收束。
AI Agent = 目标驱动 + 上下文感知 + 工具行动 + 结果验证 + 可持续运行的工程系统。