学会设计与工程化一个 AI Agent
从能力设计到生产交付,一门问题驱动的 AI Agent 工程公开课。两条主线:把 Agent 当产品来设计,把 Agent 当系统来交付。
AAgent 产品与能力设计6 讲
以 L3 五维能力为主轴,技术地基五层做底座。讲「怎么设计与评估一个 Agent」。
为什么搞懂 Agent,要先把它拆成五层来看
Agent 的能力与故障都长在 Loop / Tool / Planning / Memory / Multi-Agent 这五层地基上。
第 1 讲为什么 Agent 接到任务后,第一步不该是动手
任务完成路径是 Agent 从需求到产出的拆解与推进能力,PM 要把它设计成可观测、可埋点的维度。
第 2 讲为什么 Agent 失败不能笼统归因,必须按节点拆开
把 Agent 失败拆成输入 / 工具 / 推理 / 输出四类节点,先定位再改进。
第 3 讲为什么没有错误恢复策略的 Agent 会一错就崩
用 4+1 分类、4 问诊断 SOP 和反模式清单,讲清 Agent 出错后如何活下来。
第 4 讲为什么 Agent 的透明度不是越多越好
透明度不是一个标量,而是「对象 × 粒度 × 传达路径」的矩阵。给错对象,透明就成了负价值。
第 5 讲为什么 Agent 不会守边界就会成为危险的「瞎自信助手」
把 4 类边界 × 4 行为模式拆成可设计、可度量的边界行为体系。
BAgent 工程地基6 讲
Harness、Gateway、上下文工程、评测、框架选型。讲「怎么让 Agent 可靠地跑起来」。
为什么换更强的模型救不了你的 Agent,先修 Harness
模型是司机,Harness 是车;交付不了多半是车的问题,不是司机。
第 1 讲为什么管不好上下文窗口,再聪明的 Agent 也会变蠢
上下文是 Agent 最稀缺的资源,用七维透镜和构成审计把它当系统来工程化。
第 2 讲为什么 Agent 上了生产,先崩的不是模型而是那层管道
Agent Gateway:接入、路由、持久化、可靠投递、并发,让 Agent 真正活在生产环境。
第 3 讲为什么 Agent 框架要按需求选,而不是默认上 LangGraph
用决策树和取舍表讲清 LangGraph / Checkpoint / Map-Reduce / Multi-Agent 何时该上、何时别上。
第 4 讲为什么没有评测体系的 Agent 只能靠拍脑袋迭代
讲透 Agent 评测维度、测试集构建、输入质量分级路由与模型路由选型四件套。
第 5 讲为什么多 Agent 平台不能一步到位,而要分四阶段长出来
从单 Agent 到多 Agent 平台的四阶段演进,及交接、共享、聚合三类新成本。
CHarness 工程7 讲
让 Agent 可靠地跑完长任务的工程方法论。以 walkinglabs《Harness Engineering》为骨架,融合一套真实项目里跑出来的实战做法。
为什么能力强的 Agent 仍然会失败
失败多半不在模型权重,而在权重之外那层叫 harness 的工程基础设施。
第 1 讲为什么模型一样强,效果却天差地别——Harness 才是那个变量
Harness 是模型权重之外的全部工程基础设施,五子系统是组件、四层防御是落地。
第 2 讲为什么仓库必须成为 Agent 的唯一事实源
不在仓库里的信息对 Agent 等于不存在,知识必须沉淀为文件而非散在工具里。
第 3 讲为什么一个巨型指令文件会拖垮你的 Agent
600 行的 CLAUDE.md 是自我强化的失败循环,拆成入口加分册才是解药。
第 4 讲为什么跨会话的长任务会断片
长任务必然耗尽上下文,靠初始化与持久化工件让新会话三分钟接班。
第 5 讲为什么 Agent 越界又做不完:WIP=1 与 feature list 原语
同时开多任务必全败,靠 WIP=1 加可执行验证的 feature 原语锁住边界。
第 6 讲为什么跑通端到端才算完成,且每次会话都要留干净状态
单测过≠任务完成,完成判定必须外部化跑通 E2E,并以五维清洁状态收尾对抗熵增。
DAgent 设计模式(21 式)5 讲
Google《Agentic Design Patterns》21 个核心模式的中文精炼。一本「遇到这类问题用哪个套路」的模式食谱,补全前三个模块的盲区。
21 个 Agent 设计模式的全景地图
把 Google《Agentic Design Patterns》的 21 个模式一次铺开、归成 6 组,并标注本课讲过没。
第 1 讲反思与推理:让 Agent 回头改一遍、也想得更深
一遍过会错而不自知,反思带批评定向改,推理把思考显式化想得更深。
第 2 讲学习与适应 + RAG:让 Agent 不再每次从零,也不再瞎编
学习让 Agent 从反馈中改进策略,RAG 让它接上你的私有知识——都在上下文层做文章。
第 3 讲智能体间通信(A2A):当 Agent 开始互相说话,话会变形
多 Agent 协作的真正难点不是分工,而是它们之间怎么传话不失真。
第 4 讲优先级排序 + 探索发现:先做哪个,与如何不只走老路
优先级解决「先做哪个」,探索解决「敢不敢走没走过的路」——Module D 收官。
EContext Engineering 上下文工程7 讲
模型每轮实际看到的上下文怎么拼、怎么省、怎么验。以 7 层次为主轴,把 CE 从「读过方法论」练成「能拆、能埋点、能算账」。
为什么模型这一轮看到的,从来不是你写的那段 prompt
模型每轮收到的上下文,是框架替你拼出来的一整坨;先让七层 100% 可见,才谈得上优化。
第 1 讲为什么你读到的那份 prompt 文件,常常不是模型真正收到的 system
一条 system message 往往由多源拼成;规则该写文件还是写代码,看作用域、优先级、健壮性三连。
第 2 讲为什么模型这一轮的输出,不该让它「既要念又要解析」
一段输出该说人话还是吐 JSON,唯一判据是「给谁消费」;工具该 eager 还是 deferred,看延迟红线乘以 tool 数量。
第 3 讲为什么记忆「注进去了」,模型却用错了
记忆该不该注、注多少、注错了怎么办——七维透镜做决策,三层分工避免重复灌,相反本能让你别把记忆当圣旨。
第 4 讲为什么对话历史会在你看不见的地方悄悄涨到爆
对话历史每轮在悄悄变长,多半是框架替你托管的,代码里看不见——只有实测增长曲线才照得出它离上限多远。
第 5 讲为什么静态前缀打了 cache 标记,还是每轮重新付费
cache 是前缀逐字节匹配,差一字节后面全废;打标记不等于缓存,先数 token 过没过模型阈值。
第 6 讲为什么你说的「优化生效了」,不拿日志根本没人信
cache 命中、上下文瘦身、压缩生效——每一句声称都得能用 usage 日志还原;没观测的优化只是玄学。
例实战示例3 篇
用框架拆解真实 Agent 产品