C

Harness 工程

让 Agent 可靠地跑完长任务的工程方法论。以 walkinglabs《Harness Engineering》为骨架,融合一套真实项目里跑出来的实战做法。

本模块回答最后一个问题:怎么让一个 Agent 可靠地跑完一个需要很多步、跨很多次会话的长任务?

核心命题是——模型能力是常数,能不能交付是 harness 的函数。同一个模型,裸跑失败,套上完整 harness 就成功;成功率能从两成爬到接近满分,而模型一行没动。本模块以 walkinglabs《Harness Engineering》的框架为骨架,融合一套在真实项目里跑出来的实战方法论:features.json 单一事实源、STATUS + 里程碑三件套、线性切片、fixture 先于代码、4 层防御体系、上下文隔离子 agent。

讲次编排:先立靶(为什么能力强的 Agent 仍失败)→ 给定义(harness 到底是什么)→ 逐个子系统展开(仓库即事实源 / 指令拆分 / 跨会话连续 / 边界与 feature list / 端到端验证与干净交接)。

适合:要让 Agent 干真活、跑长任务的工程师和 PM——其实你正在读的这门课,本身就是用这套方法论做出来的。

讲次