Harness 工程

让 Agent 可靠地跑完长任务的工程方法论。以 walkinglabs《Harness Engineering》为骨架，融合一套真实项目里跑出来的实战做法。

本模块回答最后一个问题：怎么让一个 Agent 可靠地跑完一个需要很多步、跨很多次会话的长任务？

核心命题是——模型能力是常数，能不能交付是 harness 的函数。同一个模型，裸跑失败，套上完整 harness 就成功；成功率能从两成爬到接近满分，而模型一行没动。本模块以 walkinglabs《Harness Engineering》的框架为骨架，融合一套在真实项目里跑出来的实战方法论：features.json 单一事实源、STATUS + 里程碑三件套、线性切片、fixture 先于代码、4 层防御体系、上下文隔离子 agent。

讲次编排：先立靶（为什么能力强的 Agent 仍失败）→ 给定义（harness 到底是什么）→ 逐个子系统展开（仓库即事实源 / 指令拆分 / 跨会话连续 / 边界与 feature list / 端到端验证与干净交接）。

适合：要让 Agent 干真活、跑长任务的工程师和 PM——其实你正在读的这门课，本身就是用这套方法论做出来的。

篇目

C · 0 Harness · 第 0 篇

Harness 工程

篇目

为什么能力强的 Agent 仍然会失败

为什么模型一样强，效果却天差地别——Harness 才是那个变量

为什么仓库必须成为 Agent 的唯一事实源

为什么一个巨型指令文件会拖垮你的 Agent

为什么跨会话的长任务会断片

为什么 Agent 越界又做不完：WIP=1 与 feature list 原语

为什么跑通端到端才算完成，且每次会话都要留干净状态

为什么多 Agent 编排要写成脚本，而不是让模型自由发挥