Harness 工程
让 Agent 可靠地跑完长任务的工程方法论。以 walkinglabs《Harness Engineering》为骨架,融合一套真实项目里跑出来的实战做法。
本模块回答最后一个问题:怎么让一个 Agent 可靠地跑完一个需要很多步、跨很多次会话的长任务?
核心命题是——模型能力是常数,能不能交付是 harness 的函数。同一个模型,裸跑失败,套上完整 harness 就成功;成功率能从两成爬到接近满分,而模型一行没动。本模块以 walkinglabs《Harness Engineering》的框架为骨架,融合一套在真实项目里跑出来的实战方法论:features.json 单一事实源、STATUS + 里程碑三件套、线性切片、fixture 先于代码、4 层防御体系、上下文隔离子 agent。
讲次编排:先立靶(为什么能力强的 Agent 仍失败)→ 给定义(harness 到底是什么)→ 逐个子系统展开(仓库即事实源 / 指令拆分 / 跨会话连续 / 边界与 feature list / 端到端验证与干净交接)。
适合:要让 Agent 干真活、跑长任务的工程师和 PM——其实你正在读的这门课,本身就是用这套方法论做出来的。
讲次
为什么能力强的 Agent 仍然会失败
失败多半不在模型权重,而在权重之外那层叫 harness 的工程基础设施。
第 1 讲为什么模型一样强,效果却天差地别——Harness 才是那个变量
Harness 是模型权重之外的全部工程基础设施,五子系统是组件、四层防御是落地。
第 2 讲为什么仓库必须成为 Agent 的唯一事实源
不在仓库里的信息对 Agent 等于不存在,知识必须沉淀为文件而非散在工具里。
第 3 讲为什么一个巨型指令文件会拖垮你的 Agent
600 行的 CLAUDE.md 是自我强化的失败循环,拆成入口加分册才是解药。
第 4 讲为什么跨会话的长任务会断片
长任务必然耗尽上下文,靠初始化与持久化工件让新会话三分钟接班。
第 5 讲为什么 Agent 越界又做不完:WIP=1 与 feature list 原语
同时开多任务必全败,靠 WIP=1 加可执行验证的 feature 原语锁住边界。
第 6 讲为什么跑通端到端才算完成,且每次会话都要留干净状态
单测过≠任务完成,完成判定必须外部化跑通 E2E,并以五维清洁状态收尾对抗熵增。