鸟窝

代码在发臭：一个能"闻"出坏味道的 AI 技能，我拿它扫了最新的开源代码

2026-07-04T08:08:14.000Z

「任何傻瓜都能写出计算机能懂的代码。好的程序员写出人能懂的代码。」——Martin Fowler

你有没有过这种感觉：打开一个文件，还没读懂逻辑，先皱起了眉头。说不上哪儿错了，但就是觉得"不对劲"。

这种"不对劲",有个专门的名字——代码坏味道（Code Smell）。

它不是 bug，代码跑得好好的；它也不是编译错误，测试全绿。它只是一种表面的征兆，暗示底下可能藏着更深的问题。就像厨房里飘来一丝馊味，东西还没坏透，但你知道该去冰箱里翻一翻了。

这篇文章讲三件事：这个词是怎么来的、坏味道到底有哪几类、以及——我怎么用一个 AI 技能，把一个真实开源项目的核心代码"闻"了个遍。

一、一个厨房比喻，是怎么变成行业术语的

"代码坏味道"这个词，比很多人想的要年轻。

它的源头是 1990 年代末的 WardsWiki（c2.com，程序员圈最早的维基之一）。Kent Beck——极限编程和 JUnit 的作者——在帮 Martin Fowler 写《重构》这本书时，随口造了这个词。Fowler 自己在博客里写得很直白：

「A code smell is a surface indication that usually corresponds to a deeper problem in the system. The term was first coined by Kent Beck while helping me with my Refactoring book.」
（坏味道是系统表面的一个信号，往往对应着更深层的问题。这个词是 Kent Beck 帮我写《重构》时造的。）

有意思的是，据 c2 wiki 的记载，Beck 造这个词时的灵感，部分来自同事 Massimo Arnoldi 的"鼻子"——一种对烂代码的直觉嗅觉。

真正让这个词火遍全球的，是 1999 年出版的《Refactoring: Improving the Design of Existing Code》。Fowler 在书里专门用一章（和 Beck 合写）罗列了一份"坏味道目录"，并给每种味道配了对应的"重构手法"。从此，"我觉得这段代码有点臭"这种模糊的工程师直觉，第一次有了可以命名、可以分类、可以按方子治疗的框架。

为什么这个比喻能活到今天？因为它精准地抓住了一个工程真相：

坏味道 ≠ 错误。 有味道的代码照样能上线、能赚钱。
坏味道是概率信号，不是判决。 闻到味道，你该去查，但查完可能发现没事。
味道会累积。 单个坏味道无所谓，一屋子坏味道，就是所谓的"技术债"和"大泥球"。

二十多年后的今天，这个概念比 1999 年更重要了。因为写代码的，多了一位新玩家——AI。AI 生成代码的速度是人的几十倍，坏味道的产量也跟着水涨船高。"闻味道"这件事，从一门手艺，正在变成一道必须自动化的工序。

二、坏味道的家谱：从 Fowler 的 22 种，到今天的 8 大类 50+

Fowler 的原始目录里有 22 种坏味道，refactoring.guru 后来把它们整理成经典的五大类。这套分类是所有后来者的地基，先看它：

类别	坏味道	主要重构手法
臃肿类（Bloaters）	过长方法、过大的类、基本类型偏执、过长参数列表、数据泥团	Extract Method / Extract Class / Introduce Parameter Object
OO 滥用类	Switch 语句、临时字段、被拒绝的遗赠、异曲同工的类	Replace Conditional with Polymorphism / Replace Inheritance with Delegation
变更阻碍类	发散式变化、霰弹式修改、平行继承体系	Extract Class / Move Method
冗余类（Dispensables）	注释（本该自说明）、重复代码、冗赘类、纯数据类、死代码、夸夸其谈未来性	Extract Method / Inline Class / 直接删除
耦合类（Couplers）	依恋情节、狎昵关系、消息链、中间人	Move Method / Hide Delegate / Remove Middle Man

这五类的核心逻辑是「症状 → 处方」：你先嗅到一个症状（比如"过长方法"），目录再告诉你该用哪几种手法去治。这套映射关系明确、能机械执行——而"能机械执行"这四个字，恰恰是 AI Agent 能接得住的地方。

但 Fowler 的目录写于 2000 年，它盯的都是函数和类这个尺度的问题。今天的软件更复杂，坏味道也长出了新的分支。我用的这个 smell 技能，把视野往上抬了一层，也往下探了一层，整理成 8 大类、50+ 种：

类别	代表坏味道
架构	大泥球、分布式单体、贫血模型、CQRS 滥用、层边界违反、过度分层、过度抽象、"未来主义"架构
耦合	循环依赖、内容耦合、公共耦合（全局状态）、印记耦合
内聚	上帝对象、霰弹式修改、依恋情结、数据泥团、发散式变化
设计	抽象泄露、静态粘连、服务定位器滥用、SOLID 违反、Switch 类型分支
代码	重复代码、长方法、基本类型偏执、魔数魔串、死代码、深层嵌套（箭头反模式）
测试	零测试覆盖、测试-实现耦合、不稳定测试
命名	模糊命名（Manager/Helper/Util 满天飞）、命名不一致
复杂度	嵌套循环 O(n²)、N+1 查询、重复线性扫描、循环内排序、渲染重复计算、数据结构选错
注意最后两类——「测试」和「复杂度」是 Fowler 原目录里没有的。它们为什么被加进来？因为这正是 AI 时代新暴露的坑：

AI 生成的代码，经常零测试覆盖——它写得又快又像模像样，但一行测试没有。
AI 也经常埋下 N+1 查询、循环内排序这类"低速炸弹"——小数据量下一切正常，一上量就爆炸，代码评审时一眼还看不出来。

换句话说，坏味道的家谱一直在生长。从 Kent Beck 的一个厨房比喻，到 Fowler 的 22 种，再到今天覆盖架构与性能的 50+ 种——每一次扩张，都是软件复杂度提升后，工程界给自己补的一课。

三、把"嗅觉"装进 Agent：`/smell` 技能是怎么工作的

概念讲完了，来看工具。/smell 是一个可以直接在命令行 AI Agent（Claude Code / Ducc 这类）里调用的技能，一句话概括它的定位：

/smell 负责诊断，/refactor 负责治疗。一个出报告排优先级，一个照 Fowler 手法一处处动手术。

面对一个 AI 攒出来的几万行代码库，最难的往往不是"怎么改"，而是**"先改哪"**。哪个模块烂得最厉害？是架构错了，还是只有某个函数太长？/smell 回答的就是这个问题。

它的工作流分四步：

1. 确定范围。 全项目扫、还是只扫某个模块、还是只看 git diff 的最近改动。大项目默认只扫改动，小项目全量扫。

2. 并行取证。 派出多个 Explore 子 Agent，用 find / grep 同时跑七类扫描：项目结构、依赖关系、模块内聚、模式识别、测试覆盖、命名清晰度、复杂度热点。技能内置了一整套检测启发式规则，比如：

单文件 > 500 行、公共方法 > 20 个 → 疑似上帝对象
循环体里出现 fetch/query/exec → 疑似 N+1 查询
循环里用 .includes()/.indexOf() 做查找 → 重复线性扫描，本该用 Set/Map
满屏的 Manager/Helper/Util → 模糊命名

3. 生成结构化报告。 不是简单列问题，而是产出一份带优先级的 Markdown：

执行摘要 + 整体健康评估
检测到的架构风格，对比它"本该是"的样子
按 🔴 严重 / 🟡 警告 / 🔵 建议三级分类的发现
依赖图分析 + 模块健康评分卡
8 大类坏味道的分布统计
一份分「立即 / 短期 / 长期」的重构路线图

4. 落盘 + 汇报。 报告存到 tasks/smell-report-[时间戳].md，同时给你一份口头摘要。

最有价值的是那份路线图。它把"这代码是不是该重构了"这种主观焦虑，变成了可量化的行动清单：先动哪、后动哪，一目了然。改完再跑一遍，健康评分涨了没有，前后一对比就知道这次重构有没有白干。

安装也简单：

1	npx skills add smallnest/goal-workflow --skill smell

然后直接打 /smell，或者用自然语言触发：「找出代码坏味道」「检测架构反模式」「分析代码复杂度」。

四、实战：我用 `/smell` 扫了 `Gitlawb/zero` 这个开源项目

光说不练假把式。我挑了一个真实的开源项目下手：Gitlawb/zero——一个用 Go 写的终端 AI 编程 Agent（"A terminal coding agent you own"），支持 25+ 家模型提供商，代码量不小。它昨天刚发布，比较适合用来学习。

先上体检数据：

项目：Gitlawb/zero
语言：Go 1.25（toolchain 1.26）
Go 文件总数：974
代码总行数：~25 万行
测试文件：500 个  |  非测试文件：474 个

代码量非常的大，我先用它分析核心的agent的代码，下面是分析结果的总结：

🟢 先说好的：这项目"体质"其实不错

扫完第一个惊喜是——测试文件（500）比源码文件（474）还多。测试-代码比超过 1:1，这在开源项目里相当罕见。对照 /smell 的「测试」类坏味道（零测试覆盖、测试-实现耦合），zero 在这一维度上健康度很高。

第二个惊喜：全项目只有 1 处 TODO/FIXME 注释。"注释当除臭剂"（用 TODO 掩盖烂代码）这个坏味道，在这里基本不存在。目录结构也清晰——cmd/ 放入口、internal/ 按职责分了 60+ 个子包，不是"大泥球"。

🔴 但也闻到了明确的坏味道

1. 上帝对象（God Object）—— 🔴 严重

最刺鼻的一处：internal/tui/model.go，4657 行，单个 Model 结构体扛着 173 个字段、111 个方法。

对照 smell 技能的启发式（> 500 行、> 20 个公共方法即疑似上帝对象），这个文件超标了 9 倍。它是典型的 TUI "全知全能对象"——把整个终端界面的所有状态、所有行为都塞进了一个结构体。

违反原则：单一职责（SRP）
处方：Extract Class——把 173 个字段按关注点分组（会话状态、渲染状态、输入状态、模型选择……），拆成若干个内聚的小结构体，Model 只做组合。

2. 长文件扎堆 —— 🟡 警告

除了那个 4657 行的巨无霸，超过 800 行的源文件还有 23 个，重灾区集中在 internal/tui/ 和 internal/agent/：

4657  internal/tui/model.go       ← 上帝对象
2736  internal/agent/loop.go      ← Agent 主循环，84 个函数
2493  internal/tui/rendering.go
1709  internal/tui/onboarding.go
1693  internal/tui/provider_wizard.go
...

internal/agent/loop.go（2736 行 / 84 个函数）是 Agent 的核心循环，长度可以理解，但也值得警惕发散式变化——一个文件因为太多不同原因被反复修改。

3. 潜在复杂度热点 —— 🔵 建议（需人工确认）

启发式扫描发现：

307 处"循环内做线性查找"的疑似点（for range 内出现 strings.Contains/slices.Contains/.Index()）
63 处"循环内排序"疑似点

这两个数字需要辩证看——/smell 技能本身也强调 "What NOT to Flag"：如果这些循环跑在冷路径（启动、配置加载）或数据量极小（N < 100），就是可读性优先的合理取舍，不值得改。但如果落在热路径（比如每次渲染、每个 token 都跑一遍），那就是实打实的性能坑，该换 Set/Map 或把排序提到循环外。这一步机器只能标记，真正的判断得人来做。

📋 给 zero 的重构路线图

/smell 的收尾，是把发现整理成一份可执行的路线图：

立即可做：拆分 tui/model.go 这个 4657 行的上帝对象——收益最高、风险可控（有 500 个测试兜底）。
短期（1-3 月）：审查 23 个超长文件里的 tui/ 一组，按关注点做 Extract Class。
长期：给 307 处线性扫描 + 63 处循环内排序做一次热路径分析，确认哪些真在性能关键路径上，针对性优化数据结构。

整体健康评估：🟡 良好偏上。 架构清晰、测试充分、几乎无死代码，这是它的底子；主要问题集中在 TUI 层的"上帝对象"和长文件——这也是 TUI 类项目的通病，状态多、交互密，天然容易膨胀。

/smell技能除了生成总结外，还会生成一个详细的分析报告：

写在最后

从 Kent Beck 1990 年代末的一个厨房比喻，到 Fowler 的 22 种坏味道目录，再到今天覆盖架构与性能的 50+ 种、并且能被 AI Agent 自动扫描的技能——"闻代码"这件事，走过了从直觉、到方法论、到自动化的完整二十年。

AI 让写代码变快了，但也让坏味道产量暴增。这时候，一个能自动"闻味道、排优先级、给路线图"的工具，价值不在于它多聪明，而在于它把"这代码是不是该收拾了"这个含糊的焦虑，变成了一份你今天下午就能动手的清单。

代码必须变干净——而变干净的第一步，是先知道它哪儿臭了。

Sources / 参考资料：

Code Smell — Martin Fowler
Code smell — Wikipedia
CodeSmell — c2 WardsWiki
《Refactoring: Improving the Design of Existing Code》, Martin Fowler & Kent Beck, 1999
refactoring.guru 坏味道与重构手法目录
《AI时代的软件工程》第 23 章「重构：AI 时代的代码进化」
smell 技能：https://github.com/smallnest/goal-workflow
分析对象：https://github.com/Gitlawb/zero

百度网络监控工具开源第四弹：evr — 构造 VXLAN 探测

2026-06-30T15:15:45.000Z

这是百度网络监控工具 nettools 开源系列的第四篇。前三篇分别介绍了 bitflip/baize（UDP 丢包与改包检测工具和Agent）、lidar（TCP SYN 端口可达性探测），它们解决的都是「服务器之间」「点到点」的探测问题——前提是：探测机和被探测对象，至少有一端在我们手里。

但有一类设备，我们既无法在它上面装 agent，也没法在它对面的机房里放一台探测机。这就是今天的主角 evr 要解决的困境。

这也是我更深入的了解网络包的构造，把网络探测玩出花了来，对我的网络编程的功力大增的一个很好的场景。

项目地址：https://github.com/baidu/nettools
文档：https://nettools.rpcx.io

一、evr 探测的困境：探测机进不去客户机房

先说一个真实的场景。

百度有大量的云客户，我们提供的 EVR（Edge Virtual Router，边缘虚拟路由器） 设备作为客户侧网络接入百度云网络的边界节点。EVR 往上连百度的骨干/城域网络，往下连客户自己的虚拟网络（VXLAN overlay）。

EVR - 边缘虚拟路由器，通常用于在虚拟化环境中实现路由功能。EVR 位于网络的边缘，用于连接内部网络和外部网络（如客户机房）。

现在问题来了：我们需要监控「百度网络 → EVR」这一段链路的健康度——有没有丢包、延迟多大、有没有改包。按照前几个工具的套路，我们的方案应该是：

在 EVR 设备上装个 agent？—— 不行。EVR 是网络设备/客户侧设备，我们没有权限往里塞监控程序。
在 EVR 对面（客户机房内）放一台探测机，做点到点探测？—— 更不行。那是客户的机房，正常情况我们不可能在客户的物理环境里申请一台探测机常驻。

lidar 那一套「发 SYN，靠对端内核 TCP 协议栈自动回 SYN-ACK/RST」的思路，在这里也不灵——EVR 不是一台服务器，它不会帮你跑 TCP 协议栈三次握手，或者说不允许我们高频的探测。

   百度侧                          边缘设备
┌──────────┐                  ┌──────────────────────┐
│  探测机   │ ───── ??? ─────► │   EVR 设备            │
│ (我们的)  │                  │   (装不了 agent)      │
└──────────┘                  │   对面也放不了探测机    │
                              └──────────────────────┘

困境的本质是：被探测对象不可控，且它对面也无法部署探测机。 我们需要一个 「单边」 就能完成的探测方案——只在百度侧放一台机器，让 EVR 设备自己「帮我们把包送回来」。

答案藏在 EVR 设备的工作原理里：它是一个 VXLAN VTEP（VXLAN Tunnel End Point）。而 VTEP 有一个非常好用的特性——它会忠实地按照内层 IP 头转发解封后的内层帧。这就给了我们「构造一个会被反射回来的 VXLAN 包」的可能。

要理解这个技巧，得先看懂 VXLAN 的包结构。

二、VXLAN：把二层帧塞进 UDP 里

VXLAN（Virtual Extensible LAN，RFC 7348）是数据中心 overlay 网络的事实标准。它要解决的核心问题是：传统 VLAN 只有 12 位 VLAN ID，最多 4096 个二层网络，在大规模多租户云环境里完全不够用。

VXLAN 的做法简单粗暴又有效：把一个完整的二层以太网帧，整个塞进一个 UDP 数据报里，通过三层网络传输。这样原本受限于物理二层域的网络，可以跨越任意三层网络延展，VNI（VXLAN Network Identifier）有 24 位，支持约 1600 万个 overlay 网络。

它的包结构从外到内是这样的：

一层层拆开看：

层	大小	关键字段	作用
外层 Ethernet	14 B	物理 MAC	underlay 二层转发
外层 IP	20 B	src / dst IP	underlay 三层路由（VTEP 之间）
外层 UDP	8 B	dport = 4789	VXLAN 标准端口，VTEP 据此识别
VXLAN header	8 B	flags + VNI(24 位)	标识 overlay 网络
内层 Ethernet	14 B	租户 MAC	被封装的原始二层帧开始
内层 IP	20 B	内层 src / dst	overlay 里的真实通信地址
内层 UDP/TCP	8 B	内层端口	租户的真实流量
Payload	N B	业务数据	原始负载
其中 8 字节的 VXLAN header 结构是：

 0                   1                   2                   3
 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
|R|R|R|R|I|R|R|R|            Reserved                           |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
|                VXLAN Network Identifier (VNI) |   Reserved    |
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

I 位（第 5 位）置 1 表示 VNI 有效，剩下的 24 位就是 VNI。

VTEP 的工作模型：它从外层 UDP/4789 收到一个 VXLAN 包，剥掉外层 Eth/IP/UDP 和 VXLAN header，拿到内层的原始以太网帧，然后按内层 IP 头继续转发。

注意最后这句话——「按内层 IP 头继续转发」。这就是 evr 整个设计的命门所在：如果我把内层 dst IP 填成我自己，VTEP 解封后不就把包转回给我了吗？

三、evr 工具：让 EVR 自己把包反射回来

实现原理：自环内层帧 + payload 内嵌 EVR 源 IP

evr 的核心是一个反直觉但极其精简的设计——「自环内层帧」。

先看一个绕不开的硬约束：VTEP 是按内层 IP 头转发解封后的帧的。所以要让反射的包能回到探测机，内层 dst IP 就必须填探测机本机——填别的地址，包就被转到别处去了，根本回不来。这一点没得选。

真正有选择空间的是内层 src IP。最「自然」的想法是：把每个目标 EVR 的源 IP 填进内层 src IP，回包时靠这个 src IP 区分「是哪个目标反射回来的」。多目标时，本机收到一堆 dst=本机、src=各个 EVR 的回包，按 src IP 分流即可。

但 evr 偏偏没这么做——它把内层 src IP 也填成了本机（src = dst = 本机，自环）。这样一来，那个本可用来标识目标的内层 src IP 就被「浪费」掉了，回包里全是 src=本机, dst=本机，彼此长得一模一样，没法区分目标了。

那为什么要主动放弃这个天然的标识位？这里其实有一个技巧：
当出现故障的时候，我们要使用traceroute的功能，通过设置TTL，回获取内层的回包经过的路径。通过设置src IP为探测机的IP,我们就能够让ICMP的回包发送给探测机，这样就可以把回程的路径都探测出来了。

evr 的三招合起来是这样：

第一招：内层 src IP 和 dst IP 都填探测机的本机地址。

// agent.go：内层 src == 内层 dst == 本机 IP
inner, err := codec.EncodeVxlanInner(a.conf.VNI, a.conf.SrcMAC, a.conf.DstMAC,
    p.innerDstIP, p.innerDstIP, // inner src == inner dst == local IP
    newPort, a.conf.InnerDstPort, uint8(a.conf.TOS), a.conf.TTL, payload)

EVR 解封 VXLAN 后看到内层 dst = 本机，自然就把内层帧转回本机。本机的 raw socket 直接收到回包，不需要在对端起任何 server，也不需要单独申请回包用的 IP/端口。

第二招：把「真正的目标标识」嵌进 payload。

既然内层 src/dst 都被占用成本机了，那「这个包是探测哪个 EVR 的」靠什么区分？答案是把目标 EVR 的IP 写进 payload 的第 24~28 字节：

// codec/packet.go：EVRCHECK 协议头
// 偏移 0   : magic "EVRCHECK" (8B)，校验合法报文
// 偏移 8   : seq    (8B)  业务序列号，原子自增
// 偏移 16  : ts     (8B)  发送时间戳（纳秒）
// 偏移 24  : evrIP  (4B)  EVR 源 IP —— 回包据此映射回 target
// 偏移 28+ : salt        Salt 填充，用于 bitflip 检测

回包时解析 payload 里的这 4 字节，一步定位回目标：

1
2
3

// agent.go：handlePacket 收到回包
seq, ts, evrIP := codec.DecodeWithSrcIP(payload)
p := a.peerByEVRSrc[evrIP.String()]   // 直接 O(1) 定位 target

本质上，evr 把「目标标识」从 IP 头搬到了 payload 里，让 EVR 的 VXLAN 反射动作天然变成一次「单源对多目标」的回包匹配。代价仅仅是 4 字节 payload + 解析时多读 4 字节。

第三招：外层源 IP 可以 spoof。

evr 用 ipv4.NewRawConn 包了一层（等价于开启 IP_HDRINCL），让内核不再自己生成外层 IP 头，而是原样发出我们手工拼好的外层 IPv4 头。这样外层 src IP 可以填成 mock_src——一个虚假的IP地址。当然这个功能是可选的。

这有什么好处呢？
为了在Evr上识别出来探测包，我们其实是在Evr中做了一些特殊的配置的，使用和客户不同的VNI,识别出『探测机』的源IP,有不同的路由策略。但这也带来的一个问题：如果探测机有故障，需要切换探测机的时候，需要在Evr上改配置。
为线上的网络设备修改配置流程上很复杂，需要评审改配方案、需要等待变更窗口，需要在凌晨的时候操作等。所以不能及时的更改探测机。但是如果我们使用mockIP,那么就可以分分钟的把探测切到新的探测机上，不需要修改Evr的配置。这也是我们的一个技巧。

完整的一发一收流程：

   发送侧                                  回程侧
┌────────────────────────────┐       ┌────────────────────────────┐
│ 外层 IP : mock_src → vtepIP │       │ 内层 dst = 本机             │
│ 外层 UDP: srcPort  → 4789   │ 反射  │   ↓ 本机 raw socket 收到     │
│  ┌ VXLAN(VNI) ───────────┐ │ ────► │ 解析 payload[24:28]         │
│  │ 内层 ETH/IPv4/UDP      │ │      │   得到 EVR 源 IP             │
│  │ src=本机, dst=本机      │ │      │ peerByEVRSrc[ip] → target   │
│  │ payload: ...+EVR srcIP│ │       │   累加 stat（丢包/延迟/翻转）  │
│  └───────────────────────┘ │       └────────────────────────────┘
└────────────────────────────┘

整个过程只在百度侧部署一台 evr，EVR 设备本身充当了反射器——困境破解。

使用方法

evr 由 JSON 配置驱动，每个 target 用 vtep#evrSrc[#mockSrc] 三段式表达：

{
  "id": "evr-probe-1",
  "client_addr": "203.0.113.10",
  "targets": "198.51.100.96#192.0.2.1#203.0.113.99,198.51.100.97#192.0.2.2#203.0.113.99",
  "vni": 15990000,
  "tos": 64,
  "ttl": 64,
  "client_port_range": "63000,63999",
  "rate_in_span": 2000,
  "span": "1s",
  "delay": "5s",
  "msg_len": 1024,
  "log_dir": "./log",
  "log_max_age_days": 3
}

三段式的含义：

段	必填	含义
`vtepIP`	是	EVR VTEP 的 IP（外层目的地址）
`evrSrcIP`	是	「目标」标识，嵌入 payload 用于回包匹配
`mockSrcIP`	否	外层源 IP；为空则用 `client_addr`
启动：

# 配置文件启动（推荐，线上用 systemd 以 root 拉起）
sudo ./evr -c /etc/evr/evr.json

# 临时排查，全用命令行参数
sudo ./evr \
  --client-addr 203.0.113.10 \
  --targets 198.51.100.96#192.0.2.1#203.0.113.99 \
  --rate-in-span 2000 --span 1s --msg-len 1024

# CLI 参数会覆盖配置文件里的同名字段（pflag.Visit 模式）
sudo ./evr -c /etc/evr/evr.json --rate-in-span 5000 --verbose

evr 需要 sudo（或 CAP_NET_RAW）来创建 raw socket、启用 IP_HDRINCL、设置 IP TOS 并挂载 BPF。它仅在 Linux 上有意义，macOS 只能用于编译开发。

四、evr 中的技巧与高频 FAQ

evr 看似简单，但藏了几个值得拿出来单独说的工程技巧。

技巧 1：BPF 内核层过滤，别让无关 UDP 流量打扰

读 socket 用的是 ip4:udp raw socket，它默认会收到本机所有 UDP 报文。在万兆网卡、几十万 pps 的探测机上，内核把海量无关包拷到用户态，性能直接崩。

解法是在内核层用 cBPF 过滤，只放行三个条件同时命中的包：

1
2
3

(1) IPv4 协议号 = UDP (17)
(2) IPv4 TOS    = cfg.tos
(3) UDP 目的端口 = inner_dst_port (默认 8972)

只有这三条都满足才投递到用户态，几乎零开销。而写 socket 上则反过来装一个「全丢」的 BPF——阻止内核给这个发送 socket 排队任何回包。

技巧 2：源端口轮转覆盖 ECMP 多路径

和 bitflip/lidar 一样，evr 也面临多路径覆盖问题。两个固定地址之间，五元组固定则 ECMP 哈希结果不变，永远只走一条链路。evr 通过 client_port_range 配置一段源端口，每发一轮就让 srcPort + 1，在统计意义上覆盖 ECMP 哈希全空间。

技巧 3：4 种 Salt 模式抓 bitflip

payload 第 28 字节往后是 Salt 填充，按 seq % 4 在四种模式间轮换，专门用来检测链路上的位翻转：

0xFF 全 1 —— 暴露任何「1 变 0」的翻转
0x00 全 0 —— 暴露任何「0 变 1」的翻转
0x5A 交替位 (01011010) —— 适配 NIC 串行链路的奇偶错误
互补 0xAAAA / 0x5555 —— 专治 1's complement 校验和漏检的「互补翻转」，这是普通 UDP/TCP checksum 唯一无法察觉的一类 bitflip

回包时如果 payload 长度等于发送长度，就和对应 Salt 比对，命中差异即记一条 [client bitflip] 日志。这套 Salt 实现与 baize/kuiniu 完全共用。

高频 FAQ

Q：mock_src 是怎么生效的？内核为什么不会把它改回去？
evr 在写端用 ipv4.NewRawConn(conn) 包了一层，等价于开启 IP_HDRINCL。开启后内核不再生成自己的 IP 头，而是原样发出我们手工拼的外层 IPv4 头，其中 src 就是 mock_src。如果不包这一层，内核会前置一份自己的 IP 头，导致双层 IP 封装且 mock_src 失效。

Q：rate_in_span 是单 target 速率还是总速率？
是所有 target 的总速率。比如 12 个 target、rate_in_span=2000/s，每个 target 平均只有约 166 pps。要提高单 target 速率，就减少 target 数量或调大 rate_in_span。

Q：为什么内层 src 和 dst 都填本机 IP？
这样 EVR 反射回来的内层帧 dst 就是本机，本机 raw socket 直接收得到，无需在对端起 server、无需单独申请回包 IP。这是 evr 破解「对面进不去」困境的核心招式。src IP也填写本机IP是为了定位的时候traceroute的需要。

Q：为什么 evr 必须用 sudo？
需要创建 ip4:udp raw socket、启用 IP_HDRINCL、设置 IP TOS/DSCP 并挂载 BPF。Linux 上需要 CAP_NET_RAW，最简单就是 sudo 或 systemd 以 root 启动。

Q：和 baize / kuiniu 怎么选？
普通业务网络长期监控用 baize；AI 训练的 GPU NIC 互联（RoCE）用 kuiniu；机房 VXLAN/EVR 路径与 EVR 设备本身的探测用 evr——关键区别是 evr 不需要在对端起 server，EVR 设备本身就是反射器。

evr 把一个看似无解的困境——「探测机进不去客户机房，被探测设备又装不了 agent」——通过对 VXLAN VTEP 反射特性的巧妙利用，变成了一个单边即可完成的探测。这背后是同一套技术栈在不同网络场景下的复用：raw socket 构造报文、BPF 内核过滤、源端口轮转覆盖 ECMP、Salt 检测 bitflip、时间桶统计。

这只是 nettools 的冰山一角。后续还有网关设备监控、定位工具，以及巨量监控数据的处理方案。

项目地址：https://github.com/baidu/nettools

欢迎 Star、试用、提 Issue 和 PR。

我把775篇收藏塞进4MB向量库：一个比Karpathy Wiki更能"翻箱底"的RAG skill

2026-06-29T14:25:37.000Z

我把 775 篇收藏的文章塞进一个 4MB 的向量库，然后问它："我都收藏过哪些关于 loop engineering 的资料？"三秒钟，它把散在六七篇文章里的观点拼成一段答案，每条都带出处。

这不是什么 SaaS 产品，是我自己写的一个 skill，叫 chao-rag-wiki。今天聊聊它，顺便聊聊它背后那个问题：知识库越攒越大，你到底怎么"读"它?

得先从 Karpathy 的一个想法说起。

一、Karpathy 的"LLM Wiki"：让 AI 替你维护知识库

起点是 Andrej Karpathy 抛出的一句话：

"The LLM writes and maintains the wiki; the human reads and asks questions."
（LLM 负责写和维护 wiki，人类负责读和提问。）

有人把这句话做成了一个 skill —— karpathy-llm-wiki。玩法是这样：

你有两个目录。raw/ 放原始素材，只读、永不修改——收藏的推文、文章、论文都丢这里。wiki/ 放编译后的知识文章，AI 全权打理。

每往 raw/ 加一篇新素材，AI 就把它"编译"进 wiki：判断这篇属于哪个已有主题，跟某篇是同一个核心论点就合并进去、更新段落，全新概念就新建一篇，顺便检查跟已有内容有没有冲突、有就标出来。最后维护一个 wiki/index.md 全局索引，每篇一行——链接、摘要、更新日期。

你查询的时候（"我知道哪些关于 X 的东西？"），AI 先读 index.md 定位到相关文章，打开那几篇，再综合作答。

这个设计很优雅，本质是用 AI 把碎片素材沉淀成结构化的知识资产，而且会随时间复利增长。读起来像一本你自己的、不断长大的百科全书。

但它有个隐含前提：素材得先被"编译"进 wiki，才搜得到。下面这个 skill，想绕开的就是这件事。

二、chao-rag-wiki：不编译，直接检索

我借了 karpathy-llm-wiki 的"raw/ 只读"哲学，但把后半段换成了 RAG（检索增强生成）。

一句话说清区别：karpathy-llm-wiki 是先把书写好再去翻书；chao-rag-wiki 是书原样不动，但给每一页都建了语义索引，随问随搜。

技术栈是这么几块拼的：

1. 向量检索用 turbovec。 Google Research 的 TurboQuant 算法的 Rust 实现，能把向量压 16 倍还几乎不掉精度——上一篇我专门拆过。我的 775 篇切成 9089 个 chunk（去重后），整个索引才 4.8MB，常驻内存毫无压力。

2. 嵌入默认使用千帆的 bge-large-zh（1024 维），但接口跟 provider 无关。 想换 OpenAI、Voyage 或本地模型都行，只改环境变量，不动代码。key 全走环境变量，绝不硬编码。

3. 混合检索（Hybrid RAG），这是关键。 同时跑两路：稠密向量检索管语义，知道"自我迭代"和"循环"是一回事；BM25 关键词检索管字面，能精确命中 rotate_writer.go 这种代码标识符、人名、专有词。两路结果用 RRF（Reciprocal Rank Fusion，倒数排名融合）合并。语义检索擅长"意思对但用词不同"，关键词检索擅长"就要这个词"，融合之后两头都不漏。

4. 可选的 LLM 重排（rerank）。 检索快但粗，再拉一个 LLM 当"相关性裁判"给候选打分重排，精度优先时加 --rerank 就行。

5. 建索引时按 chunk 文本哈希去重。 raw/ 里同一段内容存了多份副本的话，只留一份进库，免得副本在结果里挤名额——我这 775 篇就压掉了 706 个重复 chunk。

优缺点摆出来

先说好的：

零编译延迟。新素材丢进 raw/，跑一句增量索引就搜得到，不用 AI 逐篇消化。而且增量索引按内容哈希只处理新增和改动的文件，没变化就几秒退出。
召回更全。它检索的是原始全文的每个片段。哪怕某个话题你压根没想过给它单独建篇文章，只要素材里提过，就搜得到。
混合检索加重排加去重，对中英混排、专有名词、长尾问题都更稳。同一段内容在 raw/ 里有多份副本，建索引时按 chunk 文本哈希自动合并，结果不会被副本占名额——但保留"另见 N 份副本"的来源信息，去重不丢信息。

再说差的，这些恰好是 karpathy-llm-wiki 的强项：

它没有知识沉淀，给你的是原文片段拼盘，不是一篇消化过、把内部矛盾理顺了的文章。karpathy-llm-wiki 那边的 wiki 文章是真正的二次创作，读起来成体系。
它只能精确去重。逐字相同的副本能干净合并，但"同一篇、有细微编辑差异"的近似重复就认不出来了——那得上 MinHash 或 SimHash，复杂得多。
它依赖在线 embedding，查询要联网(或者本地部署的大模型)、有 API 成本（BM25 那一路不用）。

说白了，karpathy-llm-wiki 重"沉淀"，chao-rag-wiki 重"召回"。前者像精心整理的笔记本，后者像一个全文搜索引擎。

三、实战对比：两个查询

光说不练假把式。同样两个问题，两个 skill 各跑一遍。

自从 Karpathy的llm-wiki理念提出来之后，我收集资料的时候特意使用Obsidian web clipper进行收集，最近几个月也收集了700多篇资料，也在Hermes中建立了llm-wiki，这次我使用chao-rag-wiki 建立了RAG索引，让我们比较一下这两个skill搜索资料的效果。

查询一："loop engineering"

chao-rag-wiki（hybrid + rerank）召回了散在多篇原文里的片段：

[1] rerank=8.0  PART 2: WHAT LOOP ENGINEERING ACTUALLY IS
    articles/...Loops What Every AI Engineer Needs to Know in 2026.md
[2] rerank=7.0  工程化的三个层次
    articles/...深度拆解：AI 智能体 Harness 的构造.md
[3] rerank=7.0  Most Developers Do Not Need Agent Loops Yet
[4] rerank=7.0  Agent Harness 拆解：AI Agent 真正的工程底座
[5] rerank=6.0  > I don't talk to an agent anymore, I talk to a loop

它直接定位到讲 loop engineering 五阶段（DISCOVER→PLAN→EXECUTE→VERIFY→ITERATE）的原文段落，连"大多数开发者其实还不需要 loop"这种唱反调的视角也捞了出来——因为那篇文章确实在我素材里。

karpathy-llm-wiki 呢？它在 wiki/index.md 里一搜就命中一篇编译好的文章：

1
2
3

| Loop Engineering: 从提示 Agent 到设计循环 | 2026 年 6 月爆发的 AI 编程
  新范式：五个原语(Automations/Worktrees/Skills/Connectors/Sub-agents)
  +状态记忆，四条件测试，最小可行 Loop，刹车配置与四种死法 | 2026-06-24 |

打开是一份消化整合过的结构化笔记：核心定义、Boris Cherny 的三阶段演化、五个必需品表格、引用了 8 个来源，读起来一气呵成。

这一局 karpathy-llm-wiki 赢在成品质量。loop engineering 是热门话题，我早让它编译过一篇。chao-rag-wiki 给的是原料，它给的是成菜。

查询二："grill skill"

这局反过来了。

chao-rag-wiki（hybrid + rerank）：

[1] rerank/score  Mattpocock Skills 系统：AI Agent 的能力单元 › SKILL.md 的文件结构
    sources/AI时代的程序员/02 Mattpocock Skills系统.md
[2] Productivity Skills
    sources/AI时代的程序员/《AI时代的软件工程》-图书大纲.md
[3] skill_manage 操作分发   (+1 dup copies)
    articles/2026-04-12 -Hermes Agent 源码解析.md
[5] Productivity —— grill-me / caveman / handoff...
    articles/...mattpocock skills Skills for Real Engineers.md › #1: The Agent Didn't Do What I Want

干净命中 mattpocock 技能库里 grill-me、grill-with-docs 的介绍——"写代码前先让 AI 反过来拷问你"。注意第 3 条后面那个 (+1 dup copies)：去重把那篇的副本合并成一条、留了来源标记，没让重复内容占掉好几个名额。

karpathy-llm-wiki 呢？我去 wiki/index.md 里搜 "grill"、"mattpocock"、"拷问"……

一条都没有。

不是说我素材里没有 grill 相关内容——有，好几篇正文都提了 /grill-me。问题是这个话题从没被单独编译成一篇 wiki 文章，index.md 里就没它的入口。按 karpathy-wiki "先读 index 再定位文章"的路子，它要么直接漏掉这个查询，要么只能模糊地甩你一篇泛泛的"agent skills 框架"。

这一局 chao-rag-wiki 完胜。它检索全文，根本不在乎你立没立过条目。

四、所以到底用哪个？

两个查询跑下来，结论挺清楚：它俩不是替代关系，是互补关系。

	karpathy-llm-wiki	chao-rag-wiki
核心机制	AI 编译素材成文章	RAG 全文语义检索
查询方式	读 index → 定位文章	向量+BM25 混合检索+重排
强项	热门话题、成体系的沉淀	全量召回、长尾话题、专有名词
弱项	没编译过的话题会漏	给原料而非成品、只能精确去重
延迟	编译慢、查询快	索引快、查询需联网
想读一篇消化好的总结，问 `karpathy-llm-wiki`；想确认"我到底收藏过啥"、找长尾、找冷门词，用 `chao-rag-wiki`。

我现在就是这么用的：chao-rag-wiki 当全文搜索引擎兜底召回，karpathy-llm-wiki 当精编笔记本沉淀热点。一个保证不漏，一个保证好读。

五、把它接进 Obsidian：从"看到"到"可搜"

前面讲的都是 skill 本身。可知识库要真转起来，得先解决一个更前面的问题：素材怎么进来？总不能每篇手动复制粘贴。

我这套链路全自动，分三段。

第一段：Web Clipper 抓取，落到 `raw/`

Obsidian Web Clipper 是官方的浏览器插件，Chrome、Edge、Firefox 都有。看到一篇好文章、一条推文，点一下插件图标，它就把正文提取成干净的 Markdown，存进你的 Obsidian vault。

它能配模板和保存路径，这是关键。我把模板的目标文件夹设成 vault 里的 raw/articles/，文件名用 {{date}} -{{author}}-{{title}}，再让它自动带上来源 URL、抓取日期这些 frontmatter。于是浏览中随手一点，文章就躺进了 raw/——正好是两个 skill 都约定"只读、不改"的那个源目录。我那 775 篇，基本就是这么攒的。

第二段：定时任务自动索引

素材进来了，但还没"可搜"。这步交给定时任务——raw/ 每天在长，那就让索引每天自己追上：

# crontab：每天凌晨 3:07 增量索引（错峰，别卡整点）
7 3 * * *  cd ~/Obsidian-Vault && \
  ~/.claude/skills/chao-rag-wiki/.venv/bin/python \
  ~/.claude/skills/chao-rag-wiki/scripts/build_rag.py --raw raw --out .rag --update

前面说了，--update 按内容哈希只处理新增和改动的文件，没变化就几秒退出、零 API 调用，所以天天跑也不浪费。Web Clipper 当天剪的新文章，第二天一早就进了向量库。

karpathy-llm-wiki 那一路同理，挂个任务把当天 raw/ 的新文件编译进 wiki 沉淀下来就行。两条管道并行：chao-rag 让每篇立刻可搜，karpathy-wiki 把值得沉淀的编成文章。

实际上是在我的Mac mini m2上的Hermes中配置了定时任务，每天凌晨调用这个skill进行索引处理。

第三段：随时调用 skill 搜索

闭环这就成了。想找东西，直接在 Claude Code 里调：

/chao-rag-wiki 找出关于 X 的资料——全文混合检索，长尾、冷门词都捞得到；
/karpathy-llm-wiki 我都知道哪些关于 X 的东西——读编译好的精编文章。

整条链路连起来就是：浏览时点一下 Web Clipper，文章落进 raw/，定时任务自动索引，想搜时一句话调 skill。你只管"看到好东西点一下"和"有问题问一句"，中间的剪藏、入库、索引全自动。Karpathy 那句"人类负责读和提问"，落地大概就是这个样子。

安装

chao-rag-wiki 已经开源，一行命令装上：

1	npx skills add smallnest/chao-rag-wiki

配好一个 embedding 的 key（默认千帆，也支持 OpenAI、Voyage 或任意 OpenAI 兼容网关），素材丢进 raw/，跑一句 build 就能开问。再按第五节配好 Web Clipper 模板和定时任务，整个知识库就自己转起来了。

最后留个彩蛋：写这篇时，"两个 skill 各跑两个查询、对比结果"那一步，就是 chao-rag-wiki 自己检索出来的。它检索自己被讨论的素材，多少有点自产自销。RAG 的尽头，没准就是让知识库学会自我介绍。

Go 语言技能：AI 时代的 Go 开发工具链

2026-06-28T10:00:00.000Z

"Clear is better than clever."
清晰胜于聪明。
—— Rob Pike, Go Proverbs

第 23 章把重构讲完了。嗅坏味道、套 Fowler 手法、小步施工、每步测试，这套东西对 Java、Python、Go 一视同仁。但真到 Go 上手你会发现，Fowler 的目录够不着 Go 的好几层脾气。一段能跑的 Go 代码，可能还停在 Go 1.10 的写法，不地道；可能并发原语用错了，race detector 一开就红，不安全；也可能分配没控住，cache line 在 false sharing，不快。这些坏味道扫不出来，是 Go 二十年攒下来、只有老手才摸得到的门道。

门道都散在各处。Dave Cheney 的高性能工作坊讲一套，dgryski 的 go-perfbook 讲一套，《Go 并发编程实战》讲一套，Go 团队的 modernize 分析又讲一套，再加上无数生产事故换来的风格约定。以前你得一本书一本书读、一个 pprof 一个 pprof 啃。现在有人把这些蒸成一个 Skill，Agent 调一下就能用。

本章介绍五个 Go 专属的 Skill，正好覆盖 Go 工程的四个面：现代化（/modern-go）、性能（chao-go-perf）、并发（chao-go-sync）、风格（go-style-guide），外加一个把这几样打包、还顺带做了效果评估的全家桶（cc-skills-golang）。前三个是本书作者 smallnest 写的，对，写这本书的人和写这些 Skill 的人是同一个；后两个分别来自 madflojo（Benjamin Cane）和 samber。

24.1 为什么 Go 需要专属技能

第 1 章立过本书的旗：从 Prompt-Driven 到 Skill-Driven。Prompt 临时，Skill 持久；Skill 等于可复用的方法论加结构化的知识加标准化的输入输出。这话对什么语言都成立，但 Go 尤其该说一遍，因为它有三样东西让通用 Agent 特别容易翻车。

一是 Go 的地道写法绑版本。同一件事，Go 1.10 和 Go 1.22 的标准答案不一样。循环找切片里有没有某个元素，1.10 要手写 for 循环，1.21 一行 slices.Contains 搞定；求最小值，1.20 要 if-else，1.21 有内置 min。Agent 训练数据里两种写法都有，随手给你写哪种全看运气。代码是能跑，可能是个十年前的化石。

二是 Go 的并发坑深，而且静默。一个 map 并发读写不会马上崩，要等压力上来、等到生产环境的某个深夜才 panic。一个 sync.Mutex 被复制了，go vet 查得出，Agent 不会主动跑。goroutine 泄漏更无声无息，程序能跑，内存曲线却悄悄爬坡。这些坑 Fowler 的坏味道目录里一个都没有。

三是 Go 的性能是测出来的，不是猜出来的。Dave Cheney 那句「You can't optimize what you don't measure」是 Go 性能圈的宪法。可 Agent 的默认行为恰恰是猜，看一眼代码凭直觉说「这里用 sync.Pool 优化一下」，既没 benchmark 也没 pprof。猜对的概率比你想的低。

三样合起来指向一个结论：Go 的资深经验得编码进 Skill，才能被 Agent 可靠复用。这不算锦上添花，是这门语言逼出来的刚需。下面五个 Skill，就是这件事的五个侧面。

24.2 五个 Skill 一览

先给一张全景图，免得后面绕晕。

Skill	作者	定位	覆盖面	Stars（2026/06）
`/modern-go`	smallnest	Go 代码现代化	35 条 gofix 风格规则，Go 1.0→1.26+	goal-workflow 套件内
`chao-go-perf`	smallnest	Go 性能分析专家	CPU/内存/GC/编译器/缓存/并发，含 PGO	~40
`chao-go-sync`	smallnest	Go 并发编程专家	全部 sync 原语 + 13+ 模式 + 分布式	~37
`go-style-guide`	madflojo (Benjamin Cane)	固执己见的 Go 工程契约	包设计/接口/错误/日志/布局/测试	~35
`cc-skills-golang`	samber	生产级 Go Skills 全家桶	28+ 原子 Skill，跨工具，带评估	~2300

五个 Skill 的分工可以这样理解：/modern-go 管「代码是不是用了新版本的写法」，go-style-guide 管「代码符不符合工程契约」，chao-go-sync 管「并发安不安全」，chao-go-perf 管「跑得快不快」，cc-skills-golang 把这四件事各做一份，外加交叉引用和效果评估。前四个是专精一件的单点 Skill，最后一个是面面俱到的体系。

顺带说一句 cc-skills-golang 的体量，两千多 stars，是本章里唯一算得上「大项目」的。它的特别之处不在多，在于拿数据证明了 Skill 真的有用。这个留到 24.7 节细讲。

下面逐一展开。

24.3 /modern-go：让老代码跟上新版本

/modern-go 在第 8 章作为 Goal Workflow 的 Bonus Skill 露过一面，第 23 章也提过它和 /refactor、/smell 一样是「保持代码库健康」的邻居。这里展开讲它的机制。（介绍页：https://goal.rpcx.io/index_cn.html#step-modern-go ）

我自己写它，是因为 goscapy 这种库要长期维护，go.mod 里的版本会一点点往前挪，可代码还停在五年前写它时的写法。靠人记得每条 time.Since 替换、记得 interface{} 该换成 any，不现实。go fix 官方工具又只覆盖一小部分。于是把 Go 团队 modernize 分析能找到的转换规则、加上社区常用的，凑成一份带版本门控的 Skill，让 Agent 替我盯着。它的定位很纯粹，像 go fix 一样，把老写法自动改成新版本的地道写法。装一行：

1	npx skills add smallnest/goal-workflow --skill modern-go

触发可以直接打 /modern-go，或说「现代化」「modernize」「gofix」。

24.3.1 35 条版本门控的转换规则

Skill 内置 35 条转换规则，每条带一个版本门控，只在项目的 Go 版本够格时才启用。规则从 Go 1.0 一路排到 1.26+，挑几个有代表性的：

Go 版本	老写法	新写法
1.0+	`time.Now().Sub(start)`	`time.Since(start)`
1.13+	`err == io.EOF`	`errors.Is(err, io.EOF)`
1.18+	`interface{}`	`any`
1.18+	`strings.Index` + 手动切片	`strings.Cut`
1.19+	`atomic.StoreInt32(&v, 1)`	`var v atomic.Int32; v.Store(1)`
1.20+	`fmt.Errorf("...: %w: %w", e1, e2)`	`errors.Join(...)`
1.21+	手写 for 循环找元素	`slices.Contains`
1.21+	`if a`	`v = min(a, b)`
1.21+	`var once sync.Once; once.Do(...)`	`sync.OnceFunc(...)`
1.22+	`for i := 0; i < n; i++`	`for i := range n`

每条规则都配 before/after 代码对照，机械、可执行。这正是 Go 团队 modernize 分析能被 Agent 接住的地方。

24.3.2 安全保护：读 go.mod，绝不越级

真正关键的不是这 35 条规则，是它怎么决定该用哪条。流程很死板：

先读 go.mod 里的 go 指令，拿到项目声明的 Go 版本；
扫描目标范围内所有 .go 文件（排除 vendor/、.git/、testdata/）；
对每个文件，只应用版本 ≤ 项目版本的规则，从老到新依次套；
最后打印一份改了什么、跳过了什么的汇总。

铁律只有一条，但很硬：绝不应用需要比项目声明版本更高的规则。项目还停在 Go 1.20，就不会给你塞 1.21 的 min 和 slices，塞了编译不过。这条把「现代化」和「改坏」之间的边界钉死了。

这条保护和第 23 章 /refactor 的五阶段协议是同一种思路：把人最容易手滑的地方改成 Agent 必须遵守的护栏，这里是「图新」而越级升级。人升级 Go 时常犯的错，比如把目标版本改高了却忘了改 go.mod，或者用了新 API 却没加 import，/modern-go 用版本门控和 requires importing 的提示一条条堵上。

24.3.3 实演：一段老代码怎么被现代化

光看规则表没感觉，跑一段。假设 go.mod 写的是 go 1.21，项目里有这么个函数，写法停在 Go 1.13：

func parseHeader(buf []byte) (key, val string, ok bool) {
    if i := bytes.Index(buf, []byte("=")); i >= 0 {
        key = string(buf[:i])
        val = string(buf[i+1:])
        ok = true
    }
    return
}

var cache atomic.Value

func getConfig() *Config {
    cache.Store(&Config{})
    return cache.Load().(*Config)
}

/modern-go 进来先读 go.mod，拿到 1.21 这个版本上限，然后从老到新逐条套能用的规则。对上面这段，它会动三处：

bytes.Index 加手动切片 → 1.20+ 的 bytes.Cut（1.21 够格）；
atomic.Value 加类型断言 → 1.19+ 的 atomic.Pointer[T]；
顺手把 import 补上。

出来是这样：

func parseHeader(buf []byte) (key, val string, ok bool) {
    before, after, found := bytes.Cut(buf, []byte("="))
    if found {
        key, val, ok = string(before), string(after), true
    }
    return
}

var cache atomic.Pointer[Config]

func getConfig() *Config {
    cache.Store(&Config{})
    return cache.Load()
}

注意它没碰 1.22 的 range-over-int，项目是 1.21，那条规则被门控挡掉了。这是版本门控真正干活的样子：该改的改，不该碰的一行不动。要是谁手贱把 go.mod 提到 1.22，再跑一遍，那个 for 循环才会被改成 for i := range n。

24.4 chao-go-perf：把 Dave Cheney 的工作坊装进 Skill

/modern-go 解决「写法老不老」，chao-go-perf 解决「跑得快不快」。我写它，是因为 rpcx、goscapy 这种库对性能敏感，可每次让 Agent 帮忙优化，它张口就是「这里加个 sync.Pool」，没 benchmark、没 pprof，纯靠猜。猜错是常态。Go 性能圈其实有现成的规矩，Dave Cheney 和 dgryski 讲过很多遍，第一条都是「先测量」。这些规矩散在讲义和书里，Agent 不会自动遵守，那就把它们蒸成一个 Skill，逼它先拿数据再说话。它把 Go 性能圈几本「圣经」装进来：

Dave Cheney 的 High Performance Go Workshop（GopherCon 2019）
dgryski 的 go-perfbook（中文版）
Effective Go
Go 101 的 Optimizations 101

1	npx skills add smallnest/chao-go-perf

24.4.1 黄金法则：先测量，再优化

chao-go-perf 开篇就把 Dave Cheney 和 go-perfbook 的两句话钉在墙上：

"You can't optimize what you don't measure. Always benchmark before and after."
—— Dave Cheney
不要猜测性能瓶颈。用数据说话。先测量，再优化，最后验证。
—— go-perfbook

由此引出五条黄金法则：先测量再优化、Benchmark 驱动、了解编译器、内存是瓶颈、优化最热路径。这五条不是建议，是 Skill 的工作前提，和第 16 章 agent-skills 的验证门禁、第 23 章 /refactor 的安全协议同源：Agent 得先有证据（benchmark、pprof）才能动优化。这一条直接把 Agent 最爱的毛病禁了，看一眼代码就凭直觉「优化」。

24.4.2 三套分析框架：CPU / 内存 / 并发

Skill 给出三套可机械执行的分析框架，每套都是「命令 → 看什么 → 判断什么」：

维度	生成 profile	看什么	典型病因
CPU	`go test -bench -cpuprofile`	火焰图最热函数	内联失败、不必要计算、算法复杂度
内存	`go test -bench -memprofile` + `-gcflags="-m"`	alloc_space 热点、逃逸分析	slice 未预分配、[]byte↔string 转换、接口装箱
并发	`go test -race` + `runtime/trace` + mutex profile	锁等待、调度	锁粒度过大、false sharing、channel vs mutex 选错

这套框架把性能优化从「拍脑袋改代码」变成「先定位瓶颈在哪一层，再用对应工具验证」。AI 时代尤其用得上，Agent 吐的代码经常埋着 N+1 分配、循环内排序这类量小看不出、上了量才爆的坑，chao-go-perf 的内存框架一眼能扫出来。

24.4.3 覆盖面与参考资料

Skill 还配 8 份参考资料，按需加载：benchmarking、memory-optimization、cpu-optimization、cache-optimization、concurrency-perf、pgo、tooling、version-changes。其中两块是 Go 圈的硬骨头：PGO（Profile-Guided Optimization）的完整工作流，和 Go 1.12 到 1.27 的关键性能变更（哪个版本改了 GC、哪个版本改了调度器，升级时要留意什么）。CPU 缓存那块也讲得细，cache line 对齐、false sharing 检测、AoS 对 SoA 的数据局部性取舍，这些资深 Go 工程师才碰得到，Agent 默认不会主动想。

24.4.4 实演：先看 benchmark，再谈优化

按 Skill 的规矩，它不会直接给优化方案，第一句话是问数据。你喂给它一段有锁竞争的计数器：

type Counter struct {
    mu sync.Mutex
    n  int
}

func (c *Counter) Inc() {
    c.mu.Lock()
    c.n++
    c.mu.Unlock()
}

说「这个 Inc 在高并发下慢，优化一下」。chao-go-perf 不会立刻说「换 atomic」，它会先走 Step 1 的分类和 Step 2 的框架，让你先出证据：

问题分类：并发竞争（吞吐量不随 CPU 增加）
诊断步骤：
1. go test -bench=. -cpuprofile=cpu.out
2. go tool pprof -http=:8080 cpu.out  → 看 mutex 热点
3. go test -race  → 确认无数据竞争
4. 看锁竞争：临界区只有一个 n++，纯计数

证据到位（profile 显示锁等待占大头），它才进锁选择决策树。Skill 里那张决策图长这样：

是否只需要保护简单整数/布尔/指针?
  └── Yes → atomic 操作
  └── No → 读写比例?
            ├── 几乎全读 (> 90%) → sync.RWMutex
            ├── 读写均衡 → sync.Mutex
            └── 偶尔写入一次 → sync.Once / sync.Map

n 是个整数，Inc 只做自增，正好走第一条分支，给方案：

type Counter struct {
    n atomic.Int64
}

func (c *Counter) Inc() {
    c.n.Add(1)
}

并附一串近似量级让你心里有数：atomic 约 1-2 ns/op，无竞争 Mutex 15-30 ns/op，channel 50-200 ns/op。最后还不忘补一句：优化前后的 benchmark 都得跑，用 benchstat 验证。这套流程才是 Skill 想要的样子，先量、再分类、最后给方案，每一步都有数据兜着，而不是上来就 sync.Pool。

24.5 chao-go-sync：并发是 Go 的灵魂，也是最容易翻车的地方

Go 的并发是它的招牌，也是它最容易出事的地方。chao-go-sync 基于《Go 并发编程实战》一书，把 Go 并发的全套知识，从标准库原语到分布式同步，装进一个 Skill。这本书是我写的，写它的时候把踩过的坑、用过的第三方库、做过的分布式同步方案整理了一遍。写完发现，这些内容正好是 Agent 写并发代码最缺的那块。它知道 sync.Mutex 怎么用，但不知道哪里会复制、哪里会重入死锁、什么时候该上分片锁。于是把书的内容蒸成 Skill，让 Agent 调一下就能拿到一整本书的判断力。

1	npx skills add smallnest/chao-go-sync

24.5.1 覆盖面：从 stdlib 到 etcd

chao-go-sync 的覆盖面是五个 Skill 里最广的，横跨四个层次：

层次	内容
标准库原语	Mutex、RWMutex、WaitGroup、Cond、Once、Pool、sync.Map、atomic、channel、context、synctest
官方扩展	信号量、SingleFlight、ErrGroup、限流器
第三方库	CyclicBarrier、断路器（sony/gobreaker）、Worker Pool（panjf2000/ants）、sourcegraph/conc、各类限流库
分布式同步	基于 etcd 的 Leader 选举、分布式锁、分布式队列/屏障、STM

外加 13+ 种并发模式（半异步半同步、Reactor、Proactor、Per-CPU、活动对象……）和四个经典问题（哲学家就餐四种解法、理发师问题、水工厂、Fizz Buzz）。这个体量，基本上是把一本并发书搬进了 Skill。

24.5.2 Bug 诊断框架：五个必查项

并发 Bug 最难的是定位。Skill 给了一套诊断框架，收到并发问题先过这五条：

有没有数据竞争？（-race 输出）
锁的获取/释放顺序对不对？（防死锁）
有没有锁重入？（Go 的 Mutex 不可重入，这是 Java 转 Go 最常踩的坑）
有没有复制 sync 原语？（go vet 能查，Agent 不会主动跑）
WaitGroup 计数匹不匹配？goroutine 有没有泄漏？（Go 1.26+ 运行时自动检测）

这五条本身就是一份并发代码审查清单。go-style-guide 里也有一份并发 reference，但深度不在一个量级，go-style-guide 讲怎么用对，chao-go-sync 讲出了问题怎么查、怎么治、还有哪些更高级的替代。

24.5.3 实演：两个静默 Bug，诊断框架一眼揪出

并发 Bug 最阴的地方在于不崩。喂给它两段看着没毛病的代码，让它审。

第一段，忘记 Unlock。多分支 return，有一条路径漏了 Unlock，程序不会立刻死，锁会泄漏，到某个时刻所有 goroutine 卡住：

func (f *Foo) Bar() {
    f.mu.Lock()
    if f.count < 1000 {
        f.count += 3
        return  // 漏了 Unlock
    }
    f.count++
    f.mu.Unlock()
}

第二段，锁重入死锁。从 Java 转来的人最容易写，Go 的 Mutex 不可重入，Bar 里再 Lock 直接死锁：

func (t *T) Foo() {
    t.mu.Lock()
    defer t.mu.Unlock()
    t.Bar()           // Bar 内部又 Lock
}
func (t *T) Bar() {
    t.mu.Lock()       // 死锁
    defer t.mu.Unlock()
}

chao-go-sync 的诊断框架对这两段走的路径不一样。第一段它先问「锁的获取/释放配不配对」，发现 Lock 后有分支提前 return 却没 defer Unlock，直接指出该用 defer 兜底；第二段它走的是「有没有锁重入」那条，点明 Go Mutex 不可重入，给的解法是重构，别让 Foo 持着锁调 Bar，要么把 Bar 拆成不加锁的内部方法 barLocked，由 Foo 在持锁状态下调。两个 Bug 都不是 race detector 能报的（race detector 只管数据竞争），靠的是 Skill 里那份「五必查」清单的经验。这就是它比通用 Agent 多出来的一层：知道去哪几个固定位置找问题。

24.5.4 性能优化与版本迁移

诊断之外，chao-go-sync 还给了一份锁选择决策：什么场景该用 RWMutex 替代 Mutex，什么场景该上分片锁、sync.Map、atomic，什么场景干脆 lock-free。它也覆盖 Go 1.20 到 1.27 的 sync 包变更，比如 sync.OnceValue/OnceFunc（1.21）、运行时 goroutine 泄漏检测（1.26）这些新东西，旧代码该不该迁移、怎么迁移。这跟 /modern-go 互补，/modern-go 管通用 API 的现代化，chao-go-sync 专管并发原语。

24.6 go-style-guide：一份固执己见的 Go 工程契约

前三个 Skill 偏「术」，现代化、性能、并发都是具体技术。go-style-guide 偏「道」，管的是 Go 代码的工程契约：包怎么设计、接口怎么定、错误怎么传、日志怎么打。作者是 madflojo（Benjamin Cane）。

1	npx skills add -g -y madflojo/go-style-agent-skill

它最显眼的标签是 README 里那句 "Opinionated by design"，刻意固执己见。它明确说，这不是通用、官方的 Go 风格指南，是个人偏好，要的是真实代码库里的一致性、可维护性和生产可用性。紧接着一句很关键：「如果你仓库已经有自己的约定，那些约定通常优先。」这一句把固执己见和尊重本地两边都顾上了，Skill 给默认值，但不覆盖既有规矩。

24.6.1 十条 TL;DR

Skill 用十条 TL;DR 浓缩了整套契约，挑几条最硬的。测试优先设计，先注入依赖、保持逻辑纯，再谈别的。Config 进、具体 struct 出，构造器吃 Config，显式校验和默认值。错误是契约，用 sentinel error 做持久分支判断，其余的用 %w 或 errors.Join 包裹。包要可复用，不藏全局变量、不藏默认日志、不搞意外副作用。标准库优先，第三方包必须靠「有意义、维护良好、被广泛采用」挣一席之地。accept interfaces, return structs，接口通常由消费者定义。覆盖率是信号不是证明，测边界和误用路径，别只测 happy path。声称性能提升前先 benchmark 热路径，并发代码跑 -race。

这些条款和 chao-go-perf 的「先测量再优化」、chao-go-sync 的并发安全说的是一回事，只是 go-style-guide 站在工程视角把它们串起来。

24.6.2 执行协议：六步，先看仓库再动手

go-style-guide 不只是规则清单，它还有一份六步执行协议，规定 Skill 干活时的顺序：

先看仓库：读现有包布局、构造器、测试、错误约定，再提新 API；
先定契约：包边界、Config 形状、返回类型、sentinel error、依赖缝隙、context/关停预期，写代码前先定；
尽早写测试：表格驱动单测起步，输入密集的加 fuzz，性能敏感的加 benchmark；
最小可维护改动：沿用仓库既有布局，main.go 保持薄，没明确边界别引入新抽象；
跑收尾检查：gofmt/goimports、相关 go test、并发跑 -race、声称性能就跑 benchmark；
验证面向人的契约：函数签名、Config 形状、错误行为、文档注释，和代码一样重要。

这六步和第 16 章 agent-skills 的 Define→Plan→Build→Verify→Review→Simplify→Ship 是一个谱系，都是把资深工程师不会跳过的步骤固化成 Agent 必走的流程。配 10 份 reference（CONFIG、INTERFACES、ERRORS、LOGGING、DOCUMENTATION、LAYOUT、BENCHMARKS、TESTING、CONCURRENCY、REVIEW-CHECKLIST）按需加载，也就是第 2 章讲的渐进式信息披露。

24.7 cc-skills-golang：拿数据说话的全家桶

前四个 Skill 各管一面，cc-skills-golang 是把它们全做了一份、还做了交叉引用和效果评估的体系。作者 samber（samber/lo 的作者，Go 圈老熟人），两千多 stars，是本章体量最大的项目。

它的态度写在 README 最显眼的地方：

Bootstrapped with Claude Code by distilling my Go project commits. Edited, tested, reviewed and reworked by a human.
No AI slop here. AI-made skills are useless.

先用 Claude Code 把自己 Go 项目的提交蒸馏成 Skill 草稿，再由人编辑、测试、审查、返工。最后那句「No AI slop here. AI-made skills are useless.」是整个项目的主张：AI 生成的 Skill 没人把关就是废纸，人审过的才是 Skill。这跟本书第 2 章 Matt Pocock 的「real engineering, not vibe coding」、第 12 章的 maker-checker 分离是一个调子。

24.7.1 28+ 原子 Skill，交叉引用

cc-skills-golang 把 Go 工程拆成 28+ 个原子、可交叉引用的 Skill，分四大类加一批框架/库 Skill：

大类	代表 Skill
代码质量	code-style、naming、error-handling、safety、security、structs-interfaces、documentation、lint
架构与设计	concurrency、context、data-structures、database、dependency-injection、design-patterns、modernize
QA 与性能	testing、benchmark、performance、observability、troubleshooting
项目搭建	cli、continuous-integration、project-layout、popular-libraries、stay-updated、dependency-management
框架/库	grpc、graphql、google-wire、uber-dig/fx、spf13-cobra/viper、samber-lo/mo/ro/do/hot/slog/oops、testify

注意里面的 modernize、performance、concurrency、code-style，和前四个 Skill 的职责正面重叠。samber 的处理方式是让 Skill 之间互相引用。比如错误处理影响日志的规则，就放在 error-handling 里，由 observability 引用，不各写一份。README 特意提醒，只装一部分会得到片面、可能不一致的视图，最好整套一起装。这套「原子 Skill 加交叉引用」的做法，和第 2 章的「小而可组合」、第 16 章的「24 个 Skill 覆盖完整生命周期」思路一样，只是规模更大。

24.7.2 用数据说话：Skill 到底有没有用

cc-skills-golang 有一点别的前四个 Skill 都没有：它给 Skill 跑了评估，拿出了量化效果。

samber 给每个 Skill 跑了一套评估（evals），对比「装了 Skill」和「没装 Skill」时 Agent 的通过率，并算出「错误率下降幅度」（Error rate gap）。先看总账：

	装了 Skill	没装 Skill	差距
总体	3315/3395（98%）	1915/3395（56%）	+41 个百分点

装了 Skill，Agent 通过率从 56% 跳到 98%。本书前面一直在主张 Skill 有用，到这里才头一回有硬数。再看单项，挑几个降幅最猛的：

Skill	错误率下降
`golang-modernize`	-61%
`golang-continuous-integration`	-59%
`golang-safety`	-58%
`golang-dependency-management`	-54%
`golang-documentation`	-53%
`golang-benchmark`	-50%

modernize 降 61%，safety 降 58%，正好对应本章 /modern-go（现代化）和并发安全这两个最容易出错的领域，说明这些地方最需要 Skill 兜底。框架/库类里 golang-samber-do（依赖注入）最夸张，降 81%。这些数字替本书从第 1 章念到现在的「Skill 是 AI 软件工程的基石」补上了证据。

24.7.3 token 预算：把渐进式信息披露做成了账

cc-skills-golang 还把第 2 章的渐进式信息披露做成了明账。每个 Skill 都标三档 token 权重：description（frontmatter 里的描述，常驻上下文，用于触发）、SKILL.md（触发后才加载的全文）、Directory（SKILL.md 加所有 reference）。比如 golang-code-style 是 115 / 2069 / 2685 token，golang-security 是 84 / 3036 / 21472 token。也就是说 security 这个 Skill 平时只占 84 token 趴在上下文里等触发，真用上了才把两万多 token 的全量知识加载进来。这比把所有规则一股脑塞进系统提示省得多。

24.8 五个 Skill 怎么配合

五个 Skill 有重叠，怎么选？给一张决策表：

你要解决的问题	首选 Skill	备选
老代码升级到新 Go 写法	`/modern-go`	cc-skills-golang 的 `golang-modernize`
代码慢、要优化	`chao-go-perf`	cc-skills-golang 的 `golang-performance`/`benchmark`
并发 Bug 或并发设计	`chao-go-sync`	cc-skills-golang 的 `golang-concurrency`
包设计、接口、错误契约	`go-style-guide`	cc-skills-golang 的 `golang-code-style` 等
想要一站式、且要效果有数据	`cc-skills-golang`（整套）	——

一个务实的组合：日常拿 cc-skills-golang 当底座（覆盖全、有评估、交叉引用），遇到性能和并发这两个深水区，再挂上 chao-go-perf 和 chao-go-sync，这两个的深度 samber 的全家桶比不了，一个搬了 Dave Cheney 工作坊，一个搬了整本并发书。/modern-go 嵌在 Goal Workflow 里，做提交前的现代化体检。go-style-guide 适合团队对齐工程契约时当起点。

重叠不可怕。cc-skills-golang 的 golang-modernize 和 /modern-go 规则高度相似，但 /modern-go 多了「读 go.mod、版本门控」这层保护；golang-performance 和 chao-go-perf 都讲 pprof，但后者多了一整本 go-perfbook 的方法论。重叠的地方正好见高下，比较着选就行。

24.9 与全书方法论的对接

第 2 章 Skills：这五个 Skill 是「原子 Skill」在 Go 领域的展开。cc-skills-golang 的 28+ 原子 Skill 加交叉引用，是「小而可组合」的体系级样本；go-style-guide 的 10 份 reference 按需加载，是渐进式信息披露的典型实现。
第 8 章 Goal Workflow：/modern-go 是 Goal Workflow 套件的 Bonus Skill，和 /refactor、/smell 同属代码库健康维护工具链。
第 16 章 agent-skills：chao-go-perf 的「先测量再优化」、go-style-guide 的六步执行协议，都是 agent-skills 验证门禁和反合理化表的同类，把 Agent 最爱跳过的步骤（不 benchmark 就优化、不看仓库就动手）钉成必须走的流程。
第 20 章 Anthropic 官方插件：官方插件注入领域知识和工程工作流，这五个 Go Skill 是社区版的 Go 领域知识插件，把 Go 二十年的门道封装成任何 Agent Skills 兼容工具都能用的能力。
第 23 章重构：/modern-go 和 /refactor、/smell 是邻居，/smell 扫病灶，/refactor 套 Fowler 手法治，/modern-go 管版本现代化，三者一起维护代码库健康。

24.10 本章小结

Go 这门语言表面小，门道深。地道写法绑版本，并发坑静默，性能靠测量，通用 Agent 写出的 Go 经常是能跑但不地道、不安全、不快。本章五个 Skill 把 Go 二十年的资深经验编码成 Agent 能可靠复用的能力：/modern-go 管现代化（35 条版本门控规则），chao-go-perf 管性能（先测量再优化），chao-go-sync 管并发（从 stdlib 到 etcd），go-style-guide 管工程契约（固执己见但尊重本地），cc-skills-golang 把这几样各做一份还顺带做了评估。cc-skills-golang 那张「装了 Skill 98%、没装 56%」的评估表，是本书到现在最硬的一块证据，给「Skill 是 AI 软件工程的基石」这句话补了数。

第 22 章读懂代码，第 23 章改好代码，这一章用 Go 专属技能把 Go 代码写地道、写安全、写快。但这些 Skill 解决的都还是「写」和「改」，代码写完了，谁来证明它真的对？下一章的 autoreview 和 Crabbox 接的就是这一棒，一个做自动化代码审查，一个在远程沙箱里真跑一遍验证。

重构：AI 时代的代码进化

2026-06-28T09:30:00.000Z

「Any fool can write code that a computer can understand. Good programmers write code that humans can understand.」
任何傻瓜都能写出计算机能看懂的代码。好程序员写的是人能看懂的代码。
—— Martin Fowler

第 22 章解决了「人怎么读懂 AI 写的代码」，用 UML 把代码画成图。

读懂之后呢？你打开 AI 生成的代码，能跑，但是一团乱麻：一个方法三百行，一个类管了八件事，同样的逻辑复制了五遍。这时候怎么办？

重构。

这件事本身不新鲜，Martin Fowler 1999 年就把它写成了一本书。变的是执行者。以前是人对着那本书一处一处手动改，现在是 AI 对着同一本书的目录自动改，人退到后面审查 diff。

本章分两半。前半讲重构的理论根基：什么是重构、技术债是怎么回事、什么时候该重构、Fowler 编了哪些坏味道和手法。这部分主要参考 Fowler 的《重构》，以及把这本书做成在线可检索版本的 refactoring.guru。后半讲 goal workflow 套件里的两个 Skill：/refactor（介绍页：https://goal.rpcx.io/index_cn.html#step-refactor ）把 Fowler 第 2 版的整个目录封进了一个 AI Agent 能直接调用的能力里；/smell（介绍页：https://goal.rpcx.io/index_cn.html#step-smell ）则在它前面一步，负责扫出整个代码库到底哪里有问题。一个诊断，一个治疗。

23.1 什么是重构，什么是技术债

重构（refactoring）是在不改变外部行为的前提下改善代码内部结构。说白了，把一团乱麻（dirty code）整理成清爽的代码（clean code），但程序对外的表现一字不变。

脏代码是经验不足，再加上 deadline、管理混乱、开发途中走捷径，几样凑一起的产物。
整洁代码易读、易懂、易维护，它让开发变得可预测。你大概知道改一处要花多久，而不是每次都掉进未知的坑。

代码为什么会从整洁滑向肮脏？Ward Cunningham 的技术债这个说法解释得很到位。走捷径、跳过测试，就像找银行贷款：眼下买东西是快了，但要付利息。你不光还本金，还得还利息；利息攒够了，甚至会超过你的全部收入，永远还不清。代码也一样。不写测试能暂时提速，可它每天都在拖你后腿，直到哪天你补上测试，把债还掉。

refactoring.guru 列了一串技术债的成因。这些在 AI 时代值得重读，因为大多被放大了：

业务压力：功能没做完就得上线，于是补丁和权宜之计堆上去，盖住没收尾的部分。
看不到后果：管理层不知道技术债有「利息」，债越欠越多、开发越来越慢，于是舍不得给重构留时间。
强耦合没人管：项目变成一块铁板而不是一堆独立模块，动一处牵全身。
缺测试：没有即时反馈，人就敢用又快又险的 workaround。最坏的情况是没测试直接上线，可能给几千个客户发出一封诡异的测试邮件，也可能直接把数据库清空。
缺文档、缺沟通：新人上手慢；关键的人一走，开发就停摆。
长期多分支并行：隔离的改动越多，合并时积下的债越大。
重构一拖再拖：需求一直变，旧代码总有显得笨重的一天；可程序员每天还在往旧代码上接新代码，所以拖得越久，将来要返工的依赖就越多。

「缺测试」和「重构一拖再拖」这两条在 AI 时代尤其要命。Agent 几分钟就能吐出几千行代码，没有特征测试兜底、没有及时整理，技术债的本金和利息会以人类时代见不到的速度滚起来。第 12 章讲 GSD Core 时提过的「反合理化表」，对抗的正是「以后再重构」「先跳过测试」这类自欺。它其实就是技术债成因的制度化解药。

23.2 何时重构：三次法则

Fowler 的经验法则很简洁——三次法则（Rule of Three）：

第一次做某件事，直接做完。
第二次做类似的事，心里别扭也照旧重复一遍。
第三次再碰到同类的事，开始重构。

第一次重复忍着，第三次出现就动手。除此之外还有三个天然时机：

加功能时：重构能帮你读懂别人的代码。面对一坨脏代码，先重构再加，整洁的代码好改得多。这一改不只方便你，也方便后面接手的人。
修 bug 时：bug 跟现实里的虫子一样，专挑代码最暗最脏的角落待着。把代码清干净，错误几乎会自己冒出来。
代码评审时：这往往是代码公开前最后一次整理的机会。最好跟作者结对来做，简单问题当场修掉，复杂的估个时间再说。

23.3 如何重构：正确的姿势

重构是一连串小改动，每一步让代码好一点，同时让程序始终能跑。refactoring.guru 的「做对了」清单只有三条，却是整套方法论的核心：

代码必须变干净。 重构完还是一团乱，那这一小时就白花了。这种事多半发生在你丢掉「小步改」、把一大堆重构混进一次大改动的时候。尤其赶 deadline 的时候，很容易把自己绕晕。
重构期间不写新功能。 别把重构和加特性搅在一起，至少在单个 commit 里把两件事分开。
重构后所有已有测试都得过。 测试挂了只有两种可能：要么你改错了，修就是；要么你的测试太底层了，比如去测了类的私有方法，这种情况是测试的锅，该把它重写成更高层、BDD 风格的测试。

记住这三条。后半 /refactor Skill 的安全协议，基本就是把它们逐条机械化了一遍。

23.4 Fowler 的目录：坏味道与手法

refactoring.guru 把 Fowler 书里的内容编成了两张能检索的目录：

**代码坏味道（Code Smells）**是问题的征兆，好发现，但它可能只是更深层问题露出的一角。
**重构手法（Refactoring Techniques）**是具体的改法。每种手法都有得有失，所以每次重构都该有明确的动机，谨慎施用。

手法分六大类：组合方法（Composing Methods）、在对象间搬移特性（Moving Features Between Objects）、组织数据（Organizing Data）、简化条件表达式（Simplifying Conditional Expressions）、简化方法调用（Simplifying Method Calls）、处理泛化关系（Dealing with Generalization）。

整个流程是「症状到处方」：你先嗅到味道，比如「过长方法」或者「Feature Envy」，目录再告诉你该用哪几种手法去治。这套映射关系明确、能机械执行，也正是 AI Agent 接得住的地方。

23.5 /refactor：把 Fowler 的书变成一个 Skill

理论讲完，看看 goal workflow 套件里的 /refactor 是怎么把这本书落成一个能调用的能力的。

/refactor 基于 Fowler《重构》第 2 版的完整目录：识别坏味道，套用验证过的手法，在不动外部行为的前提下把代码改清爽。它在 goal workflow 主闭环（第 8 章）之外，是个 Bonus 技能。安装一行就够：

1	npx skills add smallnest/goal-workflow --skill refactor

触发可以直接打 /refactor，也可以用自然语言或术语：

1
2
3

重构：重构 UserManager 类，它太大了
code smell：这个函数有 Feature Envy，修复它
extract method：把这个长方法拆分成更小的函数

23.5.1 22 种坏味道（五大类别）

Skill 内置 22 种代码坏味道，按五大类组织，每种都关联到对应的重构手法：

类别	坏味道	主要重构手法
臃肿类	过长方法	Extract Method, Replace Temp with Query
	过大的类	Extract Class, Extract Subclass
	基本类型偏执	Replace Data Value with Object
	过长参数列表	Introduce Parameter Object
	数据泥团	Extract Class
OO 滥用类	Switch 语句	Replace Conditional with Polymorphism
	临时字段	Extract Class, Introduce Null Object
	被拒绝的遗赠	Replace Inheritance with Delegation
	异曲同工的类	Rename Method, Extract Superclass
变更阻碍类	发散式变化	Extract Class
	霰弹式修改	Move Method, Move Field
	平行继承体系	Move Method, Move Field
冗余类	注释（代码本应自说明）	Extract Method, Rename Variable
	重复代码	Extract Method, Pull Up Method
	冗赘类	Inline Class, Collapse Hierarchy
	纯数据类	Move Method, Encapsulate Field
	死代码	删除（Git 历史有记录）
	夸夸其谈未来性	Inline Class, Remove Parameter
耦合类	依恋情节	Move Method
	狎昵关系	Move Method, Move Field
	消息链	Hide Delegate
	中间人	Remove Middle Man
	不完美的库类	Introduce Foreign Method

23.5.2 40+ 种重构手法（六大类）

每种手法都附带机械步骤（mechanics）和 before/after 对比示例，这正是 refactoring.guru 那张目录的 AI 可执行版：

类别	手法数	代表性手法
组合方法	9	Extract Method, Inline Method, Extract Variable, Replace Temp with Query, Substitute Algorithm
移动特性	7	Move Method, Move Field, Extract Class, Inline Class, Hide Delegate
组织数据	13	Replace Data Value with Object, Encapsulate Field, Replace Type Code with Subclasses, Replace Magic Number
简化条件	8	Decompose Conditional, Guard Clauses, Replace Conditional with Polymorphism, Introduce Null Object
方法调用	13	Rename Method, Separate Query from Modifier, Introduce Parameter Object, Replace Error Code with Exception
泛化	9	Pull Up Method, Push Down Method, Extract Interface, Form Template Method, Replace Inheritance with Delegation

23.5.3 五阶段安全协议：把「做对了」清单制度化

/refactor 真正关键的设计不是目录，而是安全协议。它把 23.3 节那三条清单变成了 Agent 必须照办的执行护栏：

准备阶段：写特征测试（characterization test），提交当前状态，开一个重构分支。
每一步：一次只改一处，编译过，测试全过，提交。
验证阶段：测试全过，手动冒烟测一遍，自己审 diff，最后提交。
铁律：不动外部行为，不夹带功能改动，每一步都有测试兜底。

对着 Fowler 的三条清单看，正好一一对上：「代码必须变干净」对应自审 diff，「不写新功能」对应不夹带功能改动，「测试必须全过」对应每步测试加特征测试兜底。

AI 时代的价值就在这。人在 deadline 底下，难免偷偷给自己找台阶，「这块以后再重构」「这次先跳过测试」。Agent 被钉死在协议上，没这个空子可钻。重构的纪律，从「靠人自觉」变成了「靠机器强制」。

23.5.4 语言专属指南

Skill 还针对主流语言给出特化建议：

语言	核心建议
Java	final 局部变量、IDE 自动重构、Records、Sealed Classes
TypeScript	解构减少参数、const 优先、Union Types 替代类型码、`?.` 消除 null 检查
Python	Type Hints、dataclasses、`@property`、Context Managers
Go	小接口、命名返回值、表格驱动测试、early returns 消除嵌套
Rust	Result/Option 替代错误码和 null、Pattern Matching、From trait、Derive macros

23.5.5 在工作流中的位置

/refactor 不单干，它跟两个邻居配合，其中最重要的是下一节要单独讲的 /smell；另外 /modern-go（35+ 条 gofix 风格规则）跟它一样，都是用来保持代码库健康的工具。还有 /review-it——它的审查原则里写得很清楚：「Reject noise，拒绝不切实际的边界情况、投机性风险、过度重构」。这跟 /refactor 安全协议里「小修复优先」是一个意思——重构不是越多越好，闻到坏味道才动手。

23.6 /smell：先诊断，再开刀

/refactor 解决的是"知道哪里该改、怎么改"。但更常见的困境在前一步：面对一个 AI 攒出来的几万行代码库，你不知道该从哪下手。哪个模块烂得最厉害？是架构错了，还是只有某个函数太长？先动哪块？

/smell 回答的就是这个。它跟 /refactor 同级，分工是：/smell 诊断，扫出代码库的病灶并排优先级；/refactor 治疗，照 Fowler 手法一处处修。一个出报告，一个动手术。

安装：

1	npx skills add smallnest/goal-workflow --skill smell

触发同样可以直接打 /smell，或用自然语言：

1
2
3

代码坏味道检测：找出代码坏味道
架构审计：检测架构反模式
复杂度扫描：分析代码复杂度

23.6.1 比 Fowler 更宽的视野：8 大类 50+ 坏味道

这里要留意 /smell 和 /refactor 在覆盖面上的区别。/refactor 盯的是 Fowler 那 22 种坏味道，基本都在函数和类这个尺度。/smell 往上抬了一层，把架构和复杂度也算进来，一共 8 大类、50+ 种：

类别	示例
架构	大泥球、分布式单体、贫血模型、CQRS 滥用、层边界违反
耦合	循环依赖、内容耦合、公共耦合（全局状态）、印记耦合
内聚	上帝对象、霰弹式修改、依恋情结、数据泥团
设计	抽象泄露、静态粘连、服务定位器滥用、SOLID 违反
代码	重复代码、长方法、基本类型偏执、魔数、死代码
测试	零测试覆盖、测试-实现耦合、不稳定测试
命名	模糊命名、命名不一致
复杂度	嵌套循环 (O(n²))、N+1 查询、重复线性扫描、循环内排序、渲染重复计算

最后两类，「测试」和「复杂度」，是 Fowler 的坏味道目录里没有的，而它们在 AI 时代恰好用得上。AI 生成的代码经常零测试覆盖，也经常埋着 N+1 查询、循环内排序这类一眼看不出、上了量才爆的性能坑。这些 /smell 能一并扫出来。

23.6.2 输出：一份带优先级的重构路线图

/smell 不只是列问题，它产出一份结构化的 Markdown 报告：

执行摘要和整体健康评估
检测到的架构风格，对比它"应该是"的风格
按严重级别分类的发现：严重 / 警告 / 建议
依赖图分析和模块健康评分卡
8 大类坏味道的分布统计
一份重构路线图，分成「立即可做 / 短期 / 长期」

最有价值的是最后那份路线图。它直接回答了开头那个问题：该先动哪块。你可以让它只跑「仅严重」模式做快速体检，也可以把范围缩到某个模块，或者只扫最近改动的文件。

23.6.3 两个 Skill 怎么配合

把 /smell 和 /refactor 串起来，就是一条完整的"健康维护"链路：

/smell 出报告：定位病灶，排好优先级，知道先改哪、后改哪。
/refactor 逐条施工：针对报告里的具体坏味道，套 Fowler 手法，走五阶段安全协议，每步提交。
改完再跑一遍 /smell，看健康评分有没有真的涨上去。

这正好呼应了 23.3 节那条铁律，「代码必须变干净」。/smell 的健康评分让"变干净"这件事从主观感受变成了可量化的前后对比：重构前一个分，重构后一个分，涨了才算没白干。

23.7 小结

重构的方法论二十年没怎么变：嗅坏味道、对着手法目录、小步施工、每步测试、不夹带功能。AI 时代变的只有一件事，把 Fowler 那本书从「人读的参考书」变成了「Agent 执行的 Skill」，再用安全协议把人最容易偷的懒，改成机器必须遵守的护栏。goal workflow 把这件事拆成两个 Skill：/smell 诊断，扫出整个代码库的病灶并排好优先级；/refactor 治疗，照着 Fowler 手法一处处修。先体检，再开刀，改完再体检，这就是 AI 时代维护代码库健康的闭环。

第 22 章用 UML 让你读懂 AI 写的代码，这一章用重构让你改好 AI 写的代码。读懂是前提，改好是落点。两件事合起来，才是「你可以外包思考，但不能外包理解」这句话在工程上真正站住脚的样子。

UML 新用途：让 AI 理解你生成的代码

2026-06-28T09:00:00.000Z

「A picture is worth a thousand words. A diagram is worth ten thousand lines of code.」
一图胜千言。一张图胜万行代码。

第 13 章解决了一个问题：AI 写代码容易，读代码难。Understand-Anything 用知识图谱让 AI 理解现有代码。

反过来——代码写完了，作为人类你怎么理解它？毕竟，线上出了故障你还等着你背锅呢。

我前一段看到一句箴言："𝐲𝐨𝐮 𝐜𝐚𝐧 𝐨𝐮𝐭𝐬𝐨𝐮𝐫𝐜𝐞 𝐲𝐨𝐮𝐫 𝐭𝐡𝐢𝐧𝐤𝐢𝐧𝐠, 𝐛𝐮𝐭 𝐲𝐨𝐮 𝐜𝐚𝐧𝐧𝐨𝐭 𝐨𝐮𝐭𝐬𝐨𝐮𝐫𝐜𝐞 𝐲𝐨𝐮𝐫 𝐮𝐧𝐝𝐞𝐫𝐬𝐭𝐚𝐧𝐝𝐢𝐧𝐠"，翻译过来就是"你可以外包你的思考(给AI),但是你不能外包你的理解"。这句话被 Andrej Karpathy 多次引用，以至于大家认为是他说的，其实是kache说的：

这句话非常有哲理。Dex Horthy 在 2025 AI Engineer 大会上独立提出了："Don't outsource the thinking" / "AI cannot replace thinking, it can only amplify the thinking you have done."，但是今年你看， AI已经外包了我们的思考，你只需说出的你需求，智能体就能帮助你生生成你要的程序，但是 AI 没有办法帮我们理解啊。

我最近就遇到了这样的困惑：我通过goal workflow很快的实现了一个大模型训推任务智能诊断系统，全是AI帮我生成的，但是在联调的前一个星期，我心虚了。

因为我知道，联调和上线的时候，必然有一些问题，比如当时的设计有些模糊的地方，设计上有gap, 实现上也难免有bug。如果我对生成的代码不熟悉，联调的时候出故障我都不知道啥原因咋修复，可能当时还得重新捋代码才能慢慢找根因，太影响联调的同学了。未来上线以后出现问题，想快速修复就更不可能了。

所以我专门花了两天时间，建了几个卡片，就为了学习代码理解代码。

那我是通过什么方式去理解AI生成的代码的呢？

答案藏在一个用了二十多年的老工具里：UML。区别只有一点：以前的 UML 是人画给团队的，现在是 AI 画给你的。十四种图，从类结构到部署拓扑，从序列交互到状态变迁。AI 生成代码，AI 再画图解释代码——你读图就够了。

为此，我专门创建了一个Skill，用来生成UML的十四种代码和架构图、流程图以及泳道图。此skill的介绍：https://goal.rpcx.io/index_cn.html#step-diagram，也集成到了goal workflow套件中了。

本章分两部分：第一部分过一遍 UML 十四种正式图形，外加三种 UML 规范没有但实际很常用的图。第二部分介绍 insight-diagram——一个在 goal.rpcx.io 上发布的 Skill，给任意代码库自动生成全套 UML 图、架构图和流程图。

14.1 UML 简史：从三剑客到 OMG 标准

1994 年，Grady Booch 和 Jim Rumbaugh 在 Rational Software 相遇。Booch 有他的 Booch Method，Rumbaugh 有他的 OMT（Object Modeling Technique）。两种方法符号体系不同，画出来的图互不认识。

1995 年，Ivar Jacobson 加入，带来他的 OOSE（Object-Oriented Software Engineering）方法。三人被称为「三剑客」（Three Amigos），目标：统一面向对象建模的符号体系，让所有软件工程师用同一套语言画图。

1997 年，OMG（Object Management Group）采纳 UML 1.0。2005 年，UML 2.0 图形种类从 9 种扩展到 13 种。最新版本 UML 2.5.1（2017 年）定义了 14 种图，分为两大类：

结构性图形（Structure Diagrams）：描述系统的静态结构——有哪些组件、怎么组织的。
行为性图形（Behavior Diagrams）：描述系统的动态行为——怎么运行、怎么交互。

AI 时代之前，UML 的命运比较尴尬。敏捷宣言之后，很多人觉得「重文档轻代码」不靠谱，UML 跟着被冷落了。但有一个事实没变：代码由 AI 大量生成之后，人类比以往更需要可视化理解工具。UML 重新有了用武之地——角色从「先画图再写代码」的前置仪式，变成了「AI 写代码，你读图」的后置理解工具。

14.2 结构性图形（Structure Diagrams）：系统长什么样

结构性图形回答「系统由什么组成」——类、对象、组件、包、部署节点。它们是系统的静态 X 光片。

14.2.1 类图（Class Diagram）

最常用的 UML 图。展示系统中的类、接口、协作以及它们之间的关系。

画什么：

类名、属性、方法——每个类一个矩形框，分成三格
关系类型：泛化（继承，空心三角箭头）、实现（虚线空心三角）、关联（实线）、聚合（空心菱形，整体-部分弱关系）、组合（实心菱形，整体-部分强关系，同生命周期）、依赖（虚线箭头）

什么时候用： 看项目的领域模型。agent-wrapper 项目的 Agent、Task、Tool、Message 等核心类型及其继承和组合关系。

AI 时代的价值： AI 生成 50 个类之后，类图让你一眼看清谁继承了谁、谁组合了谁——不用在 50 个文件之间反复横跳。

14.2.2 对象图（Object Diagram）

类图的运行时快照。展示特定时刻的对象实例及其属性值和链接关系。

画什么：

对象名:类名（加下划线标注）、属性的具体值、实例间的链接
比如 agent1: Agent { name="code-generator", model="claude-4" } 连接到 task42: Task { status="running" }

什么时候用： 调试时的内存快照。复杂对象图在某个时刻的状态——帮助看清递归结构、循环引用、单例模式的具体实例分布。

14.2.3 组件图（Component Diagram）

比类图高一层——展示软件架构中可替换的模块化组件及其接口。

画什么：

组件（矩形，带 <> 标识）、提供的接口（棒棒糖符号）、需要的接口（插座符号）
组件间通过接口的依赖关系

什么时候用： 理解微服务架构或模块化系统中组件之间的契约关系。agent-wrapper 中 LLM Provider 组件提供 chat() 接口，Agent Runtime 组件消费这个接口。

14.2.4 部署图（Deployment Diagram）

把软件映射到硬件。展示运行时处理节点及驻留在节点上的构件。

画什么：

节点（三维立方体）：服务器、容器、设备
构件（矩形）：部署在节点上的软件模块
通信路径：节点间的网络连接，可标注协议（HTTP/REST、gRPC、消息队列）

什么时候用： 理解生产环境的物理拓扑。agent-wrapper 的部署：User's Machine 节点运行 CLI，Cloud VM 节点运行 Agent Runtime，外部节点 Anthropic API。

14.2.5 包图（Package Diagram）

按逻辑分组组织模型元素。包可以嵌套，包之间有依赖和导入关系。

画什么：

包（文件夹图标或带标签的矩形框）、包间的依赖箭头、包的嵌套层次
体现分层架构：domain/ → application/ → infrastructure/ → presentation/

什么时候用： 大项目的模块组织概览。agent-wrapper 中 core/ 包、tools/ 包、plugins/ 包、cli/ 包的依赖方向。

14.2.6 复合结构图（Composite Structure Diagram）

深入一个类的内部。展示类的部件（Part）、端口（Port）、连接器（Connector）以及它们之间的协作。

画什么：

部件（类内部的组件实例）、端口（小方块，部件与外界的交互点）、连接器（部件间的连线）
比类图更微观——类图展示「哪些类」，复合结构图展示「这个类内部由哪些部分构成」

什么时候用： 理解复杂模式（如 Observer、Visitor）的运行时内部结构。agent-wrapper 中 AgentLoop 类的内部：Planner 部件 → Executor 部件 → Verifier 部件，通过端口相互连接。

14.2.7 剖面图（Profile Diagram）

UML 的扩展机制。定义特定领域或平台的方言——自定义构造型（Stereotype）、标签值（Tagged Value）、约束（Constraint）。

画什么：

<> 定义、用构造型标注的元类扩展
比如定义一个 <> 构造型，标注 language、port、healthCheck 等标签值

什么时候用： 当 UML 需要说团队自己的术语时。agent-wrapper 项目可以定义 <>、<>、<> 等自定义构造型。

14.3 行为性图形（Behavior Diagrams）：系统怎么运行

行为性图形回答「系统怎么工作」——流程、交互、状态变迁。它们是系统的动态录像。

14.3.1 用例图（Use Case Diagram）

从用户视角展示系统能做什么。外行最容易看懂的 UML 图。

画什么：

参与者（火柴人图标）：人、外部系统、定时器
用例（椭圆）：系统提供的功能
关系：<>（必须包含）、<>（可选扩展）、泛化（参与者或用例的继承）

什么时候用： 和产品经理对齐需求。agent-wrapper 的用例：用户 → 「创建 Agent」、用户 → 「配置 Skill」、用户 → 「启动自主循环」、外部 API → 「响应 Tool Call」。

14.3.2 活动图（Activity Diagram）

增强版流程图。展示从活动到活动的控制流，支持并发分支和合并。

画什么：

活动节点（圆角矩形）、决策节点（菱形）、fork/join（粗横线）、泳道（可选）
开始节点（实心圆）→ 活动序列 → 结束节点（实心圆+外圈）

什么时候用： 描述一个流程的多分支执行路径。agent-wrapper 中 Goal 命令的执行流程：解析 Goal → 生成 Plan → fork（并行执行 Sub-goals）→ join（汇总结果）→ 验证 → 输出。

14.3.3 状态机图（State Machine Diagram）

跟踪一个对象从生到死的完整生命周期——中间经历了哪些状态，什么事件触发了状态变迁。

画什么：

状态（圆角矩形，可包含 entry/do/exit 动作）、转移（箭头上标注「事件[守卫]/动作」）
初始伪状态（实心圆）、终止状态（实心圆+外圈）

什么时候用： 理解有复杂生命周期的对象。agent-wrapper 中 Task 对象的状态机：pending → queued → running → (completed | failed | cancelled)，每个转移上标注触发事件。

14.3.4 序列图（Sequence Diagram）

最常用的交互图。按时间顺序展示对象间的消息交换——谁先调谁、传什么参数、返回什么。

画什么：

生命线（纵向虚线，代表对象的时间线）、激活条（生命线上的矩形，代表对象正在执行）
消息（水平箭头）：同步调用（实心箭头）、异步消息（开放箭头）、返回（虚线箭头）

什么时候用： 理解一个具体场景的完整调用链。agent-wrapper 中「创建并运行一个 Agent」的完整交互序列：CLI → AgentFactory.create() → Agent.run() → LLMProvider.chat() → ToolRegistry.execute() → 返回结果 → CLI 输出。

14.3.5 通信图（Communication Diagram）

和序列图共享同一批信息，视角不同。序列图强调时间顺序（从上到下），通信图强调对象间的组织关系（空间布局）。

画什么：

对象（矩形节点）、链接（对象间的连线）、消息（连线上标注序号和箭头方向）
消息编号（1, 2, 3...）表示时间顺序，嵌套用 1.1, 1.2...

什么时候用： 关注「在某个时刻，哪些对象在互相通信」时——对象间的链接结构成为重点，时间线退居次要。

14.3.6 定时图（Timing Diagram）

展示对象状态随时间的变化曲线，含精确的时间约束。

画什么：

时间轴（横向，精确刻度）、状态线（折线，展示每个对象的状态变化）、持续时间约束 {duration < 500ms}
适合实时系统、嵌入式系统和性能关键路径

什么时候用： 性能分析和实时约束验证。agent-wrapper 中 Tool Call 的超时机制：execute_tool() 必须在 30s 内完成，否则触发重试——定时图展示这四个阶段的时间约束。

14.3.7 交互概览图（Interaction Overview Diagram）

活动图和序列图的混合体。用活动图的控制流框架，每个节点可以嵌入一个交互片段（序列图、通信图、定时图或其他交互概览图）。

画什么：

框架是活动图（决策节点、fork/join、开始/结束）
节点内部嵌入 sd（序列图）等交互片段

什么时候用： 复杂流程的宏观概览——不展示每次函数调用的细节，而是展示「这个流程分几大阶段，每个阶段内部发生了什么交互」。agent-wrapper 完整运行流程：初始化（序列图）→ 规划（序列图）→ 执行循环（交互概览图）→ 完成（序列图）。

14.4 超越 UML：三种实用的非 UML 图

上面 14 种是 UML 2.5 标准定义的。真实软件工程中，有三种图不在 UML 规范里，但使用频率比很多 UML 图更高。

14.4.1 系统架构图（Architecture Diagram）

比组件图更自由。展示系统的顶层组件、外部依赖以及数据流方向。不遵守 UML 严格的符号约束——方块、圆圈、数据库图标、云图标都可以用，含义清晰即可。

什么时候用： 任何项目的第一个图。项目经理、新成员、外部评审者——所有人都从架构图开始理解系统。

14.4.2 流程图（Flowchart）

比活动图更简单。没有 fork/join 的并发语义，没有泳道的组织维度——只有开始、结束、处理步骤、判断分支。它就是画在白板上的那种图。

什么时候用： 描述算法逻辑、业务流程或决策树。不追求 UML 的完备语义，追求最大可读性。

14.4.3 泳道图（Swimlane Diagram）

流程图 + 角色分工。把流程步骤按「谁负责」分配到不同的泳道里，跨泳道的箭头表示交互和交接。

什么时候用： 跨团队协作流程。agent-wrapper 中用户、Agent Runtime、LLM Provider、Tool Registry 四个泳道的完整交互流程。

14.5 UML 在 AI 时代的三个用途

AI 生成代码之后，UML 的角色从「前置设计工具」变成了「后置理解工具」。三个具体用途：

用途一：代码理解的可视化层。 第 13 章的 Understand-Anything 产出知识图谱——文件、函数、类的节点和边。UML 把这些节点组织成有意义的模式——类图把散落的类型组织成领域模型，序列图把函数调用链组织成交互故事。知识图谱是原材料，UML 是成品。

用途二：AI 生成代码的质量验证。 AI 生成了 2000 行代码。你怎么知道架构没被写烂？生成一张类图——继承链有没有循环引用一目了然。生成一张包图——依赖方向有没有违反 Clean Architecture 的箭头规则。UML 就是 AI 代码的架构 X 光。

用途三：团队沟通的通用语言。 不同的人看同一段 AI 代码，脑子里画的图可能完全不一样。UML 给了一套标准化的可视化符号，所有人坐下来看同一张图，对「这段代码长什么样」的理解不会差太远。

14.6 insight-diagram：一键生成全套 UML 图的 Skill

前面聊了 17 种图。一个中等规模的项目，手工画完，单位是天。

insight-diagram 在 goal.rpcx.io 上发布，给任意代码库自动生成全套 UML 图、架构图和流程图。不需要你懂 UML——告诉它项目在哪，它分析代码库、让你选图表类型，然后一张张生成。

14.6.1 核心理念：代码分析 → 图表选择 → 逐个生成

四个步骤：

步骤 1 — 分析代码库。 Skill 读取项目的 CLAUDE.md（项目概览）、各子目录的 CLAUDE.md（模块细节），用 Glob 扫描源码文件结构，用 Grep 搜索关键模式（接口定义、函数签名、依赖注入）。提炼出组件清单、依赖关系图、核心类型、业务流程和部署拓扑。

步骤 2 — 选择图表。 多选菜单，17 种图表分四组展示：结构性图形（类图、对象图、组件图、部署图、包图、复合结构图、剖面图）、行为性图形（用例图、活动图、状态机图）、交互图（序列图、通信图、定时图、交互概览图）、实用非 UML（系统架构图、流程图、泳道图）。默认推荐：architecture + sequence + flowchart。

步骤 3 — 逐个生成。 每个图表的生成流程：

先读示例。 Skill 内置 13 个示例 HTML 文件，每种图表类型一个。生成前从示例中提取布局策略（节点间距、分组方式、箭头走向）、节点样式层级（核心节点高亮、普通节点实线边框、可选节点虚线边框）、标注风格（阶段标签、Legend 图例、卡片摘要）和信息密度。
整理元素和关系。 根据步骤 1 的分析结果，确定元素和关系。类图：10-15 个核心类型。序列图：2-5 个核心交互场景。每个图有明确关注重点，不追求全量覆盖。
调用 architecture-diagram skill 渲染。 使用 Anthropic Claude 视觉风格（暖白背景 #FAF9F6、terracotta/sage/plum/rose 配色、Inter 字体），输出 HTML+SVG。所有元素不得遮盖——箭头在节点下方、间距充足（垂直 ≥40px，水平 ≥30px）、文字不溢出。元素过多则拆分子图或缩小元素。
保存到 docs/ 目录。 文件命名如 docs/architecture.html、docs/class.html、docs/sequence.html。

步骤 4 — 报告。 全部生成完成后输出文件列表和每张图的简要描述。

14.6.2 图表生成顺序：从宏观到微观

生成顺序是固定的，不是随机的：

1
2
3

architecture → component → deployment → package → composite-structure →
profile → class → object → usecase → flowchart → activity → state-machine →
swimlane → sequence → communication → timing → interaction-overview

从架构图开始，逐步深入到组件、部署、包结构、类的内部结构，再到行为层面的用例、流程、状态、交互。每一步都踩在上一步提取的信息上——生成类图的时候，架构图和组件图已经把系统的主要模块和边界画出来了。

14.6.3 关键设计决策

示例驱动，而非提示词驱动。 Skill 不给 LLM 一段「画类图的提示词」——给示例 HTML 文件。LLM 从示例中提取布局模式、色彩方案、节点样式，用自己的内容替换。LLM 做「模仿已有模板然后替换内容」这件事远比做「根据纯文本描述从零生成视觉设计」靠谱。

专用渲染 Skill 分离。 insight-diagram 不做渲染——它调用 /architecture-diagram（另一个 Skill）生成 HTML+SVG。职责分离：insight-diagram 负责「分析代码、选择图表、整理元素」，architecture-diagram 负责「把元素渲染为 HTML+SVG」。这是 Skill 系统中的组合模式——一个 Skill 依赖另一个 Skill。

防遮盖规则。 SVG 元素不得互相遮盖。箭头绘制在节点下方（SVG 中先画箭头再画节点）。节点间最小间距 40px（垂直）、30px（水平）。文字不超出节点边界——超长截断或换行。这些规则在生成时强制检查，确保产出图表可直接用于文档和演示，跳过人工微调步骤。

语言无关。 支持 Go、Python、TypeScript、Java、Rust 等主流语言。分析代码库使用 Glob + Grep + Read——不依赖语言特定解析器，对所有语言有基本覆盖。需要精确提取「所有类和它们的方法签名」的类图时，建议与 Understand-Anything（第 13 章）组合使用——Understand-Anything 提供精确的结构数据，insight-diagram 负责可视化。

14.6.4 与 Understand-Anything 的配合

第 13 章和本章是互补关系：

维度	Understand-Anything	insight-diagram
产出	知识图谱（JSON）	UML/架构/流程图（HTML+SVG）
精度	确定性（Tree-sitter 解析）	LLM 推断（基于代码阅读）
用途	Agent 查询、影响分析、导航	人类阅读、文档、演示
目标读者	AI Agent	人类团队
更新方式	增量（commit hook 触发）	按需（手动触发重新生成）

最佳实践：Understand-Anything 产出的知识图谱提供精确的组件清单和依赖关系，insight-diagram 把信息可视化为标准 UML 图形。确定性的结构数据 + LLM 的视觉表达——和 Understand-Anything 的 Tree-sitter + LLM 混合架构是同一设计哲学。

14.6.5 在 agent-wrapper 上实战

实际上只生成了架构图、流程图和几个UML图就已经可以充分理解AI生成的代码了，这里我生成了所有的图片，主要是为了让你了解生成的各个图形的效果。我更多会看架构图、流程图、类图、序列图、泳道图等。

有些生成的图形连线有些错误，图形有些重叠，你可以给智能体指出错误，让它修复，生成完美的图形。下面有些图生成的不是很完美，我也贴出来了，没有进一步优化。

agent-wrapper（/Users/smallnest/ai/agent-wrapper）是 Go 语言实现的 AI Agent 包装框架，核心功能包括 Agent 生命周期管理、Skill 注册与调度、Tool 调用链、LLM Provider 抽象和多轮对话状态机。项目包含 20+ 个 Go 源文件，分布在 core/、tools/、plugins/、cli/ 等包中。

使用 insight-diagram 生成全套图表的过程：

调用 Skill。 /insight-diagram，Skill 读取 CLAUDE.md、扫描源码结构、提取组件和接口。
选择图表。 默认推荐三张图（architecture + sequence + flowchart），覆盖「系统怎么组织的、关键交互怎么发生、主流程怎么走」。
逐个生成。 Skill 依次读取对应示例、整理元素、调用 architecture-diagram 渲染、保存到 docs/。
人工补充。 生成的图表作为基础版本，微调后补充到项目文档。

agent-wrapper 系统架构图（Architecture Diagram）

这张图把 agent-wrapper 的顶层结构摊开了。上边调用方（Go 代码或 CLI），中间是核心——Registry 管理 8 个 Provider、Orchestrator 驱动多轮对话循环、process 包管理子进程生命周期。下边 8 个 Agent CLI 进程（claude、codex、pi、opencode 等），每个独立子进程，通过 stdin/stdout 与 wrapper 通信。

agent-wrapper 类图（Class Diagram）

五个核心类型。Agent 是顶层接口，只有 Run() — 接收 RunInput，输出 <-chan Event。Orchestrator 持有 Agent，加 ApprovalHandler、BudgetHandler、ContextCompressor 三个钩子。Registry 用 sync.RWMutex 保护 map。RunInput 的 SessionID、MaxTurns、OutputFormat 决定每次调用的行为。Event 五种类型（TextDelta/ToolCall/ToolResult/TurnEnd/Error）覆盖 agent CLI 的所有输出。

agent-wrapper 对象图（Object Diagram）

「用 Claude Code provider 创建并运行一个 Agent」那一瞬间的内存快照。Registry 里注册了 8 个 provider，Get("claude-code") 返回 ClaudeCodeAgent 实例。Orchestrator 持有这个 agent，默认 ChainedCompressor（SlidingWindow + Summary），3 次重试。RunInput 带着 prompt "重构这个文件"、MaxTurns=10、OutputFormat=stream。

agent-wrapper 组件图（Component Diagram）

组件之间的契约关系。Registry 对外提供 Register(name, Factory) 和 Get(name) Agent 两个接口（棒棒糖），各 provider 包作为组件注册进来。Orchestrator 消费 Agent 接口，同时插 ApprovalHandler 和 BudgetHandler 两个插座。底层 process.AgentProcess 封装 os/exec.Cmd，提供 stdin/stdout/stderr 管道和优雅关闭（SIGTERM → 5s → SIGKILL）。

agent-wrapper 部署图（Deployment Diagram）

代码到物理节点的映射。用户机器运行 CLI（cmd/agent-wrapper 二进制），运行 Orchestrator.Run()，启动 claude/codex 等子进程。外部节点三个：Anthropic API（claude 后端）、OpenAI API（codex 后端）、Moonshot API（kimi-code 后端）。CLI → Orchestrator 是本地函数调用，Orchestrator → Agent CLI 是子进程 stdio，Agent CLI → 外部 API 是 HTTPS。

agent-wrapper 包图（Package Diagram）

顶层 agentwrapper 包入口，依赖 types、harness、process。types/ 在最底层——Agent 接口、Event、Message、RunInput，所有其他包都依赖它。harness/ 提供可插拔组件：ApprovalHandler、BudgetHandler、ContextCompressor。process/ 封装子进程管理。provider/ 是独立子树——八个包各自实现 Agent 接口。箭头方向符合 Clean Architecture：外层依赖内层，内层不依赖外层。

agent-wrapper 复合结构图（Composite Structure Diagram）

Orchestrator 的内部结构。四个 Parts：Agent（子进程驱动）、ApprovalHandler（工具审批）、BudgetHandler（token 预算）、ContextCompressor（上下文压缩重试）。Run() 通过 runAgentWithRetry() 端口调 Agent，Event Channel 经审批和预算检查后从 out 端口输出。关键：agent.Run 失败 → IsContextLengthExceeded(err) → compressor.Compress() → 重试最多 maxRetries 次（默认 3）。

agent-wrapper 剖面图（Profile Diagram）

为 agent-wrapper 定义的三个自定义 Stereotype。<>——实现 Agent 接口的子进程驱动类，含 binary、protocol 标签值。<>——可插拔运行时钩子，含 hook_point、is_async 标签。<>——统一事件类型，含 direction 标签。在 agent.go 里写 // @stereotype Provider binary=claude protocol=stream-json，生成类图时自动识别特殊样式。

agent-wrapper 流程图（Flowchart）

从输入到输出的完整决策树。Registry.Get(provider) → 查表 → 未找到返回 ErrNotRegistered。找到则创建 Agent → NewOrchestrator 配 Approval/Budget/Compressor/Retries。orch.Run() → 校验 prompt → runAgentWithRetry() 启子进程 → Scanner 解析 NDJSON → 每条事件过审批（allow/deny/abort）→ 过预算 → 输出。TurnEnd 检查 stop_reason，Context 超限触发压缩重试。

agent-wrapper 用例图（Use Case Diagram）

这个图画的不清晰。

agent-wrapper 活动图（Activity Diagram）

Orchestrator.Run() 的并发控制流。起始 → Fork 两条。主循环：eventCh 接收 → 分发审批/预算/转发 → TextDelta 直接转，ToolCall 走审批，TurnEnd 走预算。子进程监控：goroutine 监听 ctx.Done() → terminate()（SIGTERM → 5s → SIGKILL）。退出时 Join → close(out)。

agent-wrapper 状态机图（State Machine Diagram）

AgentProcess 生命周期。Idle → cmd.Start() → Running。Running + cmd.Wait() → Exited（异常记 ExitCode）。Running + ctx 取消 → Terminating → SIGTERM → 5s 后 SIGKILL → Killed。sync.Once 保证 terminate 只跑一次。

agent-wrapper 序列图（Sequence Diagram）

Orchestrator.RunSync() 的时间线。CLI → Registry.Get("claude-code") → 返回 ClaudeCodeAgent → NewOrchestrator → orch.RunSync() → agent.Run() → StartProcess() 启动子进程 → NDJSON 到 stdout → Scanner 解析 → 首条 event 带 session_id → 逐条回 Orchestrator → TurnEnd → RunResult{Text, Usage, SessionID}。agent-wrapper 最核心调用链。

agent-wrapper 通信图（Communication Diagram）

同一批信息，视角换成「谁在跟谁通信」。CLI→Registry（1:Get）→Orchestrator（2:NewOrchestrator, 3:RunSync）→ClaudeCodeAgent（4:Run）→AgentProcess（5:Start）→Anthropic API（6:HTTPS）。反馈路径：API→Process→Scanner→Agent→Orchestrator channel→CLI。强调拓扑，不强调时间线。

图画的不好。

agent-wrapper 定时图（Timing Diagram）

Orchestrator.RunSync() 的时间约束（ms）。0ms 开始，2ms Agent.Run，5ms Process running，10ms 流式输出，12ms API 请求，50ms TurnEnd，55ms 返回。约束：tool_call ≤ 30s、SIGTERM→SIGKILL = 5s。检查长对话超时边界。

agent-wrapper 交互概览图（Interaction Overview Diagram）

活动图框架嵌入三个交互场景。判断「output format?」→ 三条分支：stream（sd OutputStream，实时输出）、json（sd OutputJSON，Marshal(RunResult) 单条）、stream-json（sd OutputStreamJSON，NDJSON 逐行）。汇聚到 exit。不展开细节，一眼看清分流逻辑。

agent-wrapper 泳道图（Swimlane Diagram）

四泳道：User/CLI、Orchestrator、Agent/Provider、External LLM API。User：Registry.Get → RunInput → RunSync/消费 events。Orchestrator：校验 prompt → runAgentWithRetry → processEvent（审批+预算）→ collect result。Agent：startSubprocess → parseNDJSON → emit events → wait exit。API：receive → generate → return tokens/tool_calls。跨泳道标注协议：via interface、via pipe、via HTTPS。

14.7 本章小结

UML 十四种图加上三种实用扩展，覆盖软件系统的两个核心维度：结构（系统长什么样）和行为（系统怎么运行）。AI 开始生成代码之后，UML 从「前置设计工具」变成了「后置理解工具」——AI 写代码，图让人看得懂。

insight-diagram 把画图自动化了。一个 Skill，四步（分析代码 → 选择图表 → 逐图生成 → 报告），17 种图表。示例驱动的生成策略锁住了风格，防遮盖规则保证了产出直接能用。跟 Understand-Anything 配合，就是「确定性结构 + LLM 可视化」的完整链路。

本章为 agent-wrapper 预留的图表占位区，后续用 insight-diagram 生成全套图表后补充实际图片。

第 12 到 14 章连续过了三组 AI 编码辅助工具：官方插件、代码知识图谱、UML 可视化。下一章进代码重构——代码写完了，怎么让 AI 帮你把它改好。

Understand-Anything：代码知识图谱

2026-06-28T08:30:00.000Z

"The goal isn't a graph that wows you with how complex your codebase is — it's a graph that quietly teaches you how every piece fits together."
目标不是一张让你惊叹「代码库真复杂」的图——是一张默默教你每个部分如何协作的图。
——Yuxiang Lin, Understand-Anything 作者, 2026 年

Skills 拆能力。Spec 写合约。Ralph Loop 循环到对。gstack 角色覆盖。Goal Workflow 串流水线。autoresearch 全自动闭环。官方插件注入领域知识。每一章都在回答同一件事：让 AI 写出更好的代码。

本章不教 AI 写代码——教 AI 读懂已有的代码。

Understand-Anything 是目前「代码理解」方向上最成熟的开源项目：48.4K Stars，15 个 AI Agent 平台支持，最新版本 v2.7.3。作者 Yuxiang Lin。装上之后，Agent 不再靠 grep 和逐文件阅读理解代码库——先查知识图谱。

13.1 问题：AI 不理解你的代码

AI 写代码很快。读代码是另一回事。

当你对 Claude Code 说「在这个功能里加上暗黑模式」，Agent 需要自己找出哪些文件跟主题相关、哪些组件需要适配、CSS 变量在哪里定义、有没有已有的主题切换逻辑。它用 grep 搜关键词，用 Read 逐文件阅读——每次一个文件，每次消耗上下文窗口。五万行的代码库，靠 grep + Read 理解全貌，几十轮对话。每轮烧 token，每轮都可能漏掉关键依赖。

Agent 不记昨天读过什么。你昨天问了「这个项目的认证逻辑在哪里」，今天再问，它从头搜。Understand-Anything 提前做了这件事。Agent 再来问，直接查知识图谱。

13.2 核心概念：代码 → 知识图谱

把代码库变成知识图谱。每个文件、每个函数、每个类是一个节点。import 关系、调用关系、继承关系是边。节点上挂 LLM 生成的摘要和标签，边上标依赖方向。

这张图有了之后：

快速定位。 搜索语义，不是搜索关键词。「认证逻辑在哪里？」——知识图谱返回 src/auth/ 模块及它依赖的 src/middleware/session.ts。
影响分析。 改了 UserModel，知识图谱展示哪些文件 import 了它、哪些函数调用了它的方法。
新人上手。 新成员 Clone 仓库后跑一次 /understand，再用 /understand-onboard 产出按依赖顺序的阅读指南——先看 domain 层，再看 service 层，最后看 API 层。

13.3 Tree-sitter + LLM：确定性骨架，语义血肉

Understand-Anything 的架构做了明确分工。

Tree-sitter 负责结构解析。把源代码解析成语法树，提取确定性事实：哪些文件 export 了哪些符号、import 来自哪个模块、函数调用了哪些函数、类继承自哪个类。同一份代码，Tree-sitter 每次输出完全相同——零随机性，零幻觉。这些结构事实在扫描阶段预解析成 importMap，文件分析 Agent 直接从 importMap 读取，不重新推导。Tree-sitter 还驱动增量更新——文件内容变了，fingerprint 定位变更范围。

LLM 负责语义判断。读入 Tree-sitter 产出的结构和原始源码，产出解析器做不到的事：每个节点的人类可读摘要、语义标签、架构层分类、业务域映射、引导式学习路径。Tree-sitter 确定「这文件导出了什么」，LLM 判断「这个文件是做什么的、属于哪一层、和哪些业务流程相关」。

分开的好处：结构解析不消耗 token、不膨胀、不摇摆。语义理解只在需要判断「含义」的地方才调 LLM。两侧产出可独立验证——结构结果和 import 语句逐条对账，语义结果人工抽查。

13.4 安装与配置

13.4.1 平台支持

Understand-Anything 支持 15 个 AI Agent 平台。核心引擎是同一套 TypeScript 代码，不同平台只是斜杠命令注册方式不同。

平台	安装方式
Claude Code	Plugin Marketplace 原生安装
Codex	`install.sh codex`
OpenCode	`install.sh opencode`
OpenClaw	`install.sh openclaw`
Antigravity CLI	`install.sh antigravity`
Gemini CLI	`install.sh gemini`
Pi Agent	`install.sh pi`
Vibe CLI	`install.sh vibe`
Hermes	`install.sh hermes`
Cline	`install.sh cline`
KIMI CLI	`install.sh kimi`
Trae	`install.sh trae`
Cursor	自动发现 `.cursor-plugin/plugin.json`
VS Code + Copilot	自动发现 `.copilot-plugin/plugin.json`（v1.108+）
Copilot CLI	`copilot plugin install`

13.4.2 Claude Code 安装（推荐）

最简路径——Claude Code 内置 Plugin Marketplace：

1 2	/plugin marketplace add Lum1104/Understand-Anything /plugin install understand-anything

第一条命令添加插件市场源，第二条安装插件。安装后 /understand 等命令全局可用。

13.4.3 一行命令安装（其他平台）

macOS/Linux：

1	curl -fsSL https://raw.githubusercontent.com/Lum1104/Understand-Anything/main/install.sh \| bash

指定平台：

1	curl -fsSL https://raw.githubusercontent.com/Lum1104/Understand-Anything/main/install.sh \| bash -s codex

Windows（PowerShell）：

1	iwr -useb https://raw.githubusercontent.com/Lum1104/Understand-Anything/main/install.ps1 \| iex

安装脚本做的事：Clone 仓库到 ~/.understand-anything/repo，创建平台特定的符号链接，注册斜杠命令。重启 AI Agent 后生效。

13.4.4 更新与卸载

1 2	./install.sh --update # 更新到最新版本 ./install.sh --uninstall codex # 卸载指定平台

13.5 五到七个专门的 Agent 流水线

运行 /understand，背后是五个专门 Agent 按序执行。

Agent	角色	技术
`project-scanner`	扫描项目，发现文件，检测语言和框架	Tree-sitter + 文件系统
`file-analyzer`	从每个文件提取函数、类、导入，生成图节点和边	Tree-sitter + importMap
`architecture-analyzer`	识别架构层（API、Service、Data、UI、Utility）	LLM
`tour-builder`	生成按依赖排序的学习路径	LLM
`graph-reviewer`	验证图完整性、引用完整性	默认内联（确定性检查），`--review` 切换到 LLM 全面审查

五个是基础流水线。/understand-domain 追加第六个 Agent——domain-analyzer，从代码中提取业务域、流程、步骤。/understand-knowledge 追加第七个 Agent——article-analyzer，处理 Karpathy-pattern LLM Wiki 文章，提取实体、声明和隐含关系。

文件分析 Agent 并发运行——最多 5 个并行，每批 20-30 个文件。LLM 调用的延迟被并行掩盖，大项目的分析时间主要由最长的那批文件决定，而不是文件总数。

增量更新模式（--auto-update 或 commit hook）：只重新分析变更的文件。Tree-sitter 的 fingerprint 检测哪些文件变了，只跑这几个文件的 file-analyzer，其他节点和边不动。小型 commit 的图更新秒级完成。

13.6 知识图谱的七种用途

13.6.1 交互式浏览：`/understand-dashboard`

产出的知识图谱可以导入交互式 Web Dashboard。每个节点可点击——点击文件节点，展示 LLM 摘要、导出的符号、依赖来源和去向。点击类节点，展示方法列表和继承链。节点按架构层颜色编码——API 层蓝色，Service 层绿色，Data 层橙色，UI 层紫色，Utility 层灰色。Dashboard 支持角色自适应 UI——初级开发者、PM、高级用户看到不同粒度的信息。

13.6.2 语义搜索：`/understand-chat`

搜索语义，不是关键词。「哪些模块处理用户认证？」——知识图谱中匹配到 src/auth/login.ts（摘要：「处理邮箱+密码登录」）、src/middleware/session.ts（摘要：「会话管理和 token 验证」）、src/models/User.ts（摘要：「用户数据模型和密码哈希」）。Agent 不仅告诉你在哪里，还能解释它们之间的协作关系。

13.6.3 影响分析：`/understand-diff`

改代码前先跑。告诉你在当前 diff 中，你改了哪些文件、每个被改文件影响了哪些下游依赖、哪些影响是「可能破坏」的、哪些是「需要测试」的。这是「在你把改动推出去之前，先让 AI 告诉你这一改会引发什么连锁反应」。

13.6.4 新人引导：`/understand-onboard`

自动生成项目上手文档——按依赖顺序，而不是文件名字母顺序。最底层的模块先讲，依赖它们的模块后讲。路径上附 LLM 摘要——「这个文件提供日期格式化、字符串转义和 UUID 生成，被项目中 17 个其他文件调用」。

13.6.5 业务域提取：`/understand-domain`

切换到业务视图。代码层的知识图谱展示技术结构——文件、函数、类。/understand-domain 提取业务结构——域、流程、步骤。一个电商项目，技术结构是 src/orders/ 目录下的文件。业务结构是「下单流程：购物车验证 → 地址校验 → 库存锁定 → 支付 → 订单确认」。

13.6.6 知识库分析：`/understand-knowledge`

Understand-Anything 处理的不仅是代码。它对 Karpathy-pattern LLM Wiki 有专门支持——纯 Markdown 文件 + index.md wikilinks 组织的个人知识库。/understand-knowledge 读取 Wiki 目录，确定性解析器提取 wikilinks 和分类，LLM 发现隐含关系、提取实体，生成力导向图。

13.6.7 深度解释：`/understand-explain`

对单个文件或函数做深度分析。「这个函数是做什么的，为什么这样设计，有什么性能考虑，有哪些调用方？」——不是给你代码注释的翻译，是给你这段代码存在的原因。

13.7 知识图谱的共享与版本控制

知识图谱产出 JSON 文件——.understand-anything/knowledge-graph.json。因为是 JSON，可以 Git。commit 一次，团队其他人 Clone 后直接拿到图，不需要重跑分析流水线。

.gitignore 按以下规则配置：

1 2	.understand-anything/intermediate/ ← 中间文件，不提交 .understand-anything/diff-overlay.json ← 本地临时文件，不提交

.understand-anything/ 下其余文件全部提交。大型项目（图文件 10MB+）用 Git LFS 管理：

1
2
3

git lfs install
git lfs track ".understand-anything/*.json"
git add .gitattributes .understand-anything/

commit 图的成本是一份 JSON 文件。收益是整个团队省掉重复的分析时间。

13.8 实战：用 Understand-Anything 理解 goscapy

goscapy 是一个纯 Go 网络协议库，12 个子包，200+ 个 .go 源文件。核心包包括 layers（以太网/IP/TCP/UDP/ARP/ICMP/IPv6/ICMPv6/NDP 等协议层实现）、packet（数据包序列化/反序列化核心接口）、pcap（抓包）、sendrecv（收发）、sniff（嗅探）、route（路由表）、reassembly（TCP 流重组）、arping（ARP 发现）、fields（协议字段注册表）、goscapy（高层快捷 API）。examples/ 下有 20 个示例程序，覆盖从以太网帧构造到 TCP SYN 扫描的完整场景。

这种规模的 Go 项目，新人想理解架构，通常要从 go doc 开始，然后逐包读 types.go 找接口定义，再追踪 layers/ 里的具体实现。一个下午至少耗掉。

用 Understand-Anything，几分钟。

第一步：Claude Code 中安装并运行。

1
2
3

/plugin marketplace add Lum1104/Understand-Anything
/plugin install understand-anything
/understand --language zh

Agent 做的事：

Tree-sitter 扫描 pkg/ 下所有 .go 文件，30 多个文件分析 Agent 并发提取每个包导出的函数、类型、接口；
architecture-analyzer 识别出 goscapy 的层次结构
1. packet/ 是核心接口层（Layer、Packet、SerializeBuffer），
2. layers/ 是协议实现层（依赖 packet/ 的接口），
3. pcap/、sendrecv/、sniff/ 是 I/O 层（依赖 layers/ 和 packet/），
4. goscapy/ 是门面层（聚合所有下层能力）。

分析了将近一小时，分析完成，自动打开网页：

总之，眼花缭乱，需要你花点时间熟悉它的界面，以及你能不能从中获取帮助。

第二步：查构建器链。

1	/understand-chat goscapy 中一个 TCP SYN 包是怎么构建的？

Agent 查知识图谱，返回链路：goscapy.NewPacket() → packet.NewPacketInfo() 创建空数据包 → layers.EthernetType.Build() 加 Ethernet 头 → layers.IPv4Type.Build() 加 IP 头 → layers.TCPType.Build() 加 TCP 头（SYN flag）→ packet.Serialize() 序列化为字节流。每个 Build() 调用在知识图谱中用边标注，Agent 知道接口定义在 packet/layer.go:15 的 LayerBuilder 接口，TCP 实现在 layers/tcp.go:200 的 Build() 方法。

不靠 grep 搜 Build（200 个文件里至少有 40 个匹配）。不靠逐文件跟踪调用链。知识图谱一条边一条边走过。

第三步：影响分析。

1	/understand-diff

你改动了 packet/layer.go 的 Layer 接口定义（加了新方法）。知识图谱标记影响面：layers/ 下所有协议层都实现了这个接口——ethernet.go、ipv4.go、tcp.go、udp.go、arp.go、icmp.go、ipv6.go、icmpv6.go、ndp.go、vlan.go、gre.go，加上 pcap/、sendrecv/ 中引用 Layer 类型的函数。12 个文件受影响，需要逐文件补新方法实现。

第四步：新人上手。

1	/understand-onboard

产出一份按依赖顺序的阅读路径：第一步读 packet/layer.go（核心接口：Layer、Packet、LayerBuilder）→ 第二步读 packet/serialize.go（序列化原理）→ 第三步读 layers/ethernet.go（最简单的协议层实现）→ 第四步读 layers/ipv4.go（理解 options 和 fragmentation 处理）→ 第五步读 layers/tcp.go（理解 flag、checksum、状态机）→ 最后读 goscapy/goscapy.go（高层 API 封装）。每一个节点上都标注了关键的类型定义和核心方法，附 LLM 生成的中文摘要。

四个步骤，从安装到影响分析到新人阅读路径，200 个文件的 Go 项目全貌几分钟就通了。直接对 Claude Code 说「帮我理解这个项目」，Agent 靠 grep 猜结构。有知识图谱作骨架，是两套完全不同的东西。

13.9 支持的语言与本地化

Tree-sitter 覆盖了主流编程语言——TypeScript、JavaScript、Python、Go、Rust、Java、C、C++、Ruby、PHP、Swift、Kotlin。语言检测自动完成，不需要配置。

/understand --language zh 将输出切换为中文——节点摘要、Dashboard UI 标签、引导式学习路径。支持 en（默认）、zh、zh-TW、ja、ko、ru。

对中文开发者团队来说，中文知识图谱不仅降低阅读门槛，也让非技术角色（PM、设计师、运营）能读懂代码库的结构。

13.10 适用边界

最适合：五人以上的团队项目（知识图谱 commit 后新人上手速度翻倍）、长期维护的代码库（架构演进时可追踪模块间依赖变化）、跨语言项目（Tree-sitter 多语言解析让跨语言依赖关系可追溯）、频繁改动的核心模块（每次 commit 后增量更新，保持知识图谱最新）。

不适合：个人小项目（< 20 个文件，手动翻比生成知识图谱快）、单文件脚本、极度频繁变更的早期原型（代码结构一天三变，图的维护成本高于收益）。

13.11 与前后章节的关系

与第 2 章 Skills：Understand-Anything 本身是 Skill 包——通过 Plugin Marketplace 或 install.sh 安装、注册为 / 命令、Markdown + TypeScript 混合实现。这是 Pocock 的「一个 Markdown 文件定义一种行为」哲学在代码理解领域的体现。

与第 12 章官方插件：和 code-review、feature-dev 同类——都是通过 /plugin 或 /plugin marketplace 安装的插件。Understand-Anything 填补了官方插件未覆盖的缺口：代码理解。

与第 3 章 SDD：写增量规格需要知道哪些模块会被影响、哪些行为必须保持。知识图谱能显式回答这两个问题——让规格更有依据。

与第 5 章 gstack、第 7 章 autoresearch：多 Agent 流水线的架构共享同样的思路——不同 Agent 负责不同维度。Understand-Anything 的 Agent 是功能化分工——project-scanner 扫描、file-analyzer 提取、architecture-analyzer 分层。

与第 8 章 Goal Workflow：/to-issues 和 /review-it 能从知识图谱中获取代码结构信息，减少 grep + Read 的轮次。Understand-Anything 可以是 Goal Workflow 流水线的一层基础设施。

13.12 本章小结

Understand-Anything 是全书唯一聚焦「代码理解」而非「代码生成」的一章。AI 写好代码的前提是理解代码——而理解正是多数 AI 编码工具最薄弱的环节。grep + Read 能走通，但 token 成本高、遗漏概率大、缺乏记忆。

Understand-Anything 用 Tree-sitter + LLM 混合架构回答了这个问题——确定性的事归 Tree-sitter（imports、exports、调用链、继承），语义的事归 LLM（摘要、标签、架构分层、学习路径）。一次分析产出的 JSON 知识图谱可以 commit 到 Git，全团队共享。Dashboard 给人看，Chat 给 Agent 查，Diff 在改动前预警影响面。

在 goscapy 这个 200 文件 Go 项目上的实战说明了这个方案的可行性——几分钟内从安装到新人上手路径，覆盖了「这个项目怎么组织」「一个包怎么构建」「改了接口会影响多少文件」三个最常见的代码理解问题。

下一章讲 UML 在 AI 时代的新用途——当 AI 能生成 UML，当 UML 能反过来教我们理解 AI 生成的代码。

Anthropic 官方插件：AI Agent 的领域知识插件

2026-06-28T08:00:00.000Z

"The decisive result came not from the model alone, but from the harness around it."
决定成败的不仅是模型本身，更是其配套的外围系统。
——Anthropic Harness Engineering Team

第 2 章讲了 Skills 系统——Matt Pocock 的工程哲学：一个 Markdown 文件定义一种行为，小而可组合。第 6 章讲了 superpowers——社区级 Skills 库，十四个 Skill 覆盖十四个场景。

Anthropic 自己为 Claude Code 开发了 13 个官方插件。截至 2026 年 5 月，全部放在 Claude Code 仓库的 plugins/ 目录下。和社区 Skills 不同，这些插件是 Anthropic 工程师为 Claude Code 构建的第一方工具——通过 /plugin 安装，深度集成到 hooks、agents、skills 三层基础设施中。

安装。 所有 13 个插件通过同一命令安装：

1	/plugin install code-review

/plugin install 从 Anthropic 官方源拉取插件，注册斜杠命令、hooks 和 Agent。/plugin marketplace add 可添加第三方源。安装后插件在 ~/.claude/plugins/ 下，可手动编辑配置。

12.1 为什么需要领域知识插件

Skill 是原子能力——"做 TDD""做代码审查""对齐需求"。Skill 告诉你 Agent 能做什么。

但 Skill 不回答另一个问题：Agent 应该知道什么。

一个没有领域知识的编码 Agent 等同于一个刚入职的工程师。它会写代码，但不知道你的项目在用 JWT 还是 Cookie 做认证、SQL 用 Postgres 还是 MySQL、错误处理是抛异常还是返回 Result。它只能靠 grep 猜。

CLAUDE.md 是补这个缺口的基础设施——项目上下文在会话启动时自动注入（第 10 章的 SessionStart hook）。但 CLAUDE.md 是静态文件。它不会主动扫描你的代码库、不会对比你的编码规范、不会在 PR 合并前自动跑审查规则。

领域知识插件让 CLAUDE.md 里的规矩活起来。code-review 插件读你的 CLAUDE.md，对照每一条规范检查 PR 改动。feature-dev 插件读你的代码库架构，基于已有模式生成三个备选方案。security-guidance 插件在你编辑任何文件时静默监控 9 个安全风险大类。

十三个插件，做的都是同一件事：把静态的领域知识变成执行时的动态检查。

12.2 十三个官方插件全景

Claude Code 的 plugins/ 目录下目前有 13 个插件，通过 /plugin 命令管理。每个插件都由 .claude-plugin/plugin.json 定义元数据，由 commands（斜杠命令）、agents（专门 Agent）、skills（技能）、hooks（事件钩子）四种机制组合构成。

插件	命令	核心机制	定位
code-review	`/code-review`	4 个并行 Agent + 0-100 信心评分	PR 自动审查
feature-dev	`/feature-dev`	7 阶段引导 + 3 个专门 Agent	功能开发全流程
pr-review-toolkit	`/pr-review-toolkit:review-pr`	6 个可组合审查 Agent	细粒度 PR 审查
commit-commands	`/commit`, `/commit-push-pr`	Git 工作流自动化	提交/推送/创建 PR
hookify	`/hookify`	对话分析 → hook 生成	行为护栏自动创建
security-guidance	PreToolUse hook（自动）	9 类安全规则实时监控	静默安全守护
ralph-wiggum	`/ralph-loop`	Stop hook 拦截退出	自主循环开发
plugin-dev	`/plugin-dev:create-plugin`	8 阶段引导 + AI 辅助	插件开发工具包
frontend-design	自动触发 Skill	设计指南注入	前端界面设计
agent-sdk-dev	`/new-sdk-app`	项目脚手架 + 2 验证 Agent	Agent SDK 开发
claude-opus-4-5-migration	自动触发 Skill	代码/prompt 自动迁移	模型版本迁移
explanatory-output-style	SessionStart hook（自动）	教育性上下文注入	理解实现选择
learning-output-style	SessionStart hook（自动）	决策点互动提问	交互式学习

插件之间可组合。feature-dev 走完七个 Phase，code-review 在合入前扫一遍 PR。security-guidance 全程静默运行——Agent 执行危险操作前才被感知。

12.3 /code-review：本地 diff 审查

/code-review 由 Boris Cherny（Claude Code 的创建者）开发。在 Claude Code 会话中直接审查当前 diff。

用法：

/code-review — 审查当前 diff，报告正确性 bug 和代码效率、简化机会。无需安装 GitHub App，在任何 Claude Code 会话中都能运行
/code-review --comment — 将发现作为内联 PR 评论发布
/code-review --fix — 审查后自动将修复应用到工作树
/code-review ultra --fix — 云端运行 deeper ultrareview，结果返回后应用修复

降低 effort level 返回更少但更高可信度的发现；high 到 max 覆盖更广，可能返回不确定的发现。不传 effort 参数时使用会话当前的 effort。可传路径或 PR 引用审查特定目标。

v2.1.147 之前命令名为 /simplify（默认应用修复）。v2.1.154 起 /simplify 改为仅做清理审查——只应用修复，不找 bug。之前用 /simplify 做 bug 查找的脚本应切换到 /code-review --fix。

自定义审查行为。 两个文件控制审查器的行为。

CLAUDE.md — 项目共享指令。审查器读它作为项目上下文，把新增违规标为 nit。双向生效：如果 PR 改了代码导致 CLAUDE.md 陈述过时，审查器也会标记。

REVIEW.md — 根目录的审查专用覆盖文件，注入到审查管道中每个 Agent 的系统提示中，优先级最高。纯明文指令。典型用途：重新定义哪些问题算 Important 级别、限制 Nit 发现数量上限、跳过特定路径（生成代码、锁文件、vendored 依赖）、添加仓库特定检查（"新 API 路由必须有集成测试"）、设置验证门槛（行为声明需 file:line 源码引用）、控制重审收敛（首审后只报 Important 级发现）、调整摘要格式。

审查结果包含每条 issue 的 GitHub 永久链接——完整 SHA + #L 行号范围。

12.4 feature-dev：7 阶段引导开发

/feature-dev 把一个功能从想法带到代码合并，分成七个阶段。插件作者是 Sid Bidasaria（Anthropic 工程师）。

Phase 1：需求澄清。 对模糊需求提问。"你想解决什么问题？""有什么约束？"确认理解后再进入下一步。

Phase 2：代码库探索。 启动 2-3 个专门 Agent（code-explorer）并行探索不同维度——类似功能如何实现、相关区域架构、现有模式。每个 Agent 返回入口点（精确到 文件:行号）、执行路径、关键组件、架构洞察和建议阅读的文件清单。Claude 阅读所有标注文件，生成全面摘要。

Phase 3：澄清问题。 结合代码库发现和需求，列出不明确的部分：边界条件、错误处理、集成点、向后兼容性、性能需求。关键规则：回答全部问题之前不得进入设计阶段。

Phase 4：架构设计。 启动 2-3 个专门 Agent（code-architect），每个走不同侧重：

最小改动方案——最大化重用已有代码，最小化文件变更
干净架构方案——关注可维护性和抽象优雅度
务实平衡方案——速度和质量折中

每个方案附详细取舍分析。Claude 给出推荐意见和原因，最终选哪个由你决定。

Phase 5：实现。 等你明确选择方案后，才开始写代码。严格遵循项目已有的命名、风格、模块边界惯例。每一步更新 todo 列表。

Phase 6：质量审查。 启动 3 个专门 Agent（code-reviewer）并行检查：简洁性/DRY/优雅度、Bug/正确性、惯例遵守/抽象设计。高优先级问题（信心 75-100）和中等问题（信心 50-74）分别列出，每个附精确的 文件:行号 引用和 CLAUDE.md 规范引用。所有测试通过后才允许进入下一步。

Phase 7：总结。 文档化：构建了什么、关键决策是什么、修改了哪些文件、建议的后续步骤。

七个阶段把"开发功能"从"一段 prompt + AI 出代码"变成了结构化的工程流程。第 4 章 Ralph Loop 的核心洞察——AI 说做完了不等于真的做完了——在 feature-dev 里体现为每个可能出问题的节点都设了等待点。需求摸清之前不设计。方案选定之前不实现。审查通过之前不总结。

12.5 pr-review-toolkit：六维度细粒度审查

pr-review-toolkit 是可组合 PR 审查工具箱。和 code-review 的"给一个综合分数"不同，它做的是"挑出你最关心的一两个维度，深度查"。

/pr-review-toolkit:review-pr 支持七个可选开关：--comments（审查 comment 质量）、--tests（审查测试覆盖）、--errors（审查错误处理）、--types（审查类型设计）、--code（审查代码质量）、--simplify（审查简化机会）、--all（全维度）。

每个开关背后是一个专门 Agent——comment-analyzer、pr-test-analyzer、silent-failure-hunter（找静默失败）、type-design-analyzer、code-reviewer、code-simplifier。

和 code-review 的关系：code-review 是常规武器——每个 PR 自动跑，4 个 Agent 快速扫一遍。pr-review-toolkit 是特种工具——关键 PR 或安全敏感代码，选一两个最关心的维度深度审查。

12.6 security-guidance：9 类安全规则静默守护

security-guidance 是唯一不需要手动触发的插件。安装后在 PreToolUse hook 上注册 9 条安全规则，在 Agent 编辑文件时静默检查：命令注入、XSS 注入、eval 使用、危险的 HTML 构造、pickle 反序列化、os.system 调用、SQL 注入、硬编码密钥、不安全随机数生成。

Agent 每次执行 Edit/Write/Bash 操作前，PreToolUse hook 比对这 9 条规则。匹配到危险模式时，hook 在 Agent 上下文中注入安全提醒——用引导而非强制。

hookify 是 security-guidance 的补充。security-guidance 的规则是 Anthropic 预定义的通用安全模式。hookify 从你自己的对话中学习特定的风险模式——conversation-analyzer Agent 扫描你和 Agent 的交互历史，自动生成对应的 hook 规则。

12.7 其他插件

frontend-design。 自动触发 Skill，在前端工作时激活。引导 Agent 避开均匀间距、对称布局、标准配色的"AI 风"界面，注入设计约束：大胆排版、有意图的色彩、微交互、非对称布局。和第 5 章 gstack 的 /plan-design-review 目标一致——抵抗 AI Slop。

explanatory-output-style 和 learning-output-style。 通过 SessionStart hook 注入教育性上下文。前者为每个实现选择解释原因，后者在关键决策点提问、鼓励手写 5-10 行代码。

commit-commands。 三个 Git 快捷命令：/commit（生成 conventional commit 消息并提交）、/commit-push-pr（推送并创建 PR）、/clean_gone（清理远端已删除的本地分支）。

agent-sdk-dev 和 plugin-dev。 Agent 开发者工具：/new-sdk-app 创建 Agent SDK 项目脚手架，/plugin-dev:create-plugin 用 8 阶段工作流辅助插件创建。

claude-opus-4-5-migration。 自动处理从旧模型迁移到 Opus 4.5 的代码和 prompt 变更。

12.8 插件的共同设计模式

十三个插件有几条共性：

专用 Agent 并行审查。 code-review 用 4 个并行 Agent，feature-dev 在不同阶段启动 2-3 个探索 Agent 和 3 个审查 Agent，pr-review-toolkit 用 6 个独立审查 Agent。和第 7 章 autoresearch 的多 Agent 轮转审查逻辑一致——一个 Agent 看不到的东西，换个角度就能看到。包括Claude Code推出的Teams、dynamic workflows的理念一样，充分利用多 Agent 的特性。

信心评分过滤。 code-review 的 0-100 评分 + 80 阈值是降噪策略。pr-review-toolkit 的 Agent 也使用类似的信心分类（高/中优先级）。"宁愿漏掉一个真问题，不要让十个假问题淹没一个真问题"——给 Agent 用的审查系统需要这个取舍，因为人对噪音的容忍度远低于 Agent。

结构化阶段门控。 feature-dev 的 7 个 Phase 之间设有明确等待点——Phase 3 的回答、Phase 4 的方案选择、Phase 6 的问题处理。和第 5 章 gstack 的 PreToolUse hook 强制门控本质相同。

hook + Agent 双引擎。 security-guidance 完全靠 PreToolUse hook 触发，explanatory-output-style 和 learning-output-style 通过 SessionStart hook 加载，hookify 从对话分析自动生成 hook 规则。第 10 章的 Harness Engineering 在这里是最直接的基层——hook 是插件行为的基础设施。

12.9 与全书方法论的对接

全书方法论	在官方插件中的体现
Skills 系统（第 2 章）	frontend-design、claude-opus-4-5-migration 是 Skill 的官方实现
Ralph Loop（第 4 章）	ralph-wiggum 是 Stop hook 循环的第一方实现
gstack（第 5 章）	feature-dev 的 7 阶段门控对应 gstack Sprint；frontend-design 的 AI Slop 检测对应 `/plan-design-review`
Harness Engineering（第 10 章）	security-guidance 的 PreToolUse hook、hookify 的自动 hook 生成
Goal Workflow（第 8 章）	feature-dev + commit-commands 组合对应 Goal Workflow 的流水线
autoresearch（第 7 章）	code-review 的 4 Agent 并行审查 + 信心评分对应多 Agent 交叉审查

12.10 本章小结

Anthropic 的十三个官方插件是 Claude Code 的工具级"出厂配置"。

从使用角度看这些插件的角色：code-review（每个 PR 该跑，4 Agent 并行 + 80 分阈值过滤噪音）、feature-dev（需求模糊时用，7 阶段引导不允许在不确定状态下写代码）、pr-review-toolkit（需要盯特定维度时用——安全性、类型设计、静默失败）、security-guidance（该装完就忘掉它——静默守护，不需要手动跑）、commit-commands（日常 git 机械操作的自动化）。

共性设计模式——专用 Agent 多视角审查、高信心阈值过滤噪音、结构化阶段门控、hook 驱动的自动触发——第 2 章的 Skills、第 4 章的 Ralph Loop、第 5 章的 gstack、第 7 章的 autoresearch、第 10 章的 Harness Engineering 都能在这些插件中找到一一对应的工程实现。

agent-skills：用生产级工程纪律武装 AI Agent

2026-06-28T07:30:00.000Z

"Process over prose — workflows over reference."
流程重于文字，工作流重于参考。
——addyosmani/agent-skills README

第 15 章讲 Compound Engineering 让每一轮工作沉淀知识，下一轮起点更高。第 14 章讲 improve 让强模型做审计、弱模型做执行。两章都在回答"怎么让 Agent 做正确的事"。

本章要回答一个更前置的问题：Agent 知道什么是正确的事吗？

回答这个问题的人叫 Addy Osmani。

如果你写过前端，大概率读过他的书。他在 Google Chrome 领导开发者体验工程团队近 14 年，主导了 Chrome DevTools、Lighthouse、PageSpeed Insights、Core Web Vitals 等工具和标准的建设。2026 年转任 Google Cloud AI 总监，负责 Gemini、Vertex AI 和 Agent Development Kit。著有《Learning JavaScript Design Patterns》《Leading Effective Engineering Teams》，博客名篇《The Cost of JavaScript》从 2017 年到 2023 年持续更新了七年，几乎定义了 web 性能优化的讨论框架。他在前端工程和 web 性能领域的影响力，塑造了一整代前端开发者的工程实践。

2026 年初，他的注意力从"人怎么写更好的代码"转向了"AI 怎么写更好的代码"。2 月 15 日，他开源了 agent-skills，定位一句话："Production-grade engineering skills for AI coding agents"——把资深工程师的工作流、质量门禁和最佳实践，编码为 Agent 不可绕过的结构化约束。 到 6 月，近 60K star。

但这不只是又一个爆款开源项目。Osmani 在这个项目里做的事，和他过去十年做的事一模一样：把隐性的工程知识显式化。《Learning JavaScript Design Patterns》是把资深工程师脑子里的设计模式写成可学习的目录。Chrome DevTools 的文档是把调试技巧写成可操作的步骤。agent-skills 是把工程纪律写成 Agent 无法自我说服跳过的约束。

用 AI 写代码的人都会碰到一种熟悉的挫败感。Agent 接到任务，跳过规格直接敲代码。你说"先写测试"，它说"好的"，然后继续敲代码。你说"这里需要安全检查"，它说"明白"，然后加了一行 // TODO: add auth。你说"代码能简化一下吗"，它说"当然"，然后把三个函数合并成一个更长的函数。

Agent 不是不听话。它是真的不知道什么叫"先写测试""安全检查""简化代码"。这些是资深工程师花了好多年才内化的纪律，而 Agent 的默认行为是用最短路径把代码写出来，能跑就行。其他的都不在它的输出分布里。

agent-skills 要反转的就是这件事。它所有的设计决策，从七阶段生命周期到反合理化表到验证门禁，都指向同一个目标：让 Agent 像资深工程师一样工作。不是写代码更快，是不跳过那些让代码值得写的东西。

16.1 agent-skills 是什么

agent-skills 是一套结构化 Markdown 工作流的集合。24 个 skill，7 个斜杠命令，覆盖从想法到上线的完整生命周期。

安装简单。Claude Code 插件市场直接装：

1 2	/plugin marketplace add addyosmani/agent-skills /plugin install agent-skills@addy-agent-skills

MIT 开源，纯 Markdown 格式，兼容 Claude Code、Cursor、Gemini CLI、Codex、Windsurf、OpenCode、GitHub Copilot 等几乎所有主流工具。

但它和前面章节讲的所有技能有一个根本区别。Mattpocock 的 skills 帮你做具体的事，调试、写 PRD、审查代码。improve 帮你审计代码库。Compound Engineering 帮你沉淀知识。agent-skills 不帮你做事。它规定你怎么做事。

不是"帮我写测试"。是"你写任何代码之前必须先写测试，这是流程，不能跳过"。不是"帮我审查这段代码"。是"你提交的每段代码都必须经过五轴审查，没有例外"。它不是工具箱。是纪律手册。

Osmani 自己给这个区别下了一个定义："Process over prose — workflows over reference."每个 skill 不是一个供阅读的参考文档，是一个有步骤、有检查点、有退出标准的可执行流程。Agent 读了它，不是学到了知识，是被强制遵守一个流程。

16.2 核心问题：Agent 跳过工程纪律

Agent 最擅长的事也是它最危险的事：写代码。它能在几秒钟内生成几百行看起来正确的代码。问题就在"看起来正确"。

写代码之前想清楚需求？Agent 倾向于跳过。"这个很简单，不需要规格"。写完代码补测试？Agent 倾向于跳过。"测试后面再补"。合并前做安全审查？Agent 倾向于跳过。"这个改动不涉及安全"。代码能简化吗？Agent 倾向于不。它写的代码就是它认为最优的样子。

Osmani 把这些叫做合理化借口（rationalization）。Agent 不是在偷懒。它是在用统计学上最可能的路径完成任务。写代码是它的强项，写规格不是。跳过不擅长的步骤、直奔擅长的步骤，这不是恶意，是概率。

但软件工程的百年教训是：跳过的步骤会回来。没写的规格变成理解偏差。没写的测试变成生产 bug。没做的审查变成技术债。没简化的代码变成下一次改动的摩擦力。Agent 用最快路径交付的代码，往往成本最高。

agent-skills 的解法不是让 Agent 更聪明。是让 Agent 无法说服自己跳过步骤。每个 skill 都内建了一套机制，预判 Agent 会找什么借口，提前写下反驳。Agent 读到的不只是"你应该做 X"，还有"如果你觉得可以不做 X，看看这段话"。

16.3 七阶段开发生命周期

agent-skills 把软件开发的完整生命周期编码为七个阶段。每个阶段一个斜杠命令入口，背后挂载一组专项 skill。

/spec → /plan → /build → /test → /review → /code-simplify → /ship
  │       │        │        │         │            │            │
  ▼       ▼        ▼        ▼         ▼            ▼            ▼
Define   Plan    Build   Verify   Review     Simplify      Ship

16.3.1 /spec：先搞清楚要构建什么

/spec 是铁律第一条：规格先行，代码在后。

背后挂了三张 skill。interview-me 是一次一问式访谈，Agent 一个问题一个问题地问，直到对需求有约 95% 的置信度才停。这防止了 Agent 凭一句话猜测需求然后闷头写代码。idea-refine 用于模糊想法的发散和收敛思维，生成多个方向、逐一评估、浓缩为一个可执行方案。spec-driven-development 产出结构化 PRD，包含目标、结构、代码风格、测试策略、边界条件。

一个容易被忽略的细节：/spec 也接受"这个太简单了不需要规格"的借口。它的反合理化表里写着：简单任务不需要长规格书，但仍然需要验收标准。两行也行。写下来。

16.3.2 /plan：拆解为小而可验证的任务

/plan 把规格分解为原子化任务。每个任务必须有明确的验收标准，必须能在一个上下文窗口内完成。

背后的 planning-and-task-breakdown skill 强制了几个约束：任务之间依赖关系显式标注、每个任务独立可验证、优先排序、预估工作量。和第 13 章 GSD 的 Plan 阶段同一个思路，计划必须能装进一个上下文窗口。

16.3.3 /build：增量实现，一次一片

/build 是整个体系中最重的阶段，挂载了 7 张专项 skill。

incremental-implementation 是核心引擎。它强制的不是"写什么代码"，是"怎么组织写代码的过程"：一次只做一片薄纵向切片，每片独立测试、独立提交、独立可回滚。特性开关包裹未完成的功能。安全默认值，不破坏已有行为。约 100 行变更粒度，保持可审查。

test-driven-development 编码了红-绿-重构循环，但不是教科书式的教条。它把测试金字塔量化为 80/15/5（单元 80%/集成 15%/端到端 5%），强调 DAMP（描述性和有意义的外语）优于 DRY（测试之间不要过度共享），以及 Beyoncé Rule——"如果你喜欢它，你应该给它写测试"。

source-driven-development 是一个容易被忽视的高杠杆 skill。它要求 Agent 将决策建立在官方文档之上：验证、引用来源、标记未验证的断言。这防止了 Agent 基于训练数据里过时或错误的 API 用法写代码。

doubt-driven-development 是整个项目最有创意的 skill。核心理念：AI 给出的"自信答案"不等于"正确答案"。长会话会悄悄把假设转化为"事实"，需要新鲜上下文的审查者来发现盲点。工作流是五步对抗性审查循环：CLAIM（声明决策，为什么重要）→ EXTRACT（剥离推理，只留结论）→ DOUBT（召唤全新上下文的审查者，带对抗性提示）→ RECONCILE（逐条核实每个发现）→ STOP（满足终止条件才放行，最多 3 轮）。

触发条件写得非常具体。引入分支逻辑、跨模块边界、断言类型系统无法验证的属性、正确性依赖未来读者看不到的上下文、爆炸半径不可逆——这些都是"非平凡决策"，触发 doubt-driven 审查。

/build 还有一个 /build auto 模式。你批准计划一次，Agent 自主实现所有任务。每个任务仍然测试驱动、独立提交，遇到失败自动暂停。和第 12 章 Loop Engineering 的 /goal 逻辑一致，Agent 自己跑到条件满足为止。

16.3.4 /test：证明它能用

/test 的核心原则一句话：测试是证明，不是感觉。"看起来对"永远不够。Agent 必须提供证据，测试通过、构建输出、运行时数据。

背后两张 skill。browser-testing-with-devtools 利用 Chrome DevTools MCP 做运行时检查，DOM、控制台、网络、性能数据，数据驱动的验证而非"页面看起来对"。debugging-and-error-recovery 编码五步调试法：复现 → 定位 → 缩小范围 → 修复 → 加护栏防止重犯。

16.3.5 /review：合并前的质量门禁

/review 是质量的门神。五轴审查：正确性、安全、性能、可维护性、代码风格。约 100 行变更粒度，使用 Nit/Optional/FYI 三级严重度标签。

背后四张 skill 各有专攻。code-review-and-quality 做结构审查。security-and-hardening 覆盖 OWASP Top 10、认证模式、密钥管理、三级边界系统。performance-optimization 的原则是"先测量"，Core Web Vitals、性能分析、bundle 分析。code-simplification 应用 Chesterton's Fence（看不懂为什么存在的东西，先搞清楚原因再删）和 Rule of 500（超过 500 行的文件必须拆分）。

16.3.6 /code-simplify：清晰优于聪明

这是一个独立的、跨阶段的命令。核心信条：代码是负债。每行代码都是将来要读、要改、要调试的东西。Agent 默认倾向多写，不是少写。/code-simplify 强制它反过来：在所有功能都能跑的前提下，让代码更少、更清晰。

16.3.7 /ship：安全上线

/ship 是最后的防线。六张 skill 覆盖从代码到生产的每一步。git-workflow-and-versioning 强制主干开发加原子提交。ci-cd-and-automation 强制左移、特性开关、质量门禁管道。documentation-and-adrs 强制记录"为什么"，不只是"是什么"。observability-and-instrumentation 强制结构化日志、RED 指标、OpenTelemetry 追踪。shipping-and-launch 强制上线前检查清单、分阶段发布、回滚程序。deprecation-and-migration 强制"代码即负债"心态，逐步废弃旧东西。

16.4 反合理化表：Agent 自欺的克星

走完七个阶段，你可能注意到了。/spec 里有一句话留给"这个太简单了不需要规格"。/build 里有一句话留给"测试后面再补"。/review 里有一句话留给"这个改动不需要审查"。每个阶段、每张 skill，都在做同一件事：预判 Agent 会找什么借口，提前写下反驳。

这就是反合理化表（anti-rationalization table）。agent-skills 最具辨识度的设计，也是它和所有其他技能框架最根本的区别。

每个 skill 都内嵌一张"借口 vs 反驳"对照表。左边是 Agent 可能会说的，统计上最可能的合理化借口。右边是提前写好的反驳，为什么这个借口不成立。

几个真实例子：

Agent 可能会说	预设的反驳
"这个太简单了，不需要 spec"	简单任务不需要长规格书，但仍然需要验收标准。两行也行。写下来。
"测试后面再补"	"后面"永远不会来。写完代码再补的测试，只是同一份代码换了个名字。
"我在预发布环境测过了，上生产没问题"	数据不同、流量不同、边缘情况不同。
"这个很简单，不需要 feature flag"	每个功能都需要一个安全开关。没有例外。
"这个改动不需要审查"	所有改动都需要审查。变更越小，审查越容易，越没理由跳过。

这张表的设计建立在对 LLM 行为模式的深刻理解之上。LLM 擅长为自己找合理化借口，"可以根据上下文推断""这种简单情况不需要"——这些借口在统计上是合理的，因为训练数据里充满了人类用同样的借口跳过同样的事。

反合理化表就是提前写好的反驳，针对 Agent 还没说出口的谎言。Agent 读到一个步骤，也读到了"如果你觉得可以跳过这一步，看看这段话"。它被制度性地阻止自我欺骗。

Osmani 的博客里有一句话总结了这张表的意义："AI 编程代理是极其能干的初级工程师，但本能地缺少那些不出现在 diff 中的工作部分。高级工程师的工作——揭示假设、控制变更规模、写规格书、留下证据、拒绝合并不经审查的代码——正是 AI 代理会跳过的东西，除非你让它无法跳过。"

16.5 Google 工程文化的 DNA

agent-skills 不是凭空设计的。它深度嵌入了 Google 公开工程实践中的关键原则。

Hyrum's Law——"如果 API 有足够多的用户，你对合约的承诺不重要，所有可观测的行为都会被某人依赖"——被编码进 api-and-interface-design skill。Beyoncé Rule——"如果你喜欢它，你应该给它写测试"——被编码进 test-driven-development。Chesterton's Fence——"别拆掉你不理解为什么存在的篱笆"——被编码进 code-simplification。主干开发、Shift Left、特性开关被编码进 git-workflow-and-versioning 和 ci-cd-and-automation。

这不是巧合。Osmani 在 Google Chrome 领导工程团队多年，这些原则是他每天都在用的东西。agent-skills 本质上是一次大规模的工程文化蒸馏。把 Google 工程文化中那些艰难获得的最佳实践从人的脑子里提取出来，固化为 Agent 的不可绕过的工作流。

16.6 与全书方法论的对接

agent-skills 和其他章节的方法论有天然的亲和力。

和第 2 章 Skills 是同一个理念的全面展开。 Matt Pocock 定义了"原子 Skill"的范式，小而可组合、模型无关、可改造。agent-skills 把这个范式推到了全生命周期覆盖的顶点。24 个 Skill 不是零散的，是按阶段组织的，从前到后形成一条完整的纪律链。

和第 8 章 Goal Workflow 高度同构。 /spec → /plan → /build → /test → /review → /ship 这条链和 /prd → /prd-to-spec → /goal → /review-it → /ship-it 几乎一一对应。区别在于 agent-skills 管得更细。不只是"你要走这些步骤"，是"每一步你该怎么走，有什么坑，什么借口不能信"。

和第 12 章 Loop Engineering 互为表里。 Addy Osmani 本人是 Loop Engineering 概念的命名者和推广者，第 12 章讲的那篇定义了"五个原语加一个记忆"的长文就是他写的。agent-skills 可以看作 Loop 中每个阶段的操作手册。Loop 定义了循环的结构，agent-skills 定义了循环里每个动作的纪律。

和第 14 章 improve 的反合理化机制殊途同归。 improve 用 STOP 条件阻止弱模型即兴发挥，agent-skills 用反合理化表阻止 Agent 跳过步骤。两者的核心信念一样：Agent 需要被制度性地阻止自我欺骗。区别在于 improve 专注前置审计，agent-skills 专注全流程纪律。

和第 15 章 Compound Engineering 的复利兼容。 agent-skills 的渐进式知识积累（spec → plan → ADR → pulse 报告）天然为复利提供原料。每一次循环产出的规格、计划、架构决策记录，都是下一次 Agent 启动时的默认上下文。

16.7 本章小结

agent-skills 把"工程纪律"从人的自觉变成了 Agent 的结构化约束。7 个命令覆盖从想法到上线的全过程，24 个 skill 将 Google 工程文化的关键原则编码为不可绕过的工作流。

反合理化表加验证门禁是它最锋利的创新。Agent 被制度性地阻止"跳过测试""以后再重构""这个太简单了不需要规格"等自欺行为。每一步都以证据收尾，测试通过、构建输出、运行时数据。"看起来对"不算数。

Osmani 的工程哲学全部浓缩在几个词里：流程重于文字，验证重于声称，纪律重于速度。这不是贴在 README 里的口号。是写进了每一个 skill 文件、每一张反合理化表、每一步验证门禁的设计决策。

Compound Engineering：让每一份工作都让下一份更容易

2026-06-28T07:00:00.000Z

"Each unit of engineering work should make subsequent units easier — not harder."
每一个工程工作单元都应该让后续单元更容易，而不是更难。
——everyinc/compound-engineering-plugin README

第 14 章讲 improve 把计划当作产品，让强模型做判断、弱模型做执行。省了 token。但还有一个问题没回答：省下来的 token 和时间，有没有让你的下一次工作起点更高？

大部分 AI 编程工具解决的是"这一次"。帮你写代码，跑测试，合 PR。会话结束，上下文消失。下次开新会话，Agent 从零开始重新理解这个项目。构建命令是什么来着？那个奇怪的约定是因为什么历史事故？上次修那个 bug 踩了什么坑？全忘了。Agent 学到的东西，在你关掉终端的那一刻归零。

Compound Engineering 要反转的就是这件事。核心主张不是"让 Agent 这次做得更好"，是"让 Agent 下次起点更高"。每一轮工作结束时，把学到的东西沉淀回知识库，变成下一轮 Agent 启动时自动读到的上下文。用复利的方式做工程。

这个想法来自 Every 公司（Every.to），由 @kieranklaassen 和 @tmchow 维护。他们把这套方法论打包成 compound-engineering-plugin，MIT 开源，GitHub 18.3K+ star，随插件提供 37 个 skills 和 51 个 agents。支持的编码工具覆盖 Claude Code、Cursor、Codex、GitHub Copilot、Factory Droid、Qwen Code、OpenCode、Pi、Gemini、Kiro，几乎你能叫出名字的都在。

15.1 什么是复利工程

"复利工程"不是比喻。Every 团队是认真的。

传统开发的加速曲线是对数曲线。项目初期进展快，随着代码量增长，复杂度累积，每次改动越来越慢。调试要翻更多文件，重构要查更多依赖，新人要读更多代码才能上手。熵在增加，摩擦力在增加。对抗它的方式，几乎全靠个人记忆和 Code Review 里零散的口头约定。

复利工程把这条曲线反过来。它在每一轮工作结束时，要求把本轮学到的东西显式写下来、存进仓库。不是"我记住了"，是"下一轮 Agent 启动时会自动读到"。下一轮的 Agent 不需要重新发现那个坑，不需要重新推导那个约定，不需要重新踩同一条弯路。每一轮都比上一轮聪明一点。

Every 团队的投入结构说明了一切：约 80% 在规划与评审，20% 在执行。这跟传统开发"花 10 分钟想、花一整天写"的习惯反着来。逻辑很简单：锐利的头脑风暴收紧计划范围，紧凑的计划缩小执行自由度，好的评审抓模式而非孤立的 bug。每一阶段的输出质量决定下一阶段的输入质量。在规划上省的时间，执行加倍还回来。在执行上省的时间，将来加倍还回来。

和第 14 章 improve 比一下。improve 把计划当交付物，强模型做判断、弱模型做执行。Compound Engineering 往前走了一步：不光让计划成为一等公民，还让每一轮工作的学习成果成为一等公民。improve 省了 token，复利工程让省下来的 token 产生复利。

15.2 核心问题：对抗复杂度的累积

先看清它在跟什么作斗争。

软件工程有一个现象，叫"知识散落"。项目跑了一年，团队的集体知识分布在十几个人的脑子里、几百条 Slack 消息里、上千条 Git commit message 里、几十个已经过时的 Wiki 页面里。AI Agent 面对这个项目，能看到的只有源码，最多加一个 README。那些藏在人脑子里的约定、那些被某次事故逼出来的奇怪做法、那些"这个函数不能动因为有个没文档化的副作用"，Agent 完全不知道。

Agent 在这个信息黑洞里工作。它猜，它假设。写出来的代码技术上正确、上下文中错误，能跑，但破坏了某个没写在任何地方的约定。然后你花时间解释，它重做。下次开新会话，你又解释一遍。

传统开发已经够糟了，至少人记住了。AI Agent 的记忆在会话结束时就清零。128K 的上下文窗口，一次性的。"知识散落"在 AI 时代被放大了十倍。Agent 写得快，忘得也快。你获得的代码量，被丢失的知识量抵消了一部分。

复利工程的解法不是让 Agent 记住更多。是让 Agent 每次读同一个文件。STRATEGY.md、brainstorm 文档、plan 文件、compound 记录、pulse 报告，这些不是一回性的交付物，是跨会话存活的知识资产。下一次 Agent 启动时，这些文件自动进入它的上下文。它从"上一次结束的地方"开始，不是从零开始。

这和第 13 章 GSD Core 的 STATE.md / CONTEXT.md 同一个思路：Agent 会忘记，仓库不会。复利工程把这个思路从项目状态管理扩展到了知识管理。不光记录做到哪了，还记录学到了什么。

15.3 STRATEGY.md：上游的持久锚点

整个体系里，有一个文件坐在所有东西的上游：STRATEGY.md。

它不是规格，不是计划，不是 PRD。它是项目级的持久锚点，回答几个最基本的、但 AI Agent 自己永远猜不对的问题：

这个产品到底在解决谁的什么问题？不是功能列表，是用户痛苦。
用什么方法解决？不是技术栈，是产品策略和核心假设。
目标用户画像是什么？不是 demographic 标签，是行为模式和场景。
怎么度量成功？不是"用户更多"，是具体的、可追踪的指标。
什么不算成功？团队决定不做什么，这和决定做什么同样重要。

通过 /ce-strategy 创建和维护。当 STRATEGY.md 存在时，下游所有命令——/ce-ideate、/ce-brainstorm、/ce-plan——在启动时自动读取它作为锚定上下文。一个新 Idea 是否靠谱、一个新需求是否偏离方向、一个新计划是否符合策略，Agent 自己就能做第一轮判断，因为它读到了"这个项目要什么"。

没有 STRATEGY.md 的 Agent，会在每次运行中优化向随机贡献者碰巧要求的东西。有一个定时阅读的 STRATEGY.md，Agent 知道什么值得做、什么该拒绝。这和 Peter Steinberger 在 Loop Engineering 中讲的 vision.md 是同一个东西：项目的宪法。第 12 章提过，Steinberger 的策略层就是一份 Agent 每次运行都读的项目宪法。复利工程把它固化为一个独立命令和独立文件。

15.4 主循环：带着更好的上下文重复

复利工程的主循环六步。每一步和前几章的方法论有相似的形状，但最后多了一步，那一步是整个体系的灵魂。

/ce-strategy ──────────────────────────────────────────────┐
  (上游锚点，一次性或定期更新)                               │
                                                           │
/ce-ideate (可选) → /ce-brainstorm → /ce-plan → /ce-work    │
                                           ↓               │
                         /ce-code-review ←                  │
                              ↓                             │
                         /ce-compound ──────────────────────┘
                              │
                    学到的东西沉淀回知识库
                    下一轮 /ce-brainstorm 自动读到

Ideate（可选）：创意生成与批判。 /ce-ideate 在头脑风暴之前跑。它的工作是生成一批想法，用证据、先例和第一性原理逐一评估，筛出值得进入头脑风暴的。Every 团队在 2026 年 4 月给它加了一个"surprise me"模式：当团队觉得想法太保守时，Agent 可以故意跳出既有框架生成一批高风险高回报的方向。每条想法都有一个"担保合约"，标明它来自直接证据、外部先例、还是第一性推理。这防止了"听起来不错但没人知道为什么"的想法混进下游。

Brainstorm：交互式问答，产出需求文档。 /ce-brainstorm 是循环的真正入口。它是一个双向对话：Agent 问澄清问题，对模糊表述较真，确认边界条件，然后产出一份结构化的需求文档，存在 docs/brainstorms/。文档大小可控，不是 PRD 的重量级文档，但足够让规划者精确理解要做什么。快速功能可能三五轮对话，复杂系统可能几十轮。

Plan：需求变实施计划。 /ce-plan 读取上一阶段的需求文档和 STRATEGY.md，产出详细的实现计划。和第 13 章 GSD 的 /gsd-plan-phase 类似，研究、分解、验证计划装得进一个上下文窗口。输出包括任务依赖图、预估工作量、文件变更范围。

Work：隔离执行。 /ce-work 在隔离的 git worktree 里执行计划，带任务追踪。和第 11 章 kanbots 的 worktree 隔离同一个原理，每个 Agent 在自己的 checkout 里工作，互不干扰。

Code Review：多 Agent 预合并审查。 /ce-code-review 派出一组专门的审查员 Agent，最多 20 个并行跑，从不同维度审查变更：正确性、安全、性能、可维护性、代码风格、测试覆盖。置信度评分，自动去重。和第 33 章 /review-it 同样的使命，区别在于复利工程默认派多个 Agent 而非一个。

Compound：沉淀学到的东西。 这是整个循环的灵魂。/ce-compound 把本轮工作中学到的、任何未来 Agent 应该知道的东西，写进仓库。发现的模式、踩过的坑、根因分析的结果、被证伪的假设、新增的约束。输出存在 docs/solutions/ 或相关目录，成为知识库的一部分。

下一次 /ce-brainstorm 启动时，Agent 读到的不只是 STRATEGY.md，还有上一轮沉淀下来的 compound 记录。它知道上一次类似的需求怎么做的，上一次类似的 bug 根因是什么，上一次类似的重构为什么选了那个方向。每一轮工作都让下一轮起点更高。

和第 5 章 gstack、第 8 章 Goal Workflow 相比，复利工程的主循环在前半段几乎一样。区别在末端：别人在 Review 之后交付，复利工程在 Review 之后先 Compound 再交付。这一步把知识复用从个人习惯变成了工作流里的强制环节。

举个具体的例子。假设你让 Agent 修一个 webhook 重复创建发票的 bug：

1	/ce-debug "the checkout webhook sometimes creates duplicate invoices"

Agent 复现问题，追到根因：webhook 在特定网络条件下会收到两次 delivery，而幂等键生成逻辑没有覆盖超时重试的场景。修完代码，跑完测试，过完审查。

传统的 Agent 在这里就停了。Commit，Push，开 PR，关会话。

复利工程要求多做一步：

1	/ce-compound

Agent 把这一轮学到的写下来：webhook 幂等键逻辑的当前假设和已知边界；超时重试和 webhook delivery 之间的竞态模式；哪些相关函数使用了类似假设，可能在不同条件下出现同样问题；一个 checklist，未来任何改 webhook 相关代码的人或 Agent 都应该检查。

下一次，另一个 Agent 处理另一个 webhook 相关任务时，启动时自动读到这些记录。它不会犯同一个错误。它甚至能在自己修改代码之前，自查"我有没有碰那些已知有竞态风险的函数"。

不是 Agent 变聪明了。是知识变持久了。

15.5 命令全景

复利工程的命令全部以 ce- 前缀，保持命名空间干净。按使用频率分四组：

核心循环（每次都走）：

命令	做什么	位置
`/ce-brainstorm`	交互式问答，产出需求文档	循环入口
`/ce-plan`	需求变实施计划	规划
`/ce-work`	worktree 隔离执行，带任务追踪	执行
`/ce-code-review`	多 Agent 预合并审查	审查
`/ce-compound`	沉淀学到的东西到知识库	复利

上游锚点（低频但关键）：

命令	做什么
`/ce-strategy`	创建或维护 STRATEGY.md
`/ce-ideate`	创意生成与批判（可选前置步骤）

辅助工具：

命令	做什么
`/ce-setup`	首次环境检查和项目 bootstrap
`/ce-debug`	系统化复现、追溯根因、修复
`/ce-doc-review`	文档审查
`/ce-product-pulse`	按时间窗生成使用/性能/错误报告，存入 `docs/pulse-reports/`

效率工具：

命令	做什么
`/ce-commit`	分析变更并生成 commit
`/ce-commit-push-pr`	一键分支、提交、推送、PR
`/ce-worktree`	手动管理 worktree

完整列表 37 个 skills 分布在核心工作流、研究与上下文、Git 工作流、审查与质量、开发框架、工具、实验七大类。51 个 agents 覆盖代码审查（20 个专业审查员）、文档审查（7 个维度）、研究（9 个深浅组合）、设计（3 个视角）、工作流编排（2 个调度器）。

15.6 跨平台与"刻意的固执己见"

复利工程支持 10 种以上的 AI 编码工具。Claude Code 最简单，插件市场直接装。其他工具通过 Bun/TypeScript 安装器适配：

# Claude Code
/plugin marketplace add EveryInc/compound-engineering-plugin
/plugin install compound-engineering

# 其他工具
bunx @every-env/compound-plugin install compound-engineering --to cursor

装完跑 /ce-setup，Agent 自动检查环境、初始化目录结构、生成基础配置。

Every 团队在 README 里有一句话值得注意：这个项目刻意固执己见（opinionated by design）。他们欢迎 issue 和 PR 讨论，但不会接受所有贡献。不是所有建议都是好建议，不是所有定制都应该变成配置选项。这个态度在开源社区不太常见，但放在方法论工具上很合理：一个没有主张的工具比没有用还糟，因为它让你觉得你在做事。

安装器自动适配不同平台的命令命名，有的用连字符，有的用冒号，开发者不需要手动处理。

15.7 与全书方法论的对接

复利工程把知识复用做成了工作流里的强制环节，这在前面的章节里只有萌芽。

和第 2 章 Skills。 /ce-compound 沉淀下来的模式、坑、约束、checklist，最终可以固化为可复用的 Skill。Matt Pocock 的小而可组合的 Skill 是复利的天然载体。复利工程给这个载体加了一个进水管：每次循环结束时，新知识自动流入。

和第 8 章 Goal Workflow 高度同构。 /ce-brainstorm → /ce-plan → /ce-work → /ce-code-review 这条链和 /prd → /prd-to-spec → /goal → /review-it 长得几乎一样。区别在末端：复利工程显式加了 /ce-compound；上游加了 /ce-strategy 作为持久锚点。Goal Workflow 适合单功能的一次性实现，复利工程适合持续运行的团队级工程。

和第 12 章 Loop Engineering。 Loop 用五个原语加状态记忆让 Agent 自主跑起来。复利工程在这个基础上加了一个机制：Loop 不只跑，还记录。每一次循环的产出不光是代码，还有"这一次学到了什么"。下一次循环启动时，Agent 读到的不只是进度状态，还有累积的知识。

和第 13/14 章同属"规划重于执行"。 三者都信规划比执行能产生更多杠杆。GSD 把重心放在上下文隔离和验证证据上，improve 把重心放在强模型审计和计划即产品上，复利工程把重心进一步前移到 80% 的规划与评审。但它的独特贡献不是更重的规划，是规划产出的知识能被下一轮复用。

和第 33 章 /review-it。 /ce-code-review 派 20 个专业审查员并行审查，是 /review-it 的多 Agent 版本。置信度门控、去重、模式识别，机制上比单 Agent 审查更完善。

15.8 本章小结

Compound Engineering 把复利从一个金融概念变成了一套工程纪律。它的核心不是让 Agent 这次做得更好，是让 Agent 下次起点更高。

三根支柱。第一，STRATEGY.md 作为上游锚点，给所有下游决策提供方向，Agent 不该优化向随机贡献者碰巧要求的东西。第二，80/20 的投入结构，把重心前移到能产生复利的环节：计划的质量决定执行的质量，执行的质量决定沉淀的质量，沉淀的质量决定下一轮计划的质量。第三，/ce-compound 作为强制环节，每次循环结束时把学到的东西显式写下来、存进仓库，让知识的生命周期超过一次会话。

传统开发对抗复杂度靠人的记忆和口口相传。AI 开发连这个都没有，Agent 的记忆在会话结束时归零。复利工程让知识活在文件系统里，不活在任何人的脑子里或任何 Agent 的上下文窗口里。37 个 skills、51 个 agents、10 种以上编码工具支持。这些数字背后是一个更简单的道理：你做的好工作，应该继续为你工作。

improve：用强模型审计、让弱模型执行的"计划即产品"工作流

2026-06-28T06:30:00.000Z

"The plan is the product."
计划才是产品。
——shadcn/improve README

shadcn 是谁，不用多介绍。他创建的 shadcn/ui 是 GitHub 上 Star 数最高的 React 组件库之一，11 万+，几乎凭一己之力改变了前端组件库的交付范式——不是"装一个 npm 包"，是"把源码拷进你的项目，你拥有它，你改它，你对它负责"。这种对控制权和所有权的执念，是他所有作品的设计 DNA。

2026 年 6 月，他在这个 DNA 上又加了一层——开源了一个叫 improve 的 Agent Skill。一周之内，5000+ star。

improve 做的事情，说穿了就是一句话：用最贵的模型读代码库、找问题、写执行计划，用最便宜的模型照着计划敲代码。它自己不碰源码，产出只有一种东西——计划。

这个分工背后是一笔所有用 AI 写代码的人都在付、但很少认真算过的账。用 Opus 读代码库、找 bug、排优先级，值。用 Opus 敲每一行代码、跑每一个测试、写每一句 commit message，不值。但现在的 AI 编程工具不管这些——你给它们什么模型，它们就全程用什么模型。预算好的团队手动切模型——研究阶段用 Opus，实现了切 Sonnet，跑测试了再切 Haiku。切来切去，时间都花在模型下拉菜单上了。

improve 把这个手动切换内建成了自动分工：强模型只负责判断。执行扔给最便宜的、够用的模型。

第 13 章讲 GSD Core 用阶段循环、子智能体和持久化工件对抗上下文腐化。GSD 的回答是"给每个 Agent 一份干净的上下文"。本章讲同一个问题的另一个切面：不是管上下文，管成本。GSD 默认质量优先，谁干活无所谓。但真金白银的 API 账单不这么想。improve 的回答是：强模型做判断，弱模型做执行——把账单和质量一起管了。

14.1 improve 是什么

安装一行：

1	npx skills add shadcn/improve

MIT 开源，遵循 Agent Skills 格式（agentskills.io），Claude Code、Cursor、Codex、OpenCode 装完就能调。

但它跟前面章节讲的技能有一个根本区别。Mattpocock 的 /diagnose 帮你修 bug。gstack 的 /review 帮你查代码。Goal Workflow 的 /goal 帮你实现功能。improve 反着来。你让它"帮我实现这个"，它说不。你让它"帮我修这个 bug"，它说不。它只做一件事：读你的代码库，找出该做什么，写成一份计划。

README 里有两句话定义了它的全部边界。第一句："你是一个高级顾问，不是实现者。"第二句："计划才是产品——它的质量决定了执行者能不能成功。"理解 improve 所有设计决策的钥匙就是这两句话。它不是执行工具，是决策工具。交付物不是代码，是决策。

这带来一个权力反转。大多数 AI 编程工具把写代码当作正事，写计划是可有可无的前置步骤。improve 反过来：计划是一等公民，代码只是计划的衍生品。一份好计划应该自包含到什么程度？你把它交给一个完全不了解这个项目的人，或者 Agent，他能照着做完，不用你坐在旁边解释。需要你解释，计划没写好。

14.2 核心思想：能力与成本的分离

improve 的经济账一句话：高杠杆的思考给贵模型，高重复的执行给便宜模型。

听起来像废话，谁不知道贵的模型好？但 improve 做的不是"用贵的 = 更好"这种粗糙选择。它分了工：

工作	性质	需要的智能	交给
读懂整个代码库	一次性、高杠杆	跨文件推理、架构判断、安全直觉	Opus/GPT-4 级别
判断什么值得做	一次性、高杠杆	权衡、优先级、成本估计	Opus/GPT-4 级别
写规格和计划	一次性、高杠杆	精确表达、边界定义、验证设计	Opus/GPT-4 级别
照着计划写代码	重复、低杠杆	按指令执行、跑测试、报结果	Haiku/GPT-4o-mini 级别

这个分工和第 12 章的 maker-checker 分离、第 13 章的瘦编排者模式有同一个源头：不同性质的活交给不同的 Agent。但分工轴不同。GSD 按阶段分（研究员 vs 执行器 vs 验证者），improve 按智能密度分。读代码、做判断、写规格，这些活智能密集，强模型贵得值。敲代码、跑测试、报结果，智能稀疏，弱模型够了。

improve 的 README 用一句话概括了这个经济逻辑：昂贵的、天花板高的模型做智能会累积的那部分——理解、判断、写规格；便宜的模型做执行。翻译过来就是：让最贵的模型做它最擅长的事，然后让便宜的照着做。

这里藏着一个关键前提，也是 improve 最深的洞见：执行的质量上限是计划的质量。弱模型拿烂计划产出烂代码。拿好计划——内联了文件路径、代码摘录、验证命令、STOP 条件——产出接近强模型。弱模型的瓶颈不是不会写代码，是没有上下文。自包含的计划刚好补上。

说白了，improve 干的事就是把强模型对代码库的理解蒸馏到一份 markdown 里，这份文件变成弱模型的上下文。强模型烧一次 token，弱模型烧很多次。只要计划好，每次执行都复用那一次深度分析。总账是省的。

14.3 五阶段流水线：Recon → Audit → Vet → Prioritize → Plan

improve 的工作流五步，每步明确的输入、输出和质量标准。

Recon → Audit → Vet → Prioritize → Plan
  │        │       │         │          │
  │        │       │         │          └── 为每个选中发现写可执行计划
  │        │       │         └── 按杠杆率排成优先级表
  │        │       └── 重读源码剔除误报
  │        └── 并行子智能体扫九大类
  └── 画仓库地图

14.3.1 Recon：画地图

Recon 不分析，只测绘。规划前回答几个最基本的问题：

技术栈。语言、框架、包管理器、构建系统。读 package.json、Cargo.toml、go.mod，不猜。
目录结构。src/ 还是 app/？monorepo 还是单包？测试放哪？配置放哪？
构建/测试/Lint 命令。精确到能粘贴进终端的程度。npm test 还是 pytest？有没有覆盖率阈值？
代码约定。命名风格、文件组织模式、已有的 lint 规则。
意图文档。如果项目里有 CONTEXT.md（第 13 章）、STRATEGY.md（第 15 章）、ADR 目录、PRD 文件，Recon 优先吸收。别人花 token 讨论出来的决定，不要重新花 token 再讨论一遍。

Recon 的输出是一份代码库地图，后续所有阶段共享。它自己不产生发现，但所有发现依赖它。一个审计员不知道项目是 monorepo，可能把"每个子包有自己的 tsconfig.json"标记为冗余。实际上是设计决定。

14.3.2 Audit：九类并行扫描

整个流水线最烧 token 的阶段，也是强模型最值钱的地方。

improve 派出多个子智能体，每个扫一个维度，并行跑：

维度	关心什么
正确性	逻辑错误、边界条件、空值处理、竞态条件
安全	OWASP Top 10、注入、敏感信息泄露、不安全的依赖
性能	不必要的分配、N+1 查询、阻塞 I/O、内存泄漏
测试覆盖	缺测试、脆弱的测试、不可测的代码结构
技术债	重复代码、死代码、过度抽象、违反约定的模式
依赖与迁移	过时的依赖、未解决的迁移、版本漂移
开发者体验	类型安全缺失、构建慢、开发环境摩擦
文档	缺失或过时的文档、误导性的注释
方向	缺失的功能、架构演进机会、roadmap 对齐

每个维度的子智能体独立工作，和第 13 章 GSD 的并行 mapper 同一个模式。并行跑，总时间等于最慢的那一个。

每条发现带四样东西：file:line 证据，不写"可能有注入风险"写 src/auth/login.ts:42；影响评估，如果不管会怎样；预估工作量，S/M/L/XL；置信度。

有一个重要选择：子智能体默认过度上报。宁可多报 100 个最后被筛掉的疑似问题，不能漏一个真的。假阳性浪费的是 Vet 阶段的 token，假阴性浪费的是将来的线上事故。token 比事故便宜。

14.3.3 Vet：剔除误报

Audit 产出发现，Vet 做质量控制。

做法很暴力：顾问角色重新读每一个被引用的源码位置，逐条核实"真的有问题吗？"

第 12 章说过 maker-checker 分离，写代码和查代码的不能用同一个 Agent，自己给自己打分太客气。Audit 也一样：发现者对自己的发现有确认偏差。子智能体找到一个问题的时候，已经带着"这里有问题"的假设读了那段代码。让它再读一遍，大概率还是觉得有问题。

Vet 用一个独立的 Agent 重新读，带着"这条可能是错的"的假设。被踢掉的发现记进误报清单，下次审计直接跳过。这个记仇机制很重要。没有它，每次审计都重新报同样的假阳性，你很快就学会忽略所有发现。

14.3.4 Prioritize：按杠杆率排序

Vet 之后一批确认的发现。全做不现实。Prioritize 排优先级。

基础公式：

1	杠杆率 = 影响 ÷ 工作量

影响和工作量都有不确定性，改进后：

1	加权杠杆率 = (影响 × 影响置信度) ÷ (工作量 × 工作量置信度)

一个影响极高但置信度低的发现（"可能"有严重安全漏洞），和一个影响中等但置信度高的发现（"确定"有个性能瓶颈），后者的加权杠杆率可能更高。公式把"把握有多大"算进去了。

输出是一张表，不是指令。Prioritize 不说"你应该做前三个"，那是人做的决定。但它把信息排清楚，你花最少的时间就能选。

14.3.5 Plan：写执行手册

最后一步，对你选中的每个发现写一份可执行计划。存在 plans/ 目录，一个发现一个文件，纯 markdown，人读得了，Agent 也读得了。

计划有索引文件，记录顺序和依赖。计划 C 依赖计划 A 完成后的文件结构，依赖图会标出来。

五步走完就是"计划即产品"的完整闭环：Audit 告诉你有什么值得做，Vet 确认真的值得，Prioritize 告诉你先做哪个，Plan 告诉执行者怎么干。

14.4 命令全景

improve 的命令设计有个原则：从最常用的路径出发，用标志而不是子命令表达变化。默认无参数走完整流水线，大多数时候这就是你要的。其他命令是变体。

命令	做什么	什么时候用
`/improve`	完整流水线	日常改进
`/improve quick`	只扫热点，返回最优先的发现	快速体检
`/improve deep`	穷尽扫描每个包、每个维度	上线前、接手新项目
`/improve security`	只做安全审计	合规、安全评审前
`/improve perf`	只做性能审计	优化轮
`/improve tests`	只做测试覆盖	补测试前摸底
`/improve bugs`	只做正确性审计	Bug bash 前
`/improve branch`	只审计当前分支变更	PR 前自查
`/improve next`	功能建议、roadmap 方向	下轮规划
`/improve plan <描述>`	跳过审计，直接为一件事写计划	需求已明确
`/improve execute <计划>`	隔离 worktree 派廉价执行器，完事审查 diff	执行已批准的计划
`/improve review-plan <文件>`	强模型评审已有计划	计划评审
`/improve reconcile`	刷新 backlog，验证完成、解除阻塞、退役过时的	定期维护

带 --issues 时，improve 同时把计划发成 GitHub Issue，每个计划一个 Issue，带标签和依赖引用。计划从 plans/ 目录走出来，进入团队工作流，可以被 assign、comment、close。

14.4.1 execute 的设计

/improve execute 是唯一碰代码的命令，唯一偏离"improve 不碰源码"的地方。但它很克制：

在隔离的 git worktree 里开全新上下文。
派一个廉价执行 Agent，只给它目标和计划文件。
执行 Agent 按计划写代码、跑验证门禁、报告结果。
执行完后，improve 用强模型审查 diff，确认改动严格符合计划，没多干，没漏验证。

有一个人的决策点：审查通过后 diff 摆在你面前，你决定合不合。improve 不替你 commit，不开 PR，不 merge。它把执行自动化了，接受权在你手里。和第 11 章 kanbots 的"晋升永远是手动操作"同一个道理：代码最终要有人对它负责。

14.4.2 实战：一个开发者的一小时

原理和命令都讲完了。下面走一遍真的——假设你维护一个 TypeScript monorepo，packages/ 下十几个子包，pnpm + vitest + tsup。你想看看代码库里藏着什么债。

第 1 步：装 improve。

1	$ npx skills add shadcn/improve

几秒装完。不需要配置，不需要 API key，不需要连什么外部服务。它就是一个技能文件加一组指令，装进你已有的 Agent。

第 2 步：跑一次全面审计。

1	$ /improve

Agent 开始干活了。先吐出来的是 Recon 摘要——它读了 package.json、tsconfig.json、.github/workflows/ci.yml、pnpm-workspace.yaml，把技术栈和构建命令摸清楚了。你扫一眼，没问题，等它继续。

接下来几分钟终端持续滚动。九个子智能体在并行跑，每个盯一个维度。你会看到进度提示：[Audit] correctness... done.、[Audit] security... done.、[Audit] performance... running...。总时间差不多等于最慢的那个维度，通常两三分钟。

第 3 步：看 Vet 结果。

Audit 跑完，improve 自动切到 Vet。它把 Audit 报的每一条发现重新读一遍源码，验证是不是真的。停下来的输出是这样的：

[Vet] 32 findings → 23 confirmed, 6 rejected, 3 merged

Rejected (false positives):
  ✗ SEC-03: https_proxy in src/fetch.ts:10 flagged as SSRF
    → By-design: standard proxy convention. Added to veto log.
  ✗ TYPE-01: strict:false in tsconfig.json flagged as missing type safety
    → Monorepo root config. Sub-packages each enable strict independently.

被踢掉的写进了 plans/.veto-log.md。下次审计这两个位置直接跳过。你注意到 23 个确认发现里有些你看一眼就知道是边角料——变量命名可以更好、注释可以补一补。快速往下翻，找那些你也不知道存在的问题。

第 4 步：看 Prioritize 排序表。

Vet 结束，Prioritize 把 23 条发现排成了一张表。前面几行是这样的：

#	发现	分类	位置	影响	工作量	杠杆率
1	`migrate-icons.ts:168` 图标迁移循环内全量扫描，O(n²)	性能	perf-04	中	S	很高
2	`getShadowConfig` 逻辑在 `search.ts` 和 `view.ts` 里分别实现，已有偏离	技术债	debt-02	中	M	高
3	CI 只跑 `packages/core`，`packages/cli` 零覆盖	测试	test-01	高	M	高
4	`colorUtils.ts:34` 暴露了内部函数 `parseAlpha`，公开 API 已覆盖	技术债	debt-07	低	S	中
...	...	...	...	...	...	...

你在这张表前面花了五分钟。不是看每条发现是什么——而是判断哪条值得现在修。发现 #1 工作量 S 杠杆率很高，闭着眼勾。发现 #2 你之前隐约感觉两处代码有重复但没细查过，improve 证实了而且偏离已经在发生，勾。发现 #3 是真实问题但需要写一整组 CI 测试，今天不想干这个，标记一下以后回来。发现 #4 和后面的十几条要么影响太低、要么你现在有别的事，不勾。

第 5 步：看生成的 Plan。

你勾了 #1 和 #2。improve 为每条生成一个 markdown 计划文件。你打开 plans/001-fix-icon-migration-o-n2.md：

---
id: PLAN-001
title: 修复 migrate-icons.ts 的 O(n²) 图标迁移
category: performance
effort: S
based_on_commit: e4f8a2c
---

## 现状
`packages/cli/src/migrate-icons.ts:168` 对每个待迁移的图标文件
在整个文件系统里做正则搜索，循环嵌套，文件多时 O(n²)：

// migrate-icons.ts:165-175
for (const file of iconFiles) {
  const pattern = new RegExp(escapeRegex(file.oldName), 'g')
  for (const target of allProjectFiles) {  // 内层全量扫描
    ...
  }
}

## 目标
将内层循环替换为一次性构建的全局替换映射，单次遍历所有文件。

## 修改范围
- packages/cli/src/migrate-icons.ts，约 165-200 行
- 新增 packages/cli/src/__tests__/migrate-icons.test.ts

## 验证
1. pnpm --filter @shadcn/cli typecheck —— 零错误
2. pnpm --filter @shadcn/cli test -- --grep "migrate" —— 全过
3. pnpm --filter @shadcn/cli lint —— 零警告

## STOP 条件
- migrate-icons.ts 在 commit e4f8a2c 之后有改动，停，报告
- 改动涉及 packages/cli/src/ 下超过 2 个文件，停，报告
- 任一验证步骤连续失败 2 次，停，报告

你扫了一眼。路径对。命令对。STOP 条件合理。份量够一个人（或一个 Haiku）30 分钟内干完。你把这份文件也扔给旁边新来的同事看了一眼，他点点头——项目他完全不了解，但这份计划他看得懂要改哪里、怎么验证、什么情况该停。

第 6 步：执行计划。

你决定先修 #1。

1	$ /improve execute plans/001-fix-icon-migration-o-n2.md

improve 在隔离 worktree 里切出一个干净分支，派 Haiku 干活。你的终端开始滚动：

[Execute] Worktree created at .worktrees/improve-001/
[Execute] Executor: Haiku (cheapest available)
[Execute] Reading plan... applying changes...
[Verify] pnpm typecheck... PASS
[Verify] pnpm test --grep "migrate"... 3 passed, 0 failed
[Verify] pnpm lint... PASS
[Review] Diff review by Opus... PASS
  → Changes strictly match plan scope
  → No unplanned modifications detected
  → All verification gates passed

Diff ready for review. Accept? [y/N]

第 7 步：审 diff，合入。

你打开 diff 看了一眼。改了一个文件，新建了一个测试文件，改动范围刚好在 165-200 行，测试覆盖了 3 个边界情况。没有顺手改别的。你敲了 y。commit 落地，worktree 自动清理。

第 2 个计划 plans/002-extract-shadow-config.md 你决定下午再跑。一样的流程——/improve execute，等两分钟，审一眼 diff，合。

一个小时下来你做了什么。

你打了两次 /improve execute。看了两张表（Prioritize 排序表、diff）。在 Prioritize 表前花了五分钟想"现在修哪个"。其余所有事——读代码库、找问题、验证真伪、排优先级、写执行手册、切 worktree、跑验证门禁、审查产出——全是 Agent 干的。强模型干了一次性的、判断密集的活（审计、核实、排优先级、写计划、审查 diff），弱模型干了重复的、跟随指令的活（敲代码、跑测试）。你的时间是花在了只有你能做的两件事上：决定什么值得修，确认修得对不对。

14.5 安全边界

improve 有几条硬边界，写在指令里，不是建议。

不修改源码。 审计和计划阶段只读。分析代码、记录位置、写计划，写操作只在 plans/ 目录。这个边界让它能在任何代码库上安全跑，无论是个人项目还是生产环境核心服务。

不改动工作树。 审计在当前 checkout 上读，计划写到 plans/。不切分支，不 stash，不改任何工作状态。跑完一次 improve，git status 唯一的变化是 plans/ 下多了几个 untracked 文件。

不复现 secret 值。 审计发现硬编码密钥（这也是安全审计的一项），只记录文件路径、行号和密钥类型，比如 src/config.ts:15 — AWS_ACCESS_KEY_ID，不把密钥值拷进计划。计划引用行号，执行者读源文件，密钥值不会在 markdown 里到处复制。

拒绝"帮我实现"。 对它说"帮我实现这个计划"，标准回答：我不实现任何东西。要执行计划用 /improve execute。要改进计划，描述你的疑虑。别让我即兴写代码。

这四条的意义不只在安全。它们定义了一种信任模型：improve 能在任何代码库上放心跑，因为它能造成的最坏结果是 plans/ 下多几个 markdown 文件。这种只读的安全性，是它和"让我帮你重构整个项目"那类 Agent 最根本的区别。

14.6 与全书方法论的对接

improve 单看是一个技能，放进全书的方法论地图，补了几个空白。

和第 3 章 SDD。 improve 的"计划即产品"是规格驱动的极致版：规格不是开发的输入，规格就是交付物。OpenSpec 和 Spec-Kit 把规格当人和 AI 的合约，improve 把这份合约写到弱模型能照做的粒度。同根，improve 走得更远。

和第 8 章 Goal Workflow 互补。 /improve plan 类似 /prd-to-spec，都是模糊需求到精确方案。方向不同：Goal Workflow 从人的需求往下游走（"我想要这个"），improve 从已有代码往上游走（"这个代码库还缺什么"）。/improve execute 类似 /goal，都是规格变代码，但 improve 显式分离了计划模型和执行模型。两个流程能拼起来：improve 审计产出一批 plan，Goal Workflow 的 /goal 逐个实现，/review-it 审查，/ship-it 交付。

和第 12 章 Loop Engineering 上下游。 improve 可以当 Loop 里的"审计-排序"环节。Loop 定时触发 improve 做审计，产出排序后的计划，自动化层挑高杠杆率的派给执行循环。知识生产（improve）和执行调度（Loop）分开，各自用最合适的模型。

和第 13 章 GSD Core 分工。 GSD 管全阶段循环（Discuss → Plan → Execute → Verify → Ship），improve 只管前半段（审计和计划），执行留给别的工具。不冲突，一条链上的不同环节。GSD 管怎么做一个功能，improve 管该做哪些功能。一个负责过程可靠，一个负责方向正确。

和第 15 章 Compound Engineering。 improve 的 plans/ 目录是一个在累积的知识库。每次审计的误报清单让下一次更准，已完成计划的记录让 reconcile 能自动检测漂移。Recon 阶段读取的意图文档也在持续更新，审计随项目演进变精准。这和 Compound Engineering 的核心主张一样：每次工作让下次更容易。

和第 33 章 /review-it 互补。 improve 是事前主动审计，还没动手先想清楚。review-it 是事后审查，做完了回来检查。两个方向都重要，结合起来就是一个完整的质量闭环：improve 告诉你该做什么、怎么写，/goal 实现，/review-it 验货。

14.7 本章小结

improve 把一个简单的经济逻辑做成了一个完整的工作流：贵的模型做判断，便宜的做执行。但它真正贡献的不是省钱，是重新定义了什么东西值得用最强模型。

Recon → Audit → Vet → Prioritize → Plan，五步流水加九类并行审计加加权杠杆率排序。它是一条"该做什么"的生产线，输出不是代码，是决策。写得够细的决策，细到一个人或一个弱模型能照着做到底。

"计划即产品"背后是一整套工程纪律：自包含上下文、机器可校验的验证门禁、硬 STOP 条件、Git Commit 戳、漂移检查。这些纪律回答一个问题：你不亲自写代码，怎么确保写的人不会搞砸？答案是把判断力蒸馏进计划，不只告诉它做什么，告诉它怎么判断做得对不对。

shadcn 把这个项目开源不到一周 5000+ star。社区的热情不是因为新技术，并行子智能体、验证门禁、worktree 隔离这些前面都讲过了。热的是它的主张：AI 编程的成本不必是刚性的。你不用为了质量把 Opus 用在每一行代码上。让 Opus 做它最擅长的，理解、判断、规划，执行外包给便宜的。在 AI API 按 token 计费的现实里，这个主张比任何架构模式都更直接地改变了你的开发成本。

最后，improve 最值得记的，不是它的命令和流水线。计划不是代码的附属品。计划是独立的、可积累的、随项目演进的知识资产。写好计划，今天能执行，下周能执行，换了三个 Agent 之后还能执行。

GSD Core：对抗上下文腐化的阶段循环引擎

2026-06-28T06:00:00.000Z

"Claude Code is powerful. GSD Core makes it reliable."
Claude Code 很强大。GSD Core 让它变得可靠。
——open-gsd/gsd-core README

第 12 章给了 Loop Engineering 一个很大的愿景：你不再提示 Agent，而是设计提示 Agent 的循环。但那一章停在原理层，讲的是五个原语加一个状态记忆。把这些原语落成一套能直接安装、有明确文件结构、带 67 个命令的工程系统，是另一回事。

GSD Core 就是这样一套系统。它不发明新的 Agent，也不取代 Claude Code，而是套在你已有的运行时上面，把讨论、规划、执行、验证、交付这五步，固化成每个里程碑都要重复一遍的流水线。它想回答的不是"Agent 能不能写代码"，这个早就不是问题了，而是一个更隐蔽的问题：为什么 Agent 在小任务上表现惊艳，一接手大项目就开始胡言乱语？

这个问题有名字，叫上下文腐化（Context Rot）。本章讲 GSD Core 怎么把对抗上下文腐化当成第一性原则，用阶段循环、子智能体、持久化工件这三样东西，把一个容易漂移的编码 Agent 变成靠得住的工程伙伴。

13.1 GSD 是什么：Git. Ship. Done.

GSD 是三个词的首字母，Git. Ship. Done.（提交、交付、完成）。项目全称 open-gsd/gsd-core，由 open-gsd 组织维护，以 npm 包 @opengsd/gsd-core 的形式发布，MIT 协议开源。

它给自己的定位是一句话：一套轻量级的元提示（meta-prompting）、上下文工程与规格驱动开发系统。这三个定语各有所指。meta-prompting 是说它不直接干活，而是组织 Agent 怎么干活；context engineering 是说它的核心目标是管理上下文；spec-driven 是说它继承了第 3 章的规格驱动思想。

GSD Core 最要紧的特征是跨运行时。它不绑定任何一个 Agent 产品，安装时会问你跑在哪个运行时上，再把命令和 Agent 定义适配过去。官方支持的运行时有 Claude Code、OpenCode、Gemini CLI、Kimi CLI、Kilo、Codex、Copilot、Cursor、Windsurf。安装就一行命令：

1	npx @opengsd/gsd-core@latest

安装器会问你选哪个运行时、装到全局还是本地，并处理命名空间转换：有的运行时用连字符 gsd-plan-phase，有的用冒号 gsd:plan-phase。官方明确不建议你直接从 agents/ 或 commands/ 目录手动拷文件，让安装器做转换才能保证跨运行时一致。

整个系统由 67 个斜杠命令驱动。这个数字写在 docs/INVENTORY.md 里，还有一个测试 command-count-sync.test.cjs 盯着它和实际命令数对得上。换句话说，这不是一个 prompt 模板，是一个有版本、有测试、有文档的工作流引擎。

这里要澄清一个小差异。项目站点 opengsd.net 的首屏把循环的第一步写成 Research，GitHub README 写的是 Discuss。两者指同一件事，动手之前先把事情想清楚。本章统一用 README 的五步说法：Discuss → Plan → Execute → Verify → Ship。

13.2 核心问题：上下文腐化

要理解 GSD Core 为什么长成这样，得先看清它在跟什么作斗争。

上下文腐化指的是：上下文窗口越填越满，AI 的输出质量也跟着往下走。一个 Agent 在对话开头思路清晰、引用准确；聊到第五十轮，它开始忘记早先的决定、混淆文件、把已经否决的方案又提一遍。窗口没满，但信噪比塌了。

GSD 的文档把多数 AI 编程方案在规模上的失败，归到三件事头上：

上下文膨胀悄悄拉低质量。研究、规划、执行的细节全堆在同一个会话里，越堆越多，模型越来越难分辨什么重要。
会话之间没有共享记忆。今天的会话结束，明天重开一个，昨天的决定、试过的弯路、定下的约定，全没了。Agent 每次都从零开始。
没有机制验证代码真的能跑。Agent 说"做完了"，可"做完了"是声称，不是证明。这正是第 12 章反复敲的那一点。

针对这三个病根，GSD 立了三根支柱：

病根	支柱	做法
上下文膨胀	干净的执行上下文	每一步恰到好处，不膨胀、不漂移
无共享记忆	明确的计划与持久化状态	结构化任务图加落盘工件，可对齐、可审计
无验证	真实的验证	自动化检查加上人类读得懂的证据

这三根支柱，分别对应后面三节要讲的三样东西：阶段循环、子智能体、持久化工件。

13.3 五步阶段循环：Discuss → Plan → Execute → Verify → Ship

GSD 把工作组织成里程碑（milestone），每个里程碑内部分成若干阶段（phase），每个阶段都走同一套五步循环。这里有一条铁律：每次只推进一个阶段。不许一边规划一边执行，也不许跳过验证直接交付。

里程碑 Milestone
  └── 阶段 Phase 01
        Discuss → Plan → Execute → Verify → Ship
  └── 阶段 Phase 02
        Discuss → Plan → Execute → Verify → Ship
  └── ...

这五步各有专属命令，下面逐一拆解。

13.3.1 Discuss——动手规划前先把实现决策定下来

命令：/gsd-discuss-phase <编号>。

这一步不是写正式规格，而是一次轻量对话，目的是在规划开始前把实现决策定下来，免得规划者带着错误假设往下走。

它有个模式值得一提，叫假设模式（Assumptions mode）。传统的"讨论"是面试式提问，一条条问你想怎么做。假设模式反过来：Agent 先读代码库，基于证据自己形成观点，只在真正拿不准的地方请你纠正。它扮演的是思考伙伴，不是问卷。背后是一个朴素的判断：大部分实现决策，代码本身已经给了答案，没必要再问人。

产出两个工件：CONTEXT.md，结构化的决策记录；-DISCUSSION-LOG.md，人能读的审计轨迹。

13.3.2 Plan——研究、分解，并验证计划装得进一个全新上下文窗口

命令：/gsd-plan-phase <编号>，可带 --research、--skip-research、--tdd、--mvp 等标志。

这一步是 GSD 子智能体编排最密集的地方。编排者（orchestrator）依次派出三个子智能体：研究员（researcher）拿到一个干净的 200k token 窗口，专做技术研究，产出 RESEARCH.md；规划者（planner）拿到研究输出和需求做任务分解，产出一个或多个 PLAN.md；计划检查者（plan-checker）审查计划，趁执行前把歧义抓出来。

这里有条核心约束：每个计划必须能装进一个全新的上下文窗口。这不是建议，是设计原则。如果一个计划大到一个执行器的 200k 窗口都装不下它需要的全部上下文，那它就是太大了，必须拆。这条约束直接决定了任务分解的粒度。

产出工件：RESEARCH.md、若干 PLAN.md、VALIDATION.md（受奈奎斯特采样思想启发的验证策略），可选的 PATTERNS.md（代码库类比映射，告诉执行器"项目里类似的东西是怎么写的"）。

13.3.3 Execute——以并行波次运行，每个执行器从干净上下文起步

命令：/gsd-execute-phase <编号>，可带 --wave N、--gaps-only、--tdd。

执行阶段把计划分成波次（wave）：彼此独立的计划在同一波里并行跑，有依赖关系的排到后面的波。每个计划对应一个执行器（executor）子智能体，每个执行器都从一个干净的 200k token 上下文起步，它只拿到自己这个计划需要的工件，不被别的计划的细节污染。

这就是"并行波次"的意思：不是无脑并发，而是按依赖图分层并发。PLAN.md 的 YAML frontmatter 里就写着 wave、dependencies、modified_files、requirements、must_haves 这些字段，编排者据此排波。

产出：代码、原子化的 git 提交，以及每个计划的 --SUMMARY.md 执行记录。

13.3.4 Verify——宣告完成前先诊断并生成修复计划

命令：/gsd-verify-work [N]。

一个验证者（verifier）子智能体检查实际构建出来的东西，看它对不对得上最初的目标、决策和计划。它做两道覆盖度检查，需求覆盖和决策覆盖：你在 Discuss 阶段定下的每条决策，都被执行了吗？

发现问题，它不止报告，还会派调试子智能体去诊断根因，并生成修复计划。这是 GSD 验证步骤最有牙齿的地方：验证的产出不是一句"还有 bug"，而是一份能直接执行的修复方案。产出工件：VERIFICATION.md（验证报告）、UAT.md（用户验收测试结果）。

13.3.5 Ship——创建 PR、归档阶段、推进下一阶段

命令：/gsd-ship，可带 --draft 创建草稿 PR。

最后一步：创建拉取请求、归档本阶段的所有工件、更新 STATE.md 把这个阶段标记为完成，然后对下一个阶段重复整套流程。

把五步连起来看，它和第 5 章 gstack 的 Sprint（Think → Plan → Build → Review → Test → Ship）、第 8 章 Goal Workflow 的 /prd → /goal → /review-it → /ship-it 是同一个谱系。GSD 的独特之处不在循环的形状，在它对每一步上下文的洁癖，这是下一节的事。

13.4 子智能体如何保持上下文整洁

GSD 把对抗上下文腐化的关键机制叫瘦编排者（Thin Orchestrator）模式。

主会话，也就是你直接对话的那个编排者，刻意保持精简。它只做四件事：加载上下文、派生专门的子智能体、收集结果、更新共享状态。它不自己做繁重研究，不自己写大段代码，不让执行细节堆进自己的窗口。

所有重活下放给子智能体，而每个子智能体都拿到一个干净的、最多 200k token 的上下文窗口，外加它这份活儿要用的工件，仅此而已。研究员只看研究要用的东西，执行器只看自己那个计划。任务和任务之间物理隔离，一个 Agent 的上下文不可能污染另一个。

这套设计的三条原则，GSD 文档总结得很干净。第一条，每个 Agent 一份新上下文（Fresh Context Per Agent），用来消除上下文腐化。第二条，瘦编排者（Thin Orchestrators），让主会话不囤积细节。第三条，文件化状态（File-Based State），让状态落盘，可持久、可检视。

回头看第 12 章会发现，这正是 12.3.5 讲的 maker-checker 分离的工业级落地：写代码的执行器和验证工作的验证者不是同一个上下文，甚至可以不是同一个模型。第 12 章把这个分离称作循环里最有用的结构性设计，GSD 把它从一个有用的设计，变成了贯穿整个工作流的强制纪律。

支撑这套编排的，是一个叫 gsd-tools.cjs 的 CLI 工具。它是 GSD 工作流操作的功能后端，把配置解析、模型解析、阶段查找、git 提交、摘要验证、状态管理、模板操作这些重复逻辑集中起来，替掉了散落在各个命令文件里的内联 bash。工作流文件（workflows/*.md）的典型套路是：用 gsd-tools.cjs init 加载上下文，解析该用哪个模型，派生 agents/*.md 里定义的专门 Agent，收集结果，再用 gsd-tools.cjs state update 更新状态。

模型这件事 GSD 也做了精细化。它提供模型档位（model profiles），即 quality、balanced、budget、adaptive、inherit 五种预设策略，给不同的 Agent 分配不同的 Claude 模型。比如 quality 档给 gsd-planner 用 opus，budget 档给同一个 planner 用 sonnet。你还能按阶段类型（planning / research / execution）配模型，或者对单个 Agent 做覆盖。解析优先级是：单 Agent 覆盖大于阶段类型，阶段类型大于全局档位，全局档位大于运行时默认。这让"贵模型做规划、便宜模型做执行"这种成本意识的分工，变成一行配置，和第 14 章 improve 的思路殊途同归。

13.5 持久化工件：STATE.md 与 CONTEXT.md

第 12 章 12.3.6 那句话在这里落了地：Agent 会忘记，仓库不会。GSD 用一整套落盘的结构化工件，补上"会话间无共享记忆"这个病根。

所有工件都活在项目根目录的 .planning/ 文件夹里，它是项目状态的唯一真相来源。目录结构大致是这样：

.planning/
├── STATE.md                      # 项目的活档案 / 导航层
├── codebase/                     # 代码库地图（onboarding 时生成）
│   ├── STACK.md
│   ├── ARCHITECTURE.md
│   └── CONVENTIONS.md
├── phases/
│   └── -/              # 每个阶段一个目录
│       ├── CONTEXT.md            # Discuss 阶段的决策记录
│       ├── RESEARCH.md           # Plan 阶段的研究
│       ├── --PLAN.md     # 可执行的工作单元
│       ├── VERIFICATION.md       # Verify 阶段的报告
│       └── ...
└── quick/                        # /gsd-quick 的临时任务

两个核心工件值得细看。

先是 STATE.md，项目的活档案、中央导航层。它记录当前里程碑、活跃阶段、已完成和待办的计划、进度指标、累积的决策，还有会话连续性笔记。所有工作流启动时先读 STATE.md，做完重要动作后写回。它就是第 12 章说的那根脊柱：明天早上的运行从今天停下的地方接着走，不是从零开始。gsd-tools.cjs 甚至提供 state get

让你按小节查它。

再是 CONTEXT.md，Discuss 阶段捕获的实现决策。它包含阶段边界、带 D-NN 编号的锁定决策、规范文档引用、已有代码洞见、具体的灵感来源、推迟的想法。它被研究员、规划者、执行器共同消费，这意味着你在讨论阶段定的每条决策，会一路流到执行器手里，而且因为带着 D-NN 编号，验证阶段能逐条核对"决策覆盖"。

此外还有 PLAN.md（带 YAML frontmatter 的可执行工作单元）、RESEARCH.md、VALIDATION.md 等等，每种都有明确的 schema。这套工件体系的意义在于：知识不再活在某次对话的上下文窗口里，而是活在文件系统里，谁都能读，下次运行接着来。这就是"文件化状态"原则的全部价值。

13.6 上手与既有代码库的接入

全新项目用 /gsd-new-project 启动。但更现实的场景，是把 GSD 接到一个已经存在的代码库（brownfield）上，这条路径值得单独说。

第一步，让 GSD 读懂你的代码。命令 /gsd-map-codebase 会派出四个并行的 mapper 子智能体（技术栈 mapper、架构 mapper 等），分析代码库，在 .planning/codebase/ 下产出 STACK.md、ARCHITECTURE.md、CONVENTIONS.md 等结构化地图。

第二步，/gsd-new-project 聚焦于"你要加什么"，而不是重新发明已有的东西，它会从现有代码里抽取并验证需求。

第三步，进入正常的 Discuss → Plan 循环。此时代码库地图会喂给 /gsd-discuss-phase 和 /gsd-plan-phase，确保计划顺着既有的约定和结构走，而不是另起炉灶。

除了完整的五步循环，GSD 还留了轻量入口。/gsd-quick 用于小而临时的任务：它保留 GSD 的保证（原子提交、STATE.md 追踪），但默认跳过研究、讨论、计划检查、验证这些可选环节，只派 gsd-planner（quick 模式）和 gsd-executor。需要时可以用标志逐级把质量管线加回来，--discuss 加轻量讨论，--validate 加计划检查和验证，--full 开完整管线，--research 加聚焦研究。quick 任务存在 .planning/quick/，并更新 STATE.md 里的 "Quick Tasks Completed" 表。

这种"完整循环加快速通道"的双轨设计，对应的是真实开发里"大功能走流程、小修补抄近道"的常态。但就算抄近道，原子提交和状态追踪也不丢。

13.7 产品矩阵：从框架到独立 Harness

GSD 不止 gsd-core 一个产品。看清整个矩阵，才能看清它在第 10 章 Harness Engineering 谱系里的位置。

gsd-core 是本章主角，套在现有运行时上的工作流引擎。它本身不是 Harness，是给别人的 Harness 加一层可靠性。

gsd-pi 是一个 terminal-native 的独立自主 Agent，带 TUI 和 Web UI、worktree 隔离的 git、多模型路由，安装 npm install -g @opengsd/gsd-pi@latest。这才是一个完整的、独立的 Harness，对应第 10 章。

gsd-browser 是基于 CDP（Chrome DevTools Protocol）的浏览器自动化，提供 MCP server 模式和带版本的元素引用，标准动作流是 navigate → snapshot → act → assert → export，支持人工接管（human takeover），安装 npm install -g @opengsd/gsd-browser@latest。它给 GSD 的验证步骤提供了"行为级证据"：不是猜代码对不对，而是真的在浏览器里跑一遍、断言、留痕。

此外还有两个规划中的产品。gsd-workbench 是桌面端的本地工作区，管计划、backlog、证据、交付交接；gsd-cloud 是托管服务，提供跨设备的项目状态和团队可见性。

这个矩阵透露了 GSD 的野心：gsd-core 让任何运行时变可靠，gsd-pi 提供一个自带可靠性的运行时，gsd-browser 给验证装上眼睛，workbench 和 cloud 把单机循环扩展到团队。

13.8 与全书方法论的对接

GSD Core 几乎是前几章方法论的一次集大成，把分散的原则拧成了一套能直接安装的工程系统。

跟第 3 章 SDD 的关系最直接：GSD 本质就是规格驱动，但它把规格嵌进了阶段循环。CONTEXT.md 是讨论阶段的规格，PLAN.md 是执行阶段的规格，验证阶段逐条核对规格覆盖。规格不再是开头写一次的文档，而是贯穿循环的活合约。

跟第 5 章 gstack 同为"想、划、做、审、交"谱系，但 GSD 更偏执于上下文隔离。gstack 用角色覆盖来保证质量，GSD 用"每个 Agent 一份新上下文"来保证质量。跟第 8 章 Goal Workflow 高度同构，/prd → /goal → /review-it → /ship-it 几乎可以和 Discuss → Plan → Execute → Verify → Ship 对位，GSD 可以看作 Goal Workflow 加了一套强制的文件化状态和子智能体编排。

跟第 10 章 Harness Engineering，gsd-pi 是一个完整的独立 Harness，gsd-core 则是"给别人的 Harness 加可靠性层"的另一种工程实践。

最深的一层是跟第 12 章 Loop Engineering 的对接。GSD 是 12.3 那"五个原语加状态记忆"的一次工业级落地：子智能体加持久化工件加独立验证门禁，再配上 worktree 隔离和模型路由。第 12 章讲的是循环的原理，GSD 给了你一个能直接 npx 装上的循环。

最后是跟第 14 章 improve、第 15 章 Compound Engineering 的关系，三者都信"规划重于执行"。improve 把成本分工压到极致，强模型审计、弱模型执行；Compound Engineering 在末端加了知识复利；GSD 则把重心放在跨会话的上下文工程和验证证据上。

13.9 本章小结

GSD Core 把一个容易被忽视的工程真相摆到了中心：AI 编程在规模上的失败，大多不是模型不够聪明，而是上下文管理不善。它给这个真相起了名字，叫上下文腐化，再用三样东西系统性地反击它。

第一样是阶段循环（Discuss → Plan → Execute → Verify → Ship），每次只推进一个阶段，把工作切成上下文窗口装得下的块。第二样是子智能体加瘦编排者，每个 Agent 一份干净的 200k 上下文，主会话不囤积细节，maker 和 checker 物理隔离。第三样是持久化工件（STATE.md、CONTEXT.md、PLAN.md 等），把状态落盘到 .planning/，让知识跨越会话边界存续。

它最聪明的定位是：不取代你的 Agent，而是让你的 Agent 变可靠。同一个 Claude Code，套上 GSD Core，就从一个聊到第五十轮开始漂移的对话伙伴，变成一个有计划、可恢复、有验证证据的工程流水线。这也正是它那句标语的全部意思：Claude Code 很强大，GSD Core 让它变得可靠。

Loop Engineering：从提示 Agent 到设计循环

2026-06-28T05:30:00.000Z

"You shouldn't be prompting coding agents anymore. You should be designing loops that prompt your agents."
你不应该再提示编码 Agent 了。你应该设计循环来提示你的 Agent。
——Peter Steinberger, 2026 年 6 月 7 日

第 10 章搭了 Agent 的运行环境——hooks、权限、沙箱、配置继承。第 11 章用 Kanban 管多个 Agent 的并行编排。但有一个更根本的问题还没回答：每次都是你在提示 Agent。你打字，它回话，你再打字。你不在，它就不动。

2026 年 6 月，两条推文把这个矛盾推到了台前。Peter Steinberger（OpenClaw 作者）的那句话在 48 小时内获得 220 万次浏览。几天后，Boris Cherny（Anthropic Claude Code 负责人）在 WorkOS 的 Acquired Unplugged 活动上说了几乎同样的话："I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops."

全网炸了。但没人说得清"loop"到底是什么。有人说是 Ralph Loop 的翻版，有人说是"戴了顶帽子的 cron job"，有人说"prompt engineering 已死"。一周之内，Reddit、Hacker News、X 上的讨论翻了几十页，最诚实的回答是 Matthew Berman 那句："Nobody knows but him and Boris."

Addy Osmani 随即发表了长文"Loop Engineering"，给了这个概念第一个完整的拆解。本章基于 Osmani 的框架，结合 Boris Cherny 的实践、Geoffrey Huntley 的 Ralph Loop 思想、以及 AlphaSignal 的四条件测试，回答三个问题：Loop Engineering 是什么？它和前十一章的方法论什么关系？你真的需要它吗？

12.1 从提示 Agent 到设计循环

先把 Boris Cherny 的三阶段演化说清楚。

一年前，Cherny 的写代码方式和所有工程师一样：IDE + 自动补全。然后他开始同时跑五到十个 Claude 会话，手动提示每一个——这个修 bug，那个做 feature，还有一个跑测试。每一条指令都是他亲手打的。他的时间不再是写代码，而是在五个终端窗口之间切来切去，给每个窗口里的 Claude 写 prompt。

然后他停了。不是不用 Claude——而是不再自己打 prompt。他写了一组小程序，每个程序做三件事：找到该做的事、把事交给 Claude、检查做完了没有。这些程序按时间表运行——有的每分钟一次，有的每天一次，有的跑到达成某个条件才停。Cherny 把它们叫 loops。他的原话是："My job is to write loops."

结果：据 Cherny 自述，过去 30 天里他对 Claude Code 的 100% 贡献都由 Claude Code 自己写的，合并了 259 个 PR。他在 2025 年 11 月删掉了 IDE，到发稿时没再打开过。Yash Thakker 整理的补充数据：Anthropic 工程师实现每日代码产出 8 倍增长，Claude 编写了超过 80% 的已合并生产代码，开放式软件任务成功率 76%。

这就是 Loop Engineering——不再由人提示 Agent，而是设计自动提示 Agent 的系统。 你从循环里面的人，变成了循环的作者。

Cherny 不是说工程师过时了。他自己仍然决定做什么、和用户沟通、协调团队。工作没有消失。上升了一个高度——从写代码，到写那个写代码的东西。

12.2 Loop 处在哪一层

前十一章的方法论解决的是"Agent 怎么做事"。Loop Engineering 解决的是"谁来提示 Agent 做事"。这是一个不同的抽象层。

Loop Engineering (谁提示 Agent)
  │
  └── Harness Engineering (Agent 的运行环境)
        │
        └── 方法论层 (Agent 怎么做事)
              │   Skills / SDD / Ralph Loop / gstack / Goal Workflow / autoresearch
              │
              └── 项目层 (做什么事)
                    goscapy / Web 应用 / 微服务...

Harness 管一个 Agent 的运行环境——第 10 章拆过的 hooks、权限、沙箱。Loop 坐在 Harness 上面，加了三样东西：定时器（让 Agent 不等你就在跑）、子 Agent 派生（让一个 Loop 管多个 Agent）、自我驱动（让 Loop 自己决定下一步做什么）。

用 Osmani 的话说：Harness 让一个 Agent 安全运行，Loop 让一群 Agent 自己跑起来。

12.3 Loop 的五个必需品 + 一个记忆

Osmani 把它拆成了五样东西，加一个存记忆的地方。

12.3.1 Automations——循环的心跳

Automations 是让 Loop 成为"Loop"而非"你手动跑了一次"的东西。没有它，你只是用了一次 Agent。有了它，Agent 按节奏自己跑。

Codex 的实现是 Automations tab——选项目、写 prompt、选频率、选本地还是后台 worktree。找到问题的 run 进 Triage inbox，没找到的自动归档。OpenAI 内部用它做日常 issue 分诊、CI 失败摘要、commit 简报、最近引入的 bug 猎杀。Automation 还能调用 Skill——你写 $skill-name，不用把一大堆指令粘到没人会再更新的时间表里。

Claude Code 走了另一条路但到同一个地方：/loop 按节奏重跑，/goal 跑到条件满足为止，hooks 在 Agent 生命周期的关键点插入逻辑，GitHub Actions 让你合上笔记本它还在跑。

/loop 和 /goal 是两种不同的自主原语。/loop 是时间驱动的——每 N 分钟跑一次。/goal 是条件驱动的——跑到"test/auth 里所有测试通过、lint 干净"才停。两者都重要，覆盖不同的自主模式。

12.3.2 Worktrees——并行不冲突

两个 Agent 同时写同一个文件，和两个工程师 commit 同一行然后谁都不跟谁说话一模一样。Git worktree 解决这个问题——一个独立的工作目录在自己的分支上共享同一个仓库历史，一个 Agent 的编辑物理上不可能碰到另一个的 checkout。

Codex 内置了 worktree 支持，多个 thread 同时打一个仓库互不碰撞。Claude Code 提供三种隔离方式：git worktree 手动创建、--worktree 标志在独立 checkout 里开会话、isolation: worktree 让 subagent 自动获得可自动清理的独立 checkout。

但 Addy Osmani 在另一个文章里指出了一个更深的限制：你的审查带宽才是真正的上限。Worktree 消除了机械碰撞，但你一次能审查多少个 PR 决定了你实际能跑多少个 Agent，不是工具。

12.3.3 Skills——停止每次重新解释项目

Skill 是让你停止像金鱼一样每次会话重新解释项目的东西。没有 Skills 的 Loop 每次循环从零推导整个项目——构建命令、代码风格、那个因为某次事故才有的约定。有 Skills 的 Loop 复合增长——每次循环站在前一次的肩膀上。

第 2 章讲的 Skills 系统在这里有了新的位置：它不仅是 Agent 的能力单元，更是 Loop 内可复用的知识资产。Loop 内可复用的单元是 Skill 不是 prompt。 调用清晰命名 Skill 的 Loop 复合增长；每次从头推导的 Loop 只烧钱。

Skill 和 Plugin 是两件事。Skill 是编写格式——一个 SKILL.md 文件加可选的脚本和引用。Plugin 是分发方式——把多个 Skill 和 Connector 打包，让队友一键安装。在 Codex 和 Claude Code 里都一样。

12.3.4 Plugins 和 Connectors——Loop 触达真实工具

一个只能看文件系统的 Loop 是一个很小的 Loop。MCP 连接器让 Agent 读 Issue 追踪、查数据库、调 staging API、发 Slack 消息。Codex 和 Claude Code 都支持 MCP，所以你为一个写的 connector 通常另一个也能用。

没有 Connectors 的 Loop 能修代码，但修完就停在那了——它不知道该开 PR，不知道该关联哪个 Linear ticket，不知道 CI 绿了该 ping 谁。有 Connectors 的 Loop 是一条流水线：修完代码 → 开 PR → 关联 ticket → CI 绿了自动通知频道。区别不是 Agent 聪明了多少，是它能动手的范围大了多少。

第 10 章的 Harness Engineering 把 MCP 作为工具系统的一部分。在 Loop 的层面，Connectors 的角色更明确——Loop 跑的时候你不在旁边，如果它不能自己把结果送到该去的地方，你就得回来收尾，这违背了 Loop 的初衷。Connectors 让 Loop 从"帮你干活的工具"变成"自己走完流程的同事"。

12.3.5 Sub-agents——写的和查的不是同一个

这是 Loop 中最有用的结构性设计。

写代码的模型给自己打分太客气了。它天然倾向于说"我做完了"。第二个 Agent 带着不同的指令，有时候用不同的模型，能抓住第一个 Agent 自己说服自己的东西。

Codex 的 subagent 在你要求时才生成，并行运行后折叠结果到一个回答。你在 .codex/agents/ 定义自己的 Agent——每个有名字、描述、指令，可选模型和推理力度。这样你的安全审查员可以用强模型高推理力度，而探索者用快而只读的轻模型。

Claude Code 同样支持：.claude/agents/ 定义 subagent，agent teams 在它们之间传递工作。常见的分工是：一个探索，一个实现，一个对照 spec 验证。

这个分工在 Loop 内为什么特别重要？Loop 跑的时候你不在旁边看。 一个你真正信任的验证者是你能走开的唯一理由。Subagent 烧更多 token——每个都做自己的模型推理和工具调用——所以把它们花在值得第二意见的地方。

/goal 的评判模型也是 maker-checker 分离。Claude Code 每次 turn 后把目标条件和当前上下文发给一个小的快模型（很可能是 Haiku），它只做一件事：条件满足了没有？返回 yes/no 加一条简短理由。干活的模型和验收的模型不是同一个——这个分离是 Loop 可信赖的基础。

12.3.6 State——Agent 会忘记，仓库不会

第六个东西不是"必需品"，但少了它 Loop 就是个失忆症患者。

一个 markdown 文件，或一个 Linear board，任何存在于单次对话之外、记录"做完了什么、还剩什么"的东西。Agent 每次运行之间忘记一切——上下文窗口是临时的。但 state 文件在磁盘上，不属于任何一次对话。明天早上的运行从今天停下的地方继续，不是从零开始。

一个 state 文件长这样：

# CI Health Loop — State

## 2026-06-08
- [x] flaky: test_auth_timeout — 隔离到 @slow 标记
- [x] broken: test_payment_webhook — 修复已合入 #1847
- [ ] flaky: test_search_index — 未复现，下次重跑

## 2026-06-07
- [x] broken: test_user_export — 依赖版本回退，#1843

每次 Loop 启动时读这个文件，知道什么做过了、什么还没做。每次 Loop 结束时写回去。第 10 章的 CLAUDE.md 和 progress file 解决的是 Agent 内部跨会话的记忆——同一个问题，内部版本。Loop 的 state 文件是外部版本——不在 Agent 的上下文里，在文件系统或项目管理工具里，谁都能读，下次运行接着来。

12.4 Dynamic Workflows：五个原语的确定性编排

上面五个原语是概念层。2026 年 6 月，Claude Code 引入了 Dynamic Workflows——一种用确定性 JavaScript 脚本编排 sub-agent 的方式，把这些概念落到了代码。

传统 sub-agent 调用是模型自主决策——"你觉得还需要什么？"。Dynamic Workflow 是确定性程序——"先做 A，再做 B，如果 B 失败就做 C"。每个 sub-agent 有独立的隔离上下文窗口，消除了主会话中的上下文膨胀和自我偏好偏差。

六种模式覆盖了常见的编排场景：

模式	逻辑	典型场景
Fan-out & Synthesize	多个轻量 Agent 并行，一个重量 Agent 聚合	分析 50 条日记、安全审查
Classify & Act	先分类，再按类型执行不同操作	Issue 分诊
Pipeline (Draft → Check)	并行起草，然后检查	10 个 Agent 挖掘纠正，1 个聚类
Tournament	多个 Agent 出方案，judge 评分选一个	方案对比
Loop Until Done	循环到完成	定时日报
Deep Verification	提取每个断言，逐个验证	事实核查

一个实战例子：让 Agent "go through my last 50 sessions and mine them for the corrections I keep making"。结果：49 个会话分析，86 个纠正挖掘，每个引用对照实际会话验证。产生的报告显示反复出现的纠正模式——AI slop、虚构词语、错误事实。

Artem Zhutov（Dynamic Workflows 的早期实践者）有一个重要观察：不要分离工作流和技能。把工作流自包含在技能内——skill.md 文件可以包含一个 JavaScript 文件编码工作流。工作实体是技能，工作流被带入技能。

12.5 Loop 的历史演进

"Loop"这个词在 2026 年 6 月突然爆红，但它不是凭空冒出来的。从旧到新，五个阶段。

Stage 1：ReAct 循环（2022）

2022 年的 ReAct 论文形式化了最基本的模式：模型推理、调工具、读结果、重复。一个模型，一个循环，一个人看着。这是学术的 while 循环。

Stage 2：AutoGPT（2023）

给模型一个目标，让它自己提示自己。AutoGPT 变得著名是因为它无限空转、什么都不做。这个失败给整个领域打上了"Agent 是玩具"的标签，一烙就是两年。

Stage 3：Ralph Loop（2025）

第 4 章讲过 Geoffrey Huntley 的 Ralph Loop。它简单得不像话——一个 bash one-liner，把同一个 prompt 文件反复喂给 Agent。真正的创新是纪律：每次迭代把上下文重置到一组锚定文件，不让对话膨胀。Huntley 用它花了大约 297 美元构建了整个编程语言。

Ralph Loop 是 Loop Engineering 的直接前身。它的核心理念——自指涉、循环到对、固定锚定文件防止漂移——在今天所有的 Loop 实现中都能找到。

Stage 4：/goal 产品化（2026 春）

第 8 章讲过 /goal 的趋同演化——Codex、Claude Code、Hermes、Antigravity 四家几乎同时推出。/goal 把 Ralph Loop 产品化了：停止条件变成了一等公民（不是"我觉得做完了"，是"所有测试通过"），评判模型负责验收（不是自己给自己打分），预算变成了可配置参数。

Stage 5：编排式 Loop（2026 现在）

这是 Boris Cherny 和 Peter Steinberger 实际在做的，也是真正的新东西。四个变化：

Loop 变成了工作单元，不再是单个任务。
Loop 开始监督其他 Loop，并发地、按时间表地。
调度取代了人工启动——Loop 跑在基础设施时间上，不是你的注意力时间上。
持久化变成显式需求——git-backed state 和 crash recovery，因为这些东西必须扛过重启。

Ralph 假设你的终端一直开着。2026 年的版本假设你合上了笔记本。第 4 章的 Ralph Loop 是 Stage 3——单 Agent 的自主循环。本章的 Loop Engineering 是 Stage 5——多 Agent 的编排式循环，跑在 Harness 上面，用 Skills 知识武装，通过 Connectors 触达真实工具。

12.6 一个完整 Loop 的样子

把五个必需品加上记忆拼在一起。

每天早上，一个 automation 在你的 repo 上运行。它的 prompt 调用一个 triage skill，读取昨天的 CI 失败、open issue、最近的 commit，把发现写入一个 markdown 文件或 Linear board。对每个值得处理的发现，Loop 开一个 isolated worktree，派一个 sub-agent 起草修复。第二个 sub-agent 对照项目 skills 和已有测试审查那个草稿。Connectors 让 Loop 开 PR、更新 ticket。处理不了的进 triage inbox 给你。State file 是整个东西的脊柱——它记住尝试了什么、通过了什么、还剩什么，明天早上从今天停下的地方继续。

回头看：你设计了一次。你没有提示任何一个步骤。这就是 Steinberger 的主张变成现实的样子。而且不管你坐在 Codex 还是 Claude Code 里，Loop 的形状是一样的——因为五个原语是同样的五个原语。

12.7 Boris Cherny 的实践

Cherny 在 WorkOS 的 Acquired Unplugged 活动上给出了他实际跑的几个 Loop。

PR babysitter。 每隔几分钟检查所有 open PR——CI 失败、merge conflict、stale 分支——修安全的，推送更新，标记需要人工的。

CI health。 监控 flaky 和 broken 测试，能复现就复现，能修就修或隔离，重跑 CI。

Feedback clustering。 每 30 分钟拉新的 Twitter 反馈，按主题聚类，汇总自上次运行以来什么变了。

Idea mining at scale。 几百个 Claude 同时读 Twitter、GitHub issue、Slack，找出下一步该做什么。大部分想法是烂的，但 Cherny 说大概 20% 是好的——这就是让它广撒网的意义。

最强的例子不是他自己的。他指向了 Jarred Sumner（Bun 创始人）做的 Robo Bun——一个有牙齿的生产级 Loop。有人提 GitHub issue → bot 自动触发 → 尝试复现 bug → 写 failing test → 修代码 → 开 PR。PR 必须包含一个在旧版本失败在新版本通过的测试。审查 bot 批评修复，修复 agent 回应，只有这时候人类才决定是否 merge。那不是"让 Claude 修个 bug"——它有证明门（proof gates）。

Cherny 把底层原语叫"hill climbing"（爬山）。给 Claude 一个目标和一个度量进展的方式，告诉它迭代到完成，它就去爬。Jarred 对它说"make it faster than sharp"，Claude 就跑 benchmark、找瓶颈、改代码、重跑、继续爬到目标。目标 + 度量 + 改变的能力 + 测量的能力 = 自主改进循环。

他给无人值守 Agent 运行数小时或数天列了五条清单：auto mode 开权限让它别再问；dynamic workflows 让它编排成百上千个 Agent；/goal 或 /loop 让它持续跑；Cloud Claude Code 让你合上笔记本；最重要的是让它有端到端自我验证的方法。

12.8 Peter Steinberger 的实践

Steinberger 的 Loop 走了不同的路，但到同一个地方。他的方法论更简洁，一句话：每次你发现自己为 Agent 做重复的观察、判断、路由或验证，就建一个工具把那个活交给 Agent。把自己从反馈路径中移除。

怎么发现这些时刻？Steinberger 的办法是：哪件事让你烦了，哪件事就该自动化。 烦躁说明你在做机器该干的活。

Steinberger 的 Loop 分两层。策略层是 vision.md——项目的宪法，Agent 读它来知道项目想要什么、拒绝什么、往哪推。没有这个文件，Loop 会优化向随机贡献者碰巧要求的东西。行为层是 agents.md，他写不变量。Agent 误解项目时，他不在 chat 里教训它——他把规则写进 instructions，让未来的会话自动继承。有个巧妙的转折：他不是自己写这些 instructions，而是让 Agent 为下一个 Agent 重写指导，然后定期问它文件里什么让人困惑，清理矛盾。Agent 改进控制未来 Agent 的指令。

他的几个 Loop 展示了范围：

Issue 和 PR reaper。 Agent 读 vision.md，决定请求是否符合项目方向，然后评论、分组或关闭。至少每周重跑，token 充裕就每天。
Maintainer report。 爬 Discord、issue、PR，关联投诉和进行中的工作，挑出人叫得最响的前五件事，对照 vision.md 筛选 Agent 能独立处理的，并行派发。
Mantis，视频证明 Loop。 Ping Agent 在 PR 上，它启动机器、录 bug 视频、修 bug、录修复视频。Agent 看视频验证，Steinberger 看视频按 merge。这是他整个工具箱里最干净的证明循环。
Auto Review。 commit 落地前，Codex 用新上下文调 Codex 跑多轮审查，修有效问题直到干净。一行 agents.md 指令触发。

同一个模式每次重复：他是瓶颈，他烦躁了，他给 Agent 建了个工具让它自己做。

12.9 Loop 无法替你做的事

Loop 改变了工作，它没有把你从工作中删除。三个问题随着 Loop 变好变得更尖锐，不是更轻松。

验证仍然在你身上

12.3.5 讲了 maker-checker 分离，12.7 的 Robo Bun 展示了 proof gates。这些让 Loop 的"做完了"多少有点意义，但"做完了"终归是声称不是证明。Osmani 一直说同一句话：你的工作是交付你确认能用的代码。

理解力衰退（Comprehension Debt）

Loop 越快交付你没写的代码，仓库里存在的东西和你真正理解的东西之间差距越大。一个顺畅的 Loop 只是让这个差距长得更快，除非你读 Loop 产出的代码。

认知投降（Cognitive Surrender）

Loop 自己跑着的时候，很自然地就停止形成意见，接受它返回的任何东西。Osmani 叫它 cognitive surrender。设计 Loop 用判断力是解药，用逃避思考是加速剂——同一个动作，相反结果。

两个人可以建完全相同的 Loop，得到完全相反的结果。一个用它加速自己深刻理解的工作。另一个用它避免理解工作本身。Loop 不知道区别。你知道。

一个跑飞的 Loop

2023 年 AutoGPT 的空转是 Loop 失败最著名的例子。给它一个目标，它反复自我提示，既不报错也不推进，无限循环。GitHub 上几万颗星，但真正跑出结果的很少。这个失败给整个领域烙了将近两年的"Agent 是玩具"标签。

失败的原因很简单：没有 gate。AutoGPT 没有一个能自动说"这条路走不通，停下来"的机制。它能改代码、能读文件、能执行命令，但没有验证环节，所以它不知道自己做得对不对——于是就一直做下去。12.3.5 讲的 maker-checker 分离和 12.11 讲的 Gate，要解决的正是这个问题。没有验证的 Loop 不是自主循环，是 token 焚烧炉。

12.10 你真的需要 Loop 吗？

AlphaSignal AI 在一周的 Loop 狂热后发了一篇冷静的分析。四个条件逐一检查，全部满足才值得。

条件 1：任务重复。 Loop 把设置成本分摊到多次运行。一次性的工作，好 prompt 更快更便宜。如果工作不是每周重复，你没有 Loop，你有一个跑了一次的脚本。

条件 2：验证自动化。 Loop 需要一个能不用你就在场就拒绝差工作的东西——测试套件、类型检查器、linter、build。没有自动检查 = 你还是坐在那里读每个 diff，这正是 Loop 本该消除的活。

条件 3：Token 预算能吸收浪费。 Loop 重读上下文、重试、探索都烧 token，不管这次跑有没有交付东西。这个技术随预算缩放——对 token 几乎免费的人来说它显而易见，对按量计费的人来说它鲁莽。Uber 烧完了年度 AI 预算后对每人每工具月费设了 1500 美元上限。成本中心已经从"写代码"转移到了"管 Agent Loop"。

条件 4：Agent 已有资深工程师的工具。 日志、复现环境、运行自己写的代码并看到哪里坏了。没有这些，Loop 在盲迭代。

四个都回答 yes，值得建。缺一个，你在自动化一个还没准备好被自动化的流程。

好的首个 Loop：CI 失败分诊、依赖升级 PR、lint-and-fix、flaky test 复现、有强测试代码的 issue-to-PR。坏的第一个 Loop：架构重写、认证/支付代码、生产部署、模糊的产品工作、"完成"靠判断的任务。

如果你是按量计费的独立开发者，等等再说。如果你是团队有自动化测试和能吸收浪费的 token 预算，从小开始。

12.11 最小可行 Loop

如果你过了四条件测试，先建最小的那个。四个部分，不要 swarm。

一个 Automation。 /loop 在 Claude Code，或 automation 在 Codex——按节奏触发、条件停止。两个工具也都暴露了 /goal，它跑到声明的条件为真。

一个 Skill。 一个 SKILL.md 存储项目上下文——Agent 不然会每次运行从零推导的东西。

一个 State 文件。 Markdown 文件或 Linear board，记录做完了什么和接下来做什么，让明天的运行恢复而非重启。Osmani 的规则：Agent 会忘记，仓库不会。

一个 Gate。 测试、类型检查或 build，自动拒绝差的工作。这是决定 Loop 帮你还是只花钱的部分。

顺序很重要：先手动跑通一次 → 转成 Skill → 包进 Loop → 调度执行。一个长期运行的高层 spec（VISION.md 或 AGENTS.md）让 Agent 每次运行时重新读到，防止长 Loop 偏离目标。

度量每个被接受的变更的成本，不是消耗的 token 或尝试的任务数。

动手：一个 CI 健康检查 Loop

用 Claude Code 建一个每 10 分钟检查 CI 的最小 Loop。

第一步：写 Skill。 创建 .claude/skills/ci-health.md：

---
name: ci-health
description: 检查 CI 状态，修复失败测试，隔离 flaky 测试
---

## 项目上下文
- 测试命令：npm test
- Lint 命令：npm run lint
- CI 配置：.github/workflows/ci.yml

## 规则
- 只修复有明确错误信息的失败测试
- Flaky 测试打 @flaky 标记隔离，不删除
- 不动认证和支付相关代码
- 修复后必须跑通完整测试套件

第二步：写 State 文件。 创建 ci-health-state.md：

# CI Health Loop — State

## 待处理


## 已处理

第三步：启动 Loop。 在 Claude Code 里：

1
2
3

/loop
Prompt: 用 ci-health skill 检查项目 CI 状态。读 ci-health-state.md 了解之前做过了什么。有失败测试就修，修完跑测试确认。修不了的写到 state 文件的待处理部分。每次运行结束前更新 state 文件。
Interval: 10 minutes

这就是全部。一个 Skill、一个 State 文件、一条 /loop 命令。跑起来之后观察几轮，确认它做对了再放手。Gate 是测试套件本身——修完必须跑通，跑不通它不会标记为完成。

12.12 "It's just a cron job with a hat on"

对 Loop 最犀利的一句质疑只有四个词："Cronjobs have funny re-branding rn."——定时任务现在有了个搞笑的新名字。

这个质疑值得正面回答，因为它对了一半。对的一半：调度层确实是 cron。Boris Cherny 的 Loop 字面意义上就跑在 cron 上。Claude Code 的 /loop 底下就是 cron。如果你的 Loop 定义是"按时间表运行的东西"，那没错，1975 年就发明了。

Cron 从来没有的部分是中间那个东西。Cron job 跑固定脚本。Loop 跑一个模型——它看当前状态，决定下一步做什么，做了，检查是否成功，决定是否继续。决策是 Agent 的，不是你的，不是硬编码的分支。堆起来，让一个 Loop 调度和监督其他 Loop，给它们持久的共享状态——你就有了一些 cron 无法表达的东西。

诚实的说法：Loop 是 cron 触发 + 一个每次触发后看情况决策的 AI。真正要花心思的工程，是确保那个 AI 不会跑下悬崖。

12.13 Loop 与全书方法论的对接

Loop Engineering 不是孤立的概念。前十一章的方法论在 Loop 里各有各的位置。

方法论	在 Loop 中的角色
第 2 章 Skills	Loop 内可复用的能力单元——没有 Skills 的 Loop 每次从零推导
第 3 章 SDD	Loop 的 Gate 之一——规格一致性检查
第 4 章 Ralph Loop	Loop Engineering 的 Stage 3 前身——自指涉、循环到对
第 5 章 gstack	Loop 的审查流水线——角色化门控
第 7 章 autoresearch	完整的 Loop 实现——多 Agent 轮转 + 双轨门禁
第 8 章 Goal Workflow	/goal 是 Loop 的条件驱动原语
第 10 章 Harness	Loop 坐在 Harness 上一层的抽象
第 11 章 Kanban	Loop 运行的可视化追踪——每个卡片对应一个正在跑或等审查的 Loop 实例

一个完整的 AI 研发体系可以这样看：Harness 提供安全运行环境，方法论提供做事的方法，Kanban 提供可视化编排，Loop 提供自主驱动力。四层拼在一起，你不在的时候 Agent 也能安全、正确、持续地工作。

12.14 本章小结

五个原语——Automations、Worktrees、Skills、Connectors、Sub-agents——加一个记忆，搭出一个可信赖的自主循环。Loop 的难度不在 Loop 本身，在于里面放一个能说"不"的东西。没有检查的 Loop 不是自主循环，是 token 焚烧炉。

两个人建完全相同的 Loop，可以得到完全相反的结果。差异不在工具，在于你是否理解你在自动化什么。Cherny 的观点不是工作变容易了——是杠杆的支点移动了。

Kanban：用看板编排 AI Agent 项目

2026-06-28T05:00:00.000Z

"You don't write the code anymore. You move the cards."
你不写代码了。你移动卡片。
——leodavinci1, kanbots 作者

Skills 封装能力。Spec 写合约。Ralph Loop 循环到对。gstack 角色覆盖。Goal Workflow 流水线串联。autoresearch 全自动闭环。这些方法论解决的都是"一个 Agent 怎么做事"。

真实场景从来不是一个 Agent。是多个 Agent 同时跑在不同的 worktree 里，多张卡片分布在多块板子上，你不盯就没人在盯。

Kanban 管的就是这个局面。管 Agent。

11.1 为什么是 Kanban

Kanban 不是新东西。丰田 1950 年代用看板管生产线——大野耐一发明了"拉动式生产"：下游消耗完，上游才补，不囤货，不过载。David Anderson 2010 年把看板带入软件工程——可视化工作流、限制 WIP、管理流动。现在进入第三次迁移：从管人变成管 Agent。

为什么是现在？瓶颈变了。

传统开发者的瓶颈在写。AI 时代开发者的瓶颈在管。你面前不再是一个编辑器——是四个终端窗口，每个窗口里一个 Agent 在你没看见的地方做着决定。Karpathy 在 No Priors 播客里说过，自己编写代码的比例从 80% 降到了零，时间花在"向 Agent 下达宏观指令、审查输出、决定哪些要返工"上。

Kanban 的三个核心原理恰好匹配 Agent 场景：

可视化工作流。 Agent 正在做什么、做完了什么、卡在什么上面——一张板子全看到。
限制并行度。 同时跑 10 个 Agent 制造的不是加速，是文件冲突和 token 账单。WIP 限制把并行数控制在可管理的范围。
拉式流动。 Agent 做完一个，自己从就绪队列拉下一个。不用逐张 dispatch。

11.2 三个看板工具

2025 到 2026 年，社区出现了几个专门为 AI Agent 设计的看板。kanbots、Vibe Kanban、kanban-code，三个产品，三种设计路线。

11.2.1 kanbots：每张卡片一个 Agent

GitHub 仓库：leodavinci1/kanbots，341 Stars，MIT 协议，最新版本 v1.2.0（2026 年 5 月）。

核心理念一句话：一张卡片 = 一个 Agent 运行实例。

安装。 macOS 一行命令：

1	curl -fsSL https://kanbots.dev/install-mac.sh \| bash

脚本自动下载 .dmg、拷贝到 /Applications、清除 quarantine 标记。Linux 用 .AppImage（chmod +x 后运行）或 .tar.xz。Windows 用 .exe 安装程序（SmartScreen 警告点"更多信息 → 仍然运行"）。源码构建需要 Node 20+、pnpm 10+、git，pnpm install && pnpm desktop。无需账号——纯本地运行。

macOS 手动安装注意：由于未代码签名，macOS 14 及以前右键 → 打开即可，macOS 15（Tahoe）需 xattr -dr com.apple.quarantine "/Applications/kanbots.app"。

前置条件。 需安装 Claude Code CLI（claude）或 Codex CLI（codex），至少一个在当前 PATH 中。which claude 确认可解析。如果终端能找到但应用启动后 Dispatch 失败——桌面启动器用的 PATH 和终端不同，从同一终端启动或把 CLI 路径加到 shell rc 后重新登录。

首次运行。 应用打开到工作区选择器。选择任意包含 git 仓库的文件夹（必须是 git clone 的，不是 zip 下载的）。kanbots 检测仓库：git rev-parse --show-toplevel → 如果检测到 origin 远端自动建议 GitHub 模式，否则回退到本地模式。两种模式随时可切换。

首次打开在项目根目录下生成 .kanbots/ 目录：

.kanbots/
├── db.sqlite              ← 所有数据（issues、runs、threads、providers）
├── db.sqlite-wal          ← WAL 日志
├── db.sqlite-shm          ← 共享内存
├── config.json            ← 工作区模式 + 默认配置
├── worktrees/             ← 每次 agent run 一个独立 git worktree
├── attachments/           ← 拖入聊天或卡片的文件
├── mcp-runtime/           ← 传给 Claude 的临时 MCP 配置
└── promote/               ← 晋升 worktree 提交时的暂存区

db.sqlite 是除源码外的单一真值来源。.kanbots/ 应加入 .gitignore——应用首次会提示。

看板创建卡片。 点击右上角 + New task。五种模板：Bug fix、Feature、Refactor、Review、Spike。

三种启动方式：

Spec first——在新 worktree 上跑 /spec 生成验收标准，等你 approve 再实现
Create & dispatch——马上派 Agent 在新 worktree 上开发
Queue for later——卡片留在 Backlog，以后手动 dispatch

每次 dispatch 可选 Agent CLI（默认 claude (auto)，可切 Codex）、模型、努力级别。本地模式卡片存为 local_issues 行；GitHub 模式卡片创建为真实 GitHub Issue。

Agent 运行流程。 打开卡片 → 点 Dispatch → 选 Agent 身份和模型 → 确认。kanbots 在 .kanbots/worktrees/issue--/ 下创建隔离 worktree，从默认分支切出，启动 CLI。详情面板实时流式显示每个 tool_use 和 tool_result。Agent 遇到决策点——"三个方案选哪个？"——弹出选项卡片，你选后 Agent 继续。

Agent 跑完：Branch preview（一键启动 worktree 的 dev server，打开浏览器看效果）、Promote commit（把 worktree 的提交 rebase 到你的分支）、Open draft PR（仅 GitHub 模式——推送并创建草稿 PR）、Discard（删除 worktree 和分支）。

每个 worktree 预装 pre-push hook，Agent 不能主动推送远程。晋升永远是手动操作。和第 10 章的 Harness Engineering 原理一致：权限边界在系统层强制执行，不在 Agent 的 prompt 里。

常见故障。 "Dispatch failed: claude not found"——桌面启动器 PATH 和终端 PATH 不同，从同一终端启动或把 claude 安装目录加到 ~/.zshrc。端口 8474 被占用时设 KANBOTS_DISPATCHER_PORT= 环境变量后重启。

Autopilot 模式。 kanbots 把 Dispatch 从单次点击变成循环。

feature-dev 模式：设定人物角色列表（persona roster），最多四个并行槽位。Agent 们轮转上场，在父 Issue 范围内自主拆分子任务、分派执行。设定成本预算上限，Agent 们在这个预算内自己跑。

qa 模式：自动运行你配置的检查命令（typecheck、test、lint、build、e2e），可选启动 dev server 监控，哪个检查挂了自动开一个修复 Agent 去修。

两种模式写入 autopilot_sessions 表。你能看到每轮循环历史、每个子 Agent 的运行记录，一个按钮停掉整棵树。

Autopilot 和第 4 章 Ralph Loop 机制相同：Agent 循环执行直到完成。区别是 Ralph Loop 单 Agent 串行，Autopilot 多 Agent 并行——每个 Agent 一个泳道，同时游。

MCP 集成。 kanbots 附带 MCP server（@kanbots/mcp）。Cursor、Claude Desktop 或者任何 MCP 兼容工具都能直接操作看板——读取卡片、创建卡片、触发 Dispatch。Agent 能写代码，也能管自己的看板。一层递归：Agent A 在看板上管着 Agent B、C、D 的卡片流转。

本地优先。 数据存 SQLite。.kanbots/ 目录自包含——一个文件夹搬走，整个项目状态跟着走。完全离线可用。也支持切到 GitHub Issues 模式，驱动真实 GitHub Issues，状态流转自动同步 status:* 标签。

11.2.2 Vibe Kanban：Agent 的工作台

官网：vibekanban.com。由 BloopAI 团队开发。定位：组织并行 Agent 工作流，从零到 Pull Request。github上2.6万颗星。

安装。 一行命令：

1	npx vibe-kanban

浏览器自动打开 Web UI。首次运行选择 Agent、IDE、通知偏好后可跳过登录（"More options → I understand, continue without signing in"）。跳过登录禁用看板、Issue 管理和团队功能，但单人 Workspace 全部可用。登录（GitHub 或 Google）自动创建个人组织和一个初始项目。

核心抽象：Workspace。 和 kanbots 的"一张卡片一个 Agent"不同，Vibe Kanban 的核心单元是 Workspace——给编码 Agent 准备的独立工作空间。一个 Issue 可有多个 Workspace。

每个 Workspace 配置：仓库（支持多仓库）、分支、prompt、模型、努力级别、plan 模式。配置完成 Agent 立即在 Workspace 里按 prompt 开始执行。Workspace 底层创建 git worktree 隔离代码变更。也可不关联 Issue——纯当快速代码问答用。

Issue 系统。 Issue 代表一个 bug、功能或待完成的工作。最少需要标题和描述，可选优先级、标签、父子 Issue 链接。点击"New Issue"创建，右侧面板展示草稿和已选 Issue 的详情。

完整流程。 Plan → Run → Review → Preview → Ship：

Plan。 看板上创建 Issue，排优先级，分配父子依赖。
Run。 为 Issue 创建 Workspace，配置 Agent、分支、prompt，Agent 在隔离 worktree 里执行开发任务。
Review。 点击"Open Workspace"进入完整视图。Diffs 和浏览器预览通过浮动按钮切换。直接在 UI 里看 diff 并批注——批注意见直接发给 Agent，不切终端。
Preview。 内置浏览器预览 Agent 的改动效果。
Ship。 Workspace 完成后合并：创建 GitHub PR 或本地合并 workspace 分支。

Agent 支持。 用户选择 Agent，Workspace 里可单独配置模型、努力级别、plan 模式。支持并行 Agent 执行——多个 Workspace 同时跑不同的 Agent。支持 10+ 种编码 Agent：Claude Code、Codex、Gemini CLI、GitHub Copilot、Amp、Cursor、OpenCode、Droid、CCR、Qwen Code。

团队功能。 需要登录。支持共享项目和 Issue、多人协作 Review。由于 Vibe Kanban 是 Web 应用（有自托管 Docker 部署方案），团队数据由后端统一管理。

和 kanbots 的关键差异：

kanbots 是本地单机 Electron 应用——SQLite + 本地 Agent 执行 + 无需网络。Vibe Kanban 是Web 协作平台——后端、数据库、用户体系、自托管 Docker 部署。
kanbots 的 Agent 运行是"点 Dispatch 跑一个"——偏 Agent 自主循环。Vibe Kanban 是"在 Workspace 里持续交互"——Review 内嵌在 UI 中，偏人机协同。
kanbots 数据完全在本地。Vibe Kanban 有完整的云后端和团队协作能力。

Sunsetting。 Vibe Kanban 已宣布逐步关闭。官网上挂着公告："Vibe Kanban is sunsetting. The project will continue as open source and community maintained."，主要原因是开发者团队找不到合适的商业模式，主要用户都是免费用户。从产品角度看，做 Agent 协作工具的 SaaS 商业模式仍在摸索期——开发者倾向开源免费工具，企业市场仍在观望 Agent 成熟度。夹在中间的 SaaS 产品找不到舒适的定价锚点。

但 Vibe Kanban 的设计不会过时。它的 Workspace 抽象——"给 Agent 一个独立分支、一个终端、一个可预览的 dev server、一个 review loop"——是 Agent 协作工具的理念标杆。之后出现的同类工具，开源或商业，大概率沿这条路走。

我个人试用了Vibe Kanban，产品简洁。好在它开源了，靠社区维护，希望这个产品能活下去。

11.2.3 kanban-code：Agent 控制面板

GitHub 仓库：langwatch/kanban-code，193 Stars，AGPL-3.0 协议，最新版本 v0.1.28（2026 年 5 月）。

原生 macOS（SwiftUI）和 Windows（Tauri）双端应用。定位最偏"个人开发者日常驾驶舱"——六列看板，每张卡片自动关联 Claude 会话、git worktree、tmux 终端和 GitHub PR。卡片基于真实活动信号自动横移——Claude 开始工作 → 入 In Progress，PR 已开 → 入 In Review，PR 合入 → 入 Done。不用手动拖。

安装。 macOS 从 GitHub Releases 下载 .app 文件（未公证，需右键 → 打开）。首次启动运行 onboarding 向导，自动检测依赖（Claude Code CLI、tmux、gh CLI、mutagen、Amphetamine——全是可选的渐进式增强）。

源码构建：git clone 仓库，make run-app（macOS）。Windows 进入 windows/ 目录：npm install && npm run tauri dev（开发模式）或 npm run tauri build（生产 .exe）。

跨平台 CLI 自动安装在 ~/.local/bin/kanban（app 首次启动或 make install-cli）。常用命令：kanban list（按列列出卡片，-c 过滤列，--json 输出）、kanban status（概览：卡片数、终端数、token 消耗、成本）、kanban show （详情：会话、tmux、PR、transcript）、kanban send （向卡片的 tmux 会话发 prompt）、kanban interrupt （发 Escape 停止助手）、kanban transcript （最近对话记录）。卡片引用支持 ID、ID 前缀、名称、tmux 会话名或 session ID。全部命令支持 --json——为主 Agent 编排子 Agent 设计。

配置存 ~/.kanban-code/settings.json（人工可读、可版本控制）。协调数据存 ~/.kanban-code/links.json（关联 session、worktree、tmux、PR）。

tmux 终端嵌入。 每个 Claude 任务跑在独立 tmux 会话中。kanban-code 管理 tmux 生命周期——启动 Claude 时自动创建会话，重连时自动 attach，归档时自动 kill。卡片内嵌原生终端模拟器（SwiftTerm，支持真彩色、Unicode、鼠标、滚回）。终端状态跨卡片保持——切卡片不丢终端内容。也能 tmux attach 到外部终端操作。

Session 发现与搜索。 自动扫描 ~/.claude/projects/ 发现全部 Claude 会话——正在跑的、历史的、在终端手动启动的。BM25 全文搜索跨全部会话历史，带新近度加权。能从任意历史点 fork 出一个新会话——带上全部上下文，并行做新任务。Checkpoint 回滚到任意对话节点。

Git Worktree 集成。 每张卡片自动创建 git worktree。GitHub Issue 用 issue-123 命名 worktree，手动任务自动生成名称。发现后台孤立的 worktree 提示清理。

远程执行。 通过 SSH + Mutagen 把 Claude Code 卸载到远程机器——本地编辑，远程编译，双向文件同步。UI 显示 Mutagen 同步状态。远程机器离线自动回退到本地执行。

Push 通知。 通过 Pushover 发到手机和 Apple Watch。Agent 的响应摘要直接推到手腕上。智能去重——Stop 事件合并，62 秒内同内容去重。

防休眠。 集成 Amphetamine——Agent 在跑时不让 Mac 睡。Agent 都空闲时自动退出。

11.2.4 三者对比

	kanbots	Vibe Kanban	kanban-code
定位	本地 Agent 调度器	Agent 协作工作台	Agent 控制面板
粒度	卡片 = Agent Run	Workspace = 开发环境	卡片 = 会话集合（session+worktree+tmux+PR）
Agent 角色	执行者 + 自我审查（Autopilot）	执行者 + 被 Review	执行者
人的角色	Dispatch + 关键决策	规划 + 逐行 Review	监控 + 随时介入
协作模式	单人本地	团队协作	单人本地 + 远程执行
数据存储	本地 SQLite	后端数据库	本地 JSON + tmux + git
Agent 支持	11 种 CLI	10+ 种	Claude Code 专属
自动化程度	Autopilot 循环	手动触发为主	会话自动发现
平台	macOS/Linux/Windows	Web	macOS/Windows
许可证	MIT	商业	AGPL-3.0
成熟度	活跃开发中	宣布 sunsetting	活跃开发中

三个工具指向同一个方向：模型能力上去了，Agent 管理层自然要跟上。Harness 管 Agent 的安全和可控性（纵向）。Kanban 管 Agent 的调度和协作（横向）。组合起来才是完整的 AgentOps。

Hermes以及一些其他的Agent最近也增加了kanban的功能，也有 kanban Skill（https://github.com/mattjoyce/kanban-skill），不过没发展起来。

11.3 从个人工具到团队平台

三个工具覆盖了 AI Agent 项目的三个管理阶段：

第一阶段：个人提效。 你一个人，一块看板，几个 Agent。目标是让自己从瓶颈变调度中心。kanbots 和 kanban-code 都面向这个阶段——本地工具，不需要服务端，不需要协作功能。把个人 Agent 的管理问题解决了，再考虑推广到团队。

第二阶段：团队协作。 共享看板，每个人分配自己的 Agent 做子任务。Review 分布式进行。需要权限管理、代码所有权、CI/CD 集成。Vibe Kanban 瞄准这个阶段——虽然它关闭了，但需求不会消失。目前这个阶段主要由 GitHub Issues + kanbots GitHub 模式 + kanban-code PR 追踪拼凑出一套折中方案。

第三阶段：人机混合团队。 Agent 不只是执行者——还做规划和决策建议。人的角色从执行退到监督、从分配任务退到设定方向。这个阶段目前没有人做成熟的商业化产品，但 kanbots 的 Autopilot + MCP 集成已经展现了雏形。

绝大多数团队目前在第一步和第二步之间。先用 kanbots 或 kanban-code 个人跑起来，理解 Agent 的工作节奏，建立卡片规范和 review 习惯。模式内化之后，工具反而不那么重要了——核心心智模型永远一样：可视化工作流、限制并行度、拉式流动。

11.4 本章小结

Kanban Agent 方法论是 AI 时代软件开发的"驾驶舱"。前九章教开车，第 10 章看引擎盖下面，这一章讲仪表盘——你坐在哪、看什么、怎么同时指挥多辆车。

这几个AI模式下的kanban工具还是很有用的，很方便管理项目任务进度，尤其对那些先前就使用kanban的团队来说就更方便了。

三个工具代表三种设计哲学。kanbots 是本地 Agent 调度器——一张卡片一个 Agent，Autopilot 自主循环，MCP 让 Agent 管自己的看板。Vibe Kanban 是团队 Agent 工作台——Workspace 抽象，从 Plan 到 Ship 全流程覆盖，虽然关闭了但设计理念会留下来。kanban-code 是 Agent 控制面板——tmux 终端嵌入、Pushover 通知、远程执行，个人开发者日常驾驶舱。

三个工具都指向同一个趋势：当一个人的 Agent 从一台变成四台、五台、十台，单靠终端切换和记忆是管不住的——需要系统级的工作流编排。第 10 章的 Harness Engineering 管 Agent 的安全和可控性，本章的 Kanban 管 Agent 的调度和协作。一个是纵向控制，一个是横向协调。组合在一起才是完整的 AgentOps。

Harness Engineering：AI Agent 的工程实践

2026-06-28T04:30:00.000Z

"The decisive result came not from the model alone, but from the harness around it."
决定成败的不仅是模型本身，更是其配套的外围系统。
——Anthropic Harness Engineering Team

Skill 封装能力。Spec 写规格。Ralph Loop 自己跑到对。gstack 用角色覆盖质量。Goal Workflow 串成七步流水线。autoresearch 全自动从 Issue 到合入。

这些方法论都在 Claude Code 之上运行。但 Claude Code 自己怎么造出来的？它调工具、读文件、写代码、执行 Bash——每一步都可能出错、可能越权、可能陷入死循环。谁在管这些？

Harness Engineering 回答的就是这个问题。不是"怎么用 Agent"，是"怎么造 Agent"。本章拆开 Claude Code 的引擎盖，看它的 hooks、settings.json、权限模型、沙箱、可观测性怎么拼在一起，把一个大语言模型变成可安全交付的产品。

10.1 Harness 这个词

Harness 的原意是马具。骑手不直接徒手控马——靠缰绳、挽具、马衔把力量引导到正确的方向。在 AI Agent 上，Harness 就是那一层控制基础设施：模型推理能力以外的、所有约束和引导它的系统代码。

把大语言模型直接暴露给文件系统和 Bash 的操作结果，在任何 Agent 产品中都是必须解决的安全问题。Anthropic 内部有一个专门的 Harness Engineering 团队，不写模型代码，不调 prompt——他们设计 hooks 机制、权限模型、settings.json 的继承逻辑、bash 沙箱。Claude Code 从"能对话的模型"变成"能安全交付的产品"，Harness 是那条分界线。

到 2026 年 5 月，Claude Code 的 Harness 已经演化成一套完整系统——31 个生命周期事件、5 种 hook 类型、4 层配置继承、3 种权限模式、bash 沙箱。它们搭出了一套 Agent 的操作系统。

5月19日，DeepSeek 资深研究员陈德里在小红书上发了一条招聘贴，证实内部正在组建全新的"Harness"（代码智能体工程）团队，目标直指 Anthropic 旗下的明星产品 Claude Code。

10.2 Harness 的十二个组件

本节给出本书对 Harness Engineering 的归纳框架——一个生产级 Agent 需要处理的十二个维度。这不是 Anthropic 或任何组织的官方分类，而是从前述各 Agent 产品的实现中抽象出的共性组件。

编排循环 — Agent 什么时候做、什么时候停
工具系统 — Agent 能调什么、怎么调
记忆管理 — 跨会话状态存在哪
上下文管理 — 模型能看到什么
Prompt 构造 — 系统指令怎么注入
输出解析 — 模型的响应怎么变成行动
状态管理 — 会话、任务、迭代的状态
错误处理 — 调失败了怎么办
安全护栏 — 什么绝对不能做
验证循环 — 完成的判断标准
子 Agent 编排 — 多 Agent 怎么协作
安全机制 — 沙箱、权限、审计

第 4 章 Ralph Loop 的双出口门——Agent 说"做完了"，还得匹配 completion promise——对应这里的编排循环和验证循环。第 5 章 gstack 的 hooks 强制门控——代码审查没过不允许 commit——对应工具系统。

10.3 Claude Code：最完整的 Harness 落地

Claude Code 是目前 Harness Engineering 实现最完整的 Agent 产品。

10.3.1 编排循环：谁告诉 Agent 什么时候停

Claude Code 的编排循环通过 hooks 实现。31 个生命周期事件中，最核心的编排相关事件是 Stop、PostToolBatch、PreCompact。

第 4 章 Ralph Loop 的 Stop Hook 是最直观的例子：Agent 完成一轮工作后尝试退出 → Stop hook 触发 → 检查 completion promise 是否匹配 → 未匹配则返回 exit 2 阻止退出 → 相同的 prompt 重新注入 → Agent 继续下一轮。Stop Hook 不依赖 Agent 的自我判断——它在 Claude Code 运行时层面拦截退出行为，Agent 无法绕过。

PostToolBatch 在 Agent 完成一组并行工具调用后触发。如果 hook 返回 exit 2，整个 agentic loop 停止——相当于在工具执行层面提供了熔断。第 4 章的 max-iterations 安全阀是编排循环的补充：hook 层解决"什么时候继续"，计数器层解决"什么时候必须停"。

对应 10.2 的编排循环和验证循环两个组件。

10.3.2 工具系统：Agent 能调什么、怎么调

Claude Code 的工具系统有两层控制。第一层是工具类型本身——Bash、Read、Write、Edit、Glob、Grep、WebFetch、WebSearch、Task 等——Claude Code 决定 Agent 能访问哪些工具。第二层是 hooks 对工具调用的拦截——PreToolUse、PostToolUse、PostToolUseFailure 三个事件覆盖了工具调用之前、成功之后、失败之后三个节点。

PreToolUse 是整个工具系统中最关键的机制。它在 Agent 执行任何工具之前截住调用。匹配语法支持精确匹配和正则：

1
2
3

{ "matcher": "Bash", "command": "..." }           // 所有 Bash 命令
{ "matcher": "Bash(git:*)", "command": "..." }     // 所有 git 命令
{ "matcher": "//Edit|Write//", "command": "..." }   // 所有文件修改

Hook 脚本收到 stdin JSON（含 tool_name、tool_input、cwd、session_id）。exit 0 = 放行。exit 2 = 阻止。这个简单的 exit code 合约是 Harness 的控制边界——Agent 无法绕过，因为 hooks 在 Claude Code 运行时内执行，不在 Agent 的 prompt 上下文里。

第 5 章 gstack 的强制门控就是对 PreToolUse 的直接应用：匹配 git commit → 执行审查完整性检查 → 审查未通过返回 exit 2 → commit 被阻止。gstack 的三十余个 Skill 之所以能形成一条不可跳过的流水线，PreToolUse 是底层执行者。

五种 hook 实现方式覆盖不同场景：

类型	机制	典型用途
Command	执行本地脚本，stdin 接收 JSON 上下文，stdout 返回决策	安全检查、门控脚本
HTTP	POST JSON 到远程服务	调用企业安全网关、审批服务
MCP Tool	调用 MCP 服务器的工具	集成已有的安全工具链
Prompt	用快速模型做单轮判断	"这个命令安全吗？回答 yes/no"
Agent	启动子 Agent 做完整分析	复杂审查需要多步推理

对应 10.2 的工具系统组件。

10.3.3 安全护栏：什么绝对不能做

Claude Code 的安全护栏由三层构成。最外层是权限模型，中间层是 Bash 沙箱，最内层是 hooks 的策略拦截。

权限模型提供三种模式：无权限控制（个人实验）、defaultMode: "ask"（日常交互，敏感操作弹窗）、精细化 Allow/Deny（生产环境，白名单预定义）。规则语法 Tool(specifier)，匹配顺序 deny → ask → allow，先命中生效：

1 2	"allow": ["Bash(git )", "Bash(npm run )"] "deny": ["Bash(rm )", "Bash(sudo )", "Read(./.env)", "Read(./secrets/**)"]

Bash 沙箱（v2.1+，macOS/Linux/WSL2）提供操作系统级隔离。filesystem.denyWrite 禁止写入指定路径，network.allowedDomains 限制出站域名，network.allowLocalBinding 控制本地端口绑定。沙箱可配置"网络完全不可用"——Agent 只能读写本地代码，不能联网。failIfUnavailable: true 时沙箱启动失败直接退出 Claude Code。

hooks 的策略拦截在权限模型和沙箱之上提供更灵活的控制。PreToolUse 匹配具体命令，通过五种方式执行任意检查逻辑，返回 exit 2 即可阻止。PermissionRequest hook 可以在权限弹窗出现的瞬间自动决定 allow/deny——不需要人工点"允许"，对无人值守的 Agent 服务至关重要。

对应 10.2 的安全护栏和安全机制两个组件。

10.3.4 上下文管理与 Prompt 构造：Agent 能看到什么

Claude Code 的上下文注入通过 SessionStart hook 实现。会话启动时，hook 自动读取 CLAUDE.md、.claude/rules/*.md、项目级 settings.json 中定义的 env 变量，注入到 Agent 的系统上下文中。不需要每次手动贴项目背景。InstructionsLoaded hook 在每次 CLAUDE.md 或 rules 文件被加载时触发，提供可观测性。

PreCompact hook 在上下文窗口即将满时触发。hook 可以阻止压缩（exit 2），或通过 additionalContext 在压缩前保存关键信息的摘要，确保压缩后 Agent 不丢失重要上下文。第 4 章 Ralph Loop 的长循环场景对此高度依赖——几十轮迭代后上下文窗口被代码变更和测试结果填满，没有 PreCompact 的保护，Agent 可能在压缩后忘记最初的任务目标。

对应 10.2 的上下文管理、Prompt 构造、记忆管理三个组件。

10.3.5 配置管理与状态管理：四层继承

Claude Code 的配置通过 settings.json 管理，四层继承（优先级从高到低）：

Managed    ← 企业 IT 强制推送（MDM plist/Windows 组策略），不可覆盖
User       ← ~/.claude/settings.json，个人全局
Project    ← .claude/settings.json，团队共享，提交到 Git
Local      ← .claude/settings.local.json，本地覆盖，不提交

权限规则跨层合并——逐层收紧，上层的 deny 不可被下层 override。其他设置跨层覆盖——高层优先。团队在 Project 层定义安全基线、注册 hooks、配置沙箱规则。个人在 Local 层只能追加限制。IT 在 Managed 层推送 deny: ["Bash(rm *)", "Bash(sudo *)"]——所有项目、所有个人配置自动继承，无法绕过。

状态管理通过 YAML frontmatter 文件实现（如 Ralph Loop 的 .claude/ralph-loop.local.md 存储 iteration、max_iterations、completion_promise）和 hooks 的 additionalContext 机制——hook 可以将任意文本注入 Agent 的上下文，相当于"跨会话的状态便签"。

对应 10.2 的配置管理、状态管理两个组件。

10.3.6 子 Agent 编排与错误处理

SubagentStart 和 SubagentStop 事件让 hooks 能监控和控制子 Agent 的执行。SubagentStop 返回 exit 2 可以阻止子 Agent 退出——和 Stop hook 的核心逻辑一致。

错误处理通过 PostToolUseFailure 实现。工具调用失败后 hook 触发，可以注入上下文帮助 Agent 理解失败原因，或记录到审计日志。StopFailure 在 API 错误导致 turn 结束时触发——即使 Agent 什么都没做，Harness 也知道"这一轮失败了"。Notification hook 在 token 消耗等系统事件发生时发出告警。

对应 10.2 的子 Agent 编排、错误处理、输出解析三个组件。

10.3.7 自动审查场景完整运转

以上十二个组件合在一起，看一次 PR 自动审查 Agent 的完整运转：

Agent 启动 → SessionStart 加载项目 settings.json（权限白名单 + hooks 注册）→ 收到 PR 审查任务 → 调 gh pr diff（权限模型：gh 在白名单，放行）→ 调 Edit 修改代码建议（权限检查：目标路径在 src/** 内）→ 想执行 npm test（PreToolUse 判断安全，exit 0）→ 发现 SQL 注入漏洞，尝试修改 .env 文件修复（权限模型：*.env 在 deny 列表，拒绝）→ 转而生成修复建议 → 审查完成，准备 git commit → PreToolUse 匹配 git commit，跑审查完整性检查 → 所有维度都有结论 → exit 0，放行 → Agent 提交代码 → PostToolUse 记录审计日志。

十二个组件映射：编排循环（Stop/PostToolBatch）→ 工具系统（PreToolUse + PostToolUse）→ 安全护栏 + 安全机制（权限模型 + 沙箱）→ 错误处理（PostToolUseFailure）→ 上下文管理 + Prompt 构造 + 记忆管理（SessionStart + CLAUDE.md）→ 配置管理（settings.json 四层继承）→ 状态管理（YAML frontmatter）→ 子 Agent 编排（SubagentStart/Stop 可选）→ 验证循环（审查完整性检查脚本）。

一次运转，十二个组件同时工作。

10.4 Codex CLI：Rust 内核的安全优先设计

OpenAI 的 Codex CLI 在 Harness 设计上走了不同的路。96% Rust 代码——安全约束编译进二进制文件，而非通过外部脚本注入。

10.4.1 编排循环：`/goal` 的生命周期管理

Codex 的编排循环基于 Rust 运行时的自主循环控制——Agent 每轮完成工作后，由 Rust 侧判断是否继续。和 Claude Code 的 Stop Hook（运行时拦截 Agent 退出）不同，Codex 的编排逻辑在进程内闭环——不需要外部 hook 脚本判断"该不该停"，Rust 代码自己决定。--max-turns 限制单次会话的工具调用轮次上限。Codex 也支持目标恢复：会话中断后从上次状态继续，而不是从头开始。

2026 年 5 月 Codex 新增的 /goal 命令在这个编排循环之上加了一层"声明式目标定义"——本文第 8 章讨论过三个平台的 /goal 对比。但在 Codex 的早期版本（2025 年 4 月中就已存在）中，代码编排循环早已通过 Rust 运行时实现，/goal 是对已有编排循环的接口层封装。

对应 10.2：编排循环 ★★（Rust 运行时循环，成熟但不可编程扩展）、验证循环 ★★（Rust 侧任务完成判断 + /goal checkbox 对照，无外部 hook）。

10.4.2 工具系统与安全护栏：三级沙箱 + hooks

Codex 的沙箱通过 --sandbox 参数控制，支持三级模式：

read-only（默认）：Agent 可以读文件、搜索代码，不能写入或执行有副作用操作
workspace-write：允许写入工作区
danger-full-access：完全访问

从 --dangerously-bypass-approvals-and-sandbox 和 --dangerously-bypass-hook-trust 两个标志的存在可以看出，Codex 有原生 hooks 机制和审批流程——和 Claude Code 的 PreToolUse / PermissionRequest 是同类概念，但通过 config.toml（而非外部 JSON + bash 脚本）管理。沙箱和 hooks 都编译在 Rust 侧，不依赖外部脚本。

对应 10.2：工具系统 ★★（编译时注册 + 原生 hooks，灵活性不如 Claude Code 的 PreToolUse + 五种 hook 类型）、安全护栏 ★★★（三级沙箱 + hooks + 审批流程，默认只读，安全性最保守）、安全机制 ★★（Rust 编译时保障 + 原生 hooks）。

和 Claude Code 对比：Claude Code 的权限是用户可编程的外挂策略（通过 hooks + settings.json），灵活性高但配置复杂度也高。Codex 的权限是编译进二进制文件的默认行为，修改成本高但安全性不依赖用户正确配置。

对应 10.2：工具系统 ★★（编译时注册，无 PreToolUse hook）、安全护栏 ★★★（默认只读沙箱，最简单且最安全）、安全机制 ★★（Rust 编译时保障，无运行时沙箱配置）。

10.4.3 错误处理：Rust 的类型系统作为 Harness

Rust 编译而非解释执行——这是 Codex Harness 和 Claude Code Harness 最底层的差异。Claude Code 的 Harness 是 TypeScript/Node.js 运行时 + bash hook 脚本的组合——灵活性高，但错误可能发生在 hook 脚本的 shell 层（jq 解析 JSON 失败、脚本找不到、PATH 没配好）。Codex 的 Harness 在编译期就排除了大量错误类别——所有权系统防止内存问题、Result 类型强制错误处理、没有运行时动态加载脚本的机制意味着没有"hook 脚本挂了 Agent 继续跑"的风险。

这个差异直接对应 10.2 的错误处理组件：Claude Code 的 hook 脚本出错时 Harness 需要处理 hook 自身的故障（脚本 crash → 非阻塞 error → Agent 继续）；Codex 没有这个层级——Rust 侧的工具调用失败直接通过 Result 传播，Agent 收到的失败信息是确定性的。

10.4.4 十二组件对照：Codex 缺了什么

对比 10.2 的十二个组件：

组件	Claude Code	Codex CLI	差异关键
编排循环	★★★ hooks	★★ Rust 循环	可编程 vs 编译时
工具系统	★★★ PreToolUse	★★ 编译时注册	有 hook vs 无 hook
安全护栏	★★★ 权限+沙箱+hooks	★★★ 默认只读	可编程安全 vs 默认安全
错误恢复	★★★ PostToolUseFailure	★★★ Rust Result	脚本层 vs 类型系统
上下文管理	★★★ SessionStart	★★ 文件自动发现	hook 注入 vs 静态发现
Prompt 构造	★★★ 多层 CLAUDE.md	★ 系统 prompt 模板	可编程 vs 固定
输出解析	★★★ model + hook 提示	★ 模型原生	可注入提示 vs 依赖模型
状态管理	★★★ YAML + hooks	★★ 会话内存	文件持久化 vs 内存
可观测性	★★★ 审计日志	★★ Built-in	PostToolUse vs 内建统计
人工检查点	★★★ PermissionRequest	★★ CLI+hooks	hook 自动化 vs CLI/hooks 混合
子 Agent 编排	★★★ Subagent hooks	★ 外部脚本	原生支持 vs bash 包装
配置管理	★★★ 四层继承	★★ CLI flags + 文件	settings.json vs CLI

Codex 缺失的项目集中在 hooks 可编程性和多 Agent 编排上。它没有 PreToolUse hook——不能像 gstack 一样在 commit 前插审查检查。没有子 Agent hooks——多 Agent 协作靠外部脚本驱动（类似 autoresearch 的 bash 包装），而非 Harness 层原生编排。Codex 的设计哲学是：默认安全压倒可编程扩展。Claude Code 的设计哲学是：可编程的 Harness 压倒默认安全。

10.5 其他 Agent 平台的 Harness

10.5.1 Pi Coding Agent：最小化终端编码 Harness

Pi（pi.dev）是一个 MIT 许可的终端编码 Agent。它对自己的定位是"minimal terminal coding harness"——核心刻意做小，通过 TypeScript 扩展系统增强。Pi 的包管理器 pi packages 可以分发和共享扩展、Skills、prompts 和主题。

工具系统与扩展模型。 Pi 没有 Claude Code 式的 PreToolUse hook。它的工具扩展点是 TypeScript 模块，开发者通过实现扩展接口注册新工具、slash 命令、事件处理器和自定义 TUI 组件。工具调用走 TypeScript 运行时，而非外部脚本拦截。

安全护栏。 Pi 的公开文档没有描述独立的权限模型或沙箱机制。安全依赖操作系统权限和容器隔离，而非 Agent 自身的 Harness 层。对比 Claude Code 的三层安全体系（权限模型 + Bash 沙箱 + hooks 策略拦截）和 Codex 的三级沙箱（read-only / workspace-write / danger-full-access），Pi 选择了零 Harness 安全层的路线。

会话管理与状态持久化。 Pi 用 JSONL 格式持久化会话文件，提供 SessionManager API 做会话管理、分支和树形导航。和 Claude Code 的 YAML frontmatter + hooks 状态管理相比更结构化（类型化 JSONL entries），但没有 hooks 的 additionalContext 跨会话注入机制。

配置模型。 全局配置 + 项目级配置——和 Claude Code 的四层继承（Managed/User/Project/Local）相比简化了两层，没有企业 IT 强制推送的 Managed 层。

上下文管理。 支持上下文压缩和分支摘要——和 Claude Code 的 PreCompact hook 同类，但 Pi 的压缩逻辑是内建的，不可通过 hooks 定制。

SDK 与可嵌入性。 Pi 的一个独特优势是 SDK——可以嵌入 Node.js 应用，支持 stdin/stdout JSONL 的 RPC 模式、JSON 事件流打印模式。Claude Code 有 Agent SDK 但面向多 Agent 编排；Pi 的 SDK 面向将 Agent 嵌入已有应用。

十二组件对照：

组件	Pi 实现	对比 Claude Code
编排循环	交互式主循环	无 Stop Hook 机制
工具系统	TypeScript 扩展接口	无 PreToolUse 拦截
安全护栏	依赖 OS/容器	无自有权限模型或沙箱
记忆管理	JSONL 会话文件	无 auto-memory 机制
上下文管理	内建压缩 + 分支摘要	无 PreCompact hook 定制
Prompt 构造	slash 命令展开 + 模板	无多层 CLAUDE.md
输出解析	JSONL 类型化条目	结构化但不通过 hooks
状态管理	SessionManager API	JSONL 类型化持久化
错误恢复	TypeScript 异常处理	无 PostToolUseFailure hook
人工检查点	CLI 确认提示	无 PermissionRequest hook
子 Agent 编排	Skill 按需调用	无 SubagentStart/Stop hooks
配置管理	全局 + 项目两层	无 Managed 强制层

Pi 代表了一条和 Claude Code 完全相反的设计路线：最小化核心，通过 TypeScript 扩展。对需要嵌入已有 Node.js 应用的场景、实验性项目和原型开发，Pi 的 SDK 和扩展模型有独特优势。对需要审计日志的合规场景、生产环境无人值守 Agent、多 Agent 安全编排——它的 Harness 厚度不够。

10.5.2 DeepSeek Harness 团队：追赶者的信号

2026 年 5 月 19 日，DeepSeek 资深研究员陈德里在小红书上发了一条招聘贴——内部正在组建全新的"Harness"（代码智能体工程）团队，目标直指 Claude Code。

DeepSeek 选择把 Harness 作为独立团队方向——和 Anthropic 的内部组织结构一致——这说明 Harness 已经从"Claude Code 的附属工程"变成了"Agent 产品的核心基础设施"。招聘要求中强调候选人需同时熟悉模型推理和系统工程。DeepSeek 目前的 Agent 产品形态尚未公开详细文档，Harness 设计方向有待观察。

10.5.3 十二组件对照总表

组件	Claude Code	Codex CLI	Pi (pi.dev)	DeepSeek	Cursor/Copilot
编排循环	★★★ hooks	★★ Rust 循环	★ 交互式	待公开	★★ 编辑器事件
工具系统	★★★ PreToolUse	★★ 编译+hooks	★ TS 扩展	待公开	★★ 扩展 API
安全护栏	★★★ 三层安全	★★★ 三级沙箱	★ 依赖 OS	待公开	★★ 默认扩展边界
错误恢复	★★★ PostToolUseFailure	★★★ Rust Result	★★ TS 异常	待公开	★★ 扩展崩溃恢复
上下文管理	★★★ SessionStart	★★ 文件发现	★★ 内建压缩	待公开	★★ 编辑器上下文
Prompt 构造	★★★ 多层 CLAUDE.md	★ 模板	★★ slash+模板	待公开	★★ 扩展注入
输出解析	★★★ model+hook	★ 模型原生	★★ JSONL 类型化	待公开	★ 扩展处理
状态管理	★★★ YAML+hooks	★★ 会话内存	★★ SessionManager	待公开	★★ 工作区状态
可观测性	★★★ 审计日志	★★ Built-in	★ 日志	待公开	★ 扩展诊断
人工检查点	★★★ PermissionRequest	★★ CLI+hooks	★ CLI 确认	待公开	★★ 编辑器对话框
子 Agent 编排	★★★ Subagent hooks	★ 外部脚本	★ Skill 调用	待公开	—
配置管理	★★★ 四层继承	★★ CLI+toml	★★ 全局+项目	待公开	★ 扩展设置 JSON

10.6 五个通用模式

前三节逐平台拆解了 Claude Code、Codex、Pi 的 Harness 设计。虽然它们的实现路线各不相同——外挂 hooks vs 编译时约束 vs TypeScript 扩展——但反复出现的几个设计模式越来越清晰。本节把这些跨平台的共性抽象出来。

阶段门模式。 在关键操作前设置检查点。Claude Code 通过 PreToolUse hook 实现——gstack 的 git commit 门控、Ralph Loop 的 Stop 门控都是实例。Codex 通过原生 hooks + Rust 侧循环检测实现类似效果。Pi 没有原生阶段门机制。

审计日志模式。 所有工具调用记录：时间、操作、输入、输出。Claude Code 的 PostToolUse hook 自动生成完整审计轨迹。Codex 的 Built-in 统计功能提供简化版。企业合规场景里，审计日志就是"Agent 做了什么"的唯一可追溯证据。

上下文注入模式。 Agent 启动时自动加载项目背景。Claude Code 的 SessionStart hook + CLAUDE.md。Codex 的系统 prompt 拼接 + 文件自动发现。第 2 章的 CONTEXT.md 和第 8 章的 program.md 都依赖这个机制。

熔断器模式。 连续失败 N 次 → 强制退出。第 4 章 Ralph Loop 的 max-iterations。第 7 章 autoresearch 的 MAX_CONSECUTIVE_FAILURES。熔断器不依赖 Agent 自我判断——系统层面计数器到了就停。

生成器-评估器模式。 一个 Agent 生成，另一个独立评估。第 7 章 autoresearch 的三个 Agent 交叉审查是这个模式的工程实现。Claude Code 的子 Agent 机制通过 SubagentStart/Stop hooks 原生支持。Pi 目前不支持——单 Agent 架构。

10.7 可观测性：AgentOps 与 DevOps 的共生

生产环境跑 Agent，传统 DevOps 监控（CPU、内存、网络）不够。Agent 可能在十分钟内静默消耗几十万 token，调了 47 次 Bash 执行同一探测命令。服务没挂，API 账单在安静膨胀。

AgentOps 补齐的维度：工具调用频率（每分钟多少次、什么类型）、token 消耗曲线（突发还是平稳）、Skill 激活链路（哪个 Skill 被触发、触发了什么子操作）、Hook 执行耗时（PreToolUse 脚本跑了多久、有没有超时）、错误率与重试（哪些调用频繁失败、Agent 怎么应对）、会话时长与完成率（正常完成 vs 死循环）。

两套监控并排——DevOps 告诉系统状态，AgentOps 告诉 Agent 行为——才能在"服务没挂但 budget 炸了"时定位根因。Claude Code 通过 PostToolUse hook 和 Notification hook 已有较完整的 AgentOps 基础。其余平台目前主要靠外部工具（LangSmith、Weave 等）补充 AgentOps 能力。

10.8 如何应用：构建 Agent 时的 Harness 决策清单

写第一行 Agent 代码之前，把 10.2 的十二个维度逐个过一遍。

编排循环——Agent 跑起来之后谁告诉它停？只用 max-turns 计数器吗，还是你也要像 Ralph Loop 一样加验证循环？

工具系统——Agent 能调哪些工具？有没有 PreToolUse 式的拦截点，还是硬编码在代码里？

安全护栏——Agent 的默认权限有多宽？至少需要一个工具白名单，别从"什么都能做"开始。

记忆管理——跨会话的状态存在哪？会话崩溃后 Agent 从零开始，还是从上个 checkpoint 继续？

上下文管理——Agent 能看到什么？会话启动时自动注入项目背景，还是每次手动贴？

Prompt 构造——系统指令怎么维护？写在代码里的魔字符串、还是像 CLAUDE.md 一样可独立编辑的配置文件？

输出解析——模型返回的东西怎么变成行动？JSON 解析崩了怎么办，有没有 fallback？

状态管理——迭代轮次、任务完成状态、子任务进度存在哪？内存里的字典够不够，还是需要文件持久化？

错误处理——工具调用失败了 Agent 怎么应对？重试几次？连续失败 N 次后熔断？

验证循环——Agent 怎么判断"做完了"？靠自己的判断，还是外部验证脚本？验收标准可自动化测试吗？

子 Agent 编排——需要多个 Agent 协作吗？如果需要，它们之间的权限怎么隔离？

安全机制——有没有沙箱？文件系统写入受控吗？网络出站有限制吗？

这十二个维度不需要都有满分答案。但每个维度你选择"不做"时，应该知道自己承担了什么风险。十二个组件不是目标，是决策清单。理解每个选择的安全后果之后，再决定什么时候加、什么时候先跳过。

10.8.1 第一步：选编排模型

Agent 跑起来之后，谁告诉它什么时候停？

简单任务用计数器。 最大轮次上限是最原始的熔断器，但也是最可靠的。Ralph Loop 的 max-iterations 之所以能跑通，不是因为上限值设得准，是因为它不需要准——只是防止 Agent 永远跑下去。任何 Agent 都应该有一个 max-turns。
复杂任务用验证循环。 如果你的 Agent 需要自主判断"做完了"，第一时间不要信任 Agent 的自我判断。Ralph Loop 的 completion promise 模式——"Agent 声明完成 → Harness 拦截 → 验证 → 通过才放行"——比"Agent 说做完了就退出"要安全得多。Claude Code 的 Stop Hook 是现成方案。Codex 在 /goal 中也有类似的 checkbox 对照。如果你在裸写 Agent 循环，至少加一层 post-completion 验证：Agent 声称完成之后，由另一个 Agent 或确定性脚本确认验收标准确实满足。
长任务用中断恢复。 持续数小时的自主任务随时可能被 API 错误或网络抖动打断。autoresearch 的 -c 标志（从上次迭代继续）、Codex 的 resume 命令——状态持久化不是加分项，是必备项。每次迭代结束时保存状态（完成了哪些子任务、还剩哪些、当前迭代轮次），崩溃后可以从断点恢复而非从头开始。

10.8.2 第二步：定安全基线和人机检查点

Harness 安全有两条原则：默认最小权限，关键节点必须有人确认。

默认最小权限。 给 Agent 它完成任务所需的最少权限，而不是"所有它能做的事"。Codex 的三级沙箱（read-only / workspace-write / danger-full-access）是这个理念的极端体现——默认只读，需要写入时显式升级。Claude Code 的 Allow/Deny 列表是这个理念的可编程版——allow: ["Bash(git *)", "Bash(npm run *)"]，其余拒绝或弹窗确认。如果你在裸写 Agent，至少实现一个工具白名单——Agent 能调哪些工具、每个工具能接受什么参数范围。别从"全部允许"开始，从"只允许你确认过的几个"开始。

关键节点设人工检查点。 全自动不等于没人看。gstack 的强制门控给出的启发是：不是所有步骤都需要人确认，但以下节点几乎总是需要：

执行破坏性操作前（rm、drop table、DELETE FROM）
向外部服务推送前（git push、API deploy、数据库写）
修改安全敏感文件前（.env、密钥文件、权限配置）

Claude Code 的 PreToolUse + PermissionRequest hook 可以自动化这些检查点。Codex 的 --dangerously-bypass-approvals-and-sandbox 的存在本身就说明：正常情况下，这些操作应该有审批。如果你的 Agent 没有 hook 机制，至少在代码里硬编码这些检查点。

10.8.3 第三步：决定可观测性策略

Agent 出问题了，你怎么知道？怎么回溯？

至少记录全部工具调用。 Claude Code 的 PostToolUse hook 自动生成审计日志——时间、工具名、输入、输出。即使你没有 hook 系统，也应在每个工具调用之前和之后打印日志行：[timestamp] AGENT_TOOL: Bash("npm test") → exit 0。几行日志比事后靠回忆排查强。

Token 消耗单独监控。 Agent 最常见的问题不是崩溃，而是静默烧预算。一个陷入低效循环的 Agent 可能在几小时内消耗百万 token 而不触发任何错误。把每次 LLM 调用的 token 数记录到单独的指标里，设置预算告警。这不是事后优化——第一天就该有。

正常行为建立基线。 生产环境跑了两周的审查 Agent，平均每次审查用 12 轮工具调用、每轮约 3000 token。某天突然变成 47 轮——不是功能坏了，是 Agent 在处理一个新类型的问题时反复探测。有了基线，你才能区分"正常波动"和"需要看的异常"。没有基线，一切都是事后猜测。

10.8.4 第四步：选择平台

不是所有 Agent 都需要从零搭 Harness。现有平台已经覆盖了不同场景的 80% 需求：

企业合规 → Claude Code。 审计日志（PostToolUse）+ 企业 IT 强制推送（Managed settings）+ 四层配置继承 + Bash 沙箱。需要合规留痕的 Agent 产品直接跑在 Claude Code 上，不用重造权限系统。
安全敏感 → Codex。 默认只读沙箱 + Rust 编译时安全约束。Agent 面向外部用户、可能处理不受信的输入时，Codex 的三级沙箱比 prompt 里写"请勿"管用。
可嵌入 SDK → Pi。 需要把 Agent 嵌进已有 Node.js 应用——Pi 的 SDK + JSONL 会话持久化 + TypeScript 扩展系统是天然适配。
快速原型 → 最小化 Harness。 验证一个 Agent 想法时，不要先搭十二个组件。先用 Claude Code 或 Codex 的现有 Harness 跑通流程。确认 Agent 有价值之后，再考虑是否需要更完整的 Harness。

一个常见的误区：上来就搭完整的 Harness，Agent 本身还没验证清楚。十二个组件是目标，不是起点。先跑通 Agent 的核心循环（编排 + 工具系统），再逐层加安全护栏和可观测性。

10.9 与前后章节的关系

与第 2 章 Skills：Skill 是 Harness 之上的一层抽象——加载、匹配、权限继承都依赖 Harness 的运行时。Pocock 的"一个 Markdown 文件定义一种行为"能被 Claude Code 执行，是 Harness 在背后做 Skill 发现和加载。

与第 4 章 Ralph Loop：自主循环是 Harness 验证循环组件的最佳范例——Stop Hook + PreToolUse hook + completion promise 匹配 = 一个完整的控制结构。

与第 5 章 gstack：强制性阶段门控直接运行在 PreToolUse hooks 之上。没 hooks，gstack 的流程门控从"系统强制"降级为"引导指令"。gstack 和 Harness 是应用和 OS 的关系。

与第 7 章 autoresearch：多 Agent 轮转是生成器-评估器模式 + 多 Agent 编排的工程实现。外部 bash 脚本调多个 Agent 交叉审查——Harness 的 hook 机制让这可以安全地进行。

10.9 本章小结

Harness Engineering 不是通用方法论——写 Agent 产品时才需要它。但它贯穿全书——第 4 章的熔断器、第 5 章的强制门控、第 7 章的多 Agent 交叉审查——全部依赖 Harness 提供的底层机制。

不同 Agent 平台选择了不同的 Harness 设计。Claude Code 选可编程性——31 个生命周期事件、5 种 hook 类型、4 层配置继承、bash 沙箱，通过外挂 hooks 和 JSON 配置实现最大的灵活性。Codex 选安全优先——Rust 编译时安全约束、三级沙箱（read-only / workspace-write / danger-full-access）、原生 hooks。Pi 选最小化可嵌入路线——TypeScript 扩展系统、JSONL 会话持久化、SDK 支持嵌入 Node.js 应用。DeepSeek 正在组建专门的 Harness 团队，方向有待公开。

十二个组件对照每个平台的特点不同。编排循环靠 hooks vs 原生循环控制。工具系统靠运行时拦截 vs 编译时注册。安全护栏靠三层组合 vs 默认只读。理解每个平台的设计选择，就能预判它适合什么场景——企业合规选 Claude Code，安全敏感环境选 Codex，快速原型选 Pi。

Harness 的出发点是踩过很多坑后的一条认知：模型不可预测，所以系统必须可预测。靠 prompt 里的"请勿"不顶用——靠 hooks 的 exit 2 blocking error。把不可预测的组件嵌在一个可预测的框架里——这是 Harness Engineering 的全部。

方法论对比与融合

2026-06-28T04:00:00.000Z

"小孩子才做选择题，成年人当然全都要"
——网络梗

前八章覆盖了七条路线。

Pocock Skills 拆能力。OpenSpec 写规格。Ralph Loop 自己循环到对。gstack 用角色覆盖质量。superpowers 让 Agent 替你选工具。autoresearch 一口气自动到合入。Goal Workflow 串成七步，每步等你说过。

每条路都能走通。真实项目从来不只走一条。Ralph Loop 做实现，谁来审查？gstack 走流程，需求从哪来？autoresearch 全自动跑，Issue 谁拆的？

贪吃蛇案例已经验证了这一点。第 5 章 gstack 走了七个 Sprint 阶段，手工推着走，约两小时。第 6 章 superpowers 后台监听关键词，你答了五个设计问题，约五分钟。第 7 章 autoresearch 你写了一个 Issue，约三分钟，然后等结果。第 8 章 Goal Workflow 每步确认一下，从 PRD 到上线，约八分钟。

同一个贪吃蛇，同一个产出，四种交互模式。

本章把七条路摊开，看它们怎么拼。

9.1 一张表看完七种方法论

	Pocock Skills	OpenSpec	Ralph Loop	gstack	superpowers	autoresearch	Goal Workflow
核心机制	原子 Skill	变更提案	自主循环	角色审查	自动触发	多 Agent 评审	串行流水线
覆盖范围	单任务	需求→代码	实现	需求→交付	设计→代码	Issue→合入	PRD→上线
人类参与	每次调用	提案+审核	设 prompt	每阶段确认	设设计问题	写 Issue	每步确认
控制粒度	细	中	粗	粗	细	无	中
自动化程度	低	中	高	中	中高	极高	中高
模型依赖	无	无	无	无	无	依赖多模型	无
中文适配	无	spec-kit-zh	无	无	superpowers-zh	无	iCafe 支持
安装复杂度	低	中	中	低	低	中	低
最佳场景	单点任务	有规格意识	放手式实现	从零到一	中等功能	Issue 明确	完整控制

扫完这张表，几条规律浮现出来。往右，覆盖范围变大。往下，控制变粗。

也有反直觉的数据点。autoresearch 自动化程度最高，覆盖不如 Goal Workflow——它从 Issue 起步，不管需求和拆解。Goal Workflow 从 PRD 覆盖到上线，但每步都等人。自动化和覆盖不是正相关：覆盖看流程设计，自动化看控制权分配。

还有一个数据点。Pocock Skills 和 superpowers 都是"原子 Skill"，但 superpowers 自动化更高。区别不在 Skill 定义，在触发机制。Pocock Skills 等开发者主动调用——测试写完了吗？跑一下 lint 吧。superpowers 后台监听关键词，干活时自动激活。同样的东西，加个触发机制就改变了交互节奏。第 6 章里 superpowers 自动跑 lint 和 test 的那一刻，开发者甚至没意识到它在工作，直到它报错。

再看安装复杂度那一行。最低的三个——Pocock Skills、superpowers、Goal Workflow——覆盖了完全不同的三种场景：单点任务、中等功能、完整控制。安装成本和方法论的野心不成正比。

控制粒度那一行，Pocock 和 superpowers 都是"细"粒度，一个手动一个自动。gstack 和 Ralph Loop 都是"粗"粒度，一个靠角色驱动，一个靠循环收敛。细粒度让开发者捏住每一步，粗粒度让开发者只看结果。

9.2 它们在回答同一个问题

把七条路的设计摊在一起，你会发现它们都在回答：

AI 能写代码了。人干什么？

答案不是七个。是一条光谱，从左到右，人介入越来越少。

► Pocock Skills 在最左端。人做每一步。

每个 Skill 是一个场景的 SOP，你封装最佳实践成指令，AI 执行。要测试了，调 test skill。要提交了，调 git skill。要重构了，调 refactor skill。什么时候用什么，你判断。

第 2 章里 Pocock 在直播中演示过用 test skill 自动生成测试。代码写完，一个命令，测试就出来了。AI 不会漏边界条件。

► 往右一步，人不再做每一步，只在关键节点把关。

OpenSpec 和 Goal Workflow 都在这个位置。都要求人在决策节点介入，中间的执行自动完成。

OpenSpec 让你在代码之前写规格。先定义"对长什么样"，再让 AI 实现。propose 阶段审核提案，apply 阶段 AI 执行，archive 阶段确认归档。三张牌 proposal.md、tasks.md、design.md 管住了一个变更的完整生命周期。第 3 章的 SDD 理念是它的理论基础：规格是人机之间的合约，合约签好了，执行可以放手。

Goal Workflow 让你在七个流水线步骤之间把关。/prd 产出的需求你确认了，才进 /to-issues。/to-issues 拆出的 Issue 你审核了，才进 /goal。/review-it 发现的问题你决定修不修，/ship-it 你敲了才合。第 8 章里 smallnest 从 autoresearch 转向 Goal Workflow 的原因就是这个，全自动让他不安。"一觉醒来一排 merged"，代码已经在主干上了，PRD 写偏了也没机会纠正。

两者信的是同一件事：在决策点介入比在执行中参与更高效。不是在 Agent 写代码时指手画脚，而是开始写之前说清楚"对是什么"，写完以后确认"确实是对的"。

► 再往后一步。人不直接管执行了，转去定义角色和规则，让 Agent 互相审查。

gstack 的代表作是二十三个虚拟角色。产品经理、架构师、安全专家、性能工程师、数据库管理员，各有各的审查维度。"你是一个有十五年经验的员工工程师，审查这份代码的安全问题"和"review this code for security"的区别，第 5 章实测过。前者能发现上下文相关的逻辑漏洞，后者只能看到 SQL 注入。角色不是噱头，是审查深度。

superpowers 走另一条路。十四个 Skill 覆盖十四个场景，你不需要判断"现在该用哪个工具"，Agent 自己听关键词触发。但它不止于自动触发。第 6 章的 brainstorming 是它最独特的东西，Agent 反问设计问题，每次一个，逐步逼近方案。和 /prd 一次甩五个带选项的问题完全不同。前者适合探索，后者适合目标明确的功能开发。

gstack 和 superpowers 各有一个盲区。gstack 需要你手动驱动每个阶段，"现在进入 Think 阶段""现在进入 Explore 阶段"。superpowers 自动触发但止步于开发分支，不管你 PR 合不合、Issue 关不关。它们覆盖了流程中不同的空缺。

► 快到尽头了。人连规则都不设了，只给一句验收标准。

Ralph Loop 是这个位置的代表。核心机制简单到一句话：设一个 completion promise，Agent 自己循环实现、测试、修复，直到 promise 匹配或达到循环上限。第 4 章的 test-then-commit，"当所有测试通过且没有 lint 错误时，提交代码"。

和 /goal 比，Ralph Loop 更轻。不需要 Issue，不需要 checkbox 列表，一句验收标准就够。"确认路径已更新，服务正常"，Ralph Loop 能搞定。但复杂任务需要结构化验收时，/goal 的逐条 checkbox 对照更靠谱。两者互补。小任务一句话闭环，大任务逐条验收。

► 光谱最右端。人只管两头，中间全自动。

autoresearch 在这个位置。写清楚 Issue 和验收条件，走人。脚本驱动五个 Agent 交替实现和审查，评分够了自动合入。第 7 章的实战数据，四个 Issue 的贪吃蛇变体在十几分钟内全部合入。

但它有一个被忽略的前提：Issue 必须写对。五个 Agent 能交叉审查代码质量、安全、性能，不质疑 Issue 本身。你写"实现一个登录功能"，Agent 就实现登录。但登录要不要二次验证？要不要 OAuth？要不要记住我？这些不在审查范围里。

smallnest 后来做 Goal Workflow，部分原因就是这个。他发现写 Issue 时已经需要想清楚架构了，Issue 质量决定了 autoresearch 的产出。与其把思考压缩成一份 Issue，不如把思考过程展开。PRD 管需求，SPEC 管技术，Issue 管实现，每一步可回溯。

► 光谱不是好坏表。是舒服区。

没人应该永远待在一个位置。一个项目里，核心模块走 Goal Workflow 全流程，PRD → SPEC → Issue → /goal → /review-it → /ship-it。辅助脚本丢给 Ralph Loop，一句"测试全过就行"。文档更新用 autoresearch，写完 Issue 就不用管了。日常编码靠 superpowers 在后台干活。

第 8 章 smallnest 讲过，选哪个，取决于你对自己"能一次写清楚到什么程度"和"愿意参与多少步骤"的诚实判断。不是方法论之间的选择，是你对自己工作方式的理解。

9.3 它们怎么拼

9.3.1 规格层：OpenSpec + Goal Workflow

OpenSpec 管变更级，每个 PR 一个 proposal，包含改什么、为什么、怎么验证。Goal Workflow 管项目级，PRD 管需求，SPEC 管技术方案，Issue 管实现单元。一个微观，一个宏观。

拿支付模块举例。Goal Workflow 的 /prd 产出整体需求：用户下单、微信支付、退款、账单。/prd-to-spec 产出技术方案：支付接口设计、数据库 schema、错误处理策略。/to-issues 拆成十个 Issue。每个 Issue 内部，如果用 OpenSpec 管变更，比如 Issue #3 "接入微信支付 API"涉及三个文件，propose 阶段写一份 proposal.md 说清楚改什么，apply 阶段 AI 执行，archive 阶段归档。

Goal Workflow 的 SPEC 有 Issue 映射表，OpenSpec 的 proposal 有 tasks.md。两层规格首尾相接。SPEC 告诉你这个大功能有哪些小块，proposal 告诉你这个小块怎么改。

9.3.2 实现层：Ralph Loop + /goal

Ralph Loop 适合一句话能说清的任务，设个 completion promise，Agent 自己跑到满足。/goal 适合 checkbox 列表的任务，逐条对照验收。

真实项目里两种都有。还是支付模块。Issue #7 "写一个生成订单号的工具函数"，验收标准就一条：返回 32 位不重复字符串，带时间戳前缀。丢给 Ralph Loop，completion promise 写"函数通过单元测试"。Agent 写好、跑测试、通过、提交。全过程你没看。

Issue #3 "接入微信支付 API"不一样。验收标准有七条：统一下单、支付回调验签、超时关单、退款接口、异常重试策略、日志记录、幂等处理。用 /goal，Agent 逐条实现，你逐条看到 checkbox 勾上。

9.3.3 审查层：gstack + /review-it

gstack 用二十三个角色看一个变更，看得深。/review-it 用四个维度看一个变更，看得快。

大版本发布前跑 gstack 全维度。支付模块上线前，安全专家的角色发现退款回调的签名验证没有防重放攻击。这个漏洞 /review-it 的静态检查抓不到，它不是代码质量或常见安全问题，是业务逻辑的设计缺陷。"你是一个有十五年经验的支付安全专家"，这个 prompt 让 Agent 想了它本来不会想的事。

日常开发用 /review-it 做增量。改了个配置文件，三秒扫完四个维度，没有 actionable findings，直接 /ship-it。为这个跑二十三角色全维度不值得。

第 5 章里 gstack 强调过：角色的价值不在数量，在视角。二十三个角色就是二十三个视角。/review-it 的价值在速度，一个命令覆盖四个维度，不用手动指定审查角色。

支付模块十个 Issue。Issue #1 "数据库表结构"、Issue #10 "生成 API 文档"、Issue #8 "单元测试补充"，独立性强，出错了也不影响核心流程，丢进 autoresearch。你写完 Issue 去开会，回来三个 PR 已经合入。

Issue #3 "接入微信支付 API"、Issue #4 "退款流程"，核心交易链路，用 /goal 手动逐个来。每步写完看一眼，确认支付回调的签名逻辑对了，退款的状态机没有漏洞。

这个组合能成立，是因为 /to-issues 产出的 Issue 格式同时兼容两条路。同一个 Issue 文件，丢给 /goal 就是手动单步，丢给 autoresearch 就是全自动。不是两套流程，是一套输入两个出口。

什么时候走哪个出口，判断标准也简单。这个 Issue 做错了会怎样？丢了钱、丢了数据、用户投诉——走 /goal。只是个工具函数、文档更新、测试补充——走 autoresearch。风险和控制的权衡，不该由方法论替你决定。

全流程控制和全自动加速不是非此即彼。是你判断哪些值得控制，哪些值得加速。

9.3.4 能力单元层：Pocock Skills + superpowers + Goal Workflow Bonus

三套 Skill，组织方式各不一样。

Pocock 散装，自己挑。superpowers 自动触发，Agent 判断时机。Goal Workflow Bonus 是独立工具集，/refactor、/modern-go、/code-to-spec，需要时才调。

日常编码靠 superpowers 自动激活测试和 lint。你改了一个函数，保存，Agent 静默跑测试。没过，报错。你修。保存，测试通过。全程没手动调 skill，superpowers 在后台干的。

但有些场景 superpowers 覆盖不到。你要把项目从 Go 1.16 升到 1.22，35+ 条 API 变更规则，superpowers 没有这个领域知识。这时候调 Goal Workflow Bonus 的 /modern-go，一次性批量现代化。Pocock 的精品 Skill 同理，他的 Git skill 能自动生成 conventional commits 格式的提交信息。

三套东西不冲突，但有个容易踩的坑：同一类任务装了两套 Skill。比如 superpowers 已经有自动测试了，你又装了 Pocock 的 test skill。它们不会打架，但你会在两个地方看到测试结果——一个自动弹出的，一个手动触发的。时间长了你会只信其中一个，另一个变成噪音。装之前想清楚：这个场景你是想让 Agent 自动判断，还是自己决定什么时候调。

9.4 不同场景的推荐组合

不同的场景和团队规模下，你可以选择一个或者多个合适的工具/开发流程。

9.4.1 个人开发者

1	Pocock Skills（工程基础）+ Goal Workflow（端到端流程）+ OpenSpec（规格管理）

一个人开发，代码质量靠自己。Pocock Skills 给你测试、lint、Git 这些工程基础。不是每个个人开发者都会主动写测试，但装了 test skill 之后，"写测试"从"要不要做"变成了"敲一下命令"。心理门槛降低了。

日常用 superpowers 替代 Pocock 也行，自动触发更省心。喜欢自己控制节奏，"现在该跑测试了，我自己来"，就用 Pocock。区别不在效果，在体验。

Goal Workflow 是保险绳。小功能直接让 Agent 写就行，不需要 /prd。但一个功能要三天，涉及多个模块，同时管需求、设计、实现，/prd → /to-issues → /goal 帮你把复杂度拆开。不是让你做更多流程，是不用在脑子里同时记住所有事。

OpenSpec 养习惯。先写规格再写代码，没人 review 你的 proposal，但三个月后的你回来看代码，proposal.md 和 design.md 会告诉你当初怎么想的。

9.4.2 创业团队（2-5 人）

1	Goal Workflow（流程骨架）+ gstack（质量审查）+ autoresearch（自动化加速）

创业团队的核心矛盾：要快，但质量不能垮。没有 QA 团队，没有专职安全工程师。一个人写，另一个人 review，review 质量取决于第二位同事的精力。

Goal Workflow 给一份共享的骨架。PRD 不是写给自己的，是写给同事的。"我以为你要做的是 X""不，PRD 上写的是 Y"，这种对话在创业团队里每周都在发生。PRD 让它在动手之前发生。

gstack 在三个人都忙的时候替代交叉审查。不是替代同事 review，是让 Agent 先把二十三个维度扫一遍，同事 review 时只需要看 Agent 标记的问题和自己关心的部分。

autoresearch 处理辅助模块，测试脚本、文档生成、数据迁移。三分钟写 Issue，回来代码已经合入，不用等同事有空。

9.4.3 企业团队（10+ 人）

1	superpowers（技能基础）+ Spec-Kit/OpenSpec（规格管理）+ gstack（审查流水线）+ Goal Workflow /ship-it（交付）

企业场景的核心是合规、可追溯、跨团队协作。三个月后的审计人员不看你跑得多快，看你能不能拿出当时的 SPEC 和设计笔记。

superpowers 统一团队的 Skill 基础。十个工程师用同一套规则，输出的测试格式一致，lint 标准一致。不用问"你用的是哪个版本的 test skill"。

OpenSpec 管规格。每次技术决策留下记录。三个月后审计问"为什么选这个方案"，proposal.md 里有当时的备选方案和选择理由。

gstack 做审查流水线。二十三角色全维度跑完，产出审查报告。合规部门要的就是这份报告，不是"谁 review 过了"，是"二十三个角色分别审查了什么，发现了什么，修复了什么"。

/ship-it 管交付，PR、CI、合并、关 Issue，全自动。企业项目里 PR 等 CI 通过、等同事 approve、等合并，每一步都是延迟和出错的机会。/ship-it 把机械操作自动化，人做决策，approve 或 reject。

Goal Workflow 的 PRD → SPEC → Issue → Note 链，是合规需要的"从需求到代码"的完整追溯线。第 8 章的 /note-it 在这里价值最大，不是记录代码做了什么，是记录为什么选择这样做。对三个月后的审计和半年后的新同事，这两者的价值差一个数量级。

9.4.4 中文环境开发者

1	superpowers-zh（中文技能）+ Goal Workflow（iCafe/Gerrit 集成）+ spec-kit-zh（中文规格）

两个特殊需求。工具链，iCafe 管卡片、iCode/Gerrit 管代码，Goal Workflow 原生支持。/to-issues 直接创建 iCafe 卡片，/ship-it 推到 Gerrit review。

文档质量。英文 Skill 生成的 PRD 翻译后丢精度。"The system must validate user input"翻译成"系统必须验证用户输入"没问题。但带技术精确度的内容，"Handle race condition on concurrent refund callbacks using idempotency key"，翻译后语义会变形。superpowers-zh 和 spec-kit-zh 直接中文产出，不经过翻译层。

9.5 AI 研发成熟度模型

不是谁都需要全套。你在哪一级，决定了你该用什么。

Level 1：裸奔的 Vibe Coding。 跟 Agent 聊天写代码。"帮我写个登录页"，看一眼，"不对，蓝色"，再看。快，代码质量全凭运气。三轮需求之后 Agent 开始忘第一轮说了什么。第 1 章定义过 Vibe Coding："完全用自然语言描述需求，AI 生成代码，人工验证"。是起点，不是终点。

Level 2：用一个 Skill。 装了测试 Skill 或 Git Skill。单个场景有保障了，比如每次提交前自动跑测试，测试不过不提交。流程还是散的，什么时候用哪个 Skill 靠自己判断。但至少有一个场景不再靠运气。第 2 章的 Pocock 和第 6 章的 superpowers 都在解决这个级别的问题。

Level 3：Skill 串起来了。 有了一条完整的链路。Goal Workflow 的 PRD → Issue → /goal 实现。或 OpenSpec 的 propose → apply → archive。像第 3 章的 SDD 和第 4 章的 Ralph Loop，不只是用一个工具，是用一条规则串起多个步骤。规格写好了自动进实现，实现完成了自动进审查。有形状了，还没全链路。

Level 4：完整的 Spec-Driven 闭环。 七条路至少用了三条以上，从需求到交付全覆盖。每个阶段有输入输出和质量标准。不靠感觉，靠可验证的东西说话。

举个例子。你要做一个支付模块。/prd 产出一份 PRD，四个 User Story，每个带 checkbox 验收标准。/prd-to-spec 产出一份 SPEC，API 端点、数据库 schema、错误码表全在里面。/to-issues 拆成十个 Issue，标注依赖。接下来你逐个 /goal，Agent 对照 checkbox 逐条实现，每勾上一个你知道进度往前走了。关键的 Issue 跑完，/review-it 扫一遍，gstack 全维度再扫一遍。确认没问题，/ship-it 合入，/note-it 记下设计决策。三个月后审计来了，从 PRD 到 Note 一条线拉到底，每个决策都有记录。不是"我记得当时好像是这样想的"，是文档里有。

多数个人开发者在 Level 2-3。多数团队在 3 往 4 过渡。

Level 5：多 Agent 自动协作 + 持续改进。 第 7 章的 autoresearch 是这个级别的雏形，五个 Agent 交叉审查，评分达标自动合入。但 Level 5 真正的门槛不是自动化。是你看数据了。

哪些 Issue 一次过审查？哪些反复返工？哪类 bug 多 Agent 也抓不住？第 7 章提到 autoresearch 有一个持续改进的反馈环，审查中发现的问题模式被反馈到生成和审查 prompt 里，下次同类 Issue 的首次通过率就会提高。

更进一步的场景：项目跑了三个月，积累了上百条 Issue 的审查数据。你发现"并发处理"类 Issue 的平均返工次数是其他类型的三倍。不是 Agent 不行，是你的并发 Issue 写得太抽象，Agent 理解偏了。下次写并发相关的 PRD，自动增加"并发场景覆盖率"检查项。

数据喂回去，流程自己变好。Level 5 现在还是稀罕东西，autoresearch 的"一觉醒来一排 merged"通常只发生在 Issue 明确的中小功能上。但方向很清楚。

你现在在哪一级？

不用一步到位。先从 Level 1 跳到 Level 2，装一个 Skill，让 Agent 帮你跑测试。习惯了再串起来，试试 /prd，下个功能开始前生成一份 PRD。小步往前走，每步都能验证。

9.6 本章小结

前八章讲了怎么做。这一章讲怎么选。

选的核心不是对比表。是两个问题。

第一：你愿意在哪个环节管？ autoresearch 说只在开头管，写好 Issue 放手。Goal Workflow 说每一步管，每站等人。gstack 说在关键节点管，规划、审查、交付前。没有对错，看你愿意在哪停下来。第 8 章 smallnest 做完了全自动的 autoresearch，发现自己还是想每步看一眼，于是做了 Goal Workflow。他选了自己的舒服区。你也要选你的。

第二：你需要多强的追溯？ 个人项目不需要三个月后解释设计决策。创业团队可能需要，投资人在问"登录模块为什么选了自建而不是第三方"。企业团队一定需要，合规部门等着。追溯越强，越需要结构化的 SPEC 和设计笔记。

七条路摊开之后，有意思的不是它们各有多少功能。是它们能拼。Pocock Skills 管测试。superpowers 在后台自动触发。OpenSpec 管变更规格。Goal Workflow 管项目流程。Ralph Loop 处理一句话就能说清的小任务。gstack 做全维度审查。autoresearch 把辅助模块全自动跑完。七个工具，一套积木。

下一章进入本书的第二部分。前面九章都在讲用 AI 做软件工程。Harness Engineering 回答另一个问题：如果你要开发一个 AI Agent 产品，基础设施怎么搭。沙箱、工具安全、产出验证，这些东西没人替你设计。

Goal Workflow：目标驱动的研发闭环

2026-06-28T03:30:00.000Z

"你只需描述功能想法，剩下的交给工作流。"
——smallnest, Goal Workflow 作者, 2026 年 5月

三条路。gstack 覆盖从需求到交付，但你得手动驱动每个阶段。superpowers 覆盖从设计到代码，但止步于开发分支。autoresearch 覆盖从 Issue 到合入，但它假设 Issue 已经存在。每条路都只解了一段。

实际项目不是这样的。实际项目从一句"我想做一个东西"开始。然后你要搞清楚它是什么、设计它怎么做、拆成小块、逐块实现、审查代码、记录决策、最后合入上线。七个动作，缺一个就是断点。每个断点都是你手动接续的地方。

Goal Workflow 做的事就是把这些断点接上。不是做一个更强的 /goal 命令。是做一条流水线——七个斜杠命令，首尾相连，从 PRD 到上线。

8.1 smallnest 的两次转向

smallnest 是 Go 生态里的熟面孔，rpcx 微服务框架的作者，也是本书的作者，百度公司的网络软件架构师。2026 年上半年，他连续发布了两个 AI 研发工具——先做了 autoresearch（第 7 章），然后又做了 Goal Workflow。

这个顺序本身就有意思。autoresearch 追求的是全自动——你写完 Issue，脚本驱动五个 Agent 交替审查、实现、合入，十几分钟后回来看结果。他在真实项目里大量使用 autoresearch 之后，发现了全自动的问题。

不是质量问题。autoresearch 产出的代码质量不差——两到五个 Agent 交叉审查，正确性、安全性、性能都覆盖了。问题是控制。全自动意味着你在起点说了算，然后就没你的事了。PR 合入之后你才看到代码，如果 PRD 写偏了，Issue 拆错了，或者 Agent 对验收标准的理解和你不一样——你已经没有修正的机会了。

Goal Workflow 是他对这个问题的回答。既然全自动让你不安，那就把每一步的控制权还给你。但控制不等于手动——每个步骤内部仍然全自动，步骤之间留一个门，你点头了才开下一扇。

最重要的一点，autoresearch太耗token了，每一次修改都需要进行全面的review,每次review既耗时又耗token，我们不太可能像Claude Code的作者一样无限制的使用最好的LLM，我们必须考虑到成本。Goal Workflow这种单agent review 最新的变更的方式可以有效的减少token的消耗。

和前面几章不同，Goal Workflow 不跟你讲 Agent 自主性或多 Agent 轮转。它做的事更朴素：把研发流程中每一步写成一个 Skill，每个 Skill 有明确的输入、输出和质量标准。你推一步，它做完一步。推完七步，一个功能从想法变成了上线代码。

8.2 安装与配置：一条 npx 命令装完全套

Goal Workflow 由 smallnest 维护，代码仓库 github.com/smallnest/goal-workflow，官网 goal.rpcx.io。核心是一组 Markdown Skill 文件，通过 npx skills 分发——这是第 2 章 Skills 哲学的直接实践：用包管理工具安装 Skill，像 npm 装依赖一样。

8.2.1 前提条件

三条：GitHub CLI（gh）、Claude Code CLI（claude）、Node.js（提供 npx）。

1 2	brew install gh && gh auth login npm install -g @anthropic-ai/claude-code

gh 是 /ship-it 和 /to-issues（GitHub 模式）的前置，没有它 PR 创建和 Issue 操作走不了。Claude Code 是 Skill 的运行宿主。npx 随 Node.js 安装，是 npx skills 的前提。

8.2.2 安装

安装全部 Skill（七个核心 + 七个增强，共十四个）：

1	npx skills add smallnest/goal-workflow

npx skills 做四件事：拉取仓库中的 Skill Markdown 文件、注册到 Claude Code 的 skills 目录、生成对应的 / 斜杠命令、写入 CLAUDE.md 配置。

也可以只装单个 Skill：

1	npx skills add smallnest/goal-workflow --skill prd

--skill 后面跟 Skill 名——prd、prd-to-spec、to-issues、review-it、ship-it、note-it、humanize-it、listenhub-tts、insight-diagram、refactor、modern-go、code-to-spec、smell。挑需要的装。

全局安装（所有项目共用）：

1	npx skills add smallnest/goal-workflow -g

指定 Agent（非 Claude Code，如 Codex）：

1	npx skills add smallnest/goal-workflow -a codex

Goal Workflow 的 Skill 可以在 Claude Code、Codex、OpenCode、DeepSeek TUI 四种 Agent 上运行。唯一例外是 /goal——它是 Claude Code 的内置命令，Skill 包里不包含它。Codex 上的等价命令是 codex --goal "..."。

8.2.3 目录结构

安装后，项目目录下自动生成以下结构：

tasks/
├── prd-[feature-name].md       ← /prd 生成的 PRD 文档
└── spec-[feature-name].md      ← /prd-to-spec 生成的 SPEC（可选）

.autoresearch/
└── issues/                      ← /to-issues 生成的本地 Issue 文件

docs/
├── issue#XXXX.html              ← /note-it 生成的实现笔记
├── SPEC.md                      ← /code-to-spec 生成的反向规格
└── *.html                       ← /insight-diagram 生成的 UML 图

tasks/ 放 PRD 和 SPEC，.autoresearch/issues/ 放本地 Issue（和第 7 章的 autoresearch 共用同一套本地 Issue 系统），docs/ 放设计文档、笔记和图。

8.2.4 平台支持

Agent	支持	备注
Claude Code	全部 Skill	`/goal` 内置，其余通过 Skill 包
Codex	全部 Skill	`/goal` 内置，其余通过 Skill 包`
OpenCode	除 `/goal` 外全部	`/goal` 不适用
DeepSeek TUI	全部 Skill	`/goal` (`/mubiao`)内置，其余通过 Skill 包

Issue 创建支持三种平台：GitHub（gh issue create）、本地（.md 文件写入 .autoresearch/issues/）、百度 iCafe（icafe-cli）。

8.2.5 升级

重跑安装命令即可——覆盖 Skill 文件，CLAUDE.md 中的已注册命令自动更新：

1	npx skills add smallnest/goal-workflow

版本管理和 Skill 包注册由 npx skills 生态维护，Goal Workflow 本身不内置升级逻辑——这和 gstack 的 /gstack-upgrade 不同，更接近 OpenSpec 的 openspec update。

8.3 流水线思维

Goal Workflow 的设计哲学和前面几章都不一样。gstack 相信角色覆盖——二十三个角色审查二十三个维度。superpowers 相信工具覆盖——十四个 Skill 覆盖十四个场景。autoresearch 相信模型覆盖——五个 Agent 交叉审查，不同模型的盲区互补。

Goal Workflow 相信的是流水线。每个工序有明确的输入、输出和质量标准。工序之间首尾相接，上游的输出是下游的输入。流水线不保证每个工序都完美。它保证的是工序之间没有裂缝。

这种思维在第 1 章就有了——"在 AI 时代，你的价值不再是'你能写多快的代码'，而是'你能不能定义清楚什么算做好'。"Goal Workflow 把这句话拆成了七步。PRD 定义需求的标准，SPEC 定义技术的标准，Issue 定义验收的标准，/goal 把标准变成代码，/review-it 验证代码是否达标，/note-it 记录为什么这样达标，/ship-it 把达标的代码送上生产线。每一步都问：这一阶段的"做好"是什么？然后让 Agent 去做到。

流水线在制造业用了一百年。把它搬到 AI 软件工程上，Goal Workflow 是第一套完整方案。前面的方法论都在解决"如何让 Agent 做得更好"——更好的 prompt、更好的审查、更好的模型组合。Goal Workflow 在解决另一个问题：如何让人更好地组织 Agent 的工作。与其绞尽脑汁让一个 Agent 一次性做对所有事，不如把流程切成七段，每段只要求 Agent 做好一件事。

8.4 /goal：流水线的引擎

Goal Workflow 的流水线里，/goal 是唯一不在 skills 目录下的命令。它不是 smallnest 写的 Skill，是 AI 编码工具的内置功能。Goal Workflow 把它放在流水线正中心，让它成为"把 Issue 变成代码"的那一步。

/goal 的概念最早来自 Codex CLI。2025 年 4 月，OpenAI 发布了 Codex CLI，首次引入了 /goal 斜杠命令。核心思想是"声明式编程"——你说目标，Agent 自己拆步骤。在这之前，AI 编码工具的交互都是"指令式"的：你说一步，Agent 做一步。Codex 把这个范式颠倒了过来。

Codex 之后，Claude Code 也内置了 /goal。到了 2026 年 5 月，Google 的 Antigravity CLI 正式发布，同样带着 /goal 登场。

三个工具，独立设计，三种底层模型（GPT-5、Claude 4.x、Gemini 2.5），却选择了同一个词。这不是巧合。它们都在解决同一个问题：如何让人类从"指挥每一步"变成"定义目标，然后放手"。

当然，实现各有侧重。Codex 提供了完整的生命周期管理——目标可以暂停、恢复、编辑、清除。Agent 自主但不失控，用户随时介入。Claude Code 的 /goal 更务实——接收 Issue 编号或文件路径，读取验收标准，端到端实现，逐条验证 checkbox。Antigravity CLI 最晚入场，吸收了前两者的经验，加上 Gemini 的长上下文优势，处理多文件项目时更从容。

维度	Codex `/goal`	Claude Code `/goal`	Antigravity CLI `/goal`
发布时间	2025 年 4 月（首个）	2026 年 5 月	2026 年 5 月
底层模型	GPT-5 / Codex 系列	Claude 4.x	Gemini 2.5
目标管理	完整生命周期（暂停/恢复/编辑/清除）	设置目标，逐条验证	完整生命周期 + Issue 联动
验收方式	目标完成判断	逐条对照 Issue checkbox	目标完成 + Issue checkbox
安全模型	默认确认执行 bash 命令	权限模式（ask/auto）	沙箱隔离
上下文优势	代码推理	深度推理、复杂重构	长上下文、多文件项目
最佳场景	放手式自主开发	需要随时干预的开发	大型多文件项目

和 Ralph Loop（第 4 章）比，/goal 是它的单次迭代实例化。核心循环一样——读需求、写代码、验证。区别在判断"做完"的方式。Ralph Loop 靠 completion promise 匹配——Agent 声明"做完了"，匹配到就停。/goal 靠 Issue 的 checkbox 验收标准——Agent 不自己判断，逐条对照。

Goal Workflow 的流水线在三个平台上都能跑。除了 /goal 这一步的调用方式不同，其余六个 Skill 完全通用。Goal Workflow 做的事是让 /prd 和 /to-issues 生成的 Issue 格式正好匹配 /goal 期望的输入——PRD → Issue → /goal，三者的接口是对齐的。

8.5 七个步骤

Goal Workflow 的核心流水线：

1	/prd → /prd-to-spec (可选) → /to-issues → /goal → /review-it → /note-it (可选) → /ship-it

步骤	命令	输入	输出	角色隐喻
1. 规划	`/prd`	功能描述	PRD 文档	产品经理
1.5 设计	`/prd-to-spec`	PRD 文档	技术 SPEC	架构师
1.6 拆解	`/to-issues`	PRD / SPEC	Issue 卡片	Tech Lead
2. 实现	`/goal`	Issue 卡片	可运行的代码	开发工程师
3. 审查	`/review-it`	代码变更	通过审查的代码	代码审查者
3.5 记录	`/note-it`	已审查的代码	实现笔记 (HTML)	开发工程师
4. 交付	`/ship-it`	已审查的代码	已合入的 PR + 已关闭的 Issue	发布工程师

七个步骤，四个角色隐喻。gstack 有二十三个角色，Goal Workflow 少得多。区别不在数量。gstack 的角色是人格化的——"你是一个有十五年经验的员工工程师"。Goal Workflow 的角色是功能化的——每个角色就是一个命令要做的事。你不扮演产品经理，你调用 /prd 让 Agent 生成 PRD。角色隐喻帮你理解命令在流程中的位置，不是让你去扮演。

两步标了"可选"：/prd-to-spec 和 /note-it。小功能 PRD 的验收标准就够了，不需要完整技术方案。简单实现不需要单独记录设计决策。但复杂功能少了这两步，Issue 拆解和后续维护都会受影响。

除了核心流水线，还有四个 Bonus Skills——/refactor、/modern-go、/code-to-spec、/insight-diagram——不参与流水线，各自独立使用。

下面走一遍实战。用 Goal Workflow 开发网页版贪吃蛇——同一个案例，第七种体验。每一步我会讲清楚发生了什么，以及背后的设计逻辑。

8.6 第一步：一句话生成 PRD

打开 Claude Code，输入：

1	/prd 做一个贪吃蛇网页游戏。纯前端单文件 HTML/CSS/JS 实现。演示 AI 编码能力。

Agent 没有直接开始写文档。它先问了五个问题，每个带选项：游戏复杂度（简化/完整/极简）、功能范围（蛇移动/吃食物/碰撞死亡/最高分持久化）、技术偏好（纯单文件无框架/轻量框架/React）、UI 要求（简洁/像素风/现代）、代码质量侧重（结构清晰/性能优先/可维护性）。

这是 /prd 和 superpowers 的 brainstorming 的关键区别。superpowers 一次一个问题，逐个推进——适合需要深度讨论的探索性任务。/prd 一次甩出五个带选项的问题，你快速回复"1B, 2ABCD, 3A, 4A, 5A"，适合目标明确、只需确认细节的功能开发。

澄清完成后，Agent 生成一份 PRD，包含问题陈述、可衡量目标、User Story（每个带 checkbox 验收标准）、功能需求（编号，用"系统必须/应当"）、非目标（明确不做什么）、成功度量、待确认问题。保存到 tasks/prd-snake-game.md。

SDD（第 3 章）说"先写规格，再写代码"。/prd 是这句话的工程化落地——你不需要掌握方法论框架，描述想法就行，Agent 产出规格文档。SDD 是施工规范，/prd 是规范指导下的预制构件。

贪吃蛇这个例子够简单——单文件实现，没有后端，没有 API——所以跳过 /prd-to-spec。但值得说一下什么时候该走这一步。

/prd-to-spec 做的事是把"做什么"翻译成"怎么做"。PRD 说功能，SPEC 说架构、数据模型、API 设计、错误处理、安全、性能。它的产出里有两样东西最实用：Issue 映射表（把 SPEC 每个章节映射到对应 Issue，标注优先级和依赖）和验收标准映射表（每条 PRD 验收标准对应至少一个测试用例）。规格里有、代码里就有——不是靠人记忆，是靠文档的强制关联。

复杂功能值得走这一步。原因和 gstack 的 Think 阶段一样：在设计阶段找出问题，比在代码里找出问题代价低十倍。小功能跳过就行。

SPEC 有一个尴尬：写得越详细，和代码的同步成本越高。功能迭代后代码变了，谁来更新 SPEC？Goal Workflow 的答案是 /code-to-spec（后面会讲）——从代码逆向生成 SPEC。正向一次，逆向一次，保持同步。

8.7 为什么可以跳过 prd-to-spec

流水线图上 /prd-to-spec 标了"可选"，这不是客气。是设计。

/prd 产出的 PRD 本身就是一份规格文档——产品级的规格。它包含 User Story（每个带 checkbox 验收标准）、功能需求（编号，用"系统必须/应当"）、非目标、技术考量。这些内容已经足够让 /to-issues 和 /goal 工作了。/to-issues 的 SKILL 文件里写着：如果只有 PRD 没有 SPEC，直接从 User Story 生成 Issue。

不是文档不够详细所以妥协。是故意的模块化设计。

PRD 的 User Story 格式是被刻意约束过的——每个 Story 的验收标准必须是可验证的 checkbox 列表。"按钮点击后弹窗出现"是可验证的。"用户体验良好"不行。有了这个约束，PRD 的验收标准本身就能当测试用例用，不需要 SPEC 再翻译一遍。

贪吃蛇刚好说明这一点。四个 User Story，"20x20 网格渲染正确""蛇初始长度 3""撞墙触发 game over"，全是可验证的 checkbox。/goal 拿到就能直接实现。中间插一个 SPEC 去描述"Canvas 渲染采用 requestAnimationFrame 驱动主循环"，对 Agent 帮助不大，对读者负担不小。

那什么时候该走 /prd-to-spec？当 PRD 的 User Story 描述不了"怎么做"的时候。

一个典型场景：功能涉及多个服务或模块。PRD 说"用户登录后看到个性化推荐"，但推荐服务怎么调、缓存怎么设计、降级策略是什么——这些 PRD 管不着，得 SPEC 来约定。

另一个：有 API 设计或数据模型变更。新增接口、改数据库 schema、破坏性变更。SPEC 的 Issue 映射表在这里价值最大——把 API 端点、数据迁移、业务逻辑拆进不同的 Issue，标注依赖。

再加一个：多人并行。前后端分离，多个 Agent 同时实现不同 Issue。SPEC 是它们之间的共享合约。

功能越简单，PRD 和 SPEC 的重叠越大。贪吃蛇这个级别，PRD 已经把能说的都说了——单文件 HTML，没有后端，没有 API，没有数据库。SPEC 能补充的东西几乎为零。

反过来，功能越复杂，PRD 和 SPEC 的分工越清晰。PRD 回答"用户看到什么、能做什么"。SPEC 回答"系统怎么做到"。两者不重复，各管各的。

这也解释了 Goal Workflow 和 SDD（第 3 章）的区别。SDD 说"必须先有规格再写代码"，对所有功能一样。Goal Workflow 说：规格有好几层。产品规格（PRD）对所有功能都是必须的。技术规格（SPEC）只在复杂度超过阈值时才需要。阈值在哪？你读完 PRD，不确定 /goal 能不能独立完成的时候。

PRD、设计文档、SPEC

这三个词在中国研发体系里经常混着用。理清它们的区别，才能理解为什么 Goal Workflow 选了 SPEC 而不是"设计文档"。

	PRD	设计文档	SPEC
谁写	产品经理	Tech Lead / 资深工程师	架构师 / Agent（`/prd-to-spec`）
回答什么	做什么、为什么	怎么做（叙事）	怎么做（契约）
形式	用户故事 + 验收标准	架构图 + 模块描述 + 决策理由	API Schema + 数据模型 + 错误码表
读者	全团队	开发团队	开发团队 + AI Agent
精确度	方向级	方案级	实现级

PRD 最简单。产品经理写，用户是谁、要什么、验收标准是什么。所有人对"做成什么样"的理解对齐。

设计文档是中国研发体系里最常见的中间产物。Tech Lead Tech Lead 在动手前写一份，讲架构怎么设计、模块怎么拆、为什么选这个方案。叙事型的——读起来像一篇文章，"我们打算这么干，理由是这些"。对人友好，对机器不够友好。Agent 拿到一份设计文档，能理解意图，但没法直接执行。"API 返回用户画像数据"不如"GET /api/v1/recommendations?user_id={uuid} → 200 { items: [], generated_at: ISO8601 }"好执行。

SPEC 不一样。它不是解释，是约定。契约型的——API 端点精确到路径和响应 Schema，数据模型精确到字段类型和约束，错误处理精确到错误码和 HTTP 状态码。人读起来啰嗦，Agent 读起来刚好。

Goal Workflow 的 /prd-to-spec 产出的就是这种契约型 SPEC——十一个章节，从架构到 API Schema 到错误分类到 Issue 映射表。不是让你读的（虽然你可以读），是让 /to-issues 拆解和 /goal 实现用的。PRD 给方向，SPEC 给精确坐标。

设计文档和 SPEC，本质都是把"怎么做"写下来。区别是读者。只有一个你和一个 Agent 在看，PRD 的验收标准就是够好的"怎么做"。当三个 Agent 加一个前端团队一起看，你才需要 SPEC 那份精确度。

8.8 第二步：拆成 Issue

1	/to-issues

Agent 自动定位刚才生成的 PRD，把四个 User Story 拆成四个 Issue：

#1: HTML 结构与 Canvas 渲染 (frontend, high)
#2: 游戏循环与方向控制 (frontend, high) — depends on #1
#3: 碰撞检测与食物系统 (frontend, high) — depends on #2
#4: 分数系统与 UI 状态 (frontend, high) — depends on #1, #2, #3

拆解规则是隐式的，但可以反推出来：一个 User Story 至少一个 Issue；验收条件超过五条的 Story 拆成两到三个；太简单的合并；每个 Issue 必须能在一个 Agent 会话中独立完成。

这些规则是从 autoresearch 的经验中提炼出来的。Issue 太大，Agent 在上下文窗口里迷路。Issue 太小，启动成本高于实现成本。/to-issues 的粒度瞄准的就是这个区间。

Agent 展示 Issue 列表让你审核。你可以删除、合并、新增、调整优先级。确认后选择创建平台——GitHub（gh CLI）、本地文件、百度 iCafe——Agent 逐个调用对应 CLI，不需要手动复制粘贴。

这里有一个刻意的设计：/to-issues 创建的本地 Issue 文件，格式直接兼容 autoresearch 的 --issues-dir 参数。Goal Workflow 和 autoresearch 同作者，这种一致性不是偶然。拆解完想全自动？丢进 autoresearch。想手动逐个来？用 /goal。

8.9 第三步：逐个实现

1	/goal .autoresearch/issues/issue-001-snake-game-render.md

Agent 读取 Issue #1，理解验收标准——20x20 网格、初始长度 3 的蛇、Canvas 绘制。端到端实现，产出 snake-game/index.html 的基础结构和 Canvas 渲染层。

然后逐个推进：Issue #2 实现游戏循环和方向控制（requestAnimationFrame + 手动计时，方向缓冲防反向），Issue #3 实现碰撞检测和食物系统（随机生成、检查不重叠蛇身），Issue #4 实现分数系统和 UI（当前分/最高分、HTML modal 弹窗、localStorage 持久化带 try-catch、空格键重置）。

这里能看出 /goal 的设计哲学："单次会话完成一个功能"。上下文窗口里的所有内容都和当前 Issue 相关。不会出现 Ralph Loop 中上下文膨胀的问题——Issue 太大早被 /to-issues 拆掉了。不会出现 autoresearch 多 Issue 间依赖混乱的问题——依赖在拆解阶段就已标注，你按顺序逐个 /goal 就行。

和 autoresearch 比，/goal 是手动版。每次实现一个 Issue，你在旁边看着。autoresearch 一口气吞下所有 Issue，你喝茶睡觉。核心实现逻辑一样——读 Issue、写代码、跑测试。区别在循环由谁驱动。你驱动，是 Goal Workflow。脚本驱动，是 autoresearch。

8.10 第四步：审查

1	/review-it

Agent 检测四个 /goal 产出的代码变更，发起审查。四个维度：代码质量（命名、结构）、功能完整性（对照每个 Issue 的验收标准逐条核实）、安全性（localStorage 的 try-catch 是否在位）、性能（requestAnimationFrame 实现是否正确）。

审查发现两个问题。第一个是 modal 弹窗出现后方向键仍能控制蛇——和第 5、6 章实战中抓到的同一个问题。第二个是空格键重置后蛇状态未完全初始化。Agent 修复，重新审查，通过。

/review-it 的审查逻辑和第 7 章 autoresearch 的质量门禁类似，但控制权在你手里。流程是：检测变更 → 发现问题 → Agent 修复 → 重新审查 → 直到无 actionable findings。支持四个 Agent——Claude Code、Codex、OpenCode、DeepSeek TUI。

审查结论是建议，不是命令。"Treat review output as advisory. Never blindly apply it."Agent 对每条发现都要验证：读代码、读依赖、拒绝不合理的边界情况、拒绝过度工程化的修改。这和 gstack 的"角色审查 → 你有否决权"逻辑一致。自动化不是 AI 说了算，是 AI 找了问题，你判断该不该修。

审查通过的标准不是"没有发现问题"，是"没有需要修复的问题"。审查者可能提出建议但你决定不修——只要解释清楚为什么不修，就是通过。

8.11 第五步：记录设计决策

/note-it

Agent 回顾四个 Issue 的实现过程，记录四条设计决策：为什么用 requestAnimationFrame 而非 setInterval（帧同步精度）、为什么方向缓冲不在键盘事件中直接更新（防止一帧内多次转向）、为什么 localStorage 用 try-catch 包裹（隐私模式兼容）、为什么 modal 弹窗出现时拦截所有键盘事件（防止死蛇漂移）。

输出是一份 HTML，存在 docs/issue#0001.html。设计得很轻——四条彩色标签，每条对应一个类别：设计决策、偏离、权衡、待确认。空类别直接写"None"。

代码能告诉你"怎么做"，但很难告诉你"为什么这样做"。/note-it 填补这个空白。smallnest 把它放在 /review-it 之后、/ship-it 之前，位置是有意的：审查通过意味着代码质量合格，此时回头记录设计决策，既不受审查来回修改的干扰，也不会被交付后的遗忘抹掉。

还有一个容易被忽略的价值：这些记录对 AI Agent 的后续维护极其有用。Agent 下次修改相关代码时，读到 docs/issue#0042.html 就能理解当初的设计考量。注释在代码里，只能解释当前实现。设计笔记记录的是"当初还有别的选择，为什么没选"。Agent 知道什么路试过但死了，就不会再试一次。

8.12 第六步：交付

/ship-it

Agent 执行六步机械操作：创建分支 → 暂存相关文件（不混入无关变更）→ commit message 关联 Issue 编号 → 推送 → 创建 PR → squash merge → 删除分支 → 在 Issue 上添加实现总结评论。

和第 7 章 autoresearch 的收尾逻辑一样：传统 CI 到"代码能跑"就停了，PR 创建、等待 CI、合并、关闭 Issue 都要人手动做。每一步都是延迟和出错的机会。/ship-it 把它们全部自动化。

但有一个区别：/ship-it 需要你明确调用。autoresearch 在第 4 轮评分达标后自动合入——你不说合，它也合了。Goal Workflow 把控制权留给你——走完 /review-it，确认没问题，再敲 /ship-it。多一步手动，少一次意外合入。

PR 合入后，Agent 在 Issue 上评论一条总结——核心变更、PR 编号、commit hash。Issue 变成了可回溯的功能档案：Issue → PR → Commit → Code → Note，完整的一条链。

8.13 实战：用 Goal Workflow 开发网页版贪吃蛇

本书每一章都用贪吃蛇作为实战案例。这是第七种体验——不是跑一条命令，不是写一个 Issue，而是走完一条完整流水线。

8.13.1 第一步：/prd 生成需求文档

在 Claude Code 中输入：

1 2	/prd 做一个贪吃蛇网页游戏。方向键控制蛇移动，吃食物变长得分，撞墙或撞自己结束。纯前端单文件，最高分 localStorage 持久化。

Agent 追问三个澄清问题：

Q1: 游戏画布多大？我建议 400×400px，20×20 网格——桌面端和移动端都够用。
Q2: 蛇的移动速度？推荐 150ms/步，有挑战但不至于太快。
Q3: 游戏结束的交互？HTML modal 弹窗 + 重新开始按钮，比 alert() 好。

用户逐一确认。Agent 产出 tasks/prd-snake-game.md，核心内容：四条用户故事（移动控制、食物消费、碰撞结束、最高分持久化），八条验收标准（全部 checkbox 格式），非目标明确标注（不加难度曲线、音效、排行榜）。

因为没有跨服务改动和合规需求，跳过 /prd-to-spec，直接进入拆解。

8.13.2 第二步：/to-issues 拆解

1	/to-issues tasks/prd-snake-game.md

Agent 将 PRD 拆成四个 Issue，每个 Issue 的验收标准相互独立：

Issue	标题	验收标准	预估
#1	Canvas 渲染与蛇的初始状态	20×20 网格 + 绿色蛇 + 红色食物	20min
#2	方向键控制与 150ms 游戏循环	四方向移动 + 禁止反向 + nextDirection 缓冲	25min
#3	碰撞检测与食物系统	墙壁/自身碰撞 + 食物消费 + 随机生成不重叠	25min
#4	分数系统与游戏状态管理	当前分/最高分 + modal 弹窗 + localStorage 降级	20min

用户确认拆分合理，四个 Issue 在本地 .autoresearch/issues/ 目录下生成。

8.13.3 第三步：/goal 逐个实现

1	/goal .autoresearch/issues/issue-001-snake-canvas.md

Agent 读取 Issue #1，分析项目结构（纯前端，无框架），生成 snake-game/index.html，包含 Canvas 和渲染函数。跑测试，验收标准逐条验证——网格可见 ✓，蛇初始位置正确 ✓。Issue #1 完成。

依次执行 #2、#3、#4。和第 4-7 章贪吃蛇实现不同的是，Goal Workflow 的实现过程少了一类问题：Agent 在 #2 中就实现了 nextDirection 缓冲机制——因为 /to-issues 拆解时，Agent 读 PRD 中的技术要求（"键盘事件写入 nextDirection 缓冲"），直接写进了 Issue #2 的验收标准里。

四个 Issue 全部实现完毕，通过，约 6 分钟。

8.13.4 第四步：/review-it 审查

1	/review-it

Agent 检测到分支上有未合入的 commit，运行 --mode branch，对比 origin/main...HEAD。审查发现两条：

发现 #1: #3 中食物随机生成逻辑在蛇身长度超过 200 格时（极端情况）会退化为线性扫描全网格——O(n²)。当前 20×20 网格不会触发，但可读性差。建议改为 Fisher-Yates 洗牌 + pick first。Auto-fix。
发现 #2: #4 中 loadHighScore() 的 try-catch 只处理了 SecurityError，没有处理 QuotaExceededError——Firefox 隐私模式下 setItem 可能抛这个异常。手动确认修复。

用户确认修复 #2。Agent 修改代码，重新跑测试——全部通过。

8.13.5 第五步：/ship-it 交付

/ship-it

Agent 执行：git add + commit → push → gh pr create → squash merge → comment → close Issue。约 40 秒走完。

贪吃蛇的完整功能档案留在仓库里：tasks/prd-snake-game.md（为什么做）→四个 Issue（每一步要验证什么）→ PR #43（代码变更）→ docs/issue#43.html（设计决策记录）。

跟前面六章比，Goal Workflow 的贪吃蛇开发全程约 15 分钟，比 autoresearch 的 3 分钟写 Issue + 12 分钟自动执行总共差不多。但人在每一步之间参与了四次——PRD 确认、Issue 拆分确认、审查修复确认、交付确认。每次参与花几秒钟，换来了每一跳的质量确认。

8.14 七种方法的同一个案例

同一个贪吃蛇，四种方法论的对比：

维度	gstack（第 5 章）	superpowers（第 6 章）	autoresearch（第 7 章）	Goal Workflow（本章）
人类参与	逐个阶段运行命令，约 2 小时	回答 5 个设计问题，约 5 分钟	写一个 Issue，约 3 分钟	每个步骤确认一下，约 8 分钟
流程驱动	人驱动（手动调用每个阶段）	Agent 驱动（自动触发 Skill）	脚本驱动（全自动）	人驱动（手动调用每个命令）
覆盖范围	从想法到交付	从设计到代码	从 Issue 到合入	从想法到上线
控制粒度	粗粒度（Sprint 阶段）	细粒度（Skill 自动触发）	无控制（全自动）	中粒度（每个命令确认一下）
产出质量	高（角色全覆盖）	中高（工程维度强）	中高（依赖 Issue 质量）	高（每个步骤有明确标准）
最佳场景	从零到一的完整项目	中等复杂度的独立功能	Issue 明确、可独立验证的功能	需要完整流程但保留控制权的项目

Goal Workflow 的参与时间比 autoresearch 长（约 8 分钟 vs 约 3 分钟），但每个参与点都有意义——PRD 生成后确认需求正确，Issue 拆解后确认拆分合理，审查通过后确认质量满意。这些确认不是流程冗余，是质量门禁。

和第 3-7 章的关系：

SDD（第 3 章）说"先规格、后代码"，Goal Workflow 给了你两个生成规格的命令。SDD 的规格是人机合约，Goal Workflow 的 PRD/SPEC 不仅是人机合约，也是流水线步骤之间的合约——PRD 定义了 /to-issues 的输入标准，SPEC 定义了 /goal 的技术约束。

Ralph Loop（第 4 章）通过 completion promise 判断"做没做完"——Agent 自我声明。/goal 通过 Issue 验收标准判断——测试结果告诉你做没做完。前者适合验收标准就是一句话的简单任务，后者适合 checkbox 列表的结构化任务。

gstack（第 5 章）和 Goal Workflow 都是串行流程——七个 Sprint 阶段 vs 七个流水线步骤。核心区别在谁驱动。gstack 是角色驱动（"你是一个产品经理"），Goal Workflow 是命令驱动（"现在生成 PRD"）。前者适合不知道标准流程的开发者，后者适合知道每一步该做什么、只需要工具加速的开发者。

autoresearch（第 7 章）是同一个作者的另一种设计哲学——脚本驱动，你写 Issue，脚本跑 Agent，评分，合入。Goal Workflow 是人驱动——你调命令，Agent 执行，你确认。前者追求自动化程度，后者追求控制力。

8.15 适用边界

Goal Workflow 是为中小型项目设计的。从功能规划到上线一条龙，每个步骤有明确的质量标准，不需要自己设计流程。PRD 和 SPEC 天然适合多人协同——它们是产品和研发之间、前端和后端之间、开发和审查之间的合约。

如果你不信任全自动——autoresearch 的"一觉醒来一排 merged"让你不安——Goal Workflow 就是给你的。每个步骤结束时审核产出，通过再推进。如果你接手了一个没有文档的老项目，/code-to-spec 快速生成技术说明，然后走标准流水线规划改动。

但它不是万能药。

改个按钮颜色走 /prd → /to-issues → /goal → /review-it → /ship-it，流程成本高于实现成本。Pocock Skills 或直接让 Agent 修更合适。探索性原型——"试试这个方案行不行"——需要人的判断，不适合规格化流水线。紧急热修复更不行——流水线是串行的，每步都要人确认，线上故障等不了。

最常被问到的问题：Goal Workflow 和 autoresearch 怎么选？

选 Goal Workflow，如果你想要控制。每一步做完你看一眼。PRD 写偏了你马上纠正。Issue 拆大了你拆开。审查发现的问题你决定修不修。

选 autoresearch，如果你想要时间。Issue 写好后放手，十几分钟后回来看结果。信任 Agent 的判断——信任它不会在验收标准上摇摆，信任多 Agent 审查能覆盖盲区。

两者不互斥。你可以用 /prd + /to-issues 生成 Issue，丢进 autoresearch 全自动实现。也可以用 /prd + /to-issues + /goal 手动实现前几个关键 Issue，再 autoresearch 批量跑剩下的。流水线是模块化的——每一环都能独立使用。

8.16 本章小结

把第 4-8 章放在一起看，五条路线对应五种研发组织模式。Ralph Loop 是循环自治——Agent 反复迭代到正确。gstack 是角色治理——二十三个虚拟角色覆盖质量全维度。superpowers 是技能触发——Agent 自动激活对的工具。autoresearch 是全自动流水线——人类只定义目标。Goal Workflow 是手动流水线——人类推一下，Agent 走一步，每一步的质量都经过人的确认。

没有高下之分。它们都在回答同一个问题：在 AI 能写代码的时代，人应该做什么？

autoresearch 的回答是：人定义目标，然后放手。Goal Workflow 的回答是：人定义每个阶段的"做好"，然后确认。前者相信你一次能写清楚，后者相信你看了才知道对不对。

选哪个，取决于你对自己"能一次写清楚到什么程度"和"愿意参与多少步骤"的诚实判断。

下一章讲方法论对比与融合。前八章讲了八种方法论，各有优劣，互有重叠。第 9 章把八条路放在一起，帮你找到最适合自己的那条——或者把几条路拼在一起。

autoresearch：全自动化软件开发

2026-06-28T03:00:00.000Z

「你只需负责喝茶和睡觉。一觉醒来，Features 全自动高质量的实现了。」
——smallnest, autoresearch 作者, 2026 年

gstack 是人驱动流程，二十三个角色在七个 Sprint 阶段中协作。superpowers 是 Agent 驱动流程，十四个 Skill 自动触发，子 Agent 分工实现。两条路，一个共同点：人类仍然在循环中。gstack 需要你在每个阶段运行命令。superpowers 需要你在设计批准时确认方案。

autoresearch 把这个共同点也推倒了。

它的目标一句话就能说清楚：从 Issue 到合入，全程不需要人。你写好 Issue，Agent 自己实现、自己审查、自己修复、自己提 PR、自己合入、自己关 Issue。你喝茶。你睡觉。醒来看到一排绿色的 merged。

Karpathy 的 autoresearch 思想在软件工程领域落地了——82K Stars 的 ML 研究自动化项目，被 smallnest 适配成了通用的全自动开发工具。

7.1 起源：从 GPU 训练到软件工程

2026 年 3 月，Andrej Karpathy 在 GitHub 上发布了一个叫 autoresearch 的项目。代码没多少——核心是一个循环控制脚本。但思路极其大胆：让 AI Agent 在循环中自主做 ML 研究实验——自己改超参数、自己跑训练、自己看结果、自己决定下一步改什么。人类设定目标后就放手。

82,649 Stars。社区炸了。

不是因为代码复杂。是因为它第一次把「自主循环」从工程执行层面推到了研究决策层面。Ralph Loop 让 AI 反复改代码直到测试通过——执行层面的自主。autoresearch 让 AI 自己决定「接下来该尝试什么方向」——决策层面的自主。

但 Karpathy 的 autoresearch 面向的是 ML 训练场景——单 GPU 上的 nanochat 训练实验。smallnest 看到了另一种可能：把这个模式搬到通用软件工程上。

2026 年 4 月，smallnest/autoresearch 发布。517 Stars，远不如原版。野心却大得多——不做「让 AI 自己做 ML 实验」，做「让 AI 自己做完整个软件开发流程」。

两个关键改造。第一，把自主循环的主体从单 Agent 变成了多 Agent 轮转——Claude Code 实现，Claude Code 审查，Codex 优化，Codex 再审查，OpenCode 再优化，OpenCode 再审查，不同模型交叉实现和审核。第二，把目标载体从实验配置变成了 Issue——GitHub Issue、本地 Markdown 文件、百度 iCafe 卡片、阿里云效 Codeup，四种来源，一套流程。Issue 就是任务合约。验收标准写在 Issue 里，autoresearch 读到，自己判断做完没有。

7.2 安装与使用：一条 clone 命令，从 Issue 开始

autoresearch 的安装只有一步——git clone。不需要 npm、不需要 pip、不需要构建。安装之后，唯一的交互就是传给它一个 Issue 编号。

7.2.1 依赖与前提

autoresearch 是胶水层——它不自己写代码，它调度其他 Agent 写代码。所以前提条件就是你至少装了一个它支持的 Agent CLI。五个 Agent 对应五条验证命令：

Agent	CLI 检查	角色
Claude Code	`which claude`	默认实现 + 审查
OpenAI Codex	`which codex`	审查 + 修复 + 优化
OpenCode	`which opencode`	审查 + 修复
Claude-Mimo	`which claude-mimo`	审查 + 修复（fallback 到 claude.md）
DeepSeek	`which deepseek-tui`	审查 + 修复

对于 GitHub 模式（默认），还需要 gh auth status 通过。百度 iCafe 模式需要 icafe-cli whoami 和 icode-cli whoami。阿里云效 Codeup 模式需要 curl。

autoresearch 本身没语言运行时要求——run.sh 是 bash 脚本。但你的项目必须有对应语言的构建工具（Go/Node/Python/Rust/Java），因为硬门禁要跑 build 和 test。

7.2.2 安装

1	git clone git@github.com:smallnest/autoresearch.git

不需要 ./setup、不需要 ./configure、不需要 make install。autoresearch/run.sh 是唯一入口——从你的项目目录调用它，脚本自动寻找项目根目录、自动检测 Git 平台、自动选择对应的 Agent CLI。

7.2.3 基础使用

最小用法——在当前项目目录中处理一个 GitHub Issue：

1	autoresearch/run.sh 10

Agent 做的事：gh issue view 10 读取 Issue → 第一个 Agent 初始实现 → 后面 Agent 轮流审查修复 → Build/Lint/Test 全通过 → LLM 评分 ≥ 85 → gh pr create → squash merge → 评论总结 → gh issue close 10。

指定项目路径和最大迭代轮数：

1	autoresearch/run.sh -p /path/to/project 10 16

Issue #10，最多 16 轮（默认不限，但项目内置了连续失败停止阈值 MAX_CONSECUTIVE_FAILURES=3）。

7.2.4 Agent 配置与模型选择

-a 参数指定用哪些 Agent 和调用顺序：

1	autoresearch/run.sh -a claude,codex,opencode 10

第一个 Agent（claude）做初始实现，后续迭代按 (iter − 1) % N 轮转——Claude 实现 → Codex 审查修复 → OpenCode 审查修复 → Claude 再修复，循环下去。不指定 -a 时默认就是这三个。

每个 Agent 的 prompt 模板在仓库 agents/*.md 中，可被项目级 .autoresearch/agents/*.md 覆盖——不同项目可以给同一个 Agent 不同的行为指令。

模型层面也可以调。全局指定所有 Agent 用 Opus：

1	AGENT_MODEL=opus autoresearch/run.sh 10

或者每个 Agent 不同：

1	AGENT_MODEL_CLAUDE=sonnet AGENT_MODEL_CODEX=gpt-5.2 autoresearch/run.sh 10

Claude 跑 Sonnet 降低成本，Codex 跑 GPT-5.2 提供不同的审查视角。

7.2.5 Continue 模式

autoresearch 的状态保存在迭代日志中。API 挂了、网络断了、机器重启，回来继续：

1	autoresearch/run.sh -c 42 10

从 Issue #42 上次中断的迭代继续，再跑最多 10 轮。不从零开始。

7.2.6 本地 Issue 模式

不需要 GitHub。Issue 写成本地 .md 文件，autoresearch 读文件、写代码到本地分支、结果追加回文件末尾：

mkdir -p .autoresearch/issues
cat > .autoresearch/issues/issue-008-add-login.md << 'EOF'
# Add login feature
实现用户登录功能，支持邮箱+密码登录。

## 验收标准
- [ ] 登录页有邮箱和密码两个输入框
- [ ] 输入正确凭据后跳转到首页
- [ ] 输入错误凭据后显示错误提示
- [ ] 登录状态用 JWT 存储在 localStorage
EOF

autoresearch/run.sh --issues-dir=.autoresearch/issues 8

命名规则：issue-NNN-描述.md，三位数字。run.sh 8 匹配 issue-008-*.md 或 issue-8-*.md。结果（评分、迭代轮数、分支名、时间戳）追加到文件末尾的 --- 分隔线之后。适合内网项目、个人项目、不想连 GitHub API 的场景。

7.2.7 多平台

autoresearch 根据 Git remote 自动检测平台，四种模式一套命令：

平台	检测条件	Issue 来源	PR/MR
GitHub	默认	`gh issue view`	PR → merge → close
本地	本地文件匹配	`.md` 文件	仅本地分支
百度 iCafe	remote 含 `icode.baidu.com`	`icafe-cli`	push CR + submit review
阿里云效 Codeup	指定 `--issue-source=codeup`	REST API	MR → merge → close

百度模式示例：

1	autoresearch/run.sh --issue-source=baidu --space=cloud-iCafe 22210

Codeup 模式需要 token 和组织信息：

1 2	export CODEUP_TOKEN=xxx CODEUP_ORG_ID=123 CODEUP_REPO_ID=456 autoresearch/run.sh --issue-source=codeup 42

四种模式共用同一套 Agent 轮转逻辑和质量门禁——变的只是 Issue 来源和 PR/MR 创建方式。

7.2.8 配置：program.md 与 .autoresearch/

项目的规矩写在 .autoresearch/ 目录中。完整结构：

.autoresearch/
├── program.md                 ← 实现规则（Agent 每轮读取）
├── agents/                    ← 覆盖默认 Agent prompt
│   ├── claude.md
│   ├── codex.md
│   ├── claude-mimo.md
│   └── opencode.md
├── issues/                    ← 本地 Issue 文件
│   └── issue-008-*.md
├── workflows/                 ← 迭代日志（自动生成）
└── results.tsv                ← 处理结果汇总（自动生成）

program.md 是最核心的配置文件。内容四部分：权限边界（什么能改、什么不能改）、代码规范（通用 + 语言特定）、测试要求、提交规范。仓库自带一个多语言模板——Go、Python、Rust、TypeScript、Java 各一份。实际使用时按项目语言裁剪，删掉无关部分以降低 token 消耗。

7.2.9 环境变量速查

变量	默认值	作用
`PASSING_SCORE`	85	LLM 评分达标线（0-100）
`AGENT_MODEL`	CLI 默认	所有 Agent 统一模型
`AGENT_MODEL_CLAUDE`	—	Claude 专属模型
`AGENT_MODEL_CODEX`	—	Codex 专属模型
`AGENT_MODEL_OPENCODE`	—	OpenCode 专属模型
`MAX_CONSECUTIVE_FAILURES`	3	连续失败 N 次后停止
`MAX_RETRIES`	5	单次 Agent 调用重试次数

调整 PASSING_SCORE 是调质量门槛——90 更严格，80 更宽松。调整 AGENT_MODEL 是调成本——Sonnet 便宜但审查不如 Opus 深，按项目预算取舍。

7.2.10 全量 Issue 批处理

不止单个 Issue。run_all.sh 可以一批处理全部开放 Issue：

1	autoresearch/run_all.sh --issue-source=codeup --codeup-token=xxx --codeup-org=123 --codeup-repo=456

晚上把十几个 Issue 丢给 run_all.sh，早上看 results.tsv——哪些通过了、哪些还在迭代、哪些失败了。人的时间用在判断结果上，不在盯着 Agent 上。

7.3 核心架构：四个机制撑起全自动

autoresearch 的架构不复杂。核心就是四个机制叠在一起。

7.3.1 多 Agent 轮转：让不同模型互相审查

这是 autoresearch 和 Ralph Loop 最根本的差异。Ralph Loop 是单 Agent 反复迭代——同一个模型反复读自己的代码、改自己的代码、判自己的代码。问题很明显：模型的盲区是固定的。它看不出来的问题，迭代一百次还是看不出来。

autoresearch 换了一种模式。它支持五个 Agent——Claude Code、Codex、OpenCode、Claude-Mimo、DeepSeek。你通过 -a 参数指定用哪几个、按什么顺序。

轮转公式很简单：(iter − 1) % N。第一个 Agent 做初始实现。第二个 Agent 审查第一个的产出，发现问题就修。第三个 Agent 审查第二个修完的结果，再发现问题再修。以此类推，循环轮转。

不同模型有不同盲区。Claude 容易漏掉的东西，Codex 可能一眼就看到。Codex 的代码风格问题，OpenCode 可能立刻揪出来。三个模型交叉审核的覆盖面，远超单模型自我审查十轮。这和代码审查中多 reviewer 的效果优于单人反复 self-review 是一个道理——只不过 reviewer 从人类换成了不同的 AI 模型。

7.3.2 Issue 驱动：验收标准即合约

autoresearch 的一切从 Issue 开始。GitHub Issue、本地 .md 文件、百度 iCafe 卡片、阿里云效 Codeup——四选一，自动检测。

Issue 是合约。验收标准写在 Issue 里（checkbox 格式），Agent 读到就知道什么叫「做完了」。这和第 3 章 SDD 的核心理念一致：先在规格上达成一致，再写代码。区别在于 SDD 是人类和 AI 之间的合约，autoresearch 把它变成了 AI 和自己之间的合约——Agent 自己读验收标准，自己判断是否满足，不满足就继续迭代。

单 Issue 执行流程分五个阶段：

解析阶段：读取 Issue，提取标题、描述、验收标准
规划阶段：自动拆分子任务（如果 Issue 足够复杂）
实现阶段：首个 Agent 初始实现 → 轮转审查 → 修复
质量门禁：Build/Lint/Test 全部通过 + LLM 评分 ≥ 85
收尾阶段：创建 PR → 合并 → 评论 → 关闭 Issue

五个阶段全自动。人只做了一件事——写 Issue。

7.3.3 双轨质量门禁：硬门禁 + 软门禁

autoresearch 的质量保证分两层。

硬门禁：Build、Lint、Test 必须全部通过。这是确定性检查——过了就是过了，没过就是没过，没有任何模糊空间。和第 6 章 superpowers 的 verification-before-completion 做的事一样——代码能跑是最低门槛。

软门禁：LLM 评分 ≥ 85 分。这是语义质量评估——不看代码能不能跑，看代码写得好不好。评分分五个维度，加权计算：

维度	权重	检查内容
正确性	35%	功能是否符合 Issue 需求、边界和错误是否处理、有无逻辑错误和并发问题
测试质量	25%	核心逻辑是否被测试覆盖、边界和错误路径有无测试、用例命名是否清晰
代码质量	20%	命名是否清晰、结构是否合理、是否遵循项目规范、有无重复代码
安全性	10%	有无注入风险、有无敏感信息泄露、输入验证是否完备
性能	10%	有无明显性能问题、有无不必要的内存分配、并发控制是否合理

每个维度按问题严重程度给分：无问题 100 分，有建议改进 90 分，有一般问题 70 分，有严重问题 40 分，有致命问题 10 分。加权总分 = 各维度得分 × 权重之和。默认达标线 85 分，可通过 PASSING_SCORE 环境变量调整。

测试质量维度有一个豁免规则：如果项目类型不适用单元测试（Shell 脚本、配置文件等），该维度默认 100 分，审核者需注明豁免原因。

双轨设计回答了传统 CI 的一个长期缺陷：CI 只能检查「能不能跑」，不能检查「写得好不好」。一个测试全绿的代码库仍然可能是一团不可维护的浆糊。硬门禁保证下限，软门禁拉高上限。未达标就进入下一轮迭代——换一个 Agent 重新审查和修复。

7.3.4 program.md：编码在文件里的规矩

每个项目有自己的规矩——代码风格、架构约束、技术选型。autoresearch 提供了一个 program.md 文件，把这些规矩写下来，Agent 在实现 Issue 时自动读取。

内容包括四部分：权限边界（什么能改、什么不能改）、代码规范（通用 + 语言特定）、测试要求、提交规范。支持 Go、Python、Rust、TypeScript、Java 的多语言模板。放到项目的 .autoresearch/program.md 下，Agent 自己读，自己遵守。

这和第 1 章「用结构化知识驾驭非结构化 AI 能力」一脉相承。program.md 就是结构化知识——可复用、可迭代、可版本控制。Agent 每轮读取它，就相当于每次都被同样的规矩约束一次。规矩不是靠人盯着执行的，是靠文件自动注入的。

7.4 工作流全景

7.4.1 从 PRD 到合入的完整链路

autoresearch 和 Goal Workflow（第 8 章）连在一起，构成完整的端到端流水线：

1	/prd 生成 PRD → 拆分为细粒度 Issue → autoresearch 逐个实现 → 全部合入

用 /prd 生成交付需求文档。让 Agent 基于 PRD 拆分成细粒度 Issue——每个 Issue 小到可以在单次开发会话中完成，有明确的 checkbox 验收标准，标注依赖关系。然后 autoresearch 逐个吞下这些 Issue，自动实现、审查、合入。

smallnest 在自己的 Desktop App 项目上验证过这条链路：19 个 Issue（#22 到 #40），从 PRD 到全部实现，全自动。

7.4.2 Continue 模式与容错

全自动系统必须能处理异常。autoresearch 有三层容错：

-c 标志：从上次中断的迭代继续执行。API 挂了、网络断了、机器重启了——回来继续，不从头开始。
连续失败停止阈值：同一个 Issue 连续失败 N 次后自动停止，不发散消耗资源。
单次 Agent 调用重试：应对 API 临时故障，不是一次调用失败就终止整个流程。

7.5 多平台支持

autoresearch 的跨平台适配覆盖四种研发场景，而非笼统的「支持多种 Git 平台」。

GitHub 模式：默认。依赖 gh CLI，自动 push → 创建 PR → Squash Merge → 评论总结 → 关闭 Issue。

本地 Issue 模式：不需要 GitHub，不需要网络。Issue 文件放在 .autoresearch/issues/issue-NNN-描述.md，Agent 读本地文件，代码提交到本地分支，结果追加到 Issue 文件末尾。适合内网项目、个人项目、不想开 GitHub Issue 的场景。

百度 iCafe + iCode 模式：适配百度内部研发体系。Git remote 包含 icode.baidu.com 时自动切换。用 icafe-cli 读卡片，用 icode-cli 提交代码审查，评分 +2 后合入，自动关闭卡片。

阿里云效 Codeup 模式：通过 REST API 操作 Issue、MR、合并、评论。适合使用阿里云效的企业团队。

四种模式，一套流程。Agent 根据 Git remote 和本地文件自动检测切换。人不需要记住「当前项目是什么模式」。

7.6 实战：用 autoresearch 开发网页版贪吃蛇

同一个贪吃蛇。第六种体验。

不打开 Claude Code 手动交互。不回答 brainstorming 的五个问题。不确认设计方案。

写一个 Issue，然后放手。

7.6.1 准备：把需求写成 Issue

因为是重点要介绍autoresearch中代码实现阶段，所以这个例子中issue是手工创建的,你也可以使用/prd生成需求文档，拆解Issues。

在项目仓库中创建一个本地 Issue 文件：

1	.autoresearch/issues/issue-001-snake-game.md

内容：

# 网页版贪吃蛇游戏

纯前端单文件 HTML/CSS/JS 实现，不依赖任何框架。

## 验收标准

- [ ] 打开 index.html 后能看到 20x20 网格和一条初始长度为 3 的绿色蛇
- [ ] 方向键控制蛇移动，不能反向（向右时按左键无效）
- [ ] 随机位置出现红色食物，蛇头碰到食物后蛇身变长 1 格，食物刷新
- [ ] 撞墙或撞到自己 → 游戏结束，HTML modal 弹窗显示得分
- [ ] 按空格键重新开始，游戏重置为初始状态
- [ ] 最高分用 localStorage 持久化，刷新页面后仍在
- [ ] 隐私模式下 localStorage 不可用时优雅降级（try-catch，默认最高分 0）
- [ ] 游戏循环用 requestAnimationFrame + 手动计时（初始 150ms/步），不用 setInterval

## 技术要求

- 单文件 snake-game/index.html
- 状态层（gameState 对象）和渲染层（Canvas 绘制）分离
- 键盘事件写入 nextDirection 缓冲，gameLoop 在 update() 中同步到 direction
- test.html 覆盖全部验收标准

然后一行命令：

1	autoresearch/run.sh --issues-dir=.autoresearch/issues 1

人做的事做完了。下面是 Agent 的事。

7.6.2 执行：三个 Agent 轮转四轮

配置用了三个 Agent：Claude Code、Codex、OpenCode。最大迭代 8 轮，LLM 评分达标线 85。

第 1 轮（Claude Code，初始实现）：Claude 读 Issue，拆成四个子任务——HTML 结构与 Canvas 渲染、游戏循环与状态管理、碰撞检测与食物系统、分数系统与 UI 状态。依次实现，产出一个完整的 snake-game/index.html 和 test.html。跑测试——8 个用例，6 个通过，2 个失败：食物偶尔生成在蛇身上，modal 弹窗出现后方向键仍能控制蛇。Build 通过。Lint 通过。LLM 自评 72 分。不达标，进入第 2 轮。

第 2 轮（Codex，审查修复）：Codex 拿到 Claude 的代码和测试结果。审查发现三个问题：食物随机生成没检查蛇身重叠、gameLoop 用了 setInterval 而非 requestAnimationFrame、游戏结束时没拦截键盘事件。Codex 逐一修复。跑测试——8/8 通过。LLM 评分 82。不达标，但方向是对的，进入第 3 轮。

第 3 轮（OpenCode，审查修复）：OpenCode 发现 Codex 修复键盘拦截时只处理了方向键，没处理空格键——游戏结束按空格也能重置，但重置后蛇立刻开始移动（因为空格键事件没被阻止冒泡）。还发现 localStorage 读写没包 try-catch，隐私模式会崩。修复后测试 8/8 通过。LLM 评分 88。达标。

第 4 轮（质量确认）：评分达标后 autoresearch 自动跑最终验证——Build、Lint、Test 全部通过。自动创建 commit（Conventional Commits 格式），推送到分支 autoresearch/issue-001。因为是本地 Issue 模式，结果追加到 Issue 文件末尾，分支保留在本地。

全过程约十二分钟，零人工干预。第 6 章 superpowers 实战中人类还参与了两次——回答问题、确认方案。autoresearch 实战中人类只做了一件事：写 Issue。第 4 章 Ralph Loop 实战中第 3 轮才抓到的 modal 焦点问题，autoresearch 在第 2 轮就被 Codex 抓到了。不是 Claude 比 Ralph Loop 的 Agent 聪明——多 Agent 交叉审查覆盖了单 Agent 的盲区。

7.6.3 和第 5、6 章的对比

同一个贪吃蛇，三种方法论：

维度	gstack（第 5 章）	superpowers（第 6 章）	autoresearch（本章）
人类参与	逐个阶段运行命令，约 2 小时	回答 5 个设计问题，约 5 分钟	写一个 Issue，约 3 分钟
Agent 模型	多角色但同一 Agent	子 Agent 分工，主 Agent 协调	多 Agent 轮转交叉审核
审查方式	4 个角色分维度审查	子 Agent 两阶段审查（规格+质量）	不同模型交叉审查 + LLM 评分
质量门禁	PreToolUse hooks	HARD-GATE 认知门控	硬门禁（Build/Lint/Test）+ 软门禁（评分 ≥ 85）
交付方式	手动 `/ship`	手动选择合入方式	全自动 PR → 合入 → 关 Issue
最佳场景	从零到一的完整项目	中等复杂度的独立功能	Issue 明确、可独立验证的功能

autoresearch 的时间最短（十二分钟），人类参与最少（三分钟）。但它的上限也最依赖输入质量——Issue 里验收标准写得好不好，直接决定最终产出。写得模糊，Agent 在「做没做完」这个问题上就会反复摇摆。写得精确（checkbox 格式、可验证条件），Agent 自己就能判断。

7.7 与 Ralph Loop 的对比

autoresearch 和 Ralph Loop 都解决「让 Agent 自主完成工作」的问题，但思路完全不同。

维度	autoresearch	Ralph Loop
驱动方式	Issue + checkbox 验收标准	prompt 文件（.md）
Agent 模型	多 Agent 轮转交叉审核	单 Agent 反复迭代
质量判断	硬门禁（Build/Lint/Test）+ 软门禁（LLM 评分 ≥ 85）	completion promise 短语匹配
审查机制	不同模型交叉审查	同一模型自我审查
端到端	Issue → PR → 合并 → 关闭（全自动闭环）	止步于代码完成
容错	continue 模式 + 连续失败停止 + 调用重试	max-iterations 安全阀
多平台	GitHub / 本地 / iCafe / Codeup	依赖 Claude Code Stop Hook

两者的关系不是替代，是递进。Ralph Loop 是「一个任务反复做到对」。autoresearch 是「一个 Issue 从头做到尾，不同模型轮流做」。后者多了两层东西：多 Agent 交叉审核覆盖盲区，端到端闭环减少人工操作。代价是配置更复杂——需要安装多个 Agent CLI，需要设置 program.md，需要理解轮转逻辑。

选哪个？任务简单、验收标准可以写成 completion promise——Ralph Loop 更轻。任务复杂、需要多角度审查、需要端到端自动化——autoresearch 更完整。

7.8 设计哲学：三个「优于」

autoresearch 的设计背后有三条价值判断。

「交叉审核」优于「反复迭代」。 单模型反复改自己的代码，能纠正语法错误和逻辑 bug，但改不了思维惯性——它觉得「这样写没问题」的地方，迭代多少次都不会改。换一个模型来审查，同样的代码会被不同「审美」重新评估。这和人类代码审查中「多个 reviewer 审同一段代码」的效果一致——每个人（每个模型）看到的都是不同的东西。

「双轨门禁」优于「单维度检查」。 传统 CI 只判断「能不能跑」。能跑不等于写得好——测试全绿的代码库可能是定时炸弹。LLM 评分检查传统 CI 覆盖不到的东西：架构是否合理、命名是否表意、错误处理是否完备、有没有反模式。硬门禁守底线，软门禁拉上限。

「全自动闭环」优于「分步半自动」。 不只是生成代码。PR 创建、等待 CI、合并、关闭 Issue——这些机械操作也自动掉。每一步人工介入都是延迟和出错的机会。人应该把精力花在定义验收标准上——这个标准写得好不好，直接决定最终产出质量——而不是花在点「Merge」按钮上。

7.9 适用边界

autoresearch 有明确的适用条件。它高度依赖一个前提：Issue 写得好。

最适合：

验收标准可量化、可验证的功能。 checkbox 里的每一项都能跑测试或 lint 验证。Agent 不需要「觉得」自己做完了——测试结果告诉它做完了。贪吃蛇就是典型：蛇能不能动、食物能不能吃、撞墙会不会死——全都能写 assert。
中等粒度的独立 Issue。 一个 Issue 能在单个 Agent 的上下文窗口内完成，验收标准明确，不依赖其他 Issue 的产出。太大——Agent 迷路。太小——autoresearch 的启动成本高于实现成本。
需要多轮审查的复杂逻辑。 涉及并发安全、状态机转换、边界条件多的代码——单 Agent 容易漏，多 Agent 交叉审查的收益最高。
批量 Issue 的夜间自主执行。 配合 run_all.sh，晚上把十几个 Issue 丢进去，早上看结果。

不适合：

验收标准模糊的任务。 「让这个页面更好看」「优化用户体验」——Agent 不知道什么叫「更好看」，LLM 评分也会反复摇摆。autoresearch 不能替你做设计决策。
跨 Issue 的架构变更。 每个 Issue 是独立执行的，Agent 不知道其他 Issue 做了什么。跨多个 Issue 的重构、API 变更、数据模型迁移——需要人在更高的层面协调。
需要人类判断的探索性工作。 「试试看这个技术方案行不行」——探索的结果需要人来解读，不能交给 LLM 评分来判定。

代价：

适用场景说清了，但 autoresearch 有两个绕不过去的成本。

第一个是时间。一个 Issue 走完「实现 → 审查 → 修复 → 再审查 → 评分达标」的完整流程，少则十几分钟，多则几十分钟。贪吃蛇这种体量的功能跑了四轮十二分钟——这算快的。复杂 Issue 迭代五六轮甚至更多，半小时以上很常见。对比人类开发者自己写可能只要十分钟的功能，autoresearch 反而更慢。但这不是 apples-to-apples 的对比——autoresearch 省的是人的注意力，不是绝对时间。你在等它的十几分钟里可以做别的事，或者干脆不坐在电脑前。

第二个是 token。每轮迭代，Agent 要读 Issue、读代码、读 program.md、读前一轮的审查报告、读测试结果——上下文越积越厚。贪吃蛇的四轮跑下来，token 消耗轻易过几十万。如果三个 Agent 各跑两轮，就是六次完整的上下文加载。单 Agent 的 Ralph Loop 也有这个问题，但 autoresearch 的多 Agent 轮转让每个 Agent 都从头加载上下文，token 成本乘以 Agent 数量。功能全自动了，API 账单也全自动了。

这两个代价不是要否定 autoresearch。它是交易——用时间和 token 换人的注意力解放和代码质量的确定性。交易划不划算，看你更缺什么。缺时间——自己写更快。缺注意力——让 autoresearch 跑，你去睡觉。

一个实用判断：Issue 里的验收标准能写成 checkbox 格式，autoresearch 稳。写不成——先别用。

7.10 与前后章节的关系

autoresearch 与 Ralph Loop（第 4 章）。 autoresearch 是 Ralph Loop 的「多 Agent + 端到端」升级版。Ralph Loop 是单 Agent 反复迭代直到 promise 匹配。autoresearch 是多 Agent 轮转审查直到评分达标。Ralph Loop 止步于代码完成，autoresearch 一路走到 Issue 关闭。两者的核心循环逻辑是一样的——「没达标就继续」——autoresearch 在上面加了两层：交叉审查和自动交付。

autoresearch 与 gstack（第 5 章）。 gstack 的质量保证靠角色覆盖——CEO 审方向、工程经理审架构、QA 测功能、安全官审漏洞。autoresearch 的质量保证靠模型覆盖——Claude 实现、Codex 审查、OpenCode 再审查。gstack 的角色是人格化的——「你是一个有十五年经验的员工工程师」。autoresearch 的 Agent 是去人格化的——就是不同的模型，不带角色身份。两条路：gstack 在 prompt 层面模拟专家多样性，autoresearch 在模型层面实现真实多样性。

autoresearch 与 superpowers（第 6 章）。 superpowers 的 subagent-driven-development 和 autoresearch 的多 Agent 轮转都用了多 Agent 协作。但协作模式不同。superpowers 是分工式——每个子 Agent 负责一个独立任务，主 Agent 协调审查。autoresearch 是接力式——同一个任务在不同 Agent 之间传递，每个 Agent 在前一个的基础上审查和改进。superpowers 的上下文隔离更好（每个子 Agent 全新上下文），autoresearch 的审查覆盖更广（多个模型的视角叠加）。

autoresearch 与 Goal Workflow（第 8 章）。 这是最紧密的一组关系。Goal Workflow 的四步闭环（PRD → Issue 拆分 → /goal 实现 → /ship-it 交付）把研发流程拆成了四个步骤。autoresearch 是其中 /goal 步骤的全自动化版本——「帮我实现这个 Issue」升级为「自动实现所有 Issue」。第 8 章会讲 Goal Workflow 如何把 autoresearch 嵌进一个更完整的研发体系。

7.11 本章小结

autoresearch 的名字来自 Karpathy 的 82K Stars 项目，但 smallnest 做的是完全不同的东西——ML 实验自动化变成了软件工程全流程自动化。

它的核心设计三条：

多 Agent 轮转替代单 Agent 迭代。 不同模型有不同的盲区。Claude 看不到的问题 Codex 能看到，Codex 改不好的地方 OpenCode 能改好。轮转公式 (iter − 1) % N 保证了每个 Agent 都有机会审查和修复。这和人类代码审查中多 reviewer 的效果一致——审的人越多，漏掉的越少。
双轨门禁替代单维度检查。 硬门禁（Build/Lint/Test）保证代码能跑。软门禁（LLM 评分 ≥ 85）保证代码写得好。传统 CI 只能做到前者。autoresearch 两条都做。未达标就换 Agent 继续迭代，直到两条都通过。
端到端闭环替代分步半自动。 不只是生成代码。从 Issue 解析到 PR 创建到合并到关闭 Issue——全自动。人的角色从「操作者」变成了「验收标准定义者」。这和第 1 章的核心主张一脉相承：在 AI 时代，你的价值不再是「你能写多快的代码」，而是「你能不能定义清楚什么算做好」。

把本章和前两章放在一起看，三条路线对应三种自动化程度。gstack 是人驱动流程——你走七个阶段，Agent 辅助执行。superpowers 是 Agent 驱动流程——Agent 自己走流程，人类在关键决策点确认。autoresearch 是全自动流程——人类只定义目标，Agent 从实现到交付全包。

没有高下之分。但自动化程度越高，对输入质量的要求越高。gstack 的 /office-hours 能容忍模糊的想法，六个强制问题帮你逐步澄清。autoresearch 的 Issue 必须一开始就写清楚——它不会在过程中追问你「这个验收标准具体是什么意思」。选哪种路线，看你对自己「能写清楚到什么程度」的诚实判断。

本书第 8 章的 Goal Workflow 把 PRD、Issue 拆分、autoresearch 实现、交付合入串成了一条从 PRD 到上线的研发闭环。如果你觉得 autoresearch 的「全自动实现 Issue」还不够，Goal Workflow 会展开完整的项目研发流程自动化方案。

superpowers 技能框架：Agent 能力增强

2026-06-28T02:30:00.000Z

"The agent checks for relevant skills before any task. Mandatory workflows, not suggestions."
Agent 在执行任何任务之前，先检查自己有没有对应的技能。这些是强制工作流，不是建议。
——Jesse Vincent, Superpowers 作者, 2025 年

gstack 用二十三个角色和七个 Sprint 阶段构建流程驱动的虚拟工程团队。CEO 审方向，工程经理锁架构，QA 测功能，安全官审漏洞——每个角色在固定阶段做固定的事。

superpowers 走相反的路。

superpowers 不定义任何角色。不强制任何 Sprint 阶段。它只做一件事：给你十四个 Skill，让 Agent 自己在合适的时机调用合适的那个。不靠流程锁住质量——靠每个 Skill 足够好用，Agent 自己愿意用它们。

201K+ Stars。当你不信任流程、只信任工具时，AI 软件工程能做多大——这个数字就是答案。

6.1 一个拒绝流程的系统

superpowers 的作者是 Jesse Vincent，Prime Radiant 的创始人。他给这个项目起的名字——"超能力"。让一个普通 AI Agent 变成一个有方法论的 Agent 的十四种超能力。

2025 年 10 月发布，不到一年冲到 201K+ Stars。这个数字在所有 AI 编程方法论相关仓库里排第一——超过 gstack（约 5K），超过 OpenSpec（约 49K），超过 Ralph Loop 所有实现的总和。

从 README 第一段就能看出来：

"It starts from the moment you fire up your coding agent. As soon as it sees that you're building something, it doesn't just jump into trying to write code. Instead, it steps back and asks you what you're really trying to do."

Agent 启动时不写代码。它退一步，先问你想做什么。这个行为是 Skill 自动触发的——Agent 检测到自己即将开始开发工作时，brainstorming 技能自动激活，强制走一轮需求澄清。

gstack 的流程是人类驱动的——你手动调用 /office-hours，然后 /plan-ceo-review，然后 /autoplan。superpowers 的流程是 Agent 驱动的——你只需要打开 Agent 开始工作，它在合适的时机自动加载合适的 Skill。你不说"先做设计"，Agent 自己知道要先做设计。

两条路。gstack 要的是控制——流程固定，角色明确，每个阶段的输出和输入都有明确的合约。superpowers 要的是自主——给 Agent 十四种能力，让它自己判断什么时候该用什么。

6.2 核心机制：自动触发 + 强制门控

superpowers 的十四个 Skill 并不新。brainstorming、TDD、systematic-debugging——这些概念第二章的 Pocock Skills 里都有。superpowers 的不同在两个地方。

6.2.1 自动触发：Agent 自己决定用什么 Skill

Pocock 的系统里，用户手动调用 /tdd、/diagnose、/grill-me。gstack 里，用户手动走 Sprint 阶段。

superpowers 的设计是：每个 Skill 的 description 字段里写了触发条件。Agent 在执行任务前检查所有已加载 Skill 的 description，匹配当前场景就自动激活。比如 Agent 准备写代码时，brainstorming 的 description 是"你必须在任何创造性工作之前使用此技能"，Agent 读到这句话，强制自己先做需求澄清。

一个文本匹配机制，Agent 会跳过吗？效果出奇地好。关键在 description 的措辞。它不说"建议使用此技能"，说"在任何创造性工作之前必须使用此技能"。不说"可以考虑 TDD"，说"强制执行红-绿-重构：先写会失败的测试，看着它失败，写最少代码让它通过，看着它通过，提交。删除在测试之前写的任何代码。"命令式的、不可协商的语言，Agent 就会遵守。

6.2.2 硬门控：HARD-GATE 标签

有些 Skill 里嵌了一段特殊代码：


Do NOT invoke any implementation skill, write any code, scaffold any project,
or take any implementation action until you have presented a design and the
user has approved it.

HARD-GATE 是给 Agent 的行为约束——在进入下一个阶段之前，必须先完成当前阶段的硬性条件。brainstorming 有它——设计没被批准，一行代码都不准写。test-driven-development 有它——测试没写、没看到它失败，不准写实现代码。

gstack 用 PreToolUse hooks 在系统层面锁住 commit 按钮。superpowers 用 prompt 内嵌的指令在 Agent 认知层面锁住行动。前者是操作系统的强制，后者是心理的强制。都有效，但原理不同。hooks 在你的平台不支持时就失效了。HARD-GATE 在任何平台上都有效——它只是 prompt 里的一段文本。但它也更软——依赖 Agent 遵循指令的能力。在 Claude 4.x 上表现良好，在更弱的模型上可能被跳过。

6.3 十四种超能力

superpowers 把十四个 Skill 分成了五组。

6.3.1 规划组：动手前先想清楚

brainstorming（头脑风暴）。这是整个系统的入口 Skill。Agent 检测到开发任务时自动激活，执行九步流程：探索项目上下文 → 询问视觉需求 → 逐个澄清问题 → 提出 2-3 个方案并推荐 → 分段展示设计 → 用户批准 → 写入设计文档 → 自审 → 用户复审 → 进入实施计划阶段。

它强制 Agent "一次只问一个问题"（Only one question per message）。这个约束防止了 Agent 一次性抛出十几个问题让用户不知所措——AI 常见的"过度热情"在这种设计下被抑制了。每一步都要等用户回答，节奏是人类控制的。

Skill 的态度很明确：每个项目都要走这个流程。todo list、一个函数、一个配置修改——全部要。简单的项目设计可以很短（几句话），但必须被呈现和批准。

writing-plans（编写计划）。设计被批准后激活。把设计方案拆成 2-5 分钟能完成的小任务。每个任务包含精确的文件路径、完整的代码框架、验证步骤。粒度设计有一个清晰的标准：一个任务必须小到可以被一个子 Agent 在隔离的上下文中独立完成。

executing-plans（执行计划）。按计划逐个任务执行，每个任务完成后检查点暂停等待用户确认。和下面的 subagent-driven-development 是互斥的两条路径——前者适合需要人在循环中的场景，后者适合自主执行的场景。

6.3.2 开发组：质量的底层保障

test-driven-development（测试驱动开发）。红-绿-重构的严格执行——先写会失败的测试，看着它失败，写最少代码让它通过，看着它通过，提交。最狠的规则：删除在测试之前写的任何代码。断了"先写实现再补测试"这条路。

红-绿-重构是 TDD 的核心循环。红——先写一个会失败的测试，确认测试确实失败了（不是假通过）。绿——写最少量的代码让测试通过，不求优雅，只求过关。重构——测试全绿后，清理代码结构，消除重复，改善命名，测试必须保持绿色。然后下一个循环。三步顺序不能乱：先有失败的测试，才有资格写实现代码。

systematic-debugging（系统化调试）。四阶段根因分析：复现 → 定位 → 假设 → 修复。包含三个子技术：根因追踪（不只修症状）、纵深防御（修 bug 同时加固相关路径）、条件等待（不靠 sleep 轮询）。

subagent-driven-development（子 Agent 驱动开发）。这是 superpowers 最具原创性的 Skill。核心逻辑：每个任务派一个全新的子 Agent 去实现，主 Agent 只负责协调。每个任务完成后两阶段审查：先审规格符合性（代码是不是做了该做的事），再审代码质量（代码写得好不好）。子 Agent 上下文是干净的——主 Agent 精确构造子 Agent 需要的上下文，不把整个会话历史塞进去。主 Agent 自己的上下文窗口留给协调工作。

这直接回应了第 4 章 Ralph Loop 的一个已知问题：循环膨胀。一个 Agent 在同一个会话中连续迭代十几次，上下文中的噪音（失败的尝试、被废弃的思路、旧的代码片段）越积越多，决策质量逐渐下降。子 Agent 模式通过"每个任务一个新 Agent"解决了这个问题——每个子 Agent 的上下文都是干净的，只包含完成当前任务所需的最小信息。

verification-before-completion（完成前验证）。声称"做完了"之前必须跑验证——系统地检查每个验收标准是否被满足，不满足于"测试跑过一次通过了"。这和 Ralph Loop 的 completion promise 做的事一样：阻止 Agent 在没做完的时候说自己做完了。

6.3.3 审查组：两道防线

requesting-code-review（请求代码审查）。任务之间自动触发。对照计划审查，按严重程度分级报告问题。关键问题阻塞进度。

receiving-code-review（接收代码审查）。处理审查反馈的行为规范——如何分类反馈、如何回应、什么情况下可以拒绝修改建议。Agent 响应审查反馈的方式和质量也需要训练。

6.3.4 工具组：工程基础设施

dispatching-parallel-agents（派遣并行 Agent）。多个独立任务同时启动子 Agent 并行执行。适合计划中有明显无依赖关系的任务组。

using-git-worktrees（Git Worktree 使用）。设计被批准后自动激活——创建隔离的 git worktree，在新分支上工作，跑项目初始化，验证测试基线。和第 10 章的 Harness Engineering 一脉相承——用 git worktree 实现进程级隔离，而不是依赖 Agent 的自我约束。

finishing-a-development-branch（完成开发分支）。所有任务完成后激活。验证所有测试通过，给出四个选项：合并到主分支、创建 PR、保留分支、丢弃分支。清理 worktree。

6.3.5 元技能组：制造超能力的超能力

writing-skills（编写 Skill）。教 Agent 怎么样创建一个新 Skill。包含测试方法论——新 Skill 写完后必须通过行为验证。有了 writing-skills，superpowers 就成了一个可以自我扩展的系统。

using-superpowers（使用 Superpowers）。介绍整个系统的新手指南。Agent 第一次加载 superpowers 时自动激活。

6.4 superpowers-zh：中文生态的本地化

superpowers-zh 由 jnMetaCode 开发，3.6K+ Stars。完整汉化，加六个中国原创 Skill。

六个原创 Skill 瞄准的是中文开发者自己的场景：

chinese-code-review 适配了国内团队的代码审查文化——审查报告的措辞、评论的优先级标注、修改建议的表达方式，都按国内工程师习惯的交流方式重新设计，不是简单翻译英文版。chinese-git-workflow 支持 Gitee、CODING、极狐 GitLab、CNB 等国内代码托管平台——git worktree 的创建、PR/MR 的提交和合并流程都做了适配。chinese-documentation 强制中文排版规范——中英文之间的空格、标点符号的使用、技术术语的翻译标准。chinese-commit-conventions 将 Conventional Commits 规范适配到中文团队的实践——中英混合的 commit message 格式、中文 Issue 引用格式。mcp-builder 直接教 Agent 如何构建 MCP 服务器。workflow-runner 提供了多角色的 YAML 编排能力——弥补了 superpowers 原生不支持流程编排的短板。

目前支持十六款 AI 编码工具，从 Claude Code 到通义灵码（Qwen Code），一键安装自动检测平台。superpowers-zh 进一步扩大了跨平台兼容性——原版不支持的中国本土工具也被加了进来。

6.5 实战：用 superpowers 开发网页版贪吃蛇

同一个贪吃蛇。第五种体验。

6.5.1 启动：Agent 拒绝写代码

打开 Claude Code（已安装 superpowers），输入：

1	做一个贪吃蛇网页游戏。纯前端单文件。

在 Pocock Skills 下，Agent 可能直接开始写代码。在 gstack 下，你会手动调用 /office-hours。在 superpowers 下，Agent 的行为是自动的——brainstorming 技能检测到"creating features, building components"的场景，自动激活：

Agent: 在我开始之前，我需要先了解一些关键问题。你是想做一个完整的游戏，还是更偏向一个技术演示？（一次只问一个问题）
用户：演示项目。展示 AI 编码能力。
Agent: 了解了。演示项目意味着代码需要干净、可读、可展示。那么核心体验上——你希望这个游戏"看起来不错"更重要，还是"代码结构清晰"更重要？
用户：代码清晰更重要。
Agent: 明白了。那验收标准上——哪些行为是必须的，哪些是可以省略的？
用户：蛇能动，能吃食物，撞墙或撞到自己会死，死了能重来。最高分用 localStorage 存。
Agent: 好的。让我确认几个技术偏好：纯单文件 HTML/CSS/JS，不依赖任何框架？

五个问题后，Agent 产出一份设计文档，存入 docs/superpowers/specs/。然后自动过渡到 writing-plans——把设计拆成四个任务：

HTML 结构与 Canvas 渲染（20×20 网格，初始蛇 3 格，红色食物）
游戏循环与状态管理（requestAnimationFrame，150ms/步，nextDirection 缓冲防反向）
碰撞检测与食物系统（墙壁、自身、食物随机生成且不与蛇身重叠）
分数系统与 UI 状态（当前分/最高分、HTML modal 弹窗、localStorage、空格键重置）

每个任务标注了文件路径、实现要点、验证步骤。然后 Agent 开始执行。

6.5.2 子 Agent 驱动的实现过程

subagent-driven-development 激活。主 Agent 为每个任务派一个全新的子 Agent：

任务 1——派子 Agent A，只给 HTML 结构和 Canvas 渲染的上下文。子 Agent 在干净的环境中写代码，跑验证，提交。主 Agent 派审查子 Agent 做两阶段审查（规格符合性 → 代码质量），通过。

任务 2——派子 Agent B，只给任务 2 的上下文加上已完成的文件结构。子 Agent 实现了游戏循环和方向控制。审查子 Agent 发现了一个问题：方向缓冲的默认值没初始化，蛇可能在按键前就开始移动。打回修改。子 Agent B 修好，重新审查，通过。

任务 3——派子 Agent C，加碰撞检测和食物系统。审查通过。

任务 4——派子 Agent D，加分数系统和 modal 弹窗。审查子 Agent 提出：modal 弹窗出现时键盘事件没拦截，死了还能控制蛇。这是第 5 章 gstack 实战中 Review 阶段才发现的问题——在 superpowers 的流程里，子 Agent 审查阶段就揪出来了。子 Agent D 修复，重新审查，通过。

整个过程约十五分钟，人类参与了两次——回答 brainstorming 的五个问题，确认设计方案。其余全自动。

6.5.3 验证和交付

verification-before-completion 激活。Agent 逐条对照验收标准验证：蛇能动 ✓ 能吃食物 ✓ 撞墙死 ✓ 撞自己死 ✓ 分数更新 ✓ 最高分持久化 ✓ 空格键重置 ✓。全部通过后 Agent 报告完成。

finishing-a-development-branch 激活。Agent 给出四个选项，用户选择创建 PR。Agent 生成 commit（Conventional Commits 格式），推送到远程，创建 PR。

6.5.4 superpowers 和其他方法论的对比

同一个贪吃蛇，五种方法论：

维度	Pocock Skills	OpenSpec	Ralph Loop	gstack	superpowers
启动方式	手动调用 Skill	手动写 proposal	手动写 prompt	手动运行 `/office-hours`	Agent 自动激活 brainstorming
人类参与度	全程驾驶	每步写文档	写 prompt 后放手	逐个阶段运行命令	回答设计问题后放手
Agent 自主性	低	中	高	中	高
审查机制	Skill 内建验证	Spec 验收标准	自动重试+测试	四个角色分维度审查	子 Agent 两阶段审查（规格+质量）
上下文管理	单 Agent 累积	单 Agent 累积	单 Agent 累积	多角色但同一会话	每个任务新子 Agent，上下文隔离
流程强制力	引导	柔性门	自动循环	系统 hooks	认知门控（HARD-GATE）
最佳场景	日常小任务	有规格的功能	可自动验证的任务	从零到一的完整项目	中等复杂度的独立功能

superpowers 在贪吃蛇上只花了约十五分钟——比 gstack 的七个阶段快，比 Ralph Loop 的四轮迭代质量高（子 Agent 审查抓到了 Ralph 第 4 轮才抓到的 modal 焦点问题）。人类的参与时间约五分钟。

superpowers 没有 gstack 那种"CEO 审方向 → 工程经理锁架构 → 设计师审 UI"的全景角色覆盖。它依赖十四种工具覆盖足够多的场景——如果某个场景没有对应的 Skill，Agent 就没有那个维度的审查能力。gstack 的二十三个角色覆盖了产品、工程、设计、安全、运维的全部维度。superpowers 的十四个 Skill 更多地集中在工程实现环节，产品思考和安全管理相对薄弱。

6.6 设计哲学：自动化的代价

superpowers 和 gstack 是两条路。核心差异不在 Skill 数量——14 vs 35+。在谁驱动流程。

gstack 是人驱动流程。你判断什么时候进入 Think 阶段，你调用 /office-hours。你判断什么时候进入 Plan 阶段，你调用 /autoplan。流程的节奏和方向在你手上。好处是你能在每一步做出判断——CEO 审查结论否决了难度曲线功能，你知道为什么，你同意这个决定。坏处是你必须在每一步都参与——七个 Sprint 阶段走一遍，意味着你要在电脑前坐几个小时。

superpowers 是Agent 驱动流程。Agent 判断自己即将开始开发，自动激活 brainstorming。Agent 判断自己需要写实现计划，自动激活 writing-plans。流程是 Agent 自己推进的。好处是你只需要在关键决策点参与——设计批准时看一眼，方案选择时给个意见——剩下的 Agent 自己跑。坏处是 Agent 可能在你不注意的时候做出你不同意的决策。

两套系统对"信任"的假设相反。gstack 的假设是：你不能信任 AI 的自我判断——它会在应该先做设计时直接写代码，会在没做完时声称做完了。所以用系统级别的门控来强制执行。superpowers 的假设是：你可以部分信任 AI——给它好用的工具和清晰的行为约束（HARD-GATE），它会在大多数时候做出正确的选择。

哪种假设更接近现实？取决于你用的模型和任务的复杂度。Claude 4.x 上 superpowers 的自动触发表现良好——Agent 确实会在应该先做设计时停下来问问题。但在更弱的模型上，HARD-GATE 只是一段文本，Agent 可能直接跳过。gstack 的 hooks 门控在任何模型上都有效，但只在支持 hooks 的平台上有效。

Jesse Vincent 对这个问题的回答很务实：superpowers 不支持弱模型。项目明确要求 Claude 4.x 或同等能力的模型。如果你用的是弱模型，superpowers 不提供保障——它假设 Agent 有基本的指令遵循能力。

6.7 适用边界

superpowers 不像 gstack 那样有明确的"绿野项目""治理轨迹""单人团队"三类最佳场景。它的适用逻辑更简单——看任务类型。

最适合：

中等复杂度的功能开发。 一个独立的 CRUD 模块、一个 UI 组件的重构、一个数据处理的管道——任务足够复杂，值得走 brainstorming → plan → subagent 实现的完整流程；任务又足够独立，不需要跨系统的架构决策。这是 superpowers 的最佳区间。
需要长时间自主执行的场景。 subagent-driven-development 的核心优势是上下文隔离——每个子 Agent 带着最少的、最精确的上下文开始工作，不会被前面十几个任务的噪音干扰。这让 Agent 可以连续工作数小时而不偏离计划。
跨平台使用者。 superpowers 支持 Claude Code、Codex CLI、Cursor、Gemini CLI、OpenCode 等八个平台。你在一个平台上写的 Skill 可以直接在另一个平台上用。这一点 gstack 也在做（支持十款 AI 编码工具），但 superpowers 的跨平台兼容性更成熟——它的 Skill 格式更标准化，触发机制不依赖平台特有的 hooks 系统。

不适合：

从零到一的绿野项目。 没有 CEO 角色审产品方向、没有设计师角色审用户体验、没有安全官角色审计漏洞——superpowers 缺乏 gstack 那种全景角色覆盖。做一个全新产品，你仍然需要自己判断"该不该做"和"做给谁用"。
需要完整治理轨迹的项目。 superpowers 的设计文档存在 docs/superpowers/specs/ 下，但没有像 gstack 或 OpenSpec 那样的结构化审查记录和审计轨迹。合规性行业的需求它满足不了。
小修小补。 brainstorming 流程强制"每个项目都要走设计流程"，但改一个按钮颜色不值得九步设计流程。superpowers 的流程成本对小任务来说偏高——不像 Pocock Skills 那样可以单 Skill 快速调用。

一个实用的判断：任务是"写一个新功能"——superpowers 值回票价。任务是"做一个新产品"——gstack 更完整。任务是"修一个小 bug"——Pocock Skills 更快。

6.8 与前后章节的关系

superpowers 与 Skills（第 2 章）。 superpowers 的十四个 Skill 在格式上和 Pocock 的 Skill 没什么区别——都是 SKILL.md 文件，都有 metadata + description + body。核心差异在触发机制。Pocock 的 Skill 是手动调用的——你不说 /tdd，Agent 不用。superpowers 的 Skill 是自动触发的——Agent 读 description 匹配当前场景，自己决定激活哪个。Pocock 把控制权留给人，superpowers 把判断权交给 Agent。

superpowers 与 Ralph Loop（第 4 章）。 superpowers 的 subagent-driven-development 和 Ralph Loop 有相似的目标——让 Agent 自主完成多轮工作。但实现方式完全不同。Ralph Loop 是同一个 Agent 在同一个会话中反复迭代——Stop Hook 拦截退出，重新注入 prompt，Agent 看到自己上一轮的产出并改进。superpowers 是新 Agent 新上下文——每个任务派一个全新的子 Agent，上下文干净，不带历史噪音。前者的优势是可以累积理解，劣势是上下文膨胀。后者的优势是上下文干净，劣势是每个子 Agent 需要被精确构造上下文，对主 Agent 的协调能力要求更高。

superpowers 与 gstack（第 5 章）。 gstack 是人驱动流程，superpowers 是 Agent 驱动流程。gstack 靠角色覆盖质量，superpowers 靠工具覆盖质量。gstack 用系统 hooks 做门控，superpowers 用 prompt 内嵌指令做门控。两个系统解决的是同一个问题（如何让 AI Agent 高质量产出），走了相反的设计路径。

superpowers 与 autoresearch（第 7 章）。 autoresearch 的多 Agent 轮转和 superpowers 的子 Agent 派遣都涉及多 Agent 协作。但协作模式不同。autoresearch 是审查式协作——Agent A 实现，Agent B 审查并修复，Agent C 再审查并修复。superpowers 是分工式协作——每个子 Agent 负责一个独立任务，主 Agent 协调和审查。第 7 章会详谈这两种协作模式的差异。

6.9 小结

superpowers 拿到 201K+ Stars，不是因为运气——它的设计方向确实对：不靠流程锁住质量，靠足够多的 Skill 覆盖足够多的场景，靠自动触发让 Agent 在合适的时机用对的工具。

它的核心设计三条：

自动触发替代手动调用。 Skill 不是斜杠命令——你不需要记住什么时候该用什么。Agent 在读 description 时自己判断。技能的使用不再靠人类记忆，靠 Agent 自觉。
子 Agent 隔离替代上下文累积。 每个任务一个全新的子 Agent，上下文只包含完成当前任务所需的最小信息。这解决了 Ralph Loop 的循环膨胀问题——上下文不会随着迭代次数线性增长，每个子 Agent 都在干净的环境中工作。
认知门控替代系统门控。 gstack 用 PreToolUse hooks 在系统层面锁住行为。superpowers 用标签在 prompt 层面锁住行为。前者更强但依赖平台，后者更软但跨平台通用。两条路线验证了同一个结论：AI Agent 需要门控——它不能在任何时候做任何事。门控的实现在哪里（系统层还是 prompt 层），取决于你的平台能力和对 Agent 的信任程度。

gstack 是流程集成——二十三个角色在七个 Sprint 阶段中协作，输出靠流程结构保证。superpowers 是工具覆盖——十四个 Skill 在自动触发中组合，输出靠工具质量保证。第 7 章讲 autoresearch：连子 Agent 的协调也不要人了，从 Issue 到 PR 全自动，行不行？

gstack 方法论：虚拟工程团队

2026-06-28T02:00:00.000Z

"I basically operate as an engineering manager for a fleet of temporary models."
我本质上是一个工程经理，管理一支临时工模型大军。
——Garry Tan, Y Combinator 总裁 & CEO, 2026 年

Skill 是能力单元——一个 Markdown 文件定义一种行为。Spec 是合约，定义"做成什么样才算对"。Ralph Loop 是执行引擎，"做不到就继续做"。三者构成闭环：Skill 提供方法，Spec 提供标准，Ralph Loop 提供执行力。

但它们都隐含了同一个假设：你只有一个 Agent。

把这个假设推倒。如果你可以同时拥有二十三个 Agent，每个被赋予一个不同的专家角色——有人负责产品思考，有人负责架构设计，有人负责代码审查，有人负责质量测试，有人负责安全审计，有人负责发布部署——并且它们按照一个严格的 Sprint 流程协作。会发生什么？

gstack 回答这个问题。它是一个虚拟工程团队的操作系统。

5.1 一个人就是一支军队

2026 年初，Garry Tan 在社交媒体上发了一组对比数据，让整个硅谷的技术圈安静了几秒钟。

同一个人。同样的工作强度。2013 年，他的 GitHub 年度贡献图是一张稀疏的绿色点阵——和大多数全职工程师差不多。2026 年，同一张图画满了深绿色的方块，密集到几乎看不到底色。逻辑代码行的产出是 2013 年的八百一十倍。

八百一十倍。这是数量级的跃迁。

Garry Tan 是 Y Combinator 的总裁兼 CEO。日常工作是管理全球最大的创业投资机构之一：看项目、面试创始人、做投资决策、运营一个数百人的组织。写代码不该是他的主要工作。但在运营 YC 的同时，他在六十天内交付了三个生产级服务和四十多个功能。他用的方法论，就是 gstack。

gstack 的 GitHub 描述行只有五个词——"open source software factory"（开源软件工厂）。这五个词指向一个概念突破：将 AI Agent 从"工具"升级为"团队"。

它的核心机制很简单：把二十三个专家角色写成二十三个 Markdown 文件，每个文件定义了一种专门的"认知模式"——CEO 怎么想产品、工程经理怎么审架构、QA 怎么测应用、安全官怎么审计漏洞。调用 /office-hours，Agent 切换到"YC 合伙人"模式，六个强制问题盘问你的产品想法。调用 /review，同一个 Agent 切换到"员工工程师"模式，寻找能通过 CI 却在生产环境爆发的隐蔽 bug。调用 /ship，它变成"发布工程师"，同步主干、跑测试、审计覆盖率、推送代码、创建 PR。

同一个 Agent，不同角色。切换不靠每次重写 prompt——靠一个 Markdown 文件。第 2 章 Pocock 的 Skill 哲学在这里被推到了极致：当 Skill 不再零散，而是一个完整的组织架构，AI 软件工程的上限就变了。

Garry Tan 自己说过一句话，概括了 gstack 的设计理念：他本质上是一个工程经理，管理一支临时工模型大军。这句话在卷首语中也出现过——Claude Code 的创造者 Boris Cherny 说过类似的话。但 Garry Tan 比 Cherny 多走了一步：他给这支 AI 大军建立了一套组织架构——角色分工、流程阶段、质量门禁、交付流水线。一群零散的 Agent 变成了一个有结构的虚拟工程团队。

5.2 安装与配置：30 秒建起一支虚拟军队

gstack 是一组 Markdown 文件，代码完全开源，MIT 许可证。三十余个 Skill 文件构成它的全部——不需要数据库、不需要后端服务、不需要 API Key 之外的付费依赖。获取方式只有一种：git clone，然后跑一条 setup 脚本。

5.2.1 依赖与前提

gstack 跑在 Claude Code 之上——它的 PreToolUse hooks、slash commands、project-level config 都依赖 Claude Code 的 Harness 体系（详见第 10 章）。所以前提条件少：

Claude Code —— gstack 的宿主。Claude Code 提供 Agent 运行时、hooks 机制和 slash command 支持。
Git —— Skill 文件通过 git 分发和版本管理。
Bun v1.0+ —— gstack 的 setup 脚本和 hooks 用 Bun 的 TypeScript 运行时，利用它的快速启动和内置工具链。
Node.js（仅 Windows）——Bun 在 Windows 上尚未完整覆盖，部分脚本需要 Node.js 作为回退。

5.2.2 基础安装

在 Claude Code 会话中粘贴这行命令：

1	git clone --single-branch --depth 1 https://github.com/garrytan/gstack.git ~/.claude/skills/gstack && cd ~/.claude/skills/gstack && ./setup

--depth 1 是浅克隆，只拉最新版本——几十 KB，秒级完成。./setup 做了三件事：把三十余个 Skill 文件注册到 Claude Code 的 skills 目录、生成 CLAUDE.md 的 gstack 配置区块、配置 /browse 无头浏览器 Skill。Agent 自己执行这些步骤，不需要人手动改文件。

30 秒后，三十余个 / 命令全局可用——/office-hours、/review、/qa、/ship、/cso……任何一个 Claude Code 会话，在任何目录，都能调用。

5.2.3 团队模式：共享 repo 的自动同步

个人使用，全局安装就够了。但多人协作的 repo 需要团队模式——让每个 Clone 仓库的开发者自动获得 gstack，不需要手动安装。

在项目目录内运行：

1	(cd ~/.claude/skills/gstack && ./setup --team) && ~/.claude/skills/gstack/bin/gstack-team-init required && git add .claude/ CLAUDE.md && git commit -m "require gstack for AI-assisted work"

这条命令做的事：把 gstack 标记为项目的必需依赖，写入 .claude/ 配置和 CLAUDE.md。之后任何人 checkout 这个 repo 开 Claude Code 会话，系统自动检测缺失的 gstack 并引导安装。版本漂移问题不复存在——每个会话启动时做一次自动更新检查（限流每小时一次，网络失败无害降级，完全静默）。

required 可换成 optional——required 阻止未装 gstack 的会话进入，optional 只提示不阻止。

5.2.4 多 Agent 支持

gstack 的设计不锁定 Claude Code。它的 setup 脚本自动检测你机器上装了哪些 AI 编码 Agent，按需分发 Skill 文件。截至 2026 年 5 月，支持 10 种 Agent：

Agent	安装路径
Claude Code	`~/.claude/skills/gstack-*/`
OpenAI Codex CLI	`~/.codex/skills/gstack-*/`
OpenCode	`~/.config/opencode/skills/gstack-*/`
Cursor	`~/.cursor/skills/gstack-*/`
Factory Droid	`~/.factory/skills/gstack-*/`
Slate	`~/.slate/skills/gstack-*/`
Kiro	`~/.kiro/skills/gstack-*/`
Hermes	`~/.hermes/skills/gstack-*/`
GBrain	`~/.gbrain/skills/gstack-*/`

用 ./setup --host 指定目标 Agent。核心 Skill 逻辑同一套 Markdown 文件，Agent 特定的适配层由 setup 脚本按注入方式生成。

新增一个 Agent 宿主也简单——一个 TypeScript 配置文件，零代码改动（详见 gstack 仓库的 ADDING_A_HOST.md 文档）。这个设计反映了一个工程判断：Skill 的"认知模式"是平台无关的，只有 hooks 和门控机制依赖特定 Agent 的 Harness 能力。

5.2.5 OpenClaw 深度集成

Peter Steinberger 的 OpenClaw（247K GitHub Stars）通过 ACP 协议批量管理 Claude Code 会话。gstack 对此做了原生适配：

在 OpenClaw Agent 中安装 gstack 后，所有 Skill 在 OpenClaw 管理的 Claude Code 子会话中自动可用。
四个方法论 Skill（/office-hours、/plan-ceo-review、/investigate、/retro）以 OpenClaw 原生 Skill 形式发布到 ClawHub，无需 Claude Code 会话也能跑——它们是纯对话 Skill，不依赖 hooks：
1
clawhub install gstack-openclaw-office-hours gstack-openclaw-ceo-review gstack-openclaw-investigate gstack-openclaw-retro

日常使用中，你不必手动加载 gstack——对 OpenClaw Agent 说"审查这个 PR 的安全性"，它自知要 spawn Claude Code 会话并执行 /cso。说"帮我规划 v2 API 重构"，它跑 /office-hours → /autoplan。OpenClaw 做调度，gstack 做执行。

5.2.6 升级与维护

gstack 的维护模型建立在"文件即工具"这个前提上。升级只需重新跑 setup——覆盖旧 Skill 文件，保留用户自定义配置。/gstack-upgrade Skill 封装了这个流程，一条命令完成：拉取最新 git commit、重新执行 setup、输出 changelog。

自动更新机制（团队模式）确保共享 repo 的开发者始终用同一版本——不是"建议升级"，是"不升级进不去"。有人觉得这太重，有人觉得多人协作下这是唯一靠谱的做法。两种意见在第 5.5 节的强制力之争中有完整展开。

5.3 从工具到团队：gstack 的核心设计

gstack 的设计围绕三件事：角色化、流程化、自动化。

5.3.1 角色化：每个 Skill 是一个专家人格

Pocock 的 Skills 系统中，一个 Skill 定义一种行为——"怎么做 TDD""怎么对齐需求""怎么调试"。行为是抽象的，不绑定人格。/tdd 直接给出红-绿-重构的循环规则。

gstack 每个 Skill 既定义行为，也定义人格。/plan-ceo-review 的开头是"你是 CEO / 创始人。你的职责是重新思考这个问题，找到'十星级产品'的愿景。"人格设定改变了 Agent 的认知姿态——它不光知道要做什么，还知道用什么视角、什么标准、什么语气来做。

这是工程决策，不是包装。

当你对 AI 说"审查这个架构"，它给出的反馈取决于它认为自己是谁。如果它认为自己是一个代码审查者，会关注命名、结构、可读性。如果它认为自己是工程经理，会关注模块边界、扩展性、失败模式。如果它认为自己是 CEO，会关注这个架构在多大程度上服务于产品愿景、哪些复杂度是为未来假设买单、哪些简化会释放更多迭代速度。

gstack 把这个洞见系统化了：不让一个全能 Agent 做所有审查。让二十三个专家 Agent 各自审查自己擅长的维度。

以下是 gstack 七个 Sprint 阶段的核心角色：

Sprint 阶段	角色 Skill	人格设定	核心职责
Think	`/office-hours`	YC 合伙人	六个强制问题盘问产品想法
Plan	`/plan-ceo-review`	CEO / 创始人	寻找"十星级产品"愿景
Plan	`/plan-eng-review`	工程经理	锁定架构、数据流、边界条件
Plan	`/plan-design-review`	高级设计师	0-10 设计维度评分，AI Slop 检测
Plan	`/plan-devex-review`	开发者体验负责人	TTHW 基准对比，摩擦点追踪
Build	`/design-shotgun`	设计探索者	生成 4-6 个 AI 模型变体，对比迭代
Build	`/design-html`	设计工程师	将设计模型转化为生产级 HTML/CSS
Review	`/review`	员工工程师	寻找 CI 通过但生产爆发的 bug
Review	`/investigate`	调试专家	系统化根因调试（铁律：不调查不修复）
Test	`/qa`	QA 负责人	真实浏览器测试，自动生成回归测试
Test	`/cso`	首席安全官	OWASP Top 10 + STRIDE 威胁建模
Ship	`/ship`	发布工程师	同步主干→跑测试→审计覆盖率→推送→开 PR
Ship	`/land-and-deploy`	发布工程师	一键从"approved"到"verified in production"
Ship	`/canary`	SRE	部署后监控：控制台错误、性能退化、页面故障
Reflect	`/retro`	工程经理	周回顾：个人细分、交付连贯性、测试健康趋势
Reflect	`/benchmark`	性能工程师	性能基准对比：页面加载、Core Web Vitals

这十五个之外，gstack 还有一系列辅助角色——/browse（持久化无头浏览器，给 Agent 装上"眼睛"）、/context-save 和 /context-restore（跨会话状态持久化）、/codex（调用 OpenAI Codex 提供第二意见）、/health（代码质量仪表盘）、/document-release（发布后自动同步全部文档）——总共三十余个 Skill，覆盖从产品发现到发布监控的完整软件生命周期。

5.3.2 流程化：Sprint 不是建议，是结构

有二十三个专家角色是第一步。第二步是让它们按正确的顺序工作。

gstack 定义了一个七阶段 Sprint：Think → Plan → Build → Review → Test → Ship → Reflect。 它通过 PreToolUse hooks 在 Claude Code 上实现了强制性阶段门控。未通过 /review 的代码无法 commit。未通过 /qa 的功能无法进入 /ship。门控是系统执行的，不依赖人的纪律。

每个阶段的产出自动成为下一阶段的输入。/office-hours 产出的设计文档被 /plan-ceo-review 和 /plan-eng-review 消费。/plan-eng-review 锁定的架构和数据流被 Build 阶段的 Agent 作为实现约束。/review 发现的 bug 被 /qa 验证修复。/qa 生成的回归测试变成后续所有迭代的自动化安全网。/retro 的周回顾基于 git 历史的客观数据——每个人的交付连贯性、测试健康趋势、增长机会——不依赖主观感受。

这个流程设计回应了第 4 章 Ralph Loop 的一个核心局限：Ralph Loop 解决"一个任务内的自我纠正"，解决不了"谁来决定任务方向是否正确"。gstack 在上面加了一层角色化流程审查——代码写出来之前，CEO 角色审产品方向、工程经理角色审架构方案、设计师角色审用户体验、安全官角色审威胁模型。Ralph Loop 保证做对了，gstack 保证在做对的事。

5.3.3 自动化：当流程可以被机器强制执行

gstack 最激进的创新不在角色数量，在强制力。

大多数 AI 编码工具上，流程规范本质上是引导指令——Agent 被要求"先做计划再写代码"，但如果它跳过了计划直接写代码，没有系统级机制阻止它。Claude Code 的 Harness 体系（第 10 章详谈）提供了 PreToolUse hooks——在 Agent 执行特定工具调用前插入检查脚本。gstack 充分利用了这个机制：git commit 前检查代码审查是否通过，git push 前检查 QA 测试是否完成，部署前检查安全审计是否执行。

这和传统 CI/CD 流水线有一个关键区别。传统 CI/CD 检查的是代码能不能跑（构建、测试、lint）。gstack 的 hooks 检查的是流程有没有走完——不直接判断代码好坏，而是确保该看的人都看过了。这是一种元级别的质量保证。

Garry Tan 管这叫"流程即代码"（Process as Code）。就像 IaC 把服务器配置变成可版本控制的文件，gstack 把工程流程变成了可版本控制的 Markdown 文件和 hooks 脚本。一个新团队成员加入项目时，不需要"学习流程"——流程已经编码在系统中，自动执行。

5.4 Sprint 全景：七个阶段的深度拆解

上面是 gstack 的骨架。现在一个阶段一个阶段拆开，看肌肉怎么工作。

5.4.1 Think：用六个强制问题杀死坏想法

/office-hours 是 gstack Sprint 的起点。灵感来自 Y Combinator 的 Office Hours——YC 合伙人与创始人之间那种著名的、不留情面的二十分钟产品对话。

这个 Skill 的人格设定是"YC 合伙人"。行为不是"听你说完然后给反馈"——它用六个强制问题盘问你的产品想法：

你在解决谁的什么痛苦？——把你从"我觉得这个 idea 很酷"拽到"有一个具体的人正在经历一种具体的痛苦"。
他们现在怎么解决这个问题的？——不知道现有方案，就不了解竞争格局。
你的方案好在哪？——不是好在技术上，是好在用户愿意切换过来。
最小可验证的第一步是什么？——答案超过两周工作量，说明你还没想清楚。
为什么是你？——你有什么洞察、技能或资源让这件事只有你能做？
如果这个失败了，最可能的原因是什么？——正面假设自己的产品会死，倒推最可能的死因。

六个问题问完，Agent 产出一份设计文档。不是 PRD，不是 spec，是一份"已经想清楚了什么、还没想清楚什么"的结构化记录。这份文档成为 Plan 阶段所有审查角色的输入。

5.4.2 Plan：四层审查锁定方向

Plan 阶段是 gstack 的防御核心。写一行代码之前，四个角色各自从专业视角审查同一个方案。

/plan-ceo-review——CEO 视角。 这个角色不问"怎么实现"，问"该不该做"。它用四种战略模式评估每个功能：扩张模式（加倍投入）、选择性模式（只做最有价值的部分）、维持模式（不做增量，只维护质量）、削减模式（砍掉）。一个功能被分配了削减模式，后续角色就不再为它消耗审查资源。

/plan-eng-review——工程经理视角。 这个角色锁定架构：ASCII 架构图、数据流图、状态机、测试矩阵。核心任务是把隐藏的假设翻到台面上——组件 A 依赖组件 B 的什么接口？并发场景的竞态条件是什么？失败模式的降级策略是什么？这些问题不在这一步澄清，到 Build 阶段再发现，返工成本是十倍起。

/plan-design-review——高级设计师视角。 这个角色有一个独特的职责：AI Slop 检测。"Slop"是 2025-2026 年 AI 生成内容社区涌现的一个词——指 AI 倾向于生成的那些看起来不错但缺乏真实设计意图的视觉产出。AI 做的 UI 常常是均匀的间距、对称的布局、标准的配色——视觉上不丑，但也不对。它们缺一个人类设计师做特定选择时的理由——"这个按钮为什么是 48px 不是 44px？""这个颜色为什么是 #1890ff 不是 #1677ff？"设计师角色用 0-10 评分系统审查每个设计维度，强制 Agent 为每个设计选择提供理由。

/plan-devex-review——开发者体验视角。 这个角色做一件事：实际走一遍"新开发者上车"的流程。测量 TTHW（Time to Hello World）——clone 仓库到看到第一个成功运行的功能要多久——并与同类项目做基准对比。追踪摩擦点：哪些步骤需要手动配置、哪些文档缺失或过时、哪些错误信息让人困惑。开发者体验就是产品体验——你的 API 需要读三篇文档才能调用成功，用户不会怪文档，用户会怪你的产品。

四个角色可以分别手动运行，也可以通过 /autoplan 一次性启动全流程——CEO、设计、工程、DX 依次审查，只在有人类判断需要的决策点暂停等待输入。

5.4.3 Build：从方案到代码

gstack 的 Build 阶段没定义全新的编码 Skill——它复用 Claude Code 原生的编码能力，加了几个设计专项增强。

/design-shotgun 是其中最特别的一个。灵感来自散弹枪式的设计探索——同时生成 4-6 个不同风格的 AI 模型变体，放在对比板上逐个淘汰。背后的假设：AI 生成的第一个设计通常不是最好的，它是最平均的。强制生成多个变体并对比，更容易发现哪个选择表达了产品意图。

/design-html 将设计模型转化为生产级 HTML/CSS——零依赖、30KB 以内。这个约束本身就是质量声明：不被框架臃肿绑架的设计产出。

5.4.4 Review：寻找 CI 抓不到的 bug

/review 是 gstack 中最重要的质量 Skill 之一。人格设定是"员工工程师"（Staff Engineer）——有十五年经验、见过各种生产事故的老兵。

审查逻辑分成两条通道。结构通道：检查代码结构、命名一致性、错误处理完备性、测试覆盖盲区——传统代码审查的自动化版，可以自动修复机械问题。对抗通道：假设自己是攻击者或极端场景——"如果这个 API 被每秒 1000 次调用会怎样？""中间件崩溃重启后状态能恢复吗？""用户同时开两个 tab 操作，数据会冲突吗？"这类问题传统 CI 永远抓不到，因为它们不是代码逻辑错误，是代码在真实世界的行为假设错误。

/codex 提供第二意见机制——把同一段代码发给 OpenAI Codex CLI，用不同模型、不同训练数据、不同的"审美"来审查。Claude 和 Codex 同时认为有问题，那几乎可以肯定真有问题。这和第 7 章 autoresearch 的"多 Agent 交叉审核"逻辑一致——不同模型的盲区不同，交叉审核覆盖更多问题类型。

5.4.5 Test：给 Agent 装上眼睛

gstack 的 Test 阶段是它与其他方法论最显著的差异点。大多数 AI 编码工具的测试止步于单元测试和集成测试——它们能看到代码，看不到 UI。gstack 通过 /browse Skill 提供了一个持久化无头 Chromium 实例，让 Agent 能在真实浏览器中点击、截图、检查 DOM、读控制台输出。

/browse 是一个持久化守护进程——在 Agent 会话的整个生命周期中保持运行，维持浏览器状态（cookies、localStorage、登录会话），响应时间约 100-200ms。它的"ref"系统基于无障碍树（accessibility tree）定位元素——Agent 不说"点击坐标 (200, 300)"，说"点击'提交'按钮"。这让测试脚本对 UI 变化具有鲁棒性——按钮换了位置，ref 仍然有效。

在此之上，/qa 角色执行完整的 QA 流程：真实浏览器中测试应用、发现 bug、原子 commit 修复、重新验证、自动生成回归测试。/qa-only 提供纯报告模式——发现 bug 不改代码，把发现交给人类开发者处理。

/cso（首席安全官）执行 OWASP Top 10 和 STRIDE 威胁建模。它有一个值得注意的设计——17 种误报排除规则。安全扫描工具最让开发者反感的就是误报——"这里可能有 XSS 注入风险"（但输入已经在上一层被清洗了）。/cso 不简单报告"发现 XSS 风险"，它会先检查输入是否已经在调用链的某处被验证或清洗——没有，才报告。

5.4.6 Ship：从"approved"到"verified in production"

Plan 阶段是防御，Ship 阶段是进攻——把审查通过的代码投入生产。

/ship 执行的是一套完整的发布卫生流程：同步主干→运行全部测试→审计测试覆盖率→有退步就阻止→推送到远程→创建 PR→PR 描述自动填写 What/Why/How。

/land-and-deploy 更远一步——一键从"approved"到"verified in production"：合并 PR、等 CI 和部署流水线完成、生产环境跑冒烟测试、验证关键路径可用。

/canary 进入 SRE 模式：部署后持续监控控制台错误、性能退化、页面故障。它用 /browse 的无头浏览器实例在部署后自动遍历关键用户路径，发现异常——页面白屏、API 超时、静态资源 404——立即报警。

5.4.7 Reflect：数据驱动的回顾

/retro 不是"大家坐在一起聊聊上周做了什么"的社交仪式。它分析 git 历史的客观数据：每个人的交付连续性（多少次连续合入不中断）、测试健康趋势（覆盖率在上升还是下降）、交付速度的中位数和方差。它产出的是数据。

/benchmark 提供性能退化检测：每次 PR 合入后自动对比页面加载时间、Core Web Vitals、资源体积。合入后的指标比合入前差，PR 就被标记为需要性能审查。

两个 Skill 构成 gstack 的持续改进闭环——不只让开发更快，而且每一次 Sprint 都比上一次更好，有数据可查。

5.5 gstack 的工程文化：强制力之争

gstack 有一个在社区中引发持续讨论的设计选择：它通过 PreToolUse hooks 实现了强制阶段门控。未通过 /review 的代码无法 commit。未通过 /qa 的功能无法进入 /ship。

批评者和支持者各自引用书中的一章来支撑自己。

批评者引第 2 章——Matt Pocock 明确反对接管流程的方法论。他的原话是 GSD、BMAD、Spec-Kit 这类方法在帮你接管流程的同时，夺走了你的控制权，让流程中产生的 bug 难以定位和修复。Pocock 的哲学中，Skill 是工具，用户保留对流程的全部控制权。强制门控让流程从用户的选择变成了系统的要求。

支持者引第 4 章——Ralph Loop 的核心价值就是不给 AI 交半成品的机会。AI 能绕过审查直接提交代码，它就会绕过审查直接提交代码——这个行为模式被反复验证过。强制门控的目标是 AI 的自我评估，不是人类开发者。AI 经常真心认为自己"做完了"，实际上漏掉了关键功能。审查和验证完成之前锁住 commit 按钮，工程上这是负责任的做法。

Garry Tan 的立场是中间偏强制：引导流程适合个人项目，强制流程适合多人协作和被审计的生产环境。gstack 支持双模式——在 Claude Code 上通过 hooks 实现强制门控，在不支持 hooks 的平台上退化为引导指令。这个设计认了一个现实：流程的强制力取决于平台的能力。有条件强制执行的时候，强制执行更好。没条件的时候，引导也比没流程强。

5.6 实战：用 gstack 开发网页版贪吃蛇

前四章——Pocock Skills、OpenSpec、Spec-Kit、Ralph Loop——都用网页版贪吃蛇作为实战案例。本章同样，角度不同：前四章用一个工具开发，本章用一支虚拟团队开发。

使用gstack开发网页版贪吃蛇游戏有点"杀鸡焉用牛刀"的感觉，不过为了给大家展示一个简单的示例以及和我前面章节保持一致，依然沿用这个例子。

走的是不同流程，暴露的是不同问题。

初始运行的时候可能需要通过询问的方式配置gstack，按照问题正常回答即可，包括遥测、skill自动调用方式等等配置。

5.6.1 Think：产品想法被盘问

启动 /office-hours：

1	用户: /office-hours 做一个贪吃蛇网页游戏。纯前端单文件。

Agent 切换到 YC 合伙人模式，六个问题一个一个来（你实际运行时可能问题不同，我刚才实现了第四章的例子，它知道了，所以跳过了很多问题）：

Q1：做这个游戏的目标是什么？
用户：这是一个做着玩的项目——展示 AI 编码 Agent 的能力。

告诉它这只是自己氛围编程的学习项目。

Q2：你的用户怎么判断这个游戏"做得好"？
用户：蛇能动，能吃食物，能死，死了能重来。最高分刷新后还在。

Q3：最小可验证的第一步是什么？
用户：一个 20×20 的网格上有一条能按方向键移动的蛇。

Q4：你最大的技术风险是什么？
Agent 自己回答：纯前端单文件项目，技术风险很低。但键盘事件处理和游戏循环同步是常见 bug 来源——快速连续按键可能导致蛇反向移动。

Q5：你计划用多久完成？
用户：一小时以内。

Q6：如果这个项目失败了，最可能的原因是什么？
Agent：过度设计。贪吃蛇很简单，但加入难度曲线、音效、排行榜、皮肤系统等"看起来很棒"的功能，交付时间会从一小时膨胀到一周。

六问结束，Agent 产出一份设计文档，存入项目仓库。关键决策已明确：范围是"可玩的原型"，验收标准是"蛇能动、能吃、能死、能重来、最高分持久化"。不做的功能被显式记录——难度曲线、音效、排行榜、皮肤系统划入"不在此次 Sprint 范围"。

5.6.2 Plan：四个角色审查同一个方案

运行 /autoplan，CEO、设计、工程、DX 四个角色依次审查。注意：/autoplan 只跑 Plan 阶段的四层审查——它不写任何代码。它的输出是一份被四个角色分别挑战过的方案文档，而非可运行的程序。你必须手动告诉 Agent "按这份方案写代码"，Build 阶段才开始。

CEO 视角： "这是演示项目，不是产品。扩张模式不适用。维持模式：只做核心玩法，不做任何超出演示需求的功能。"

设计视角： "20×20 Canvas 网格合理。蛇绿色方块、食物红色方块——高对比度，可辨识。注意：游戏结束弹窗别用 alert()——那是 1998 年的设计。用 HTML modal，加半透明遮罩。"

工程视角： "状态层和渲染层需要明确分离。gameState 对象集中管理蛇身数组、方向、分数、游戏状态。gameLoop 每 150ms 调 update()（纯逻辑）和 render()（纯绘制）。键盘事件写入 nextDirection 缓冲，gameLoop 在 update() 中同步到 direction——防止快速连续按键的反向 bug。"

DX 视角： "TTHW 目标 < 30 秒。零依赖——打开 index.html 就能玩。不需要 npm install、不需要构建步骤、不需要本地服务器。"

工程视角的"nextDirection 缓冲机制"和设计视角的"HTML modal 替代 alert()"，是 Plan 阶段锁定的两个最关键决策。没这一步，它们会在 Build 或 Test 阶段才暴露——那时修起来多花五倍时间。

5.6.3 Build：一次实现，两次返工

gstack 的 Build 阶段有一个反直觉的设计：它没有定义编码 Skill。5.3.1 节的表格里，Build 行只列了 /design-shotgun（生成 4-6 个 AI 设计变体对比筛选）和 /design-html（将设计稿转为生产级 HTML/CSS）——都是设计专项，不是逻辑编码。

贪吃蛇的逻辑实现不需要这两个。它直接调 Claude Code 原生编码能力，Agent 阅读 /plan-eng-review 锁定的架构（状态层分离、nextDirection 缓冲、150ms 游戏循环），把 ASCII 架构图和状态机描述翻译为代码。Plan 阶段的输出在此充当"规格"——不是 OpenSpec 式的精确验收标准，而是一份角色化审查过的实现约束。

这暴露了 gstack 的一个刻意取舍：Build 阶段没有像 /review 或 /qa 那样定义专门的编码角色。因为编码本身是 Claude Code 的强项——给出约束，生成代码，不需要额外的"编码专家"人格来增强。Garrick Toubassi（YC 的工程合伙人，gstack 的另一位核心维护者）在一个讨论帖中说过大致的意思：我们不教 Agent 怎么写代码，我们教 Agent 在写代码之前和之后该做什么。Plan 和 Review 是 AI 的弱点——需要角色化审查来弥补。编码是 AI 的强项——给它审查过的约束，放手让它写。

Plan 阶段方案清晰，Agent 按工程审查锁定的架构生成了第一版代码，四个任务：

HTML 结构与 Canvas 渲染：20×20 网格，绿色蛇，红色食物。
状态管理与蛇的移动：gameState 对象，nextDirection 缓冲，150ms 游戏循环。
碰撞检测与食物系统：墙壁碰撞、自身碰撞、食物消费、随机生成。
分数系统与游戏状态管理：当前分数/最高分、HTML modal 弹窗、重新开始按钮、localStorage 持久化。

第一版跑起来就暴露了两个问题。食物随机生成偶尔会刷在蛇身上——概率不高，但蛇长了以后越来越频繁。更隐蔽的一个：游戏结束弹窗写了 HTML modal，但没处理焦点——弹窗出现后方向键仍然能控制蛇，导致"死了还能动"的诡异画面。Agent 自己没发现这些问题，/review 阶段才被揪出来。返工两次，Build 才算消停。

所以这一步在调用 /autplan 命令时就自动实现了。

5.6.4 Review：员工工程师发现了什么

运行 /review：

Review
[CRITICAL] (confidence: 9/10) ch05/snake.html:164 — food=null crashes draw loop when board fills up
draw() accesses food[0] and food[1] at line 164 without null guard. When spawnFood() sets food = null (board full), every rAF frame throws TypeError.
const fx = food[0] * CELL + CELL/2, fy = food[1] * CELL + CELL/2;
Fix: guard food rendering.
[CRITICAL] (confidence: 9/10) ch05/snake.html:193 — ctx.roundRect() unavailable on older browsers
ctx.roundRect() requires Chrome 99+, Safari 15.4+, Firefox 112+. Older embedded WebViews throw and kill rendering. Fix: feature-detect with fallback to manual path.
[P2] (confidence: 7/10) ch05/snake.html:235-239 — touchstart+click double-fires start() on desktop touch
touchstart calls start(), then 300ms later synthetic click fires start() again. On desktop with touchscreen, this means: first touch during game-over resets AND starts in one tap
(not two separate actions). Fix: track if touchstart already handled.

不但review发现问题，它还会自动修复，直到没有问题。

5.6.5 Test：QA 用真实浏览器测试

运行 /qa：

Agent 通过 /browse 的无头 Chromium 实例打开 index.html，执行：

截图验证网格渲染正确（20×20 格子、蛇初始在中央）
模拟方向键按下，截图验证蛇的位置变化
模拟吃到食物的场景（脚本将食物坐标设为蛇头前方），验证蛇身变长、分数增加
模拟撞墙（蛇头移到边界外），验证游戏结束弹窗出现
验证最高分在 localStorage 中的持久化
验证隐私模式降级行为（清除 localStorage 后重试）

全部测试通过。QA 自动生成了四个回归测试脚本，存入测试资产库。

5.6.6 Ship：一键交付

运行 /ship：

同步主干 → 无冲突
运行全部测试 → 全部通过
审计测试覆盖率 → 关键路径 100% 覆盖
创建 commit（Conventional Commits 格式）
推送到远程
创建 PR（自动填写 What/Why/How）

运行 /land-and-deploy：合并 PR → 等 CI 通过 → 确认部署成功。

5.6.7 Reflect：基线存档

贪吃蛇这样一个小项目，/retro 的周回顾模式不太适用——它更适合多 Sprint 项目。但 /benchmark 还是跑了一遍：页面加载时间 180ms，首次渲染 320ms，游戏循环稳定性 ±2ms。这些数据作为基线存入项目仓库——将来有人加功能导致性能退化，对比基线立刻能发现。

5.6.8 gstack 和其他方法论的对比

同一个贪吃蛇任务，四种方法论，四种体验：

维度	Pocock Skills（第 2 章）	OpenSpec（第 3 章）	Ralph Loop（第 4 章）	gstack（本章）
人类负担	手动选择每个 Skill	写 proposal、跑命令	写好 prompt 就放手	逐个阶段运行命令
流程长度	7 个 Skill 手动串联	3 个命令 + 1 个归档	1 个 `/ralph-loop`	7 个 Sprint 阶段
自动化程度	低（人类驱动）	中（半自动）	高（全自动循环）	中（阶段自动，入口手动）
质量保证	Skill 内建验证	Spec 验收标准	自动重试+测试	四层角色审查+QA
发现问题的广度	聚焦单个 Skill 的领域	规格符合性	测试+运行验证	CEO/工程/设计/安全/QA 全景
最佳场景	日常编码、小任务	功能开发、需求管理	无人值守长任务	从零到一的完整项目

Pocock Skills 最快。七个斜杠命令，灵活，全程需要人驾驶。OpenSpec 最稳，规格先行不容易跑偏，代价是每步都要人写文档。Ralph Loop 最省心——写好 prompt 就能去睡觉，醒来验收，但 prompt 质量决定一切。gstack 最重。七个阶段走完确实比前三者都慢，多花的时间花在了审查记录上——CEO 为什么砍难度曲线、工程经理为什么锁定 nextDirection 缓冲、设计师为什么坚持 HTML modal 替代 alert。六个月后另一个人重构这个游戏，读到这些记录，省下的时间远不止当初审查花掉的那几十分钟。

回到第 1 章的框架：Pocock Skills 是一组工具，OpenSpec 是一份合约，Ralph Loop 是一个发动机。gstack 是一支军队。工具用在日常小任务上顺手，合约适合有规格的功能，发动机对付可以自动化验证的活，军队用在从零到一的完整项目上。

5.7 Nanostack：gstack 的轻量级衍生

gstack 的三十余个 Skill 和七阶段 Sprint 构成了一套完整的虚拟工程团队操作系统。但每个项目都走全流程？没必要。一个个人 side project、一个快速原型、一个只有一两个开发者的小项目——走 Think → Plan → Build → Review → Test → Ship → Reflect 全流程是杀鸡用牛刀。

Nanostack（由 garagon 开发）就是为这个场景设计的。受 gstack 启发，减掉了约三分之二的 Skill，保留了最核心的十三个。Sprint 同样是七阶段，但阶段门控可选——两种配置：Guided（更安全的默认，阶段间有门控）和 Professional（更自由的权衡，阶段间无强制门控）。

Nanostack 的十三核心 Skill 覆盖了：产品思考、工程计划、代码实现、自动审查、QA 测试、安全审计、发布交付、回顾分析。它和 gstack 的关系类似 Express 和 Rails——前者是后者核心思想的最小化实现，放弃了部分功能，换来了更低入门成本和更高灵活性。

怎么选？做需要完整治理轨迹的项目（合规性行业、多人协作、长期维护）——gstack，完整流程和强制门控的保障远大于流程成本。做快速验证（MVP、原型、个人项目）——Nanostack，保留一人多角色的核心价值，不会用流程锁住速度。

5.8 gstack 的适用边界

gstack 不是万能药。有些场景它是超级武器，有些场景它是负担。

最适合：

从零到一的绿野项目。 没历史包袱。CEO 审查不会和已有代码冲突，工程审查不需要考虑迁移成本。gstack 在绿野项目上能满负荷运转，每一层审查都在创造价值。
需要完整治理轨迹的项目。 合规性行业、ToB 产品、开源项目的核心模块——每次 PR 都需要能追溯谁在什么时间以什么理由做了这个决定。gstack 每个阶段的输出都是天然的审计轨迹。
单人团队。 这是 gstack 最反直觉的适用场景。独立开发者没同事 review 代码，没 QA 测功能，没安全官审计漏洞。gstack 给了这个开发者二十三个虚拟同事——每个专精一个维度，在自己的领域内比开发者本人更专业。

不适合：

小修小补。 "把按钮颜色从蓝色换成绿色"——走完 Think → Plan → Build → Review → Test → Ship 全流程是荒谬的。gstack 的流程成本是固定的，任务越小，占比越高。
存量项目中的增量变更。 给一个二十万行代码的项目加暗黑模式，不需要 CEO 重新审产品方向。gstack 没提供像 OpenSpec 那样的增量规格机制——它的设计假设是从顶层思考开始。
需求模糊的探索性项目。 gstack 的流程要求每个阶段做出承诺。CEO 审查后方向锁定，工程审查后架构锁定。如果项目本身还在探索"到底要做什么"，流程会变成形式主义——填模板而不是做决策。

一个实用的判断公式：任务能写出一份清晰的 PRD，gstack 值回票价。任务还在"试试看能不能 work"，先用 Pocock Skills 快速探索，方向明朗了再上 gstack。

5.9 与前后章节的关系

gstack 与 Skills（第 2 章）。 gstack 的每个专家角色本质上是披了人格外衣的 Skill。Pocock 的 /grill-me 和 gstack 的 /office-hours 做同一件事——盘问需求——但前者是通用协议，后者是有角色身份的顾问。Skills 是原子，gstack 是分子——用角色化把原子组织成了有结构的团队。

gstack 与 SDD（第 3 章）。 gstack 的 Plan 阶段产出——CEO 审查结论、工程审查锁定的架构、设计审查结论——功能上等于一份多维度规格文档。但 gstack 没把规格作为独立 artifact 管理，它把规格分散在了各个角色的输出中。如果你需要可单独引用、可版本对比的规格文档，OpenSpec 或 Spec-Kit 更标准。如果你需要在多个维度上同时锁定方向，gstack 的多角色审查覆盖面更广。

gstack 与 Ralph Loop（第 4 章）。 Ralph Loop 解决"做对了没"，gstack 解决"在对的方向上吗"。两者互补——用 gstack 定方向（Think + Plan），用 Ralph Loop 跑执行（Build 阶段的自主循环），用 gstack 验收（Review + Test + Ship）。第 9 章"方法论对比与融合"会详谈这个组合模式。

gstack 与 Harness Engineering（第 10 章）。 gstack 的强制门控直接依赖 Claude Code 的 PreToolUse hooks——它是 Harness Engineering 最典型的上层应用。没 hooks 机制，gstack 的阶段门控就是引导指令，失去了强制力。gstack 和 Claude Code Harness 的关系，就是应用程序和操作系统的关系。

5.10 本章小结

gstack 的名字来自 Garry Tan 的一句话——他本质上是一个工程经理，管理一支临时工模型大军。它的 GitHub 描述只有五个词——"open source software factory"。这两句话加起来就是 gstack 的全部：不是让 AI 变聪明，是给 AI 建一个组织架构。

它的核心贡献在于把三个工业时代就有的概念用在了 AI Agent 身上：

专业分工。 不让一个 Agent 做好所有事。CEO 不写代码，员工工程师不思考产品方向，QA 不审计安全漏洞。二十三个角色各自审查自己擅长的维度，合起来覆盖一个人工审查者覆盖不了的面。
流程门控。 "代码审查通过才能 commit"——不靠人的自觉，靠系统强制执行。gstack 用 Claude Code 的 PreToolUse hooks 做到了。在人不完美的地方，系统不该配合人的懒惰。
工件传递。 每个阶段的输出自动成为下一阶段的输入。/office-hours 的设计文档被 /plan-eng-review 读，Plan 锁定的架构被 Build 读，Build 产出的代码被 Review 读，Review 的发现被 QA 验证。一环扣一环，不靠人传话。

这三个设计合在一起的效果是：一个人从代码生产者变成了工程管理者。Garry Tan 的八百一十倍产出不是因为编码变快了，是因为二十三个人同时在跑不同的线——他只需要定义目标、审查产出、做方向决策。

gstack 的适用边界也很明确。从零到一的绿野项目、需要完整治理轨迹的合规场景、单人团队——它是超级武器。小修小补、存量项目的增量变更、需求模糊的探索期——它太重了。实用的判断公式：能写出一份清晰 PRD 的任务，gstack 值回票价；还在"试试看能不能 work"的阶段，先用 Pocock Skills，方向明朗了再上 gstack。

如果第 2 章的 Skill 是能力单元、第 3 章的 Spec 是质量合约、第 4 章的 Ralph Loop 是执行引擎，那么 gstack 就是组织架构。它不让 AI 变得更聪明——它让一群 AI 在一个有纪律的团队里协作出一个人做不到的产出。

但 gstack 也沉重。三十余个 Skill，七阶段 Sprint，强制门控。下一章讲 superpowers，一个用 159K+ Stars 社区规模证明了相反设计方向的方法论系统：不靠流程锁住质量，靠足够多的 Skill 覆盖足够多的场景，让开发者在需要时自己选对的工具。一个讲究流程集成，一个讲究工具覆盖。两个系统的对比，会是全书方法论图谱中最有意思的一段。

鸟窝

代码在发臭：一个能"闻"出坏味道的 AI 技能，我拿它扫了最新的开源代码

一、一个厨房比喻，是怎么变成行业术语的

二、坏味道的家谱：从 Fowler 的 22 种，到今天的 8 大类 50+

三、把"嗅觉"装进 Agent：/smell 技能是怎么工作的

四、实战：我用 /smell 扫了 Gitlawb/zero 这个开源项目

🟢 先说好的：这项目"体质"其实不错

🔴 但也闻到了明确的坏味道

📋 给 zero 的重构路线图

写在最后

百度网络监控工具开源第四弹：evr — 构造 VXLAN 探测

一、evr 探测的困境：探测机进不去客户机房

二、VXLAN：把二层帧塞进 UDP 里

三、evr 工具：让 EVR 自己把包反射回来

实现原理：自环内层帧 + payload 内嵌 EVR 源 IP

使用方法

四、evr 中的技巧与高频 FAQ

技巧 1：BPF 内核层过滤，别让无关 UDP 流量打扰

技巧 2：源端口轮转覆盖 ECMP 多路径

技巧 3：4 种 Salt 模式抓 bitflip

高频 FAQ

我把775篇收藏塞进4MB向量库：一个比Karpathy Wiki更能"翻箱底"的RAG skill

一、Karpathy 的"LLM Wiki"：让 AI 替你维护知识库

二、chao-rag-wiki：不编译，直接检索

优缺点摆出来

三、实战对比：两个查询

查询一："loop engineering"

查询二："grill skill"

四、所以到底用哪个？

五、把它接进 Obsidian：从"看到"到"可搜"

第一段：Web Clipper 抓取，落到 raw/

第二段：定时任务自动索引

第三段：随时调用 skill 搜索

安装

Go 语言技能：AI 时代的 Go 开发工具链

24.1 为什么 Go 需要专属技能

24.2 五个 Skill 一览

24.3 /modern-go：让老代码跟上新版本

24.3.1 35 条版本门控的转换规则

24.3.2 安全保护：读 go.mod，绝不越级

24.3.3 实演：一段老代码怎么被现代化

24.4 chao-go-perf：把 Dave Cheney 的工作坊装进 Skill

24.4.1 黄金法则：先测量，再优化

24.4.2 三套分析框架：CPU / 内存 / 并发

24.4.3 覆盖面与参考资料

24.4.4 实演：先看 benchmark，再谈优化

24.5 chao-go-sync：并发是 Go 的灵魂，也是最容易翻车的地方

24.5.1 覆盖面：从 stdlib 到 etcd

24.5.2 Bug 诊断框架：五个必查项

24.5.3 实演：两个静默 Bug，诊断框架一眼揪出

24.5.4 性能优化与版本迁移

24.6 go-style-guide：一份固执己见的 Go 工程契约

24.6.1 十条 TL;DR

24.6.2 执行协议：六步，先看仓库再动手

24.7 cc-skills-golang：拿数据说话的全家桶

24.7.1 28+ 原子 Skill，交叉引用

24.7.2 用数据说话：Skill 到底有没有用

24.7.3 token 预算：把渐进式信息披露做成了账

24.8 五个 Skill 怎么配合

24.9 与全书方法论的对接

24.10 本章小结

重构：AI 时代的代码进化

23.1 什么是重构，什么是技术债

23.2 何时重构：三次法则

23.3 如何重构：正确的姿势

23.4 Fowler 的目录：坏味道与手法

23.5 /refactor：把 Fowler 的书变成一个 Skill

23.5.1 22 种坏味道（五大类别）

23.5.2 40+ 种重构手法（六大类）

23.5.3 五阶段安全协议：把「做对了」清单制度化

23.5.4 语言专属指南

23.5.5 在工作流中的位置

23.6 /smell：先诊断，再开刀

23.6.1 比 Fowler 更宽的视野：8 大类 50+ 坏味道

23.6.2 输出：一份带优先级的重构路线图

23.6.3 两个 Skill 怎么配合

23.7 小结

UML 新用途：让 AI 理解你生成的代码

14.1 UML 简史：从三剑客到 OMG 标准

14.2 结构性图形（Structure Diagrams）：系统长什么样

三、把"嗅觉"装进 Agent：`/smell` 技能是怎么工作的

四、实战：我用 `/smell` 扫了 `Gitlawb/zero` 这个开源项目

第一段：Web Clipper 抓取，落到 `raw/`

13.6.1 交互式浏览：`/understand-dashboard`

13.6.2 语义搜索：`/understand-chat`

13.6.3 影响分析：`/understand-diff`

13.6.4 新人引导：`/understand-onboard`

13.6.5 业务域提取：`/understand-domain`

13.6.6 知识库分析：`/understand-knowledge`

13.6.7 深度解释：`/understand-explain`