跳到主要内容

阅读笔记 - 2026-03-14

AlexZ 🦀:智能体软件工程 #4 | 当 Agent 写完代码,谁来说「可以合并」?

要点

  • 介绍了使用 agent-spec 的做 ai 编程的验证方式,认为 ai 写代码,人 review 的方式已经完全跟不上了,人的主要职责就是写 contract ,ai 根据 contract 来编写和自我验证,给人的是验证完成后的结构化审计报告
  • 人花 60% 的时间写 contract ,编码和验证都是 ai ,最后花 30% 的时间读报告,然后 approve 花10% 的时间就够了
  • 最重要的是 Task Contract,有4个关键信息:
    • 要说明任务意图( intent )
    • 已经完成的决策 ( decisions )
    • 任务边界,什么是我要的,什么是我不要的
    • 完成条件,可以是一系列对 bdd 测试的引用,而且需要负面用例比正面用例多,以限制 ai 的自我发挥
  • 7个步骤:人写 contract , ai 对 contract 质量做评估, agent 读 contract 编码,多次 lifecycle 循环验证,并记录是几次最终通过了 gate ,对所有门禁要有结构化的输出,可以有通过/失败/跳过/无法验证 4 种状态,然后让 ai 输出对结果的 explain (可能需要人来对一些结果做决策),人类审批通过后, stamp 归档
  • ai verifier 有4个等级,两种模式:
    • l1: 结构化校验,用语法检查器完成
    • l2: 可访问边界校验,自动化的验证器完成,也不需要 token
    • l3: 测试用例校验,可以是 ut , 也可以是 bdd ,最终产出是回答:能否满足 contract 定义的边界
    • l4: ai分析前3者未能覆盖的场景,有 stub 模式和 caller 模式,他的输出是 uncertian ,不是 pass / failed ,结果需要由人来判断
      • stub 是让编排系统来认证, caller 是让 ai coder 比如 cc 来验证
  • 可以有 org.spec, project.spec, task.spec 3层,依次覆盖,实现团队管理
  • 这套方案不能解决所有问题,但确实是更 agentic 的 code review 方案

方法

  • 他也提供了 skills 来帮助人类写 contract ,以及提供工作流更好的完成 7 步循环
  • 他也能和 jj 合作,使用 commit 为核心的最小改动模式,实现滚动更新

我的观点

  • 价值:很有价值的 code review 实践,但目前他的所有设施都是专注在 rust 生态上,其他的项目使用, l1-l3 的设施还需要自己构建,但也是很好的实践导论。提供的 skills 可以用来编写 ert 协议
  • 适用条件:需要人来参与的编码过程,减少 code review 的负担

TODO 把 agent-spec skills 加入到我现在的 workflow 中

Leo:用 markdown 文件树做 AI 记忆系统,跑了两个多月,聊聊真实体感。 漂移是真实痛点。源文件和摘要之间会悄悄分裂,靠写入规范约束本质是靠纪律,纪律迟早松。 但「需要 join…

要点

  • 个人记忆系统不需要高复杂的 join 和 index ,使用 mardown 文件 + chromadb + bm25 召回就够用了
  • 个人系统和公司知识库是两套不同的实践

我的观点

  • 价值:经验之谈,可以参考

Tw93:你不知道的 Claude Code:架构、治理与工程实践

要点

  • 快速上手 cc 的技巧经验之谈,从如何开始,到如何优化流程,到如何成为系统设计者(产生质变)
  • 利用好 cc 的各种功能,其实是在设计流程的各个环节:
    1. claud.md / rules / memory 是告诉 cc 这个项目是什么
    2. tools / mcp 是提供各种能力,能做什么
    3. skills 是方法论和流程控制,或者领域知识
    4. hooks 自动化验证器,用于轻量的,确定性的工作
    5. subagents 能有更专注的工作分工,或者节省 token 开支,加快独立任务速度
    6. verifiers 验证在自动化编程中很重要
  • cc的上下文很有限,需要让 claud.md 尽可能短(不超过2.5k),大型参考文档放到 skills 的 supporting files 中,长期会话主动用 /context 观察消耗,主动做压缩
  • skills 很重要,可以做门禁检查,标准流程控制和领域专家控制(出问题时按专家思路收集证据并校验)
    • 对于非常常用的 skill ,可以 auto-invoke ,低频的手动 invoke 就行,极低的可以移除,放到文档目录里手动引用
    • skill 不能太短,也不能过长,也不要让他覆盖开发流程的每一件事(这种流程控制应该是 claud.md 做的),而且也不应有副作用
  • 为 cc 设计工具,应该明确名称,调用参数,有单一目标,输出可控可截断,有修正建议而不是简单的 error code
  • 自动化构建还是很重要的,不要总是让 cc 自己做所有事情
  • 同一任务就不要切 subagent 了,反而无法利用 kv ,节省不了缓存
  • claud.md 很重要,要写怎么跑,怎么测,项目边界,环境因素,压缩时必须要保留的东西。让 cc 自己维护 claud.md 也很不错,比如:“你总结一下这次的问题,放到 claud.md 里,避免下次再犯”

我的观点

  • 价值:很有价值的经验之谈,特别是需要主动压缩,主动管理上下文,是很好的思路。另外对 skill 如何在 cc 中发挥自己的作用,也有许多启发。

elie:this is a very nice feature, some example asking opus on claude web interface to explain M…

要点

  • claude 提供了全新的可交互 ui ,让他解释一个问题,他能生成可交互的图示,这个就是使用前端代码的自动生成能力做的。

Lyric🌀:编程从来不属于程序员

要点

  • 现在的编程从原来只有程序员建模再完成的问题域,变成了所有人描述的问题域,跨度很大,从复杂精密的天气预测系统到奶茶店老板的排班工具,但其复杂度的跨度很大
  • 现在我们需要的是新的工具来管理这种不断扩大的熵增
  • 真正的风险是,给错误的问题用错误的工具,对复杂问题的精确预测,变成 ai 觉得问题已经解决,但没人知道底下到底有没有解决
  • 未来对编程的控制力和理解力变成稀缺资源

kepano/defuddle: Get the main content of any page as Markdown.

要点

  • obsidian 作者做的工具,能比 readability 更好的从网页上提取可读干净的 markdown
  • 现在支持了解析 youtube 链接,不需要 api 就能拿干净的 youtube 字幕
  • 能通过 obsidian web clipper 使用

方法

  • 提供了快速的 npx 命令,可以一键尝试
npx defuddle parse https://x.com/chenchengpro/status/2032648998851674300

我的观点

  • 价值:很有价值,甚至还能直接读 x 文章,而且一键就试出来了
  • 适用条件:适合假如到 tool call 中,替代那些复杂的 jina 工具

meng shao:重读 OpenClaw 背后的 Agent 框架「pi」,作者 @badlogicgames 对主流 Coding Agent 的反思还是太超前了,pi 的极简设计即使现…

要点

  • openclaw 是基于 pi 构建的,是一个开源的 cc 或 codex 实现
  • pi追求简洁,但也支持所有厂商的模型和 api 方便切换
  • 核心 coding-agent 体量很小,只有4个核心工具: read, write, edit, bash,支持 agents.md
  • 默认 yolo , 不做 todo (因为无法跨会话,不如用外部文件维护),不做 plan (也用外部文件维护),不支持 mcp (体量太大,使用工具按需加载),没有后台 bash ,没有 sub agents
  • 注重可观察性,分层做的很优秀

我的观点

  • 价值:值得学习,作者因为不慢厂商的 coding 工具自己做一套,在现在这个时代是完全可能的。可以研究一下,是否能替代掉我的 codex ,或者成为 Emacs as Agent Runbook 的一部分

宝玉:编程 Agent 如何重塑工程、产品和设计【译】

要点

  • ai coding 让产品从想法到原型变的简单,但是评审的工作还是存在的
  • 程序员能有时间思考产品,产品有时间写代码,两者的角色其实是融合了
  • 现在有价值的角色应该是,能有产品思考,有设计能力和品味,能快速产出原型(甚至正式代码)的角色,以及有系统思考,能确认某一个原型想法是否符合整体构建思路的角色
  • 程序员的出路,要么打磨自己的产品思维,要么打磨自己的系统构建思维

我的观点

  • 价值:值得阅读的一篇文章,但如何打磨这些思维,没有很好的定论。品味也是需要大量实践磨炼出来的。

karpathy/autoresearch: AI agents running research on single-GPU nanochat training automatically

要点

  • 给 ai 一个小的 llm 模型想法,他自动会在一个单机上开始研究 llm 的原理,并跑一系列实验,最终形成研究报告

我的观点

  • 价值:快速入门 llm 研究的很好的工具,适合学生