阅读笔记 - 2026-03-14

AlexZ 🦀：智能体软件工程 #4 ｜当 Agent 写完代码，谁来说「可以合并」？

原文（x.com）

要点

介绍了使用 agent-spec 的做 ai 编程的验证方式，认为 ai 写代码，人 review 的方式已经完全跟不上了，人的主要职责就是写 contract ，ai 根据 contract 来编写和自我验证，给人的是验证完成后的结构化审计报告
人花 60% 的时间写 contract ，编码和验证都是 ai ，最后花 30% 的时间读报告，然后 approve 花10% 的时间就够了
最重要的是 Task Contract，有4个关键信息：
- 要说明任务意图（ intent ）
- 已经完成的决策 ( decisions )
- 任务边界，什么是我要的，什么是我不要的
- 完成条件，可以是一系列对 bdd 测试的引用，而且需要负面用例比正面用例多，以限制 ai 的自我发挥
7个步骤：人写 contract ， ai 对 contract 质量做评估， agent 读 contract 编码，多次 lifecycle 循环验证，并记录是几次最终通过了 gate ，对所有门禁要有结构化的输出，可以有通过/失败/跳过/无法验证 4 种状态，然后让 ai 输出对结果的 explain （可能需要人来对一些结果做决策），人类审批通过后， stamp 归档
ai verifier 有4个等级，两种模式：
- l1: 结构化校验，用语法检查器完成
- l2: 可访问边界校验，自动化的验证器完成，也不需要 token
- l3: 测试用例校验，可以是 ut , 也可以是 bdd ，最终产出是回答：能否满足 contract 定义的边界
- l4: ai分析前3者未能覆盖的场景，有 stub 模式和 caller 模式，他的输出是 uncertian ，不是 pass / failed ，结果需要由人来判断
  - stub 是让编排系统来认证， caller 是让 ai coder 比如 cc 来验证
可以有 org.spec, project.spec, task.spec 3层，依次覆盖，实现团队管理
这套方案不能解决所有问题，但确实是更 agentic 的 code review 方案

方法

他也提供了 skills 来帮助人类写 contract ，以及提供工作流更好的完成 7 步循环
他也能和 jj 合作，使用 commit 为核心的最小改动模式，实现滚动更新

我的观点

价值：很有价值的 code review 实践，但目前他的所有设施都是专注在 rust 生态上，其他的项目使用， l1-l3 的设施还需要自己构建，但也是很好的实践导论。提供的 skills 可以用来编写 ert 协议
适用条件：需要人来参与的编码过程，减少 code review 的负担

TODO 把 agent-spec skills 加入到我现在的 workflow 中

Leo：用 markdown 文件树做 AI 记忆系统，跑了两个多月，聊聊真实体感。漂移是真实痛点。源文件和摘要之间会悄悄分裂，靠写入规范约束本质是靠纪律，纪律迟早松。但「需要 join…

原文（x.com）

要点

个人记忆系统不需要高复杂的 join 和 index ，使用 mardown 文件 + chromadb + bm25 召回就够用了
个人系统和公司知识库是两套不同的实践

我的观点

价值：经验之谈，可以参考

Tw93：你不知道的 Claude Code：架构、治理与工程实践

原文（x.com）

要点

快速上手 cc 的技巧经验之谈，从如何开始，到如何优化流程，到如何成为系统设计者（产生质变）
利用好 cc 的各种功能，其实是在设计流程的各个环节：
1. claud.md / rules / memory 是告诉 cc 这个项目是什么
2. tools / mcp 是提供各种能力，能做什么
3. skills 是方法论和流程控制，或者领域知识
4. hooks 自动化验证器，用于轻量的，确定性的工作
5. subagents 能有更专注的工作分工，或者节省 token 开支，加快独立任务速度
6. verifiers 验证在自动化编程中很重要
cc的上下文很有限，需要让 claud.md 尽可能短（不超过2.5k），大型参考文档放到 skills 的 supporting files 中，长期会话主动用 /context 观察消耗，主动做压缩
skills 很重要，可以做门禁检查，标准流程控制和领域专家控制（出问题时按专家思路收集证据并校验）
- 对于非常常用的 skill ，可以 auto-invoke ，低频的手动 invoke 就行，极低的可以移除，放到文档目录里手动引用
- skill 不能太短，也不能过长，也不要让他覆盖开发流程的每一件事（这种流程控制应该是 claud.md 做的），而且也不应有副作用
为 cc 设计工具，应该明确名称，调用参数，有单一目标，输出可控可截断，有修正建议而不是简单的 error code
自动化构建还是很重要的，不要总是让 cc 自己做所有事情
同一任务就不要切 subagent 了，反而无法利用 kv ，节省不了缓存
claud.md 很重要，要写怎么跑，怎么测，项目边界，环境因素，压缩时必须要保留的东西。让 cc 自己维护 claud.md 也很不错，比如：“你总结一下这次的问题，放到 claud.md 里，避免下次再犯”

我的观点

价值：很有价值的经验之谈，特别是需要主动压缩，主动管理上下文，是很好的思路。另外对 skill 如何在 cc 中发挥自己的作用，也有许多启发。

elie：this is a very nice feature, some example asking opus on claude web interface to explain M…

原文（x.com）

要点

claude 提供了全新的可交互 ui ，让他解释一个问题，他能生成可交互的图示，这个就是使用前端代码的自动生成能力做的。

Lyric🌀：编程从来不属于程序员

原文（x.com）

要点

现在的编程从原来只有程序员建模再完成的问题域，变成了所有人描述的问题域，跨度很大，从复杂精密的天气预测系统到奶茶店老板的排班工具，但其复杂度的跨度很大
现在我们需要的是新的工具来管理这种不断扩大的熵增
真正的风险是，给错误的问题用错误的工具，对复杂问题的精确预测，变成 ai 觉得问题已经解决，但没人知道底下到底有没有解决
未来对编程的控制力和理解力变成稀缺资源

kepano/defuddle: Get the main content of any page as Markdown.

原文（github.com）

要点

obsidian 作者做的工具，能比 readability 更好的从网页上提取可读干净的 markdown
现在支持了解析 youtube 链接，不需要 api 就能拿干净的 youtube 字幕
能通过 obsidian web clipper 使用

方法

提供了快速的 npx 命令，可以一键尝试

npx defuddle parse https://x.com/chenchengpro/status/2032648998851674300

陈成 @chenchengpro

Mozilla 的 Readability 已经名存实亡。

Obsidian 创始人 kepano 写了个替代品：Defuddle——从任意网页提取干净 Markdown 的开源库。

刚更新的最新版加了一个我觉得很实用的功能：直接解析 YouTube 链接，返回带时间戳、章节、说话人识别的 Markdown 字幕，不需要任何 API，就是直接从 YouTube 拿字幕然后整理干净。

对比 Readability，Defuddle 的优势：

• 输出结构化 frontmatter（作者、发布日期等）
• 支持脚注、LaTeX、Callout 块
• 利用网站移动端样式来识别噪音元素
• 可以跑在任何地方：curl、CLI、Node、浏览器、自托管

用法很简单，一行命令就能跑：
npx defuddle parse <任意 URL>

也已经集成进 Obsidian Web Clipper 1.1.0，新增了 Reader 模式和 {{transcript}} 变量，可以直接在笔记模板里用 YouTube 字幕。

MIT 协议，3.3k stars，还在活跃开发：
https://t.co/W1uNHYWVER

我的观点

价值：很有价值，甚至还能直接读 x 文章，而且一键就试出来了
适用条件：适合假如到 tool call 中，替代那些复杂的 jina 工具

meng shao：重读 OpenClaw 背后的 Agent 框架「pi」，作者 @badlogicgames 对主流 Coding Agent 的反思还是太超前了，pi 的极简设计即使现…

原文（x.com）

要点

openclaw 是基于 pi 构建的，是一个开源的 cc 或 codex 实现
pi追求简洁，但也支持所有厂商的模型和 api 方便切换
核心 coding-agent 体量很小，只有4个核心工具： read, write, edit, bash，支持 agents.md
默认 yolo , 不做 todo （因为无法跨会话，不如用外部文件维护），不做 plan （也用外部文件维护），不支持 mcp （体量太大，使用工具按需加载），没有后台 bash ，没有 sub agents
注重可观察性，分层做的很优秀

我的观点

价值：值得学习，作者因为不慢厂商的 coding 工具自己做一套，在现在这个时代是完全可能的。可以研究一下，是否能替代掉我的 codex ，或者成为 Emacs as Agent Runbook 的一部分

宝玉：编程 Agent 如何重塑工程、产品和设计【译】

原文（x.com）

要点

ai coding 让产品从想法到原型变的简单，但是评审的工作还是存在的
程序员能有时间思考产品，产品有时间写代码，两者的角色其实是融合了
现在有价值的角色应该是，能有产品思考，有设计能力和品味，能快速产出原型（甚至正式代码）的角色，以及有系统思考，能确认某一个原型想法是否符合整体构建思路的角色
程序员的出路，要么打磨自己的产品思维，要么打磨自己的系统构建思维

我的观点

价值：值得阅读的一篇文章，但如何打磨这些思维，没有很好的定论。品味也是需要大量实践磨炼出来的。

karpathy/autoresearch: AI agents running research on single-GPU nanochat training automatically

原文（github.com）

要点

给 ai 一个小的 llm 模型想法，他自动会在一个单机上开始研究 llm 的原理，并跑一系列实验，最终形成研究报告

我的观点

价值：快速入门 llm 研究的很好的工具，适合学生

阅读笔记 - 2026-03-14

AlexZ 🦀：智能体软件工程 #4 ｜ 当 Agent 写完代码，谁来说「可以合并」？

要点

方法

我的观点

TODO 把 agent-spec skills 加入到我现在的 workflow 中

Leo：用 markdown 文件树做 AI 记忆系统，跑了两个多月，聊聊真实体感。 漂移是真实痛点。源文件和摘要之间会悄悄分裂，靠写入规范约束本质是靠纪律，纪律迟早松。 但「需要 join…

要点

我的观点

Tw93：你不知道的 Claude Code：架构、治理与工程实践

要点

我的观点

elie：this is a very nice feature, some example asking opus on claude web interface to explain M…

要点

Lyric🌀：编程从来不属于程序员

要点

kepano/defuddle: Get the main content of any page as Markdown.

要点

方法

我的观点

meng shao：重读 OpenClaw 背后的 Agent 框架「pi」，作者 @badlogicgames 对主流 Coding Agent 的反思还是太超前了，pi 的极简设计即使现…

要点

我的观点

宝玉：编程 Agent 如何重塑工程、产品和设计【译】

要点

我的观点

karpathy/autoresearch: AI agents running research on single-GPU nanochat training automatically

要点

我的观点

AlexZ 🦀：智能体软件工程 #4 ｜当 Agent 写完代码，谁来说「可以合并」？

Leo：用 markdown 文件树做 AI 记忆系统，跑了两个多月，聊聊真实体感。漂移是真实痛点。源文件和摘要之间会悄悄分裂，靠写入规范约束本质是靠纪律，纪律迟早松。但「需要 join…