阅读笔记 - 2026-03-22

目录 · 14 篇

01. mails — Email Infrastructure for AI Agents
02. nash_su - e/acc：AI逆向分析阿里推出的“悟…
03. Thariq：Lessons from Building Claude Code…
04. 我的人工智能采用之旅——米切尔·桥本 --- My …
05. Viv：The Anatomy of an Agent Harness
06. hamza mostafa：The Agent Research Loop
07. 周尔复：Agent 工作交接利器：继任者 Prompt
08. MemTensor/MemOS: AI memory OS for LLM and…
09. 歸藏(guizang.ai)：让你的 ClaudeCode 变成 …
10. discountry/safe-coder
11. CopilotKit/OpenGenerativeUI: Open-Source …
12. 宝玉：不要建一千个 Agent：Ramp 如何用一个…
13. TauricResearch/TradingAgents: TradingAgen…
14. 工程技术：在智能体优先的世界中利用 Codex …

mails — Email Infrastructure for AI Agents

要点

给 agent 使用的邮件服务，提供了一整套发邮件和收邮件的命令
开源，能完全自托管，也能让他托管，每个月100封的量，超过部分可以使用 x402 让 agent 自己付钱发送
可以随时切到自己的 resend key 实现无限发送
背后其实就是 https://resend.com/ 的服务

方法

提供 cli 工具让 agent 能收发邮件，也提供了 skills 让 ai 能快速理解

$ mails send --to user@example.com --subject "你好" --body "世界"
$ mails send --to user@example.com --subject "报告" --body "见附件" --attach report.pdf
$ mails inbox
$ mails inbox --query "验证码"

我的观点

价值：有意思的想法，就其实 email 是比 im 更好的与 agent 交互的工具：可以不限长度的输出，可以用 html 输出 newsletter ，可以跨平台跨协议与其他 agent 交互，可以搜索、加附件、归档，有 thread 概念可以创建长对话，有丰富的客户端可以和人类交流。
风险：100 封数量有点少，可能还不如搞一个 gmail cli
适用条件：快速构建 agent 沟通 channel ，或者发 newsletter ，或者代替 tg 等 im 做沟通，还能用来收验证码。实验过了，非常成功。

nash_su - e/acc：AI逆向分析阿里推出的“悟空”App技术架构

原文（x.com）

要点

对悟空的逆向研究，一览其实现和架构
主要代码都是 rs 写的，加上 tauri 所以体积小，性能好
支持多种 agent 引擎，支持自研的 spark + claude code + gemini cli + codex 等
内置很多现成的能力，包括代码执行，浏览器控制，截屏和ui自动化，还有多种 skills ，都是开箱即用的
有多种渠道的集成，包括钉钉， slack , whatsapp 等
有内置本地的 qwen ，还有内置多种运行时： bun / python / chromium ，真正开箱即用

我的观点

价值：能快速上手，适合小白用户。都说 ai 时代学的越慢就都不用学，悟空这个产品就是这样的，高度集成的方案，适合所有人快速上手 ai coding 或自动化办公
风险：长期扩展不直是否方便，以及公司内使用估计不行
适用条件：快速上手，小型的办公单位或个人，真正开箱即用，减少很多时间

Thariq：Lessons from Building Claude Code: How We Use Skills

原文（x.com）

要点

总结了Anthropic 内部是如何使用 skills 的一些技巧
常见的 skills ：
1. API 和类库，知道如何正确使用 cli 或 sdk
2. 产品验证，结合如 playwright 等工具，做功能验证的技能
3. 数据获取和分析：获得各种仪表数据
4. 业务流程与自动化：比如汇总各种信息形成 ticket 或报告，自动回 ticket
5. 代码模板，比如各种工作流，快速配置和文档的模板
6. 代码质量审查，多种对抗检查和代码样式等控制
7. cicd和部署，控制 pr 进行发布或冲突解决
8. runbooks 根据不同的 agent 的运行状态，进行多工具调查和生成报告
9. 基础设施，对服务资源节点进行管理
技巧分享：
- 少说常见指令，多说一些能让 cc 跳出当前思维的指令
- 建立陷阱区，抓住 cc 经常容易犯错的地方，收集起来避免下次再犯，但需要精简
- 使用文件和渐进加载，而不是一次性把所有内容都加上下文
- 不要给太细的步骤，比如一个 git 发布把所有步骤都 1234 写清楚了，而是给 cc 一些自由发挥的空间
- 合理设置思考等级，多使用 ask user question 的工具
- skill 的描述不是摘要，而是让 cc 决定什么时候用这个 skill 的，说明情景而不是介绍功能
- 合理使用存储来持久化会话
- 存储生成的代码，提供更多工具，cc能做的更好
- 使用 hooks 能对许多功能设置门禁
分享你的 skills ，组合多种技能，并学会调试和评估 skill 的指标能力。

我的观点

价值：Anthropic 内部使用 skills 的分享，还是很务实的，也和我们日常使用 skills 的过程差不多，可以作为一个大全的实践来参考

我的人工智能采用之旅——米切尔·桥本 — My AI Adoption Journey – Mitchell Hashimoto

原文（mitchellh.com）

要点

这是 Ghostty 作者分享自己使用 ai 编程的经历，介绍他如何一步步从 ai 怀疑者变成现在离不开 coding agent 的状态
作者第一步就是离开聊天型 ai ，转投各种 agent 工具。一开始他很怀疑 ai 的编程能力，总是首先自己实现一遍，然后再让 ai 实现一遍相同的功能（不给他看作者自己的实现），力求达到一样的质量。这个过程很痛苦，花了很久的经验总结，终于能让 ai 写的代码质量差不多，也花费时间与人写的没什么区别
后来作者会在下班前30分钟让 agent 自己写一点他来不及构想的功能，因为下班前人的状态已经没了，但 ai 可以帮助发散思维。第二天上班时他会检查那些看起来还能用的代码，即使不成功也无所谓，起码给了很多思路。
再后来作者了解到哪些事情是 ai 擅长的，哪些是不擅长的，他就会把这些工作分给 agent 做，当然为了保持心流，他不会允许 ai 开桌面通知。
多次实践以后，作者给 agents.md 加了很多规范性限制和工具调用的指南，很多事情都能稳定运行工作了，他觉得这就是他的 harness 实践
再到后来，作者会让一个 agent 永远运行在后台，他喜欢 amp 这种长思考模式的 agent ，总是会在开始自己手头工作前想：有没有什么事是 agent 可以做的
到目前为止作者还没使用多 agent 做长时间开发的尝试，但他很满足现在的状态，也可能未来会有其他的新实践想法。

我的观点

价值：很真诚的分享，也告诉我们真正的编程大牛们是怎么看待 coding agent 这个事情的。他的实践与心路也很值得我们学习。

Viv：The Anatomy of an Agent Harness

原文（x.com）

要点

LangChain 介绍的一套 Harness 设计的文章，并说 agent = model + harness ，而后者是真正让 agent 有用的设计
文件和 git 系统给 agent 提供了与真实代码和记录进度工作的地方
bash + code 给 agent 能自主解决问题的能力
沙盒和验证工具让 agent 能自主验证问题是否解决，运行测试和修复问题
memory 让 agent 能跨 session 保持目标专注， agents.md 也是同样的作用
上下文腐化是需要长期解决的问题，特别是上下文过长，工具链过多技能过多的问题
长期自主的做代码编写是 agent 最重要的目标，利用文件系统和 ralph 循环，也就是利用 hook 在任务结束时，再启动新的上下文，再开启下一次迭代，形成循环的方式来保持长期会话。计划、自我验证是让 agent 能保持在正规上最重要的工作
长期来说， agent 的一些能力会融入模型，但也未必，因为工具能力其实会让模型的性能下降 (terminal bench)
最后他介绍了 langchain 新出的 deepagent 库，能自我分析，能协调多个 agent 工作，能动态组装上下文

我的观点

价值：更多是对 deepagent 这个库的介绍，说明他为什么要做这个库和他解决什么问题。当然也是对 agent 的再一次复习。

hamza mostafa：The Agent Research Loop

原文（x.com）

要点

以前大家觉得研究是研究，实验是执行，但在合适的模式下，他们就能自动完成， auto research 就示范了这个过程
他要求 agent 每次先提出假设，然后只改一个变量，实验后确认或反驳。然后利用 git 记录所有实验的上下文和记录，这样研究过程就自己启动起来了
人在这个过程中就很重要，人的决策的品味会决定 auto research 出来的结果
现在有两种循环：闭环优化，有一个明确的重点， agent 会自动去找到他；开放研究， agent 主动发掘，人类决定合时停止
作者又创造了一个 praxLab 的工具，从一个 program.md 开始，会有多个叶子节点，编辑 program.md ，就能开始这个循环，可以和任何的 agent 工具结合

方法

praxlab 用于构建、测试、对比、分析 LLM prompt / agent 行为的实验平台（evaluation + experimentation harness）

我的观点

价值：一个有意思的实践，介绍了 auto reaserch 在作者这边的实际用法。可以参考用在别的研究上

周尔复：Agent 工作交接利器：继任者 Prompt

原文（x.com）

要点

让 agent 主动交接，提供一个 handoff 文档输出给下一个新 agent 会话
作者称其为 prompt 自举

我的观点

价值：其实就是主动压缩上下文的一种方式，但是可以放在文本里持久化，适合多 agent 或跨会话交互

MemTensor/MemOS: AI memory OS for LLM and Agent systems(moltbot,clawdbot,openclaw), enabling pe…

原文（github.com）

要点

一个 memory 为核心的 agent ，能优化 skills 产生的 memory ，让他能实现更好的 cross task reuse
思路是把 Memory 从 Prompt 里抽出来，做成系统层的一部分。这样 Agent 不再只是依赖 Context 维持状态，而是有一个独立的长期 Memory 系统
号称能减少 70% 的 token 用量

我的观点

价值：可以学习的 memory 系统

歸藏(guizang.ai)：让你的 ClaudeCode 变成 Openclaw（龙虾），连接飞书、Discord 远程控制

原文（x.com）

要点

两个工具： claude-to-im-skill 能让当前 claude code 会话发到各种 im 上， claude-to-im 是一个 sdk ，如果你的项目是 agent sdk 做的，能直接使用

我的观点

价值：可以学习一下他怎么把当前会话取出来的，以及怎么交互的。可能可以和 pi agent 做结合

discountry/safe-coder

原文（github.com）

要点

给 pi agent 提供安全控制
默认的 pi agent 是无 permission 的，他能避免 pi 跑 rm -r 之类的

我的观点

价值：有价值，但不多，大家都跑 cc 无 permission 模式，更痛快

CopilotKit/OpenGenerativeUI: Open-Source Generative UI Framework

原文（github.com）

要点

claude 的 genertive ui 的开源实现，能让 agent 输出可交互的 html ui
使用的是 iframe 方案，和原版少许有点不同

我的观点

价值：值得参考，可以用于快速揭入

宝玉：不要建一千个 Agent：Ramp 如何用一个 Agent 搞定金融自动化

原文（x.com）

要点

Ramp 公司内的 ai adoption 分享，有很多从0开始建设的心路历程的介绍
他们从最小的问题开始，如何对一个 15 分钟的买咖啡流程和背后的会计流程做自动化，构建了专门的 agent
后来公司里有大量 agent 后，ramp 决定是构建1个 agent 和1000种能力，这样产品经理自己可以 vibe coding 创造工具，不需要工程师帮助
因为可以用自然语言描述流程，所以他们把各种财务政策自动化了。但这个过程不是一步到位的，他们从内部实际数据中学习，从最高频最麻烦的步骤做起
从单一的功能，到多功能需要有专门的分支判断和路由，再到完全的自动化，其实就是在一此次实际使用中得到的
利用 ai 工具能加快对 ai 工具的构建过程。通过一点点克服 ai 的语言漂移和上下文腐化问题，都是靠 5 个最早的 eval ，再逐渐扩大的过程，但最终要早做，反复做，敢切模型，敢持续加上下文
让财务等业务人员直接改 agents.md ，让 50% 的 pr 都是由 ai 直接生成，让 ai 永远更快的在一线投入使用
软件永远做不完

我的观点

价值： ramp 的实践，其实很对，就要在最常见的地方用 ai 干，就是让一线业务都干，就是让所有场景反复的用 ai 干，才能干出成绩

TauricResearch/TradingAgents: TradingAgents: Multi-Agents LLM Financial Trading Framework

原文（github.com）

要点

利用 ai 研究员不停的分析上市公司的财报、新闻、市场解读和舆情
分析市场情绪和走势，给出投资建议

我的观点

价值：就是一个 ai 舆情机器人的自动化版，基本价值就是不用手写那些舆情分析爬虫和情绪分析工具了

工程技术：在智能体优先的世界中利用 Codex | OpenAI

原文（openai.com）

要点

openai 内部搞了一套完全没有人写代码的代码库，这是他们的实践分享
工程师的角色不再是写代码，而是构建 ralph 循环，推动 codex 自动提交 pr 和审核 pr
不断提高应用的可读能性，比如更多日志和 chromedevtool 接入，还包括 log ql 和 prom ql 查询，就是为了让 ai 能自主 debug
代码仓库被合理划分， agent.md 是索引，而每一个情景的文档也都在代码库中，但按需加载。最终目标是 agent 自己通过代码库就能推理出全部的情景。这个过程是需要不断优化的，不然 agent 就会觉得自己是个新员工
良好的架构是成功的关键， agent 必须沿着严格边界和实现顺序，以及充足的 linter 检查，才能最稳定的输出
在吞吐量的 ai 编程环境中，不要有太多的检查门，因为小 bug 他会在后续迭代中自动修复，反而因为太多门导致合并花更多时间，反而降低了迭代速度
需要不断做的就是给 codex 提供各种工具和所有必要的内容，都在一个地方，提高他的自主化水平
需要有一个循环的垃圾收集机制定期清理不必要的循环和检查。

我的观点

价值：很有价值的实践介绍，同时也给大家实践 ai 编程以信心，就是这套模式 openai 内部也在使用，而且和我们自己的实践是差不多的。

阅读笔记 - 2026-03-22

mails — Email Infrastructure for AI Agents

要点

方法

我的观点

nashsu - e/acc：AI逆向分析阿里推出的“悟空”App技术架构

要点

我的观点

Thariq：Lessons from Building Claude Code: How We Use Skills

要点

我的观点

我的人工智能采用之旅——米切尔·桥本 — My AI Adoption Journey – Mitchell Hashimoto

要点

我的观点

Viv：The Anatomy of an Agent Harness

要点

我的观点

hamza mostafa：The Agent Research Loop

要点

方法

我的观点

周尔复：Agent 工作交接利器：继任者 Prompt

要点

我的观点

MemTensor/MemOS: AI memory OS for LLM and Agent systems(moltbot,clawdbot,openclaw), enabling pe…

要点

我的观点

歸藏(guizang.ai)：让你的 ClaudeCode 变成 Openclaw（龙虾），连接飞书、Discord 远程控制

要点

我的观点

discountry/safe-coder

要点

我的观点

CopilotKit/OpenGenerativeUI: Open-Source Generative UI Framework

要点

我的观点

宝玉：不要建一千个 Agent：Ramp 如何用一个 Agent 搞定金融自动化

要点

我的观点

TauricResearch/TradingAgents: TradingAgents: Multi-Agents LLM Financial Trading Framework

要点

我的观点

工程技术：在智能体优先的世界中利用 Codex | OpenAI

要点

我的观点

nash_su - e/acc：AI逆向分析阿里推出的“悟空”App技术架构