跳到主要内容

阅读笔记 - 2026-03-22

目录 · 14 篇

mails — Email Infrastructure for AI Agents

要点

  • 给 agent 使用的邮件服务,提供了一整套发邮件和收邮件的命令
  • 开源,能完全自托管,也能让他托管,每个月100封的量,超过部分可以使用 x402 让 agent 自己付钱发送
  • 可以随时切到自己的 resend key 实现无限发送
  • 背后其实就是 https://resend.com/ 的服务

方法

  • 提供 cli 工具让 agent 能收发邮件,也提供了 skills 让 ai 能快速理解
$ mails send --to user@example.com --subject "你好" --body "世界"
$ mails send --to user@example.com --subject "报告" --body "见附件" --attach report.pdf
$ mails inbox
$ mails inbox --query "验证码"

我的观点

  • 价值:有意思的想法,就其实 email 是比 im 更好的与 agent 交互的工具:可以不限长度的输出,可以用 html 输出 newsletter ,可以跨平台跨协议与其他 agent 交互,可以搜索、加附件、归档,有 thread 概念可以创建长对话,有丰富的客户端可以和人类交流。
  • 风险:100 封数量有点少,可能还不如搞一个 gmail cli
  • 适用条件:快速构建 agent 沟通 channel ,或者发 newsletter ,或者代替 tg 等 im 做沟通,还能用来收验证码。实验过了,非常成功。

nashsu - e/acc:AI逆向分析阿里推出的“悟空”App技术架构

要点

  • 对悟空的逆向研究,一览其实现和架构
  • 主要代码都是 rs 写的,加上 tauri 所以体积小,性能好
  • 支持多种 agent 引擎,支持自研的 spark + claude code + gemini cli + codex 等
  • 内置很多现成的能力,包括代码执行,浏览器控制,截屏和ui自动化,还有多种 skills ,都是开箱即用的
  • 有多种渠道的集成,包括钉钉, slack , whatsapp 等
  • 有内置本地的 qwen ,还有内置多种运行时: bun / python / chromium ,真正开箱即用

我的观点

  • 价值:能快速上手,适合小白用户。都说 ai 时代学的越慢就都不用学,悟空这个产品就是这样的,高度集成的方案,适合所有人快速上手 ai coding 或自动化办公
  • 风险:长期扩展不直是否方便,以及公司内使用估计不行
  • 适用条件:快速上手,小型的办公单位或个人,真正开箱即用,减少很多时间

Thariq:Lessons from Building Claude Code: How We Use Skills

要点

  • 总结了Anthropic 内部是如何使用 skills 的一些技巧
  • 常见的 skills :
    1. API 和类库,知道如何正确使用 cli 或 sdk
    2. 产品验证,结合如 playwright 等工具,做功能验证的技能
    3. 数据获取和分析:获得各种仪表数据
    4. 业务流程与自动化:比如汇总各种信息形成 ticket 或报告,自动回 ticket
    5. 代码模板,比如各种工作流,快速配置和文档的模板
    6. 代码质量审查,多种对抗检查和代码样式等控制
    7. cicd和部署,控制 pr 进行发布或冲突解决
    8. runbooks 根据不同的 agent 的运行状态,进行多工具调查和生成报告
    9. 基础设施,对服务资源节点进行管理
  • 技巧分享:
    • 少说常见指令,多说一些能让 cc 跳出当前思维的指令
    • 建立陷阱区,抓住 cc 经常容易犯错的地方,收集起来避免下次再犯,但需要精简
    • 使用文件和渐进加载,而不是一次性把所有内容都加上下文
    • 不要给太细的步骤,比如一个 git 发布把所有步骤都 1234 写清楚了,而是给 cc 一些自由发挥的空间
    • 合理设置思考等级,多使用 ask user question 的工具
    • skill 的描述不是摘要,而是让 cc 决定什么时候用这个 skill 的,说明情景而不是介绍功能
    • 合理使用存储来持久化会话
    • 存储生成的代码,提供更多工具,cc能做的更好
    • 使用 hooks 能对许多功能设置门禁
  • 分享你的 skills ,组合多种技能,并学会调试和评估 skill 的指标能力。

我的观点

  • 价值:Anthropic 内部使用 skills 的分享,还是很务实的,也和我们日常使用 skills 的过程差不多,可以作为一个大全的实践来参考

我的人工智能采用之旅——米切尔·桥本 — My AI Adoption Journey – Mitchell Hashimoto

要点

  • 这是 Ghostty 作者分享自己使用 ai 编程的经历,介绍他如何一步步从 ai 怀疑者变成现在离不开 coding agent 的状态
  • 作者第一步就是离开聊天型 ai ,转投各种 agent 工具。一开始他很怀疑 ai 的编程能力,总是首先自己实现一遍,然后再让 ai 实现一遍相同的功能(不给他看作者自己的实现),力求达到一样的质量。这个过程很痛苦,花了很久的经验总结,终于能让 ai 写的代码质量差不多,也花费时间与人写的没什么区别
  • 后来作者会在下班前30分钟让 agent 自己写一点他来不及构想的功能,因为下班前人的状态已经没了,但 ai 可以帮助发散思维。第二天上班时他会检查那些看起来还能用的代码,即使不成功也无所谓,起码给了很多思路。
  • 再后来作者了解到哪些事情是 ai 擅长的,哪些是不擅长的,他就会把这些工作分给 agent 做,当然为了保持心流,他不会允许 ai 开桌面通知。
  • 多次实践以后,作者给 agents.md 加了很多规范性限制和工具调用的指南,很多事情都能稳定运行工作了,他觉得这就是他的 harness 实践
  • 再到后来,作者会让一个 agent 永远运行在后台,他喜欢 amp 这种长思考模式的 agent ,总是会在开始自己手头工作前想:有没有什么事是 agent 可以做的
  • 到目前为止作者还没使用多 agent 做长时间开发的尝试,但他很满足现在的状态,也可能未来会有其他的新实践想法。

我的观点

  • 价值:很真诚的分享,也告诉我们真正的编程大牛们是怎么看待 coding agent 这个事情的。他的实践与心路也很值得我们学习。

Viv:The Anatomy of an Agent Harness

要点

  • LangChain 介绍的一套 Harness 设计的文章,并说 agent = model + harness ,而后者是真正让 agent 有用的设计
  • 文件和 git 系统给 agent 提供了与真实代码和记录进度工作的地方
  • bash + code 给 agent 能自主解决问题的能力
  • 沙盒和验证工具让 agent 能自主验证问题是否解决,运行测试和修复问题
  • memory 让 agent 能跨 session 保持目标专注, agents.md 也是同样的作用
  • 上下文腐化是需要长期解决的问题,特别是上下文过长,工具链过多技能过多的问题
  • 长期自主的做代码编写是 agent 最重要的目标,利用文件系统和 ralph 循环,也就是利用 hook 在任务结束时,再启动新的上下文,再开启下一次迭代,形成循环的方式来保持长期会话。计划、自我验证是让 agent 能保持在正规上最重要的工作
  • 长期来说, agent 的一些能力会融入模型,但也未必,因为工具能力其实会让模型的性能下降 (terminal bench)
  • 最后他介绍了 langchain 新出的 deepagent 库,能自我分析,能协调多个 agent 工作,能动态组装上下文

我的观点

  • 价值:更多是对 deepagent 这个库的介绍,说明他为什么要做这个库和他解决什么问题。当然也是对 agent 的再一次复习。

hamza mostafa:The Agent Research Loop

要点

  • 以前大家觉得研究是研究,实验是执行,但在合适的模式下,他们就能自动完成, auto research 就示范了这个过程
  • 他要求 agent 每次先提出假设,然后只改一个变量,实验后确认或反驳。然后利用 git 记录所有实验的上下文和记录,这样研究过程就自己启动起来了
  • 人在这个过程中就很重要,人的决策的品味会决定 auto research 出来的结果
  • 现在有两种循环: 闭环优化,有一个明确的重点, agent 会自动去找到他;开放研究, agent 主动发掘,人类决定合时停止
  • 作者又创造了一个 praxLab 的工具,从一个 program.md 开始,会有多个叶子节点,编辑 program.md ,就能开始这个循环,可以和任何的 agent 工具结合

方法

  • praxlab 用于构建、测试、对比、分析 LLM prompt / agent 行为的实验平台(evaluation + experimentation harness)

我的观点

  • 价值:一个有意思的实践,介绍了 auto reaserch 在作者这边的实际用法。可以参考用在别的研究上

周尔复:Agent 工作交接利器:继任者 Prompt

要点

  • 让 agent 主动交接 ,提供一个 handoff 文档输出给下一个新 agent 会话
  • 作者称其为 prompt 自举

我的观点

  • 价值:其实就是主动压缩上下文的一种方式,但是可以放在文本里持久化,适合多 agent 或跨会话交互

MemTensor/MemOS: AI memory OS for LLM and Agent systems(moltbot,clawdbot,openclaw), enabling pe…

要点

  • 一个 memory 为核心的 agent ,能优化 skills 产生的 memory ,让他能实现更好的 cross task reuse
  • 思路是把 Memory 从 Prompt 里抽出来,做成系统层的一部分。这样 Agent 不再只是依赖 Context 维持状态,而是有一个独立的长期 Memory 系统
  • 号称能减少 70% 的 token 用量

我的观点

  • 价值:可以学习的 memory 系统

歸藏(guizang.ai):让你的 ClaudeCode 变成 Openclaw(龙虾),连接飞书、Discord 远程控制

要点

  • 两个工具: claude-to-im-skill 能让当前 claude code 会话发到各种 im 上, claude-to-im 是一个 sdk ,如果你的项目是 agent sdk 做的,能直接使用

我的观点

  • 价值:可以学习一下他怎么把当前会话取出来的,以及怎么交互的。可能可以和 pi agent 做结合

discountry/safe-coder

要点

  • 给 pi agent 提供安全控制
  • 默认的 pi agent 是无 permission 的,他能避免 pi 跑 rm -r 之类的

我的观点

  • 价值:有价值,但不多,大家都跑 cc 无 permission 模式,更痛快

CopilotKit/OpenGenerativeUI: Open-Source Generative UI Framework

要点

  • claude 的 genertive ui 的开源实现,能让 agent 输出可交互的 html ui
  • 使用的是 iframe 方案,和原版少许有点不同

我的观点

  • 价值:值得参考,可以用于快速揭入

宝玉:不要建一千个 Agent:Ramp 如何用一个 Agent 搞定金融自动化

要点

  • Ramp 公司内的 ai adoption 分享,有很多从0开始建设的心路历程的介绍
  • 他们从最小的问题开始,如何对一个 15 分钟的买咖啡流程和背后的会计流程做自动化,构建了专门的 agent
  • 后来公司里有大量 agent 后,ramp 决定是构建1个 agent 和1000种能力,这样产品经理自己可以 vibe coding 创造工具,不需要工程师帮助
  • 因为可以用自然语言描述流程,所以他们把各种财务政策自动化了。但这个过程不是一步到位的,他们从内部实际数据中学习,从最高频最麻烦的步骤做起
  • 从单一的功能,到多功能需要有专门的分支判断和路由,再到完全的自动化,其实就是在一此次实际使用中得到的
  • 利用 ai 工具能加快对 ai 工具的构建过程。通过一点点克服 ai 的语言漂移和上下文腐化问题,都是靠 5 个最早的 eval ,再逐渐扩大的过程,但最终要早做,反复做,敢切模型,敢持续加上下文
  • 让财务等业务人员直接改 agents.md ,让 50% 的 pr 都是由 ai 直接生成,让 ai 永远更快的在一线投入使用
  • 软件永远做不完

我的观点

  • 价值: ramp 的实践,其实很对,就要在最常见的地方用 ai 干,就是让一线业务都干,就是让所有场景反复的用 ai 干,才能干出成绩

TauricResearch/TradingAgents: TradingAgents: Multi-Agents LLM Financial Trading Framework

要点

  • 利用 ai 研究员不停的分析上市公司的财报、新闻、市场解读和舆情
  • 分析市场情绪和走势,给出投资建议

我的观点

  • 价值:就是一个 ai 舆情机器人的自动化版,基本价值就是不用手写那些舆情分析爬虫和情绪分析工具了

工程技术:在智能体优先的世界中利用 Codex | OpenAI

要点

  • openai 内部搞了一套完全没有人写代码的代码库,这是他们的实践分享
  • 工程师的角色不再是写代码,而是构建 ralph 循环,推动 codex 自动提交 pr 和审核 pr
  • 不断提高应用的可读能性,比如更多日志和 chromedevtool 接入,还包括 log ql 和 prom ql 查询,就是为了让 ai 能自主 debug
  • 代码仓库被合理划分, agent.md 是索引,而每一个情景的文档也都在代码库中,但按需加载。最终目标是 agent 自己通过代码库就能推理出全部的情景。这个过程是需要不断优化的,不然 agent 就会觉得自己是个新员工
  • 良好的架构是成功的关键, agent 必须沿着严格边界和实现顺序,以及充足的 linter 检查,才能最稳定的输出
  • 在吞吐量的 ai 编程环境中,不要有太多的检查门,因为小 bug 他会在后续迭代中自动修复,反而因为太多门导致合并花更多时间,反而降低了迭代速度
  • 需要不断做的就是给 codex 提供各种工具和所有必要的内容,都在一个地方,提高他的自主化水平
  • 需要有一个循环的垃圾收集机制定期清理不必要的循环和检查。

我的观点

  • 价值:很有价值的实践介绍,同时也给大家实践 ai 编程以信心,就是这套模式 openai 内部也在使用,而且和我们自己的实践是差不多的。