跳到主要内容

阅读笔记 - 2026-03-08

目录 · 10 篇

pbakaus/impeccable: The design language that makes your AI harness better at design.

要点

  • 一套用于网页设计的 skills + cc 插件
  • 包含如字体、颜色、空间、交互、rwd 等能力
  • 包含多种指令,能一键增强,一键细化,一键组件提取,一键设计审核和设计简化
  • 支持 cursor , cc, codex
  • 直接用于网页设计

我的观点

  • 价值:值得尝试,可以试用在我的博客里

DONE 使用这个工具在我优化我的博客设计

generative-ai/gemini/agents/always-on-memory-agent at main · GoogleCloudPlatform/generative-ai

要点

  • 一套没有 vector db 或 embedding 的记忆系统设计
  • 对现有的几种记忆方案做了批判:
    • vector db 过于被动,只输入,没有主动处理
    • 对话摘要模式:细节会丢失,没有交叉对比
    • knowledge base: 构造和维护成本太高
  • 他的实现方案:分成3个不同的 agent
    • Ingest (摄入) agent: 向代理提供任何文件 ——文本、图片、音频、视频或 PDF , 利用 Gemini 的多模态能力从所有这些信息中提取结构化信息
    • Consolidate (巩固)Agent 运行定时器(默认为每 30 分钟一次),进行:
      • 回顾未合并的记忆
      • 发现了两者之间的联系
      • 生成跨领域洞察
      • 压缩相关信息
    • QueryAgent 读取所有记忆和巩固洞见,然后综合答案并附上来源引用
  • 存储数据就是简单的 sqlite

方法

  • 能快速接入,开箱即用

我的观点

  • 价值:非常简单且可理解的实现,值得在项目中试用

长期执业特工的有效束缚 \ Anthropic — Effective harnesses for long-running agents \ Anthropic

要点

  • 对巨大的长期的任务,对 cc 这样的工具是一个挑战,特别是在跨上下文做开发过程中,每次 cc 的新实例都会忘掉前面的工作,这个使用上下文压缩也不很好工作
  • 一旦忘记上下文以后, cc 就会在局部优化中越走越远,就是 goal drift
  • 应对任务过大的问题, cc 会拆解成一系列小任务,放在约定的位置
  • 对上下文遗忘的问题,cc 的做法是在实例刚启动时提供一系列标准动作,包括识别自己所在目录,读 git 记录,然后读上面的任务列表,回忆自己现在做到哪了
  • 每次 git 记录都要明确的说自己做了什么,在任务列表里是在哪个位置上,然后在进度文件上写进度摘要,作为 checkpoint ,经常的 commit ,这样做某个修改的回滚也方便
  • agent loop 需要固定,让流程转起来

我的观点

  • 价值:很好的实践分享,已经加入到我的 Emacs as Agent Runbook 的经验中

openai/symphony: Symphony turns project work into isolated, autonomous implementation runs, all…

要点

  • 一套多 agent 协作管理的框架,能把项目变成一个个独立的、自动的实现过程
  • 可以使用外部的项目管理工具,比如他的 demo 里用了 linear
  • 他提供了 spec ,可以把你的工作流程变成 Symphony 类似的项目

我的观点

  • 价值:基本和我的 Emacs as Agent Runbook 完全一样的想法,而且我已经让 gpt 学了他的 spec ,应该说是完全一致的实现,非常有价值的参考

我真的没有拼多多:Google最新论文:目前只有2.5%的skills可用,大多数是垃圾,以及如何优化skills?

要点

  • 目前有 4 万多个 skills,只有 1k 个左右是有用的
  • Agent/LLM 写的 skills 都是垃圾,高级的 skills 都是手写的
  • 60%-80% 的 skills 都集中在软件工程领域
  • 文章也分享了如何提高 skill 质量
    • 控制 Skills 数量, 2-3 个 skill 的质量是最好的
    • 控制 Skills 复杂度,不管是详细的还是简洁的 skill ,表现都好于一个功能全面的 skill
    • 匹配领域需求,不同领域的 skill 对任务的表现差异巨大
    • 利用 Skills 弥补模型规模,好的 skill + 小模型的表现有可能好于无 skill 的大模型
    • cc对 skill 的使用更好, codex 经常会忽略 skill

我的观点

  • 价值:很好的分享,用于我自己的 skill 设计的参考

Kangwook Lee:Investigating how Codex context compaction works

要点

  • 提取了 codex cli 的源码,发现 codex 是如何在长任务中保持专注的:
    1. 当上下文太长时,不是简单丢弃历史,而是调用 compact() API
    2. 服务器用一个专用的 compactor LLM,把整个对话历史总结成一个精炼的“handoff summary”。
    3. 这个 summary 被 AES 加密成 blob 返回给客户端
    4. 下次 responses.create() 时,客户端把 blob 传回去,服务器解密后总结,一起喂给 codex 主模型。
    5. 模型无缝接力继续工作,不会因为压缩而严重失忆或漂移。
  • 然后作者提了一个问题:为什么Codex CLI使用两种完全不同的压缩路径(本地LLM用于非Codex模型,加密API用于Codex模型),而底层提示几乎相同?

我的观点

  • 价值:可以用于创建自己的 agent 的细节参考

小互:Anthropic 发布了 Skill Creator 的重大更新 核心变化:内置测试用例生成 写完一个 Claude 技能,怎么知道它到底能不能被正确触发?以前靠手动试,现在 Ski…

要点

  • anthropic 有 skill creator ,有自动的用例生成
  • 能自动化评估耗时、 token 用量和用例通过率
  • 能多 agent 并行测试
  • 能做多版本的 a/b 测试
  • 能做触发率优化测试,适合 skill 编写时被使用率的测试

我的观点

  • 价值:做 skill 最方便的工具,可能我做 skill 还是要以 anthropic 为核心平台?

everything-claude-code/README.zh-CN.md at main · affaan-m/everything-claude-code

要点

  • 来自 Anthropic 黑客马拉松获胜者的完整 Claude Code 配置集合。
  • 一整套完整的 llm 编程工具链,经过10个月的 agent / skills / hooks / commands / mcp 配置的整理
  • 能从现有的 git 历史中总结出 skills 的能力以快速开始
  • 能够持续学习,也就是通过对开发流程做直觉化的理解

长期学习可以看 https://x.com/affaanmustafa/status/2012378465664745795 这篇文档

我的观点

  • 价值:可以学习他的 vibe coding 的模式,特别是如何持续自举,优化流程,是怎么做的,值得学习

meng shao:如何成为世界级的「Agentic Engineer」 – 你可以把大量的设计和实现交给 Agent,但结果你必须自己负责。 工具不是越多越好,而是越精简越强 大多数人陷…

要点

  • 工具不是越多越好,而是越精简越强, 有人就用了裸的 cc 能完成最好的工作
  • 模型进化很快,现在你做的很多为了稳定性的工作未来模型可能就完成了
  • 需要相对精准的描述问题,需要做到不多也不少,一个 agent 个独立完成的工作量很重要
  • 利用 agent 的讨好个性,专门做几个相互对抗的角色,来反驳某个 agent 的结论
  • 需要给定任务结束的终点
  • 要长期运行 agent 的话需要避免单一 agent 的长期运行,因为这会导致上下文污染,应该用流程控制,多个干净会话来完成
  • 适当拆分 AGENTS.md 对不同领域的工作,如 review, coding, debug 分开不同的文档能帮助 agent 更好工作

我的观点

  • 价值:多数是大家都熟悉的经验,但作为一篇文章总结出来也是一种价值,适合做入门教程

4ier/neo: Turn any web app into an API. Chrome extension captures browser traffic, auto-generat…

要点

  • 一个 chrome 插件,能通过录制任意 web app 的请求,来总结出这些 web app 的 api 清单,供 llm 使用
  • 现在也支持对 ui 动作的录制了,能把任意 web app 的功能提取成一套可重放的工具链,让 llm 使用
  • 使用的是 cdp 方案
  • 能输出成多种内容,可以是 skills ,也可以是多步骤的工作流

我的观点

  • 价值:很有价值的工具,可以做内容采集自动化,也可以做自动化测试和自动化编程等工作
  • 风险:可能会有 session 泄漏风险,使用前需要安全审计一下

TODO 用这个工具录制一套公司内 jira 的使用流程?