跳到主要内容

阅读笔记 - 2026-03-08

目录 · 10 篇

01. pbakaus/impeccable: The design language t…
02. generative-ai/gemini/agents/always-on-mem…
03. 长期执业特工的有效束缚 \ Anthropic --- Ef…
04. openai/symphony: Symphony turns project w…
05. 我真的没有拼多多：Google最新论文：目前只…
06. Kangwook Lee：Investigating how Codex con…
07. 小互：Anthropic 发布了 Skill Creator 的重…
08. everything-claude-code/README.zh-CN.md at…
09. meng shao：如何成为世界级的「Agentic Engi…
10. 4ier/neo: Turn any web app into an API. C…

pbakaus/impeccable: The design language that makes your AI harness better at design.

原文（github.com）

要点

一套用于网页设计的 skills + cc 插件
包含如字体、颜色、空间、交互、rwd 等能力
包含多种指令，能一键增强，一键细化，一键组件提取，一键设计审核和设计简化
支持 cursor ， cc, codex
直接用于网页设计

我的观点

价值：值得尝试，可以试用在我的博客里

DONE 使用这个工具在我优化我的博客设计

generative-ai/gemini/agents/always-on-memory-agent at main · GoogleCloudPlatform/generative-ai

原文（github.com）

要点

一套没有 vector db 或 embedding 的记忆系统设计
对现有的几种记忆方案做了批判：
- vector db 过于被动，只输入，没有主动处理
- 对话摘要模式：细节会丢失，没有交叉对比
- knowledge base: 构造和维护成本太高
他的实现方案：分成3个不同的 agent
- Ingest （摄入） agent：向代理提供任何文件 ——文本、图片、音频、视频或 PDF ，利用 Gemini 的多模态能力从所有这些信息中提取结构化信息
- Consolidate （巩固）Agent 运行定时器（默认为每 30 分钟一次），进行：
  - 回顾未合并的记忆
  - 发现了两者之间的联系
  - 生成跨领域洞察
  - 压缩相关信息
- QueryAgent 读取所有记忆和巩固洞见，然后综合答案并附上来源引用
存储数据就是简单的 sqlite

方法

能快速接入，开箱即用

我的观点

价值：非常简单且可理解的实现，值得在项目中试用

长期执业特工的有效束缚 \ Anthropic — Effective harnesses for long-running agents \ Anthropic

原文（anthropic.com）

要点

对巨大的长期的任务，对 cc 这样的工具是一个挑战，特别是在跨上下文做开发过程中，每次 cc 的新实例都会忘掉前面的工作，这个使用上下文压缩也不很好工作
一旦忘记上下文以后， cc 就会在局部优化中越走越远，就是 goal drift
应对任务过大的问题， cc 会拆解成一系列小任务，放在约定的位置
对上下文遗忘的问题，cc 的做法是在实例刚启动时提供一系列标准动作，包括识别自己所在目录，读 git 记录，然后读上面的任务列表，回忆自己现在做到哪了
每次 git 记录都要明确的说自己做了什么，在任务列表里是在哪个位置上，然后在进度文件上写进度摘要，作为 checkpoint ，经常的 commit ，这样做某个修改的回滚也方便
agent loop 需要固定，让流程转起来

我的观点

价值：很好的实践分享，已经加入到我的 Emacs as Agent Runbook 的经验中

openai/symphony: Symphony turns project work into isolated, autonomous implementation runs, all…

原文（github.com）

要点

一套多 agent 协作管理的框架，能把项目变成一个个独立的、自动的实现过程
可以使用外部的项目管理工具，比如他的 demo 里用了 linear
他提供了 spec ，可以把你的工作流程变成 Symphony 类似的项目

我的观点

价值：基本和我的 Emacs as Agent Runbook 完全一样的想法，而且我已经让 gpt 学了他的 spec ，应该说是完全一致的实现，非常有价值的参考

我真的没有拼多多：Google最新论文：目前只有2.5%的skills可用，大多数是垃圾，以及如何优化skills？

原文（x.com）

要点

目前有 4 万多个 skills，只有 1k 个左右是有用的
Agent/LLM 写的 skills 都是垃圾，高级的 skills 都是手写的
60%-80% 的 skills 都集中在软件工程领域
文章也分享了如何提高 skill 质量
- 控制 Skills 数量， 2-3 个 skill 的质量是最好的
- 控制 Skills 复杂度，不管是详细的还是简洁的 skill ，表现都好于一个功能全面的 skill
- 匹配领域需求，不同领域的 skill 对任务的表现差异巨大
- 利用 Skills 弥补模型规模，好的 skill + 小模型的表现有可能好于无 skill 的大模型
- cc对 skill 的使用更好， codex 经常会忽略 skill

我的观点

价值：很好的分享，用于我自己的 skill 设计的参考

Kangwook Lee：Investigating how Codex context compaction works

原文（x.com）

要点

提取了 codex cli 的源码，发现 codex 是如何在长任务中保持专注的：
1. 当上下文太长时，不是简单丢弃历史，而是调用 compact() API
2. 服务器用一个专用的 compactor LLM，把整个对话历史总结成一个精炼的“handoff summary”。
3. 这个 summary 被 AES 加密成 blob 返回给客户端
4. 下次 responses.create() 时，客户端把 blob 传回去，服务器解密后总结，一起喂给 codex 主模型。
5. 模型无缝接力继续工作，不会因为压缩而严重失忆或漂移。
然后作者提了一个问题：为什么Codex CLI使用两种完全不同的压缩路径（本地LLM用于非Codex模型，加密API用于Codex模型），而底层提示几乎相同？

我的观点

价值：可以用于创建自己的 agent 的细节参考

小互：Anthropic 发布了 Skill Creator 的重大更新核心变化：内置测试用例生成写完一个 Claude 技能，怎么知道它到底能不能被正确触发？以前靠手动试，现在 Ski…

原文（x.com）

要点

anthropic 有 skill creator ，有自动的用例生成
能自动化评估耗时、 token 用量和用例通过率
能多 agent 并行测试
能做多版本的 a/b 测试
能做触发率优化测试，适合 skill 编写时被使用率的测试

我的观点

价值：做 skill 最方便的工具，可能我做 skill 还是要以 anthropic 为核心平台？

everything-claude-code/README.zh-CN.md at main · affaan-m/everything-claude-code

原文（github.com）

要点

来自 Anthropic 黑客马拉松获胜者的完整 Claude Code 配置集合。
一整套完整的 llm 编程工具链，经过10个月的 agent / skills / hooks / commands / mcp 配置的整理
能从现有的 git 历史中总结出 skills 的能力以快速开始
能够持续学习，也就是通过对开发流程做直觉化的理解

长期学习可以看 https://x.com/affaanmustafa/status/2012378465664745795 这篇文档

我的观点

价值：可以学习他的 vibe coding 的模式，特别是如何持续自举，优化流程，是怎么做的，值得学习

meng shao：如何成为世界级的「Agentic Engineer」 – 你可以把大量的设计和实现交给 Agent，但结果你必须自己负责。工具不是越多越好，而是越精简越强大多数人陷…

原文（x.com）

要点

工具不是越多越好，而是越精简越强, 有人就用了裸的 cc 能完成最好的工作
模型进化很快，现在你做的很多为了稳定性的工作未来模型可能就完成了
需要相对精准的描述问题，需要做到不多也不少，一个 agent 个独立完成的工作量很重要
利用 agent 的讨好个性，专门做几个相互对抗的角色，来反驳某个 agent 的结论
需要给定任务结束的终点
要长期运行 agent 的话需要避免单一 agent 的长期运行，因为这会导致上下文污染，应该用流程控制，多个干净会话来完成
适当拆分 AGENTS.md 对不同领域的工作，如 review, coding, debug 分开不同的文档能帮助 agent 更好工作

我的观点

价值：多数是大家都熟悉的经验，但作为一篇文章总结出来也是一种价值，适合做入门教程

4ier/neo: Turn any web app into an API. Chrome extension captures browser traffic, auto-generat…

原文（github.com）

要点

一个 chrome 插件，能通过录制任意 web app 的请求，来总结出这些 web app 的 api 清单，供 llm 使用
现在也支持对 ui 动作的录制了，能把任意 web app 的功能提取成一套可重放的工具链，让 llm 使用
使用的是 cdp 方案
能输出成多种内容，可以是 skills ，也可以是多步骤的工作流

我的观点

价值：很有价值的工具，可以做内容采集自动化，也可以做自动化测试和自动化编程等工作
风险：可能会有 session 泄漏风险，使用前需要安全审计一下

TODO 用这个工具录制一套公司内 jira 的使用流程？

© [2019-2026] [gsj987]