做事的脑，记事的脑

做过 agent 的人，大概都撞见过同一个幽灵。周一，客户问退货怎么走，你一步步教它——先查手机号、再匹配订单、最后调退款接口——它办得漂亮。周二，一封几乎一样的邮件进来，它却又从头问起订单号，仿佛周一从未发生。今天的智能体，大多是一次性的解题机器：解完，就忘。

直觉的补救，是给它更多记忆：把昨天的聊天记录塞进上下文，或挂一个 RAG 检索库。可这是错的那种记忆。检索擅长的是事实——公司哪年成立，一查便有；却对过程无能为力——一单退货进来，该按什么流程走。把上万字的试错流水账灌进 prompt，模型只会被淹没，那条真正值钱的经验，埋在噪声里。智能体缺的不是更厚的日记本，而是提炼：把兵荒马乱的一天，收成一条能反复用的技能。

做事的脑，记事的脑

SkillOS——来自 Google Cloud AI Research、UIUC 与 MIT 的一套新方法——只做了一个干净的动作：把智能体劈成两半。一半是冻结的执行者，只管干活：从技能库里检索相关技能、照着做，自始至终不训练。另一半是可训练的技能策展人，盯着每一单的成败，决定写下什么——它可以新增一条技能、更新一条，或删掉一条正帮倒忙的。技能本身是纯 Markdown：一个名字、一句「何时用」、一段工作流，以及意味深长的一句「何时别用」。干活与记事，本是两桩差事；这篇赌的是——别再要求同一个脑子把两件都做好。

两个大脑，以及这一刀切在哪

这是我反复琢磨的一处。把智能体「做事的我」与「记事的我」拆成两个子系统，才是这篇真正的想法；人很难不拿大脑来打比方——不是那套陈旧的「左脑理性、右脑感性」（那大半是流行神经学的误传），而是更贴近我们固化记忆的方式。策展人在每一单之后做的事，几乎就是睡眠在一天之后做的事：它回放轨迹，把有用的部分沉淀为持久的技能，一如海马体在夜里把白天的经历交给皮层。执行者活在当下，快而本能；策展人事后复盘，慢而审慎——一个快思考，一个慢思考。

而大胆、也略显反常的一步是：SkillOS 把做事的脑冻住，只训练记事的脑。真实的大脑里，这两半缠在一起、共同演化；把它们干净地切开、再冻住一半，是今天工程上的妥协——却也正是这一刀，让记忆变得可迁移：同一个训练好的策展人，能去提升一个它从未见过、更强的执行者，把某个基准上 Gemini-2.5-Pro 的成功率从 66.4% 抬到 80.2%。

它做得好的地方

有三点让我印象很深。其一，这份记忆是白盒。多数系统把经验压成人读不懂的向量；学歪了，你连它错在哪都找不着。这里的经验是 Markdown——它一犯浑，你打开技能库，像审同事的代码一样读它写下的东西，哪句拧了，动手改一行便是。落到真实业务里，这份「看得懂、改得动」贵得很。

其二，它学会了扔东西。训练之初，策展人是个囤积狂，对着空库没头没脑地塞。训着训着它发现——乱糟糟的库反而误导下一单、害自己被扣分——于是新增骤减，合并与润色接手，删除缓缓抬头。它学会了把笔记本越读越薄。在大代码库里干过的人都懂这个理：加代码容易，敢删、敢合并，才是真懂这套系统的人。

其三，技能会向元技能生长。早期的笔记尽是空话（「找东西时注意周围」）；后期长出的是能迁移的策略。任务是去「台灯下面」找一张 CD：笨版本像无头苍蝇一样翻抽屉，超时告负；训练过的版本调出一条只字不提 CD 的技能，记的是一套通用的应对——当某物在你看不见的东西「下面」时，先找光源，走过去，再在附近搜寻。那不是背下来的路线，而是一个能平移到陌生房间的小小心智模型。

而最漂亮的一击：这里的策展人是个80 亿参数的开源小模型，它却打赢了「直接用 Gemini-2.5-Pro 当策展人」——ALFWorld 上 61.2% 对 50.7%。Gemini 靠庞大的通用知识临场发挥；小模型则被强化学习按着头，反复磨这个系统究竟要什么。在一桩窄活上，一个受过专门训练的行家，干得过一个绝顶聪明的通才。

仍然粗糙的地方

论文对自己薄弱之处很诚实，而这些缺口恰恰最有意思。第一是中毒的记忆。因为系统信任自己的库，一条侥幸学来的教训——比如从几个碰巧自己放弃的客户身上，推出「退货一律拒绝」——会固化成技能，悄悄把后来的每一个智能体带进同一条沟。外部的质量裁判正是为拦它而设；可在没有标准答案的真实生意里，一条会滚雪球的错经验，是根慢慢烧的引信。

第二更根本：它靠关键词找笔记。跑上一年、攒下一万条技能，几个字面上的关键词，断然捞不准那份能解开深层难题的 Markdown。一套真正的记忆系统，终究要把检索本身变成一个动作——搜一下、看一眼、发觉不对、再换个思路搜——而它的技能，大概也会从散文，长成可组合、可运行的代码。那是这篇伸手指向、却还没抵达的地方。

收回来说

退一步看，今天 AI 的「进展」，大抵就是这个样子：不是某一次惊天动地的跃迁，而是一级级具体的、承重的台阶，快到没人跟得上。记忆是其中一级，分量却比它朴素的外表要重——一个学会留下对的笔记、扔掉错的笔记的智能体，正一点点靠近能自我改进的智能体；而自我改进，正是少数几条能把曲线陡然拽起来的路之一。SkillOS 还远没走到那里：它冻住半个脑子，用关键词归档记忆，还会被自己的成功反噬。但它教会了一台机器去做一件我们一向以为需要心智的事——复盘一天的活儿，留下要紧的，放掉其余的。地图上那些空白，恰是最该盯着看的地方。

来源

Siru Ouyang、Jun Yan、Chen-Yu Lee 等. SkillOS: Learning Skill Curation for Self-Evolving Agents. arXiv:2605.06614，2026。
「失忆客服」这个切入和若干说法，得益于一则视频讲解。
文中数字与「台灯 / CD」一例出自论文（§4 及案例分析）；若有误读，责任在我。