做过 agent 的人,大概都撞见过同一个幽灵。周一,客户问退货怎么走,你一步步教它——先查手机号、再匹配订单、最后调退款接口——它办得漂亮。周二,一封几乎一样的邮件进来,它却又从头问起订单号,仿佛周一从未发生。今天的智能体,大多是一次性的解题机器:解完,就忘。
直觉的补救,是给它更多记忆:把昨天的聊天记录塞进上下文,或挂一个 RAG 检索库。可这是错的那种记忆。检索擅长的是事实——公司哪年成立,一查便有;却对过程无能为力——一单退货进来,该按什么流程走。把上万字的试错流水账灌进 prompt,模型只会被淹没,那条真正值钱的经验,埋在噪声里。智能体缺的不是更厚的日记本,而是提炼:把兵荒马乱的一天,收成一条能反复用的技能。
做事的脑,记事的脑
SkillOS——来自 Google Cloud AI Research、UIUC 与 MIT 的一套新方法——只做了一个干净的动作:把智能体劈成两半。一半是冻结的执行者,只管干活:从技能库里检索相关技能、照着做,自始至终不训练。另一半是可训练的技能策展人,盯着每一单的成败,决定写下什么——它可以新增一条技能、更新一条,或删掉一条正帮倒忙的。技能本身是纯 Markdown:一个名字、一句「何时用」、一段工作流,以及意味深长的一句「何时别用」。干活与记事,本是两桩差事;这篇赌的是——别再要求同一个脑子把两件都做好。
两个大脑,以及这一刀切在哪
这是我反复琢磨的一处。把智能体「做事的我」与「记事的我」拆成两个子系统,才是这篇真正的想法;人很难不拿大脑来打比方——不是那套陈旧的「左脑理性、右脑感性」(那大半是流行神经学的误传),而是更贴近我们固化记忆的方式。策展人在每一单之后做的事,几乎就是睡眠在一天之后做的事:它回放轨迹,把有用的部分沉淀为持久的技能,一如海马体在夜里把白天的经历交给皮层。执行者活在当下,快而本能;策展人事后复盘,慢而审慎——一个快思考,一个慢思考。
而大胆、也略显反常的一步是:SkillOS 把做事的脑冻住,只训练记事的脑。真实的大脑里,这两半缠在一起、共同演化;把它们干净地切开、再冻住一半,是今天工程上的妥协——却也正是这一刀,让记忆变得可迁移:同一个训练好的策展人,能去提升一个它从未见过、更强的执行者,把某个基准上 Gemini-2.5-Pro 的成功率从 66.4% 抬到 80.2%。
它做得好的地方
有三点让我印象很深。其一,这份记忆是白盒。多数系统把经验压成人读不懂的向量;学歪了,你连它错在哪都找不着。这里的经验是 Markdown——它一犯浑,你打开技能库,像审同事的代码一样读它写下的东西,哪句拧了,动手改一行便是。落到真实业务里,这份「看得懂、改得动」贵得很。
其二,它学会了扔东西。训练之初,策展人是个囤积狂,对着空库没头没脑地塞。训着训着它发现——乱糟糟的库反而误导下一单、害自己被扣分——于是新增骤减,合并与润色接手,删除缓缓抬头。它学会了把笔记本越读越薄。在大代码库里干过的人都懂这个理:加代码容易,敢删、敢合并,才是真懂这套系统的人。
其三,技能会向元技能生长。早期的笔记尽是空话(「找东西时注意周围」);后期长出的是能迁移的策略。任务是去「台灯下面」找一张 CD:笨版本像无头苍蝇一样翻抽屉,超时告负;训练过的版本调出一条只字不提 CD 的技能,记的是一套通用的应对——当某物在你看不见的东西「下面」时,先找光源,走过去,再在附近搜寻。那不是背下来的路线,而是一个能平移到陌生房间的小小心智模型。
而最漂亮的一击:这里的策展人是个80 亿参数的开源小模型,它却打赢了「直接用 Gemini-2.5-Pro 当策展人」——ALFWorld 上 61.2% 对 50.7%。Gemini 靠庞大的通用知识临场发挥;小模型则被强化学习按着头,反复磨这个系统究竟要什么。在一桩窄活上,一个受过专门训练的行家,干得过一个绝顶聪明的通才。
仍然粗糙的地方
论文对自己薄弱之处很诚实,而这些缺口恰恰最有意思。第一是中毒的记忆。因为系统信任自己的库,一条侥幸学来的教训——比如从几个碰巧自己放弃的客户身上,推出「退货一律拒绝」——会固化成技能,悄悄把后来的每一个智能体带进同一条沟。外部的质量裁判正是为拦它而设;可在没有标准答案的真实生意里,一条会滚雪球的错经验,是根慢慢烧的引信。
第二更根本:它靠关键词找笔记。跑上一年、攒下一万条技能,几个字面上的关键词,断然捞不准那份能解开深层难题的 Markdown。一套真正的记忆系统,终究要把检索本身变成一个动作——搜一下、看一眼、发觉不对、再换个思路搜——而它的技能,大概也会从散文,长成可组合、可运行的代码。那是这篇伸手指向、却还没抵达的地方。
收回来说
退一步看,今天 AI 的「进展」,大抵就是这个样子:不是某一次惊天动地的跃迁,而是一级级具体的、承重的台阶,快到没人跟得上。记忆是其中一级,分量却比它朴素的外表要重——一个学会留下对的笔记、扔掉错的笔记的智能体,正一点点靠近能自我改进的智能体;而自我改进,正是少数几条能把曲线陡然拽起来的路之一。SkillOS 还远没走到那里:它冻住半个脑子,用关键词归档记忆,还会被自己的成功反噬。但它教会了一台机器去做一件我们一向以为需要心智的事——复盘一天的活儿,留下要紧的,放掉其余的。地图上那些空白,恰是最该盯着看的地方。
来源
- Siru Ouyang、Jun Yan、Chen-Yu Lee 等. SkillOS: Learning Skill Curation for Self-Evolving Agents. arXiv:2605.06614,2026。
- 「失忆客服」这个切入和若干说法,得益于一则视频讲解。
- 文中数字与「台灯 / CD」一例出自论文(§4 及案例分析);若有误读,责任在我。