声称"Agent 革命性记忆架构"，其实就是换了个数据库 -

2025年12月15日，来自斯坦福、复旦、牛津等顶级团队联合发布题为《Memory in the Age of AI Agents》的论文，这篇论文首次为混乱的AI智能体记忆领域建立了统一的理论框架，将碎片化的研究成果整合进一套完整的分类体系。

在论文出现之前，AI记忆系统的概念一直处于混乱状态。开发者们习惯用”短期记忆”和”长期记忆”来分类，这套来自心理学的术语看似直观，实则模糊不清。什么算”短期”？保存一小时算短还是长？向量数据库里存了三年的用户画像，算短期还是长期？当OpenAI推出带记忆功能的ChatGPT、亚马逊发布Agentic AI基础设施、各路创业公司推出Mem0、Letta、Zep等框架时，每家对”记忆”的定义都不尽相同，技术选型像是在黑暗中摸索。

这篇新论文的价值在于，它跳出了传统的时间维度分类，提出了一套更加本质的三维坐标系：形式（Forms）、功能（Functions）、动态（Dynamics）。这三个维度就像是给记忆系统拍了一张”三维CT”，从存储载体、认知角色、生命周期三个正交的视角，完整地刻画了一个记忆系统的全貌。

一、形式维度：从”怎么存”看大厂的技术选择

论文的第一个维度”形式”，回答的是一个最基础的问题：记忆以什么形式存在？是写在”纸上”（Token级）、刻在”脑子里”（参数级），还是藏在”潜意识”（潜空间）？

Token级记忆：透明但需要精细管理

Token级记忆就像是用笔记本记录信息，每一条都清清楚楚、可读可改。论文指出，这类记忆的特点是”符号化、可寻址、透明”，适合需要高度可解释性和频繁更新的场景。

产业界的PPIO团队在《一文看懂Agent的9种”记忆系统”》中总结的经验，完美诠释了Token级记忆的设计哲学。PPIO将记忆分为聊天历史、用户画像、知识图谱等9种类型，每种都以结构化的方式存储在外部数据库中。这9种模式其实是Token级记忆在不同拓扑结构下的具体实现：聊天历史是扁平的1D流式存储，知识图谱是2D的平面拓扑，而分层知识库则是3D的层次结构。

同时，Letta（原名MemGPT）框架也映射了此类型的记忆。Letta的核心创新是引入了”虚拟内存分页”机制——这个词听起来像操作系统概念，实际上是Token级记忆管理的一次重大突破。Letta将记忆分为”核心记忆”（Core Memory）和”召回存储”（Recall Storage），前者是必须时刻保持在上下文窗口中的关键信息，后者则是可以按需调取的历史记录。这种设计既保证了关键信息的即时可用性，又通过外部存储突破了上下文长度限制。

论文在讨论Token级记忆时提到：”这类记忆的优势在于透明和可控，但挑战在于检索质量和规模扩展。”Zep团队最近推出的Graphiti项目，用知识图谱的方式组织记忆，通过实体关系的显式建模来提升检索的精准度。这是对论文所说”Token级记忆依赖检索质量”问题的一次工程化解决。

参数级记忆：深度理解的代价

如果说Token级记忆是”记在本子上”，那么参数级记忆就是”学进脑子里”。论文将其定义为”通过训练或微调将信息直接编码到模型权重中”，这类记忆的特点是抽象、泛化，但更新缓慢。

Google DeepMind的ReMem框架，是参数级记忆的典型代表。ReMem通过强化学习优化记忆保留策略，将智能体的历史经验蒸馏到模型的权重参数中。这种做法的好处是，智能体在处理新任务时不再需要频繁检索外部记忆库，知识已经内化为”本能”。但正如论文警告的那样，参数级记忆面临”灾难性遗忘”的风险——学习新知识可能覆盖旧知识。ReMem的解决方案是采用增量学习和经验回放机制，这在电子书中有详细的技术剖析。

另一个精彩案例来自OpenAI Build Hour的实录。OpenAI的工程师展示了如何将企业的专有知识通过微调”烙印”到模型中，同时保持外部知识库用于快速更新的事实性信息。这种”参数级+Token级”的混合架构，恰好对应了论文提出的”外部参数记忆”概念——通过LoRA适配器等技术，在不动模型主体的情况下添加专项能力。

潜空间记忆：多模态时代的新宠

论文的第三种形式”潜空间记忆”相对陌生，它指的是将信息编码到模型的隐藏状态或KV缓存中，以一种人类不可读但机器高效的方式存在。这类记忆的优势是密度高、延迟低，特别适合多模态场景和边缘计算。

和此内容呼应，MIRIX（Modular Multimodal Architecture）是2024年学术界的一个重磅成果，它将文本、图像、视频、音频等多模态信息统一编码到一个潜在表示空间中。论文在讨论潜空间记忆时提到的三种子类型——生成型、重用型、转换型——在MIRIX中都有完整体现：生成型用于从潜空间重建多模态内容，重用型通过缓存中间表示加速推理，转换型实现跨模态信息的融合与压缩。论文为MIRIX提供了理论定位：这是”潜空间记忆”在多模态智能体中的最佳实践案例。

此外，A-MEM采用Zettelkasten（卡片盒笔记法）的思想，构建自组织的笔记网络。虽然表面上看它用的是Token级存储（每条笔记都是文本），但论文的视角重新理解了它的本质：A-MEM通过神经网络学习笔记之间的关联，这些关联权重存储在潜空间中，构成了一种”混合记忆”——显性知识用Token存储，隐性关联用潜空间编码。

二、功能维度：从”为什么存”看认知角色

如果说”形式”回答的是物理结构问题，那么”功能”回答的就是认知目的问题。论文的第二个维度将记忆分为事实记忆、经验记忆、工作记忆，这套分类法与电子书采用的心理学分类（情节、语义、程序记忆）形成了有趣的互补。

两套分类法的对话

普林斯顿大学经典论文《语言智能体的认知架构》的思路，用心理学术语定义记忆类型。这种分类的好处是直观——“情节记忆”就是”发生了什么”，“语义记忆”就是”知道什么”，“程序记忆”就是”会做什么”。但在实际系统设计中，这些边界往往模糊。一次成功的销售案例，既是”情节”（记录了当时的对话），也是”程序”（提炼出销售话术），还是”语义”（总结出客户偏好规律）。

论文提出的功能分类则更加面向系统设计：事实记忆用于保持一致性（智能体知道什么），经验记忆用于自我改进（智能体学会什么），工作记忆用于当前任务（智能体在想什么）。这三者的边界更清晰，也更便于工程实现。

论文的”事实记忆”大致对应电子书的”语义记忆+部分情节记忆”，“经验记忆”对应”情节记忆+程序记忆”，“工作记忆”则是心理学中的”短期记忆”。但论文的分类更强调功能目的，这让技术选型有了明确的指引。

亚马逊的实践：功能导向的架构设计

亚马逊在Agentic AI基础设施上的实践经验。亚马逊的架构设计清晰地体现了功能分类的思想：他们用Amazon Bedrock Knowledge Base存储事实记忆（产品信息、用户资料），用Agent的执行轨迹数据库积累经验记忆（哪些策略成功了、哪些失败了），用会话上下文管理工作记忆（当前任务的临时状态）。

更精彩的是亚马逊总结的”检索-增强-处理-提取-更新”五步循环，这个流程在论文的”动态”维度中得到了理论升华。论文将记忆的生命周期分为形成、演化、检索三个阶段，而亚马逊的五步流程恰好是这三个阶段在工程上的精细化展开：检索对应论文的Retrieval，提取对应Formation，更新对应Evolution。

微软的探索：从记忆到能力

Microsoft AI Memory技术，展示了另一种思路。微软在Copilot中大量使用参数级记忆，目标是让”记忆”转化为”能力”。比如，Copilot不是记录”用户每次都要求生成带注释的代码”，而是直接微调模型，让它”天生就会写注释”。这种做法减少了运行时的检索开销，提升了响应速度，但代价是失去了可解释性——你无法追溯为什么Copilot会这样回答。

论文在讨论经验记忆时专门提到了”技能型记忆”——将重复的操作序列抽象为可复用的技能单元。微软的做法是将这种抽象直接内化到模型参数中，而电子书中介绍的Letta框架则采用了另一种方案：将常用操作封装为工具函数（Tool Functions），存储在外部代码库中。两种方案各有优劣，论文的框架帮助我们理解：前者是”参数级的经验记忆”，后者是”Token级的经验记忆”。选择哪种，取决于你更看重性能还是透明度。

三、动态维度：从”怎么变”看全生命周期

论文的第三个维度”动态”，探讨记忆的形成、演化、检索全过程。这是最具实操价值的部分，因为它直接关系到系统的实现细节。

记忆形成：五种技术路径

论文总结了五种记忆形成方法：语义摘要、知识蒸馏、结构化构建、潜空间表征、参数内化。电子书中几乎每个案例都能对号入座。

PPIO的实践属于”结构化构建”——将对话流、用户画像、知识图谱等信息显式地组织成数据结构。Google Cloud的上下文工程方法，则是”语义摘要”的典型应用——他们强调在每次对话后生成简洁的摘要，避免上下文窗口被无用信息占满。

Google DeepMind的ReMem框架，展示了”知识蒸馏”和”参数内化”的组合拳：先用强化学习从大量轨迹数据中提取策略规律，再通过持续训练将这些规律固化到模型权重中。论文称这种方法”能够实现跨任务的知识迁移”，ReMem的实验结果恰好验证了这一点——在电子书记录的测试中，经过记忆优化的智能体在新任务上的表现明显优于baseline。

记忆演化：整合、更新、遗忘

论文特别强调”遗忘”的重要性——一个好的记忆系统不仅要会记，还要会忘。目前的开源框架中，只有少数几个（如MemoryScope、Letta）实现了遗忘机制。

MemoryScope是阿里巴巴达摩院开源的框架，它采用四层仿生记忆架构，模拟人类的感觉记忆、工作记忆、短期记忆、长期记忆。其中最精妙的设计是”巩固”机制：当短期记忆中的某条信息被反复调用，就会”升级”到长期记忆；反之，长时间未被访问的长期记忆会”降级”到短期记忆，最终被遗忘。这种动态调整策略与论文提到的”基于访问频率的遗忘算法”不谋而合。

Letta的遗忘机制则更加直接——当外部召回存储的数据量超过阈值时，自动归档最旧的记录。但论文指出，简单的时间衰减可能导致重要但不常用的信息被误删，更好的方案是结合时间、频率、重要性三个因素。电子书在第四章的横评中提到，这正是Letta未来的改进方向。

记忆检索：不只是向量搜索

在检索环节，论文批判了当前过度依赖向量相似度搜索的现状，呼吁探索更多元的检索策略。电子书中介绍的几个框架恰好代表了不同的探索方向。

Mem0是最简单的向量检索，适合快速上手；Zep的Graphiti项目引入了知识图谱，支持多跳关系查询；Cognee更进一步，将向量、图谱、全文检索三种方式结合，形成”混合检索”。电子书在第四章的选型建议中指出：如果你的应用场景涉及复杂推理（比如”找出所有在北京工作过的、懂Python的、对区块链感兴趣的用户”），Cognee和Zep是更好的选择；如果只是简单的语义匹配（比如”找出和当前对话主题相关的历史记录”），Mem0足够了。

论文提到的”查询构建”环节也很关键。Google Cloud最佳实践中，有一个细节值得注意：他们不是直接用用户的原始问题去检索，而是先让LLM生成”检索意图”——一个结构化的查询对象，包含关键词、时间范围、相关实体等信息。这种做法显著提升了检索精准度，尤其是在多轮对话场景中。

四、技术选型：理论指导下的决策树

第一步：确定记忆形式。如果你的应用需要高度透明、可审计（比如医疗、法律场景），选择Token级记忆，推荐使用Mem0、Zep或Letta。如果你追求极致性能、能接受黑盒（比如游戏AI、推荐系统），考虑参数级记忆，可以参考电子书中Google DeepMind的ReMem方案。如果你在做多模态应用或边缘部署，潜空间记忆是未来趋势，MIRIX架构是很好的学术参考。

第二步：明确功能需求。如果主要是存储用户资料、产品信息等静态知识，重点投入事实记忆的建设，用好向量数据库和知识图谱。如果希望智能体能从失败中学习、不断优化策略，经验记忆是关键，电子书第三章介绍的A-MEM和ReMem都是可以借鉴的方向。如果你的任务涉及复杂的多步骤推理，工作记忆管理至关重要，参考亚马逊的五步循环和Letta的虚拟内存机制。

第三步：选择具体框架。

● 中文应用：首选MemoryScope或MemoryBear，它们是国内团队开发，中文支持好，文档齐全。

● 复杂推理：Cognee或Zep，它们的知识图谱能力强，支持多跳查询。

● 长对话/代码助手：Letta，虚拟内存分页机制是业界独创，已在真实产品中验证。

● AWS生态：Amazon Bedrock，全托管、企业级安全，电子书中有详细的集成教程。

● 快速上手：Mem0，API最友好，10行代码就能跑起来。

大部分框架都集中在Token级记忆，参数级和潜空间记忆的开源方案很少。论文中也提到——后两者的技术门槛更高、通用性较差，往往需要针对特定任务定制

五、未来趋势：从检索式到生成式记忆

论文的最后一章展望了五大未来方向：自动化记忆设计、强化学习集成、多模态记忆、多智能体记忆、可信记忆。有意思的是，电子书在这些方向上都记录了先行者的探索。

自动化记忆设计指的是让智能体自己决定记什么、忘什么、什么时候检索。论文认为这是未来的核心趋势，因为随着智能体越来越复杂，人工设计记忆策略已经不现实。

强化学习集成是Google DeepMind的强项。未来的记忆系统应该是”可学习的”——不仅内容可以学习，连记忆的架构和策略也应该通过学习不断优化。

多模态记忆是MIRIX架构探索的方向。随着多模态大模型的普及，记忆系统也必须支持多模态，而潜空间记忆是最自然的解决方案。

多智能体记忆在企业应用中尤为重要。Salesforce Agentforce展示了一个有趣的场景：多个智能体协作处理客户请求，它们需要共享部分记忆（比如客户资料），同时保持各自的私有记忆（比如各自负责的任务状态）。论文提出了”分层共享记忆”的概念，这在电子书记录的实践中已经有了雏形。

可信记忆涉及隐私、安全、可解释性。Google Cloud最佳实践中，有一整节讲”护栏机制”——如何防止智能体记住敏感信息、如何检测记忆中的幻觉错误。论文强调，随着记忆系统在高风险领域的应用，可信性将成为刚需。这也是为什么Token级记忆（透明、可审计）在合规场景中不可替代。

2025年，AI记忆系统将迎来爆发期。大模型的上下文窗口再长，也无法替代一个设计良好的记忆系统；智能体的能力再强，也需要记忆来实现真正的自主和进化。当论文画出了完整的地图，当电子书铺好了实践的道路，剩下的就看我们如何走出自己的路径。

理论之光已经照亮，实战地图已经展开。现在，轮到你上路了。

文章来自：51CTO

声称”Agent 革命性记忆架构”，其实就是换了个数据库

作者yinhua

一、形式维度：从”怎么存”看大厂的技术选择

Token级记忆：透明但需要精细管理

参数级记忆：深度理解的代价

潜空间记忆：多模态时代的新宠

二、功能维度：从”为什么存”看认知角色

两套分类法的对话

亚马逊的实践：功能导向的架构设计

微软的探索：从记忆到能力

三、动态维度：从”怎么变”看全生命周期

记忆形成：五种技术路径

记忆演化：整合、更新、遗忘

记忆检索：不只是向量搜索

四、技术选型：理论指导下的决策树

五、未来趋势：从检索式到生成式记忆

作者 yinhua

相关文章

退网两年，他在地下室用二手显卡“屠”了GPT榜单：这才是顶级极客！

视频生成太慢？英伟达、谢赛宁等发布TMD框架，实现70倍加速

折腾一晚上，我让OpenClaw把微信公众号的文章搬运到飞书了

发表回复取消回复

您错过的

退网两年，他在地下室用二手显卡“屠”了GPT榜单：这才是顶级极客！

视频生成太慢？英伟达、谢赛宁等发布TMD框架，实现70倍加速

折腾一晚上，我让OpenClaw把微信公众号的文章搬运到飞书了

OpenCode：最佳的 Claude 代码替代方案

作者yinhua

一、形式维度：从”怎么存”看大厂的技术选择

Token级记忆：透明但需要精细管理

参数级记忆：深度理解的代价

潜空间记忆：多模态时代的新宠

二、功能维度：从”为什么存”看认知角色

两套分类法的对话

亚马逊的实践：功能导向的架构设计

微软的探索：从记忆到能力

三、动态维度：从”怎么变”看全生命周期

记忆形成：五种技术路径

记忆演化：整合、更新、遗忘

记忆检索：不只是向量搜索

四、技术选型：理论指导下的决策树

五、未来趋势：从检索式到生成式记忆

作者 yinhua

相关文章

发表回复 取消回复

您错过的

发表回复取消回复