当AI开始“记得”你:与两位创业者拆解AI记忆技术
创始人
2026-02-14 14:20:21
0

进入 2026 年,AI 记忆正在成为行业最热的竞争焦点之一。Google 为 Gemini 上线了“个人智能”(Personal Intelligence)功能,经用户授权后可调取 Gmail、Google Photos、搜索记录等个人数据,实现跨应用的语境理解,而非简单地检索单封邮件或一张照片,让 Gemini 开始对用户的数据进行“思考”,而非仅仅“获取”它。而在更早之前,OpenAI 的 ChatGPT 也已大幅升级了记忆系统,使其能够引用用户所有历史对话,奥特曼在发布时表示,“这指向了我们兴奋的方向:AI 系统在你的一生中了解你,并变得极其有用和个性化。”

在基础设施层面,AI 记忆正在成为一条独立赛道。2025 年 10 月,专注于为 AI Agent 构建“记忆层”的初创公司 Mem0 宣布完成 2,400 万美元 A 轮融资,被 AWS 选为其 Agent SDK 的独家记忆提供商,GitHub 星标超过 4.1 万,季度 API 调用从 3,500 万飙升至 1.86 亿。同赛道的 Zep 用时序知识图谱组织记忆,脱胎于 UC Berkeley MemGPT 研究项目的 Letta 则主张“编程 Agent 的本质就是编程记忆”。从开发者工具到平台级基础设施,“让 AI 记住用户”正在从一个附加功能变成刚性需求。

从产品侧的个人化记忆,到模型架构层的记忆机制革新,AI Memory 不仅是技术热点,更是决定 AI 能否从“每次重新开始的工具”进化为“持续了解你的伙伴”的关键分水岭。

为了深入探讨 AI Memory 的技术路径、落地挑战与产业前景,本期 DeepTalk 邀请到了两位深耕这一领域的创业者,丘脑科技 CTO、浙江大学博士赵翔;中科院自动化所 AI 博士,智悦云创及 TiMEM 记忆引擎创始人余宣庆。围绕 AI 记忆的核心技术、应用场景与未来走向展开了一场深度对谈。

以下是对话正文:

DeepTech:欢迎两位老师,请先给大家做个自我介绍。

余宣庆:大家好,我是中科院自动化研究所博士五年级的余宣庆。我们做记忆其实是有渊源的——我的科研方向原来就是知识图谱,我们课题组又聚焦在工业制造场景,对于时序数据非常关注。我从博士课题开始就研究时序知识图谱的预测,当时更多探讨的是知识图谱与大模型之间的关系,后来自然而然地切入到记忆这个方向,面向智能体场景做学术研究。

创业方面,我从 2023 年 初就在探索求职招聘方向的应用层创新,在这个过程中发现记忆对性能起着非常关键的作用。2025 年 3 月 开始,我们正式研究记忆中的痛点,做科研驱动的产品化。目前推出了“TiMEM 太忆 AI”自进化认知引擎,包含记忆、经验学习和事件预测等功能帮助智能体学会学习、能预测、能记忆,成为用户真正的伙伴。

赵翔:大家好,我是赵翔,丘脑科技的 CTO,2025 年 6 月从浙大博士毕业。不过毕业之前大概 3 月 就已经在做现在这件事了,一直做到现在。我们公司叫“丘脑”,主要产品叫 Omni Memory,做多模态的记忆。

我们关注到一个趋势:2025 年 甚至 2026 年,人类所有的公开数据可能都会被大模型用完,AI 在人类知识边界上会达到一个平台期。前段时间也有人在讲,整个能力进化在 C 端用户那里已经感觉不到那么强了。所以我觉得后期 AI 很大的一个方向会是下沉到每个人身边,实现个性化。Memory 这件事情就变得非常重要。

另外余总也说到他们很关注时间,我们也是。因为我们一开始就做全模态,会把视频模态考虑进去,而视频天然对时间很敏感。此外,我们认为记忆要可审计、可定位、可修改,而要实现这些,最好的锚定就是时间。目前我们的产品已经上线了 SaaS 平台,对外提供 SDK 和 API 接口,欢迎大家试用。

从上下文到外部存储,再到原生记忆

DeepTech:咱们从技术路线聊起。大模型刚出来的时候,训练阶段用了海量语料,我们感觉它其实也有“记忆”,只不过不是针对个人的。后来我们发现,大模型的知识来源主要是上下文窗口,再后来模型越来越大,可以外挂知识库,我们又会觉得它的信息是基于知识库的,知识库里的信息也可以被视为一种记忆。这些技术发展的脉络和我们现在说的 AI Memory 之间有什么区别?

余宣庆:最开始我们感知到的“记忆”,更多是模型好像知道我历史的交互数据,不再是一次输入一次输出,下一次再问的时候它还记得之前聊过什么。这种上下文记忆的实现方式,本质上是把过往的聊天历史重新作为提示词的一部分再次输给大模型。

但问题很明显:上下文窗口有限,当交互历史达到一定长度后,就不得不开一个新会话,之前的内容就丢弃了。于是我们自然会想,这些历史对话数据能不能成为外部存储?比如用压缩或者向量存储的方式来检索。但这又会带来新的痛点:里面含有大量噪音,无法建立事件之间的关系和联系,在需要找到相关语义信息时无法提供精准的上下文支持。

所以现在我们谈的 AI Memory,其实是一种面向智能体的原生记忆操作系统——从上下文记忆,到外部存储,再到智能记忆体,不断缓解每个阶段的痛点。我们现在要探讨的,正是记忆如何不只做存储,而是进化到可以认知、可以把经验提取出来的阶段。

赵翔:我补充一下。AI Memory 这个概念其实很泛,包括模型本身权重中的记忆,以及外部输入的知识库。我们现在经常把它当作 Context Engineering 来做,就是因为目前的模型本身是无状态的——在大规模分布式部署时,用户拿着他的 ID 和全部上下文一起扔给模型,模型可能通过 KV Cache 实现一个短期的工作记忆。但目前所有的 Agent,本质上都是在做 Context Engineering:怎么又好又准,在 Token 效率的前提下把整个 Context 组织好,交给模型,利用好它的上下文窗口。

以前大家用 RAG 检索文档,或者利用文件系统存一些文本拉回到上下文,这些都是早期的做法。但我们现在希望 Memory 能够随着用户不断学习和进化——逐渐生长成一个人的 Life Context:他的记忆、经历、背景、偏好。通过 RAG 或 Graph RAG 的形式储存,再通过用户的一句 Query 模糊召回相关 Context。目前整个 AI Memory 的方向,就是希望它是 Token 高效的、精确的、能根据语义精准召回用户以前说过的话和偏好。

AI 记忆与人类记忆的相似性

DeepTech:我们人类的记忆有工作记忆、短期记忆、长期记忆,而且很多时候人类记忆是模糊的,先模糊召回,随着检索深入再逐渐变得清晰。AI 记忆的开发过程中,是不是有某种与人类记忆相似的原理?

赵翔:确实有一定相似性。人的工作记忆存在大脑皮层,短期记忆和情景记忆可能存在海马体,通过不同频率的信号,大脑会重新建立新的突触和连接,形成持久性记忆。AI 现在也在尝试模拟这个过程。

比如说,我们可能先模糊地想到一件事,这就是模糊匹配,先命中这件事本身。然后神经元向外扩散突触连接,想到一些与之相关的记忆进行召回。这和 Graph RAG 很像:命中了一些节点之后,沿着图做一跳或多跳的扩散,召回新的节点。从模糊匹配到仔细回想,再到形成整个认知并拉回来,这个过程和人类记忆还是很像的。

余宣庆:我也非常认可。人工智能确实从脑科学、认知心理学中获取理论基础和灵感来建设系统。但我不完全认为它一定要和人脑的神经结构完全对应。因为人类天然有生理局限性,会自然遗忘。而存在计算机系统里的数据是否有必要专门去遗忘,我打个问号。我们更多探讨的是:在下一次 AI 辅助决策或执行任务时,它能不能用最低的成本、最高的响应速度找回需要的信息——这个信息可以是精细粒度的,也可以是概要性的。

人脑记忆是结合了情境的:结合我们当下正在发生的事情的话题、任务和目标,把内容和情境关联起来再去存储。现在一些记忆工程的实现,也开始分主题保存、分层保存,探索加入环境交互、目标感知,来决定记什么、重点记多少。记忆这个学科,确实是脑科学和实际工程场景的需求双向哺育发展的。

同时,记忆的作用不只是服务人。智能体对自身的工具调用、行动轨迹也需要提取经验;智能体之间的交互也需要学习和记忆。记忆的作用范围不只是 Human 和 Agent 之间,还可能是 Agent 和 Agent 之间,或者 Agent 对自身的。

短期记忆与长期记忆的实现机制

DeepTech:那短期记忆和长期记忆在具体的实现机制上有什么不同?

赵翔:短期记忆和工作记忆其实差不多,目前的实现方式就是 Context Window 上下文窗口。因为模型本身是无状态的,只负责计算和输出 Token 预测。为了解决工作记忆的一致性,使得下一次对话时能把前面的思考和内容全部带上,就用了 KV Cache。以前单体模型部署在显存里,现在大规模部署用分布式 KV Cache 来缓存。我们在工程上也会尽量让上下文前缀保持 Token 级的稳定,确保 KV Cache 命中,降低重新计算量,实现对话窗口中短期记忆和人格的一致性。

长期记忆方面,除了持续学习以外,目前我们在做的 Memory,是在 Context Engineering 中从人和 AI 的对话里去记情景记忆或语义记忆。情景记忆就是原始对话的细节,语义记忆则是对这些细节做语义抽象,抽象到更高层级,相当于做了一个摘要,本质上是一种压缩。对人来说,记忆事情也是以事件为中心的——不会一下子记到很细的东西,可能先回想起来“我们昨天做了一件什么事”,再去想里面的细节。语义记忆就是把事件本身做一个简短的 Summary 抽象保存。

余宣庆:赵总说得很好。我补充一下工作记忆这块:我认为它更多关注的是 AI 完成当次会话所要关注的任务中,哪些是关键信息、哪些可以丢弃。在技术实现上,短期记忆中也可以利用强化学习来判断哪些信息在下次使用中应该被遗忘,这本质上是对注意力的加强。因为 AI 在执行任务过程中可能会注入冗余信息,对上下文窗口的占用和大模型的注意力都会产生干扰。

常规的实现方式是:最近的保留原文,远端保留摘要,再远端保留长期记忆,这样一个组合给到 AI。对于长期记忆中的语义记忆,我觉得除了保留事件和话题外,更重要的是关注结构化——不只是显性的概念性事实信息,还有 AI 联想思考延伸出来的内在属性,以及不同主题信息之间的关联。这样在回忆时可以借助类比思考、相似案例来做一些启发性的工作。

信息压缩与丢失的权衡

DeepTech:形成摘要的过程中,会不会造成信息丢失?随着记忆越来越多,AI 会不会在需要时调用不出这些记忆,或者调用出错误的记忆?

余宣庆:压缩比这件事非常关键。不是每一轮交互输入都很长,如果都用同样的压缩比,肯定不合适,需要调控。

我最近看到一篇研究,把压缩看成一个“可旋转的旋钮”,更多关注的是某个任务、某个目标下压缩是否合适,有些细节信息要不要保留,可以根据临时情况判断。我们自己的一个工作则是持续分层级压缩:先做一步压缩,再异步做二次、三次压缩。跨越的时间范围越长,压缩粒度越粗。第一层压缩尽量去除冗余信息,保留大部分细节。至于这些信息要不要在每次记忆调用时都拿出来,可以根据问题的复杂度灵活判断。

摘要确实是一个很重要的话题——记忆本身就是对原始数据的凝练,把它变成有用的 Context。要不要丢失、丢失多少,可以单独设计模块来提升性能。这也是记忆在落地业务场景后,结合数据反馈和垂直任务,能慢慢形成壁垒的关键点。

记忆的更新机制

DeepTech:比如我今天想吃火锅,下周肠胃不好不想吃了,这种个人偏好的变更,记忆能跟着更新吗?

余宣庆:有一种实现方式是直接找到原来的记忆存储位置进行更新,记录一个版本的更新时间。下次检索这个话题时就能得到最新信息。

我们的方式是增量更新补充:你在什么时刻多了一个新的偏好,我把你过往每个时间点的偏好或事实都保存下来。召回时按时间线全部拎出来,再通过记忆体中的一个门控机制,判断当前问题的话题场景下,历史偏好要不要利用。比如回忆偏好变化时,当然要用到全部历史;如果只是问“你当前喜欢什么”,那原来喜不喜欢就不重要了。

赵翔:记忆更新确实是很多 Memory 框架的一个大痛点。比如以前的 RAG,想对一个特定记忆进行更新其实非常难,因为它是模糊匹配,召回的东西不一定是你想要的。

我们引入了一个显式的时间轴,所有进来的对话或多模态证据都先和时间轴进行锚定,先锚定一个物理的具体输入时间,然后再进行语义抽象建立认知层。这样首先做到可追溯。状态更新方面,我们也是做累加的,只不过会把失效的记忆标记为“invalid”,在新的记忆上标注“valid at”某个时间。后期需要追溯或修改某个记忆时,也是根据时间定位到具体的注入点,然后去更改它的认知 Summary。

记忆的强化与遗忘

DeepTech:人类学习中,随着不断巩固某个知识,记忆会被强化,能更快调出来。AI Memory 能实现类似的强化和反思吗?

余宣庆:如果在 AI 的 Memory 机制里,某篇课文已经以 Knowledge 的方式存储过了,对 AI 来说回忆就不是难事,几乎每次都能召回所有细节。这和人类不同,人类必须通过不断反思强化来加深记忆,把短时记忆变成长期记忆。

但在 AI 中,你每次反思加工产生的新内容,比如哪些地方要关注、前后篇章的逻辑关联,这些会作为增量更新补充到记忆中。这些相关内容在记忆总量中的占比会越来越高。下次用 Top K 方式召回时,它原来可能只占三分之一,后面就变成三分之二了。大模型在回答时自然就会给予更多注意力。

同时,如果每次召回加上反思经验一起拼接后,对下游任务有正向反馈,我们就可以给它加权重,不断提升。召回排序是综合性的,通过时间、相似度、成功带来的置信度做融合排序。

赵翔:我们也是类似的方案。我们有一个综合权重的 Ranking 体系,里面有很多权重分数,比如关注度、BM25 等,综合成一个 Score。其中一个很重要的点是:当这个节点被反复提及或反复被召回时,我们会对它的 Importance 进行更新,把重要性拉起来。这样它在排序中的位置就会非常靠前,只要提到它的次数足够多,每次召回时它就会排第一。通过排序来实现记忆的增强和巩固。

反过来,也可以通过这种方式实现遗忘,这是一种 TTL(Time To Live)的功能。如果一个记忆经常未被召回,激活时就会显示出非常低的分数。我们会通过异步扫描去检查这些长期未被激活的节点,对它进行清理,模拟人类的遗忘曲线。

余宣庆:我再补充一个思路。我之前有一份工作叫“在线式神经符号融合增强事件预测(ONSEP)”,其中设计了一个动态因果挖掘的规则学习器。我们用规则集来补充检索器自身的能力。

具体来说,关注原因和结果事件的发生——如果某个原因被反复提及,或者对结果的预测和推理有正向作用,我们就会用 AI 的反思能力总结出一条规则:这个原因可能导致这个结果,标注一个置信度,存在规则集合里。下次召回记忆时,用规则集去海量历史中优先查找,这些原因事件就通过规则这种显式方式加强了权重。规则的置信度和数量都可以随时间更新。

AI 记住了,但能遵守吗?

DeepTech:我们在日常使用 AI 时,会发现它很难完美遵循它之前的承诺。比如我们告诉 AI“这个你一定要记住”,虽然很早之前 ChatGPT 就推出了记忆功能,但在需要召回时,它是很难完美记住的。现在的技术能解决吗?

余宣庆:这个问题的本质是记忆机制、记忆巩固天然会带来一定的细节损失。一个好用、可靠的记忆体,一定需要意图识别能力。我们到底是要对某个话题做摘要,还是要原封不动地记住所有内容?需要有路由策略,可以归到 Knowledge,可以归到长期记忆做结构化事件保存,也可以定义成规则。你要求它记住的可能是某个业务规则、必须做什么或不准做什么。我们可以把它归类到 Rules 这一栏,尽量保留所有细节,在召回时做事件触发,把内容填充到上下文中。

赵翔:我们的处理思路也不复杂。AI 本身是概率性的发散,每次输出可能不太一样。但用户会明确表达一个偏好,这次输出好或不好,或者要求它记住某件事。这本质上是一个 User Preference 的问题。所以我们会维护一个 User Preference 的 Schema 和 Profile,在召回时做条目召回,作为 AI 自我遵循的补充。

我们在存储原始证据层时,因为证据层是可审计的,每轮 Turn 都会挂进去。召不回的时候,其实可以召回到用户和 AI 每一轮对话的细节。我们实现了一个五路并行 Retrieval,除了 RAG 检索,还有图检索、时间序列检索、实体节点检索,以及证据层检索,分别命中。在测试中,当证据层召回打开的情况下,AI 是可以完整回顾自己那段对话中的承诺的。

余宣庆:我再补充一点。我认为大部分记忆框架缺少一个“记忆的指导器”。记忆体更多是一个多模块协同的系统,需要各司其职,意图识别、记什么类型、记多少、要不要记、什么时候记。我们设计了一个元记忆的指导器,来调控各种不同的记忆组织结构应该怎么记。另外,记忆和大模型的组织问题目前有点解耦,技术本身怎么记、应用场景的用户反馈、是否真正影响到了下游结果,这几方面分别在推进。整个记忆领域的基准测试集也还不够全面,未来会有一个融合和产品化的进展。

当前技术面临的挑战

DeepTech:目前记忆技术还有哪些未解决的挑战?准确性和幻觉、关联性和推理性、过拟合、容量和效率的上限等等。

余宣庆:任务目标的识别感知、记多少记什么的评估、召回的内容是否真正有用以及如何评估,这些方面都还需要研究。比如召回的到底应该是细节、概念还是模糊的摘要片段,它们如何关联,要不要结合用户 Query 做重写再给到下游模型。另外,当前对记忆的评估更多聚焦于幻觉和检索准确性,但对于人机交互场景来说,是否深度理解了用户、全面的用户画像能力,这方面也需要被讨论和关注。

赵翔:我补充一些我们在开发中遇到的具体挑战。首先是上下文信息是否完整、是否全面,它本身是对对话文本的抽象和原始证据,所以存在一个 Token Efficiency 的问题:怎样用尽量精准且少量的 Token 去模糊匹配到用户当时的上下文。

对应用侧来说,Token Efficiency 就是成本的重大衡量。你可以提高 Top K 来达到更高的准确率,但降低 Top K 实现 Token 效率后准确率就会下降。这是一个权衡问题。

另外是垂直场景的定制化。当我们尝试构建通用 AI Memory 时,一些非常具体的场景,例如陪伴、医疗、法律,它们各自可能有一类特定的记忆需求,和业务深度绑定。在通用记忆基础能力之上,如何满足各个垂直场景的高度专业化或定制化需求,这也是持续的挑战。

行业应用:从知识库到记忆

DeepTech:除了聊天和个人 Agent,金融、医疗、客服这些垂直行业已经用上 AI Memory 了吗?

赵翔:真正严肃的金融、医疗、客服场景里,大概率还是用 RAG——把话术或知识库切分,RAG 召回作为数据库。真正使用 AI Memory 的话,比如和医生或个人专家实现强耦合,记忆就必须是可审计的。不能是 RAG 里那种模糊匹配加排序——随机性很高,不可控,随着向量库膨胀、图膨胀,召回噪声的概率越大,正确 Ranking 的概率就越低。所以必须可治理、可审计。这也是我们特意引入时间和证据这两个层级的原因。

不过要真正和医疗、金融这种极其严肃的场景耦合,还需要更细致的工程。比如现在有一种叫 Skill 的方式,本质上也是上下文或 Few-shot,通过逐步暴露来降低 Token 占用率,先只让 AI 看到标题和功能,里面的细节先不暴露。后续在专业场景中,Memory 可能会落到用户 Preference 或工作中 Skill 的收集和构建上来。

余宣庆:我补充一下。我们关注了很多智能体对自身记忆的场景——现在智能体已经从聊天机器人走向可以执行任务、动手做事的工作伙伴。它对于自身在某个任务目标下的工具调用编排的记忆,以及在成功或失败中能否提炼经验、下次运用经验的能力,这是我们在关注的。

比如我们有一个工业场景:焊接工艺参数生成。让焊接机器人更好地适应新的焊接目标任务,结合图像识别得到工艺参数。这个过程中往往需要一个工艺专家站在边上反馈参数是否合理。这种反馈很难仅仅靠 RAG 或外部知识图谱作为静态知识来沉淀。我们认为未来要做到人类知识的蒸馏,把人在交互过程中反馈的审美判断、一系列 Approve 事件,变成 AI 可以沉淀的 Skills 或 Rules,成为个性化或组织个性化的经验。

另外在教育陪伴、养老等场景,教育方面的因材施教,例如学生学习某个知识的风格和理解方式能不能通过一次测试反馈后自主调控?陪伴和养老场景则更关注情绪,比如什么事件激发什么兴趣。这些都需要在业务适配时调控记忆关注的点,设计专门的 Schema 来告诉系统应该记什么方面的内容。

挑战一是能否理解这些业务场景的目标任务,二是推理响应速度能否加强。因为多模块协同的记忆体中,简单的压缩可以用小模型,但高层次的抽象信息提炼或 SOP 提炼可能需要大模型,而大模型又非常慢。能否把大模型的能力注入到某个记忆小模型里,也是我们在探索的方向。

个人记忆会“污染”知识库吗?

DeepTech:比如说金融从业者或医疗人员把自己的知识沉淀为记忆后,这些记忆会转化到知识库里吗?转化之后会不会污染知识库?

赵翔:知识库和记忆的区别在于:记忆和人是强绑定的。在专业场景里,通用底座模型的知识在任何领域都已经触达人类边界了,它知道的肯定比你多。

人在这里起的作用是什么?是怎么去调用这些知识,在一个非常具体的场景或岗位里,通过沉淀下来的经验和技巧把工作流组织起来。但这个事情现在也受到了 Skill 的挑战。我们内部经常讨论:如果一个公司强制要求每个员工把工作经验和逻辑全部沉淀到文档里作为 Skill,那这个人是不是就随时可被 AI 替代了?

对于垂直场景来说,通过个人的工作经验反馈、工作文档、对话甚至文件,可以沉淀出一个 Skill 节点,按层级先只暴露一个摘要,再往下是类似 Schema 的模板,把整个经验沉淀下来。这其实是从个人的零碎情景记忆,转向高度抽象、高度凝练、高度专业化的经验知识。在通用底座之上,各个垂直场景可以有专业化的 SDK 或 ADK。

余宣庆:可以理解为一个场景的适配器,拼在模型外面作为单独一层。

至于幻觉问题——专家经验反馈中如果有某次的错误操作注入了不相关的记忆或错乱的 Skill——我觉得需要持续监控在应用场景中的效果。通过环境交互的反馈,理解记忆带来的效果是否有效。如果它导致了失败,通过类似强化学习的机制,它就会被挤到l候选列表下面去,慢慢被遗忘掉。

To B 还是 To C?

DeepTech:AI 的产业化上一直有 To B 和 To C 之争。两位怎么看 AI Memory 在这方面的前景?

余宣庆:记忆更多可能带来体验升级。很多陪伴类产品或儿童 AI 玩具场景,购买意向可能很高,但留存率是否满意?我看到一些玩具类产品说自己有记忆,实际上就是把所有交互数据压缩成了 1000 字,很浅,没办法实现深度的长期记忆。

人在 C 端场景有一个社交底层需求:我真正被看到了,我的内在好的一面、不好的一面都被关注到了。如果 AI 能在我需要帮助时回忆到那些点,提供真正深度有用的建议,这种情绪价值,C 端消费者是愿意买单的。

B 端则更关注生产力效率提升。销售客服场景大家都愿意花钱获得更多客单,代码或写作这种直接产出内容的商业化场景,做一些记忆提效更容易落地。

赵翔:我觉得最终还是 To C。哪怕我们把 C 分成个人开发者(小 B 或小 C),目前 To B 其实是一个介质,我们的 Memory 作为一个相对底层的 Infrastructure 能力,To B 的话 B 还是要把这个能力接到它上面面向 C。最终场景还是面向 C,因为 Memory 本身是一个高度个性化的东西,以用户为中心,对用户的记忆或 Life Context 进行托管。只不过前期在哪些 B 端场景或 C 端场景先商业落地,这可能是路径问题。可能前期先 To B,但最终一定面向 C。

余宣庆:我个人认为,记忆这件事更多是面向 Agent 的。这个 Agent 可以是组织创建的,也可以是个人创建的,服务于人或者企业内部的数字员工。服务形态和商业模式可以分开来看。

B 端更愿意付费的场景,除了高价值的生产创作和销售场景,还有组织经验的沉淀。我们自己团队在探索如何更好地使用 Claude Code 或 Agent。用得好的人能在站会上分享使用经验,但现在还需要用口头方式沟通、写文档做示范教学。如果这些经验能直接被 AI 记住,然后另一个同事的 AI 在做类似任务时直接运用,那就直接提效了。作为组织负责人,我非常愿意为这个买单。把员工和 AI 的交互沉淀下来,这是一个非常有商业想象空间的场景。

隐私与信任

DeepTech:企业愿不愿意把交互记忆托管给第三方?用户愿不愿意把隐私托管给 Agent?

余宣庆:落地推进时确实会遇到顾虑。我们从技术层面要做数据加密,更重要的是以数据主权为中心,用户的记忆能不能全部导出归自己所有,像 U 盘 一样可插拔地在各个新产品上使用。对企业,也可以提供本地化部署方案。

赵翔:这是我们都要面对的问题。To B 客户非常在意把数据留在自己公司。我们在架构设计时就考虑了数据库和 Service 之间的可解耦,对于隐私要求极高的大 B 企业,数据库可以自行托管和加密,Memory 的抽取、建图等 Service 从我们这边走。

对 C 端来说,我们主打的是用户的记忆托管平台,“一处记住,处处可用”。用户在聊天过程中把信息放在这边,通过跨平台、跨 AI、跨 Agent 的交互,降低沟通成本,为每一个 AI 构建熟悉感和偏好了解。

余宣庆:当然,当我们提供的提效价值或解决刚需的价值超过了数据隐私顾虑时,客户其实不一定以此作为决策的阻塞点。实践下来,有些公司本地本来就有留存,只需要数据价值和服务稳定性就够了。

记忆孤岛与迁移成本

DeepTech:当 AI Memory 沉淀到某一家公司的产品里,记忆迁移成本一定很高,就像微信的社交关系一样形成壁垒。未来会出现基于个人数据的新垄断吗?

赵翔:你说的其实就是“记忆孤岛”。比如我和 Claude 聊了很重要的东西,但觉得回答不好想换成 GPT,这个迁移成本就很高,得一个对话框打开,一个复制粘贴。

我们做 Memory 上云、上 SaaS 托管,就是要去中心化,解决记忆孤岛问题。大厂天然有壁垒,它们自身就是一个中心、一个孤岛,数据都在它们里面,和其他生态不互通。我们作为第三方记忆托管平台,任何支持 MCP 或通过几行代码接入我们记忆功能的 Agent,都实现了去中心化。用户在一个 Agent 里形成的记忆,可以带着它随处迁移,是可插拔式的。

余宣庆:另外,记忆导出目前还没有建立行业标准,导出的形态是什么?每家的记忆框架不同,导出数据对原框架可能非常好用,对别的框架可能就不那么适配了。这件事需要行业讨论。

不过我们也可以看到,这和之前笔记类、日记类软件的问题类似,比如 Flomo 这样的碎片化记忆管理工具,容量到了上限就得开 Pro,导出到本地也没地方导入。这其实慢慢形成了社区壁垒。

赵翔:用户经过冷启动后,确实会慢慢形成壁垒。从生态角度讲,积累大量用户的依赖和粘性,可以反过来倒推开源 Agent 或 Agent 开发者来接入你的 Memory 能力,形成生态。

为什么大厂都在做硬件?

DeepTech:既然聊到了个人化,为什么现在大厂都扎堆做 AI 硬件?

余宣庆:智能硬件可以随身携带、一键触发,降低了打开手机、打开 App 再点按钮的流程。它带来的体验效率升级让我们越来越“懒”,比手机打开应用的某个功能要便捷。

赵翔:有点类似以前互联网时代大家都开发 App 以此为中心。现在越来越 AI Native,大家在探索一种新的人机交互范式,尽量绕开屏幕式交互,通过耳夹、眼镜等硬件降低人和 AI 服务的交互成本。

DeepTech:今天也看到新闻说苹果要开发一个带两个麦克风、一个摄像头的胸针产品。AI Memory 肯定可以和智能眼镜、智能座舱、机器人这些有频繁交互的设备结合,成为大脑端非常重要的仓库。

赵翔:是的。我们之前就想从全模态开始做,考虑的和您说的一致。无论智能配件、机器狗、陪伴玩具,本质上都在探索和人类直接交互的范式。这些范式的核心点就是必须克服“有状态”的问题,智能眼镜得记住它看到的东西,陪伴机器人得记住它做过什么和要做什么。所以我们一开始就以全模态为底座,目前能够支持视频、音频和文本,全部在一张图上做下来。

余宣庆:大厂战略上考虑硬件,一是从交互层面提高效率,二是抢占入口——GUI 可能慢慢被新的交互形态替代。我们也非常欢迎硬件厂商和我们的记忆体进行合作。我们自己也探索过 C 端产品——时间管理和规划助手,通过对话拆解任务,结合历史偏好经验做预测。高频、高价值、有粘性的场景如果有硬件形态,集成一些细分功能,就是很好的创业方向。

Token 消耗与持续运行

DeepTech:像智能眼镜一直戴在脸上工作十几个小时,Token 消耗量会很大,而且更多是图像处理。

赵翔:这在以前 CV 领域其实也有解决方案。视频每秒 30 帧,但一天中以摄像头或眼镜为例,可能 80% 甚至 90% 的帧是静止的。可以对帧进行去重,只获取那些有价值的帧。这个技术在 CV 时代已经相对成熟了,我们做记忆时也是这样。

余宣庆:在云端上面可以探索更高效的模型来处理压缩,终端设备利用到的数据可能是“够用的低分辨率”就可以了。另外能否把计算分布式放到硬件端,用端侧小模型处理,也是一个方向。Token 成本、模型进化、硬件计算设备都在进化,关键是什么时候进入这个赛道把产品打磨出来。

比如现在有些眼镜已经在识别哪些重要场景值得记录然后才开始拍摄。有了记忆体后可以先保存到 App 端,联网环境下用户不需要那么实时感知时再处理。如果需要实时辅助当前决策,也可以先用工作记忆在上下文窗口里实现。

数字人格:会替代我吗?

DeepTech:今天上午和实习生聊天,他会有恐惧——未来会不会出现一个数字人格把我替代掉?AI 有了我的记忆之后,会变成另一个“我”吗?

余宣庆:数字分身其实是一个很高效的场景。在咨询服务或客服领域,让知识服务不再是一对一的、每次消耗脑力的。一个心理咨询师、法律咨询师,学了这么多年知识,一次只能服务一小部分人,效率很低。如果能通过带有记忆和经验的数字分身作为专家模型,帮你提供给其他 Agent 或人类服务,产生被动收入,我觉得这是一个很看好的新商业模式。但你要不要授权、给它的行动范围和参与场景做什么限制,主动权和控制权还是留在用户自己手上。

赵翔:最近确实让我感觉到这个趋势。如果通过 Skill 把每个人的岗位职责固化,某种程度上大部分人其实在做相对固定的事情,如果真能固化到 Skill 里,我觉得确实可以替代。

数字人格这个东西后面肯定会慢慢出现。如果能把一个人的各种行为偏好、思想记忆以高带宽的 Embedding 空间形式无损传给模型,模型可以模仿他的所作所为和思想。但目前来看,在非持续学习的形态下还很难替代,因为模型本身是被动响应的。

不过我想提到一个有意思的东西,之前 Google 可能提了一个叫 HOPE 架构的 continue learning ,在人和 AI 交互过程中不断更新,先是工作记忆,再慢慢传递到内部,类似于快罗盘和慢罗盘之间的传递,缓慢更新自己的权重。他们甚至给这种模型起了个名字叫 Live Model 活体模型。当模型能够实现热权重更新和活体化时,可能真的会有一些主动性。再结合 Skill 沉淀和 Personality,也许真的能替代人。

但也不需要害怕。当生产力极大丰富的时候,也许就是按需劳动、物资极大丰盛的时代——畅想一下而已。

余宣庆:目前的 AI 不能完全模仿人类。人类在持续学习,有从自己做过的事情中反思提炼经验的学习能力。更重要的是主观能动性——有意志、有冲动去打破现状。这种内在动机是目前 AI 很难模仿和复刻的。

赵翔:对,主体性。这可能是一个伦理问题、社会伦理问题。

总结

余宣庆:今天我们从最新的记忆进展聊到了记忆的分类、技术难点以及产业化。通过和赵总的讨论,我学到了很多技术实现的不同路线和发展方向的思考。

我们的太忆 TiMEM 认知引擎,以时间区间分隔和分层的方式作为第一性原理来组织记忆,保证事件连续性和用户画像巩固的稳定性,再上升到从中高效提炼经验性内容来服务 Agent 的自我增强。商业化场景不只 C 端,主要面向 Agent,它可以是任何组织或个人创建的,服务形态可以根据垂直场景适配。未来要学会任务感知、目标感知,与实际工作场景结合。关于数字分身,我的判断是一定要把主权交给人类和 IP 本身,否则就会失控。

赵翔:今天我们从 AI Memory 的概念一直聊到很细的技术问题,再到行业趋势展望。我们现在已经通过 STKG(时空知识图谱)的手段实现了比较好的效果,在 LongMemEval 等基准上打了比较好的榜。

对于未来的展望,我们也有一些深入思考。现在在尝试做一个潜空间(Latent Space)注入回忆的形式——文本作为载体,人类语言的带宽其实相对较低。Embedding 思想很重要:如果能把非常密集的奖励信号和 Memory 压缩到稠密向量空间,虽然人看不懂、大模型可能也不完全懂,但如果能映射到 Embedding 交给模型做潜空间交流,这将是非常有意义的事情。这也是我们正在做的,可以期待一下。

DeepTech:非常感谢两位老师的深度对谈,也感谢大家的收听。关于本期内容,欢迎在评论区和我们交流。

相关内容