LongMem:冻结主干 + 侧网络,彻底消灭记忆过时

RL Paper Reading入库于 2026/6/9|

LongMem: Augmenting Language Models with Long-Term Memory

阅读难度:★★★☆☆ | 预计阅读时间:8 分钟

来源arXiv 2306.07174 | Weizhi Wang et al., Microsoft Research | NeurIPS 2023


一句话总结

这篇论文本质上是在解决 LLM 架构层面的长期记忆问题——通过"冻结主干模型 + 独立记忆检索侧网络"的解耦设计,让 LLM 能访问 65k Token 级别的超长历史,同时避免了"记忆过时"问题。


背景知识

与 MemGPT 的根本区别:

  • MemGPT 是系统层解决方案:通过函数调用管理上下文,不修改模型
  • LongMem 是模型架构层解决方案:修改模型结构,在推理时直接访问外部记忆

什么是"记忆过时"(Memory Staleness)问题?

如果直接把历史 context 拼到 LLM 输入里,每次调用都要重新编码整个历史,计算成本极高。如果预计算历史的表示并缓存下来,当模型参数更新后,缓存的表示就和当前模型"对不上号"了——这就是记忆过时。

LongMem 的解决方案:把主干 LLM 冻结,只训练一个轻量级"侧网络"(residual side-network)专门负责记忆检索——冻结的主干不会变,记忆表示永远不会过时。


核心架构

┌───────────────────────────────────────────┐
│         Memory Bank(长期记忆库)            │
│  缓存了过去所有 Token 的表示(最多 65k Token)   │
└─────────────────┬─────────────────────────┘
                  │ 检索
┌─────────────────▼─────────────────────────┐
│      Adaptive Residual Side-Network        │
│  (训练的轻量级模块,负责记忆读取和融合)          │
└─────────────────┬─────────────────────────┘
                  │ 记忆增强的表示
┌─────────────────▼─────────────────────────┐
│         Frozen Backbone LLM               │
│       (原始模型参数冻结,不参与训练)            │
└───────────────────────────────────────────┘

关键设计决策:主干冻结 + 侧网络可训练

对比维度直接微调LongMem 解耦设计
记忆过时问题有(模型变了,旧缓存失效)无(主干不变,缓存永久有效)
训练成本高(全量参数更新)低(只训练侧网络)
记忆库大小受限于上下文窗口理论无限(外部存储)
推理速度慢(每次重编码历史)快(历史缓存一次性编码)

为什么解耦能解决记忆过时?

关键洞察:检索 Key 的质量 = 记忆编码器质量

只要主干模型冻结,那么:

  1. 历史 Token 在记忆库中的表示永远由同一个模型产生
  2. 当前 Query 的表示也由同一个模型产生
  3. 两者"语言一致",检索相似度可靠

而侧网络只需要学习"如何把检索到的记忆信息融合到主干的注意力层"——这是一个相对简单的适配任务。


实验说明了什么

  • 在 ChapterBreak 长文本建模基准上显著超越强 baseline
  • Memory-augmented in-context learning(把 65k Token 的示例存入记忆库)相比普通少样本学习大幅提升

核心结论:LongMem 让模型能利用远超其原始训练上下文长度的历史信息,且由于解耦设计,这个能力可以"即插即用"到已有模型上。


与 MemGPT / A-Mem 的定位对比

论文层次适合场景核心思路
MemGPT系统层通用 Agent 运行时分层内存 + 函数调用
A-Mem应用层长期对话 AgentZettelkasten 记忆网络
LongMem架构层需要模型级长期记忆解耦侧网络 + 记忆缓存

LongMem 更像一个"架构研究贡献",而 MemGPT 和 A-Mem 更接近"可直接用的系统"。


对 Agent 的意义

  • 模型层面:LongMem 的解耦思路影响了后续很多"附加模块不修改主干"的架构设计
  • 记忆缓存机制:预计算历史表示 + 检索复用的思路,在 KV-Cache 优化、RAG 加速等方向都有体现
  • 局限提示:实际 Agent 系统中,MemGPT/A-Mem 类的方案更主流,因为不需要修改模型架构