短期记忆和长期记忆

短期记忆就是当前对话的上下文，所有的历史消息，system prompt，工具调用结果都在里面，直接存在context window里，llm每次推理都能看到

长期记忆是跨会话持久化的知识，比如用户偏好、项目上下文、过往的决策记录，这些数据存在外部存储里，比如向量数据库、文件系统等，需要的时候注入到context里面

短期记忆的管理策略

context window总归是有上限的，一个复杂的编程任务聊一会，加上工具调用很容易就突破限制，这个时候就要做压缩compaction，常见的有三种

生产环境一般是组合使用，比如system prompt和最近5轮对话原文保留，更早的历史做摘要压缩，工具调用结果只保留关键片段

长期记忆的核心问题是存什么和怎么搜

存储内容一般分为三类

检索方式主流是混合检索

两者的结果做rerank

一个关键设计模式是Memory Flush（记忆刷盘）

当对话接近压缩阈值的时候，系统先触发一次llm调用，让模型把当前会话中的关键信息（决策、代办、偏好）等，提取出来写到持久化存储里，然后再做压缩

这样即使历史消息被压缩或丢弃，关键信息还能通过长期记忆检索回来

另一种设计是会话结束时自动归档，系统把本次会话内容持久化成记忆文件，实现短期记忆到长期记忆的自然过渡

MemGPT把这个机制做的更极致，它直接让LLM自主管理自己的记忆，模型可以主动决定把什么存到长期记忆，什么时候从长期记忆里检索，什么时候更新或删除旧记忆，本质上把记忆管理也做成工具调用

最简单的判断就是这条消息对当前任务有没有用，system prompt一定保留，最近3-5轮对话保留，工具调用结果只保留摘要，对于更早的消息，可以让llm去打分，低于5分就丢掉，5-8分的压缩成摘要，8分以上原文保留，LangChain的ConversationSummaryBufferMemory就是类似的思路，维护一个token上限，超了的就把最早的消息做摘要

各有适用场景

靠长期记忆做冷启动，用户开始新会话的时候，系统先从长期记忆里检索跟当前项目相关的所有记忆条目，按照时间和相关性排序，取top10-20，同时把上一次会话的摘要也加进去
关键是长期记忆存的时候要打好标签、项目名、时间戳、内容类型这些都要有，不然检索出来全是垃圾