AI | Robert | 程序员

MemGPT 论文中文翻译：将 LLM 作为操作系统

原文标题: MemGPT: Towards LLMs as Operating Systems 作者: Charles Packer, Sarah Wooders, Kevin Lin, Vivian Fang, Shishir G. Patil, Ion Stoica, Joseph E. Gonzalez 机构: 加州大学伯克利分校 arXiv: 2310.08560v2 [cs.AI] 2024年2月12日翻译整理: 2025年2月摘要大语言模型（LLM）已经彻底改变了人工智能领域，但受到有限的上下文窗口限制，这阻碍了它们在扩展对话和文档分析等任务中的实用性。为了能够在有限的上下文窗口之外使用上下文，我们提出了虚拟上下文管理技术，这一技术借鉴了传统操作系统中的分层内存系统，通过物理内存和磁盘之间的分页来提供扩展虚拟内存的幻觉。利用这一技术，我们引入了 MemGPT（MemoryGPT），这是一个能够智能管理不同存储层级的系统，以在 LLM 有限的上下文窗口内有效提供扩展上下文。我们在两个领域评估了受操作系统启发的设计，在这些领域中，现代 LLM 的有限上下文窗口严重限制了它们的性能：文档分析：MemGPT 能够分析远超底层 LLM 上下文窗口的大型文档多会话聊天：MemGPT 可以创建能够记住、反思并通过与用户的长期互动动态进化的对话智能体我们在 https://research.memgpt.ai 发布了 MemGPT 代码和实验数据。图 1. MemGPT（左）在收到关于有限上下文空间的系统警报后将数据写入持久内存。图 2. MemGPT（左）可以搜索上下文外数据，将相关信息带入当前上下文窗口。 1. 引言近年来，大语言模型（LLM）及其底层的 Transformer 架构（Vaswani et al., 2017; Devlin et al., 2018; Brown et al., 2020; Ouyang et al., 2022）已成为对话式人工智能的基石，并催生了广泛的消费者和企业应用。尽管取得了这些进展，LLM 使用的有限固定长度上下文窗口显著阻碍了它们对长对话或长文档推理的适用性。例如，最广泛使用的开源 LLM 只能支持几十轮来回消息或推理短文档，然后就会超过其最大输入长度（Touvron et al., 2023）。 ...

MemGPT/Letta 记忆与上下文管理深度解析

本文档整理自 Letta 官方文档、研究论文及 GitHub 仓库原项目：MemGPT → 现名 Letta 论文：arXiv:2310.08560 📌 项目概览什么是 MemGPT/Letta？ MemGPT（Memory-GPT）是一个创新的 LLM 记忆管理系统，现更名为 Letta。它由 UC Berkeley 的研究团队开发，旨在解决大语言模型的上下文窗口限制问题。核心理念： “Teaching LLMs to manage their own memory for unbounded context” 让 LLM 学会管理自己的记忆，实现无限上下文 GitHub 数据： ⭐ 21.2k stars 🍴 2.2k forks 👥 158 位贡献者 🧠 核心问题：上下文窗口限制现有 LLM 的痛点有限上下文窗口 GPT-4: 128K tokens Claude: 200K tokens 长文档、多轮对话容易溢出无法持久化记忆每次对话都是"从头开始" 无法记住用户偏好、历史交互无法进行长期学习不能从交互中积累知识无法自我改进 🎯 解决方案：虚拟上下文管理核心创新：操作系统启发 MemGPT 借鉴了传统操作系统的虚拟内存机制： ...

Agent Infra 深度调研：Memory管理层次与架构设计

执行摘要本报告对Agent Infrastructure（Agent基础设施）领域进行了系统性深度调研，重点关注Memory管理层次模型。通过对LangChain、LangGraph、LangSmith、Zep、MemGPT等主流技术的分析，揭示了Agent Memory从简单会话存储到复杂知识图谱演进的技术脉络。 1. Agent Infra 分层架构 1.1 Agent执行动态追踪（Trace）层 LangSmith 是LangChain团队推出的LLM应用可观测性平台，截至2025年已处理超过10亿条Trace。核心架构： Frontend (UI) + Backend API + SDK (Python/TypeScript) ↓ ClickHouse (Trace存储) + PostgreSQL (元数据) + Redis (缓存) 定价模式： Developer计划：免费，5,000 traces/月 Plus计划：$39/月/席位 Enterprise计划：支持私有化部署 1.2 Agent Context管理层 Context生命周期：创建(Creation) → 传递(Transfer) → 更新(Update) → 销毁(Dispose) │ │ │ │ 初始化状态节点间流转 Reducer合并会话结束 LangGraph中的Context管理： class AgentState(TypedDict): messages: Annotated[list, add_messages] documents: list[str] counter: Annotated[int, add] 2. Memory管理深度分析（重点） 2.1 Memory层次模型基于认知科学和计算机体系结构的启发，Agent Memory采用分层架构： ┌─────────────────────────────────────────────────────────┐ │ Working Memory (工作记忆) │ │ Context Window / Active Reasoning │ │ ~4K-128K tokens │ │ ▲ │ │ │ 实时访问 │ ├───────────────────┼─────────────────────────────────────┤ │ ▼ │ │ Short-term Memory (短期记忆) │ │ Session History / Conversation Buffer │ │ ~10-100 messages │ │ ▲ │ │ │ 快速检索 │ ├───────────────────┼─────────────────────────────────────┤ │ ▼ │ │ Long-term Memory (长期记忆) │ │ ┌───────────────┬───────────────┐ │ │ │ Fixed Attr │ Fuzzy Vector │ │ │ │ Memory │ Memory │ │ │ │ (用户画像) │ (Embedding) │ │ │ └───────────────┴───────────────┘ │ └─────────────────────────────────────────────────────────┘ 2.2 短期记忆（Short-term Memory）工作记忆（Working Memory）： ...

多模态数据湖深度调研报告

执行摘要本报告对多模态数据湖领域进行系统性深度调研，涵盖架构设计、存储格式、查询优化、数据治理及业界实践等核心维度。随着AI原生时代的到来，数据湖正经历从结构化分析向多模态AI就绪架构的根本性演进。一、多模态数据湖架构 1.1 现代多模态数据湖核心架构组件现代多模态数据湖采用分层解耦架构，各层职责明确：访问层 (Jupyter/BI工具/ML框架/Agent接口) ↓ 计算层 (Spark/Flink/Trino/DuckDB/PyTorch/Ray) ↓ 表格式层 (Delta Lake/Iceberg/Hudi/Paimon) ↓ 存储格式层 (Parquet/Lance/ORC/Arrow) ↓ 对象存储层 (S3/GCS/Azure Blob/OSS) 核心组件解析：组件层级核心功能代表技术对象存储层海量数据持久化、高可用、低成本 Amazon S3, 阿里云OSS 存储格式层数据序列化、压缩、列式/行式布局 Parquet, Lance, Arrow 表格式层 ACID事务、Schema演进、版本控制 Iceberg, Delta Lake, Hudi 计算层查询处理、ETL、ML训练 Spark, Flink, DuckDB 访问层数据消费、可视化、应用集成 Tableau, Jupyter, LangChain 1.2 Data Lakehouse架构特点与优势 Lakehouse核心特征：开放格式存储：基于Parquet/ORC等开放列式格式，避免厂商锁定 ACID事务支持：通过表格式层实现事务一致性 Schema演进：支持字段增删改，无需重写数据时间旅行：数据版本回溯，支持可重现分析统一批流：同一份数据支持批处理和流处理 Lakehouse vs 传统架构对比：维度传统数据仓库数据湖 Lakehouse 数据类型结构化为主全类型全类型 ACID支持强无强 Schema管理严格灵活灵活+演进性能高低高成本高低低 AI/ML支持弱中等强二、存储格式深度分析 2.1 Parquet格式核心优势： ...

自动驾驶大数据领域深度调研报告

摘要自动驾驶大数据是驱动智能驾驶技术演进的核心燃料。本报告从数据类型与特征、数据处理流程、技术挑战、主流解决方案和未来趋势五个维度，对自动驾驶大数据领域进行系统性调研，提炼核心洞察，为技术决策提供参考。一、数据类型与特征 1.1 多模态数据类型全景自动驾驶系统依赖多源异构传感器数据实现环境感知和决策控制，主要数据类型包括：数据类型传感器来源数据特征产生频率/规模图像/视频数据摄像头（8-12个） 2D视觉信息，含颜色、纹理、语义 30-60fps，每小时72-144GB 点云数据激光雷达（LiDAR） 3D空间坐标、反射强度 10-20Hz，每小时36-252GB 毫米波雷达数据 Radar（3-5个）距离、速度、方位角（4D成像） 10-50Hz，数据量相对较小 CAN总线数据车辆总线系统车速、转向角、油门/刹车踏板位置 100-1000Hz，结构化数据 DDS Topic数据 ROS2/中间件传感器融合、决策指令、状态信息实时流式数据超声波数据超声波雷达近距离障碍物检测低速场景辅助 GNSS/IMU数据 GPS+惯性测量单元位置、姿态、加速度 1-100Hz 高精地图数据预采集/实时构建车道线、交通标志、拓扑关系静态+动态更新 1.2 数据规模与产生速率根据行业研究数据：单车数据产生量： L2级别：每小时约2TB L4-L5级别：每小时16-20TB 研发阶段单车每日：近10TB 商用阶段单车每日：约2TB fleet级数据规模：特斯拉：全球近200万辆车，每天提供约1600亿帧视频用于训练累计数据量：特斯拉已收集超过30PB视频数据（2022年）训练数据：1000万个精选人类驾驶视频（2023年初） 1.3 数据结构化程度分布数据类型格式示例占比估算特点非结构化数据原始视频、点云、图像 ~70-80% 体量大、处理复杂、价值密度低半结构化数据 ROS bag、JSON、Protobuf ~15-20% 包含元数据和原始数据的混合结构化数据 Parquet、CSV、CAN信号 ~5-10% 易于查询分析、价值密度高关键洞察：自动驾驶数据的"冰山模型"——可见的标注数据和结构化数据仅占小部分，海量的原始非结构化数据才是训练端到端模型的关键。 ...

智能体设计模式资料汇总

这是 Google 及相关高质量智能体设计模式的资料整理，涵盖从理论基础到实践应用的完整内容。 📚 中文资料 1. Prompt Engineering Guide - 大语言模型智能体简介 ⭐推荐网址: https://www.promptingguide.ai/zh/research/llm-agents 语言: 中文内容: 系统性介绍 LLM Agent 的核心组件智能体（Agent）角色与设计规划模块（Planning）：无反馈规划 vs 有反馈规划记忆模块（Memory）：短期记忆与长期记忆工具使用（Tools）：API、代码解释器等 ReAct、Reflexion 等设计模式 📚 英文资料（高质量参考） 2. A Survey on LLM-based Autonomous Agents ⭐经典论文网址: https://arxiv.org/abs/2308.11432 PDF: https://arxiv.org/pdf/2308.11432 作者: 中国人民大学高瓴人工智能学院内容: LLM Agent 的统一框架社交科学、自然科学、工程领域的应用评估策略与未来方向 3. DeepLearning.AI - Multi AI Agent Systems with crewAI 网址: https://www.deeplearning.ai/short-courses/multi-ai-agent-systems-with-crewai/ 时长: 2小时41分钟，18个视频课程内容: 角色扮演（Role-playing）记忆系统（短期/长期/共享记忆）工具分配（Tools）任务协作（串行、并行、层级） Guardrails 错误处理 4. LangChain 官方文档 - Agentic Concepts 网址: https://js.langchain.com/docs/concepts/agentic/ 内容: LangChain 的 Agent 架构 LangGraph 编排框架 Deep Agents 现代功能（自动压缩、虚拟文件系统、子代理） 🔗 Google 官方资源资源链接 Vertex AI Agent Builder https://cloud.google.com/generative-ai-app-builder/docs/agent-intro Gemini API Agents 文档 https://ai.google.dev/gemini-api/docs/agents Google Research https://research.google/pubs/ Kaggle Agents 白皮书 https://www.kaggle.com/whitepaper-agents 📋 核心设计模式总结模式说明 ReAct 推理+行动交替进行（Thought → Action → Observation） Chain-of-Thought 思维链，逐步推理 Tree of Thoughts 多路径思维树 Reflexion 自我反思与改进 Multi-Agent 多智能体协作（角色分工） RAG 检索增强生成 Tool Use 工具调用（搜索、代码解释器等） 📝 延伸阅读 MRKL: 结合 LLM 和专家模块 https://arxiv.org/abs/2205.00445 Toolformer: 微调 LLM 使用外部工具 API https://arxiv.org/abs/2302.04761 HuggingGPT: 利用 LLM 作为任务规划器 https://arxiv.org/abs/2303.17580 ChemCrow: 化学领域专用 Agent https://arxiv.org/abs/2304.05376 持续学习中，欢迎交流讨论。 ...