告别机器人“断片”！KAIST和UC Berkeley团队让VLA模型拥有记忆实测成功率翻倍！

李鑫2026-02-161311机器人技术及应用

机器人伸手去拿桌上的杯子，它需要知道自己刚才有没有抓住过这个杯子吗？答案是肯定的。但现有的视觉-语言-动作模型（VLA）大多只盯着当前画面做决策，完全没有“历史记忆”。这就导致机器人在处理遮挡物体、多步骤堆叠这类需要上下文的任务时，很容易陷入混乱。

近日，来自KAIST和UC Berkeley 的团队提出了一个名为HAMLET的框架，给预训练VLA模型补上了“历史感知”的短板。这个轻量级插件不需要从头训练大模型，却能让机器人在长时操控任务中，平均成功率直接提升47.2%。在真实场景的“盖方块叠杯子”任务里，HAMLET更是把成功率从37.5%拉到了79.2%，彻底解决了机器人“断片”的问题。

01.

没有记忆的机器人连叠杯子都做不好

当下主流的VLA模型，比如GR00T N1.5、CogACT，都遵循“单帧假设”，只靠当前的视觉画面和文本指令来预测下一步动作。这种设计在简单任务里没问题，但遇到需要上下文的长时任务，就会立刻露怯。

举个例子，“用最近的杯子盖住方块，再把另一个杯子叠上去”这个任务，当机器人用第一个杯子盖住方块后，方块就被遮挡住了。如果没有历史记忆，机器人看着眼前的两个杯子，根本不知道哪个杯子下面藏着方块，大概率会重复抓取同一个杯子。论文里的实验也印证了这一点：GR00T N1.5在这个任务上的成功率只有37.5%，甚至会出现“拿起杯子又放下，反复横跳”的滑稽场面。

更麻烦的是，给模型简单堆砌历史帧根本行不通。研究团队发现，在VLA输入里多塞4帧历史画面，会让模型的前向推理速度变慢35%，峰值内存占用直接暴涨3.6倍。这种粗暴的方法不仅效率低下，还会因为引入冗余信息，导致模型在复杂场景下的泛化能力下降。

02.

HAMLET的两大核心：给每一刻“拍快照”，再用记忆模块整合

HAMLET的巧妙之处在于，它没有抛弃现有的VLA模型，而是通过两个核心组件，给模型加装了一个轻量化的“记忆系统”，整个过程只需要微调，不用从头训练。

1、时刻令牌：给每个时间步拍一张“信息快照”

首先，HAMLET设计了时刻令牌（moment tokens），用来给每个时间步的场景信息做“压缩存档”。这些令牌是可学习的向量，会被拼接到VLA模型的输入序列里。

为了让时刻令牌只记住关键信息，团队用了时间对比学习（TCL）的方法来初始化它们。具体来说，就是让同一个时间步的增强图像（比如加了模糊、噪声的版本）对应的令牌尽可能相似，让不同时间步的令牌尽可能不同。这样一来，时刻令牌就会自动忽略掉桌子、墙壁这些静态背景，只聚焦于机器人抓手、待操作物体这些动态变化的关键区域。

经过TCL初始化的时刻令牌，相当于给每个时间步的场景拍了一张“信息快照”，既保留了任务相关的动态特征，又剔除了冗余信息，为后续的记忆整合打下了基础。

2、轻量记忆模块：只提取有用的历史信息

有了时刻令牌这个“快照库”，接下来就需要一个记忆模块来筛选和整合这些快照。HAMLET没有用复杂的循环神经网络，而是选择了一个两层的Transformer架构，专门用来处理历史时刻令牌。

这个记忆模块会把最近的T个时刻令牌堆叠成一个历史矩阵，再通过因果自注意力机制，自动判断哪些历史时刻对当前决策更重要。比如在“交换两个方块”的任务中，当机器人需要决定下一步抓哪个方块时，记忆模块会重点关注“蓝色方块被放到辅助位置”的那个时间步，而忽略掉无关的移动过程。

最终，记忆模块会输出一个融合了历史信息的特征向量，把它和VLA模型原本的单帧特征拼接在一起，再输入到动作预测头里。这样一来，模型就能同时参考当前画面和历史上下文，做出更准确的决策。

03.

实测：长时任务成功率碾压基线，效率还更高

为了验证HAMLET的效果，团队在真实机器人和仿真环境中做了大量实验，测试对象包括GR00T N1.5和CogACT两款主流VLA模型。

在真实场景的三项长时任务中，HAMLET的表现堪称惊艳。在“两次拾取放置”任务里，它把GR00T N1.5的成功率从12.5%提升到66.7%；在“交换方块”任务中，成功率从37.5%跃升至83.3%，平均成功率直接达到76.4%，比基线模型高出47.2个百分点。

即便是在通用仿真基准测试中，HAMLET也展现出了强大的泛化能力：在RoboCasa Kitchen数据集上，它把成功率从64.1%提升到66.4%；在LIBERO数据集上，更是将行业领先的95.6%成功率推高到97.7%。

更关键的是，HAMLET在提升性能的同时，还保持了极高的效率。对比简单堆叠历史帧的方法，当历史长度为8时，后者会让模型推理速度变慢2.4倍，内存占用暴涨7倍；而HAMLET的推理速度仅增加7%，内存占用仅增加1倍，完全不会给部署带来额外负担。

04.

不只是机器人：记忆模块还能跨任务迁移

HAMLET的另一个惊喜之处在于，它的记忆模块具备跨任务迁移能力。团队做了一个有趣的实验：先在LIBERO数据集上训练记忆模块，然后直接把它迁移到RoboCasa Kitchen数据集上测试。结果显示，迁移后的记忆模块依然能让模型成功率提升1.9个百分点，几乎和在目标数据集上训练的效果持平。

这意味着，HAMLET的记忆模块学到的不是某个特定任务的历史规律，而是一种通用的“历史信息处理能力”。未来只要在一个数据集上训练好记忆模块，就能直接用到其他机器人操控任务中，大大降低了部署成本。

05.

结语与未来：

HAMLET的出现，解决了VLA模型“没有历史记忆”的核心痛点。它不需要重构大模型的架构，也不需要海量的训练数据，只通过时刻令牌和轻量记忆模块的组合，就能让现有VLA模型快速具备历史感知能力。

在机器人迈向通用化的路上，“记忆”无疑是不可或缺的一环。当机器人能记住自己刚才做了什么，能分辨出哪个物体是之前操作过的，它才能真正理解复杂的人类指令，完成更具挑战性的长时操控任务。

论文地址：https://arxiv.org/pdf/2510.00695

项目地址：https://myungkyukoo.github.io/hamlet/

精彩推荐

天安新材战略投资若铂机器人

美国2025年上半年机器人售出17635台机器人

百亿基金助发展，首试首用促落地！机器人企业落户北京，优势几何？

梦想探索，永不止步|优必选科技2025届校园招聘正式启动

全国首家人形机器人创新中心摘取最闪亮的“明珠”

精彩文章

扫码手机阅读