机器人伸手去拿桌上的杯子,它需要知道自己刚才有没有抓住过这个杯子吗?答案是肯定的。但现有的视觉-语言-动作模型(VLA)大多只盯着当前画面做决策,完全没有“历史记忆”。这就导致机器人在处理遮挡物体、多步骤堆叠这类需要上下文的任务时,很容易陷入混乱。
![]()
近日,来自KAIST和UC Berkeley 的团队提出了一个名为HAMLET的框架,给预训练VLA模型补上了“历史感知”的短板。这个轻量级插件不需要从头训练大模型,却能让机器人在长时操控任务中,平均成功率直接提升47.2%。在真实场景的“盖方块 叠杯子”任务里,HAMLET更是把成功率从37.5%拉到了79.2%,彻底解决了机器人“断片”的问题。
01.
没有记忆的机器人 连叠杯子都做不好
当下主流的VLA模型,比如GR00T N1.5、CogACT,都遵循“单帧假设”,只靠当前的视觉画面和文本指令来预测下一步动作。这种设计在简单任务里没问题,但遇到需要上下文的长时任务,就会立刻露怯。
举个例子,“用最近的杯子盖住方块,再把另一个杯子叠上去”这个任务,当机器人用第一个杯子盖住方块后,方块就被遮挡住了。如果没有历史记忆,机器人看着眼前的两个杯子,根本不知道哪个杯子下面藏着方块,大概率会重复抓取同一个杯子。论文里的实验也印证了这一点:GR00T N1.5在这个任务上的成功率只有37.5%,甚至会出现“拿起杯子又放下,反复横跳”的滑稽场面。
更麻烦的是,给模型简单堆砌历史帧根本行不通。研究团队发现,在VLA输入里多塞4帧历史画面,会让模型的前向推理速度变慢35%,峰值内存占用直接暴涨3.6倍。这种粗暴的方法不仅效率低下,还会因为引入冗余信息,导致模型在复杂场景下的泛化能力下降。
02.
HAMLET的两大核心:给每一刻“拍快照”,再用记忆模块整合
HAMLET的巧妙之处在于,它没有抛弃现有的VLA模型,而是通过两个核心组件,给模型加装了一个轻量化的“记忆系统”,整个过程只需要微调,不用从头训练。
1、时刻令牌:给每个时间步拍一张“信息快照”
首先,HAMLET设计了 时刻令牌(moment tokens) ,用来给每个时间步的场景信息做“压缩存档”。这些令牌是可学习的向量,会被拼接到VLA模型的输入序列里。
![]()
为了让时刻令牌只记住关键信息,团队用了时间对比学习(TCL)的方法来初始化它们。具体来说,就是让同一个时间步的增强图像(比如加了模糊、噪声的版本)对应的令牌尽可能相似,让不同时间步的令牌尽可能不同。这样一来,时刻令牌就会自动忽略掉桌子、墙壁这些静态背景,只聚焦于机器人抓手、待操作物体这些动态变化的关键区域。
经过TCL初始化的时刻令牌,相当于给每个时间步的场景拍了一张“信息快照”,既保留了任务相关的动态特征,又剔除了冗余信息,为后续的记忆整合打下了基础。
2、轻量记忆模块:只提取有用的历史信息
有了时刻令牌这个“快照库”,接下来就需要一个 记忆模块 来筛选和整合这些快照。HAMLET没有用复杂的循环神经网络,而是选择了一个两层的Transformer架构,专门用来处理历史时刻令牌。
![]()
这个记忆模块会把最近的T个时刻令牌堆叠成一个历史矩阵,再通过因果自注意力机制,自动判断哪些历史时刻对当前决策更重要。比如在“交换两个方块”的任务中,当机器人需要决定下一步抓哪个方块时,记忆模块会重点关注“蓝色方块被放到辅助位置”的那个时间步,而忽略掉无关的移动过程。
最终,记忆模块会输出一个融合了历史信息的特征向量,把它和VLA模型原本的单帧特征拼接在一起,再输入到动作预测头里。这样一来,模型就能同时参考当前画面和历史上下文,做出更准确的决策。
03.
实测:长时任务成功率碾压基线,效率还更高
为了验证HAMLET的效果,团队在真实机器人和仿真环境中做了大量实验,测试对象包括GR00T N1.5和CogACT两款主流VLA模型。
![]()
在真实场景的三项长时任务中,HAMLET的表现堪称惊艳。在“两次拾取放置”任务里,它把GR00T N1.5的成功率从12.5%提升到66.7%;在“交换方块”任务中,成功率从37.5%跃升至83.3%,平均成功率直接达到76.4%,比基线模型高出47.2个百分点。
![]()
即便是在通用仿真基准测试中,HAMLET也展现出了强大的泛化能力:在RoboCasa Kitchen数据集上,它把成功率从64.1%提升到66.4%;在LIBERO数据集上,更是将行业领先的95.6%成功率推高到97.7%。
![]()
更关键的是,HAMLET在提升性能的同时,还保持了极高的效率。对比简单堆叠历史帧的方法,当历史长度为8时,后者会让模型推理速度变慢2.4倍,内存占用暴涨7倍;而HAMLET的推理速度仅增加7%,内存占用仅增加1倍,完全不会给部署带来额外负担。
04.
不只是 机器人:记忆模块还能跨任务迁移
HAMLET的另一个惊喜之处在于,它的记忆模块具备 跨任务迁移能力 。团队做了一个有趣的实验:先在LIBERO数据集上训练记忆模块,然后直接把它迁移到RoboCasa Kitchen数据集上测试。结果显示,迁移后的记忆模块依然能让模型成功率提升1.9个百分点,几乎和在目标数据集上训练的效果持平。
这意味着,HAMLET的记忆模块学到的不是某个特定任务的历史规律,而是一种通用的“历史信息处理能力”。未来只要在一个数据集上训练好记忆模块,就能直接用到其他机器人操控任务中,大大降低了部署成本。
05.
结语与未来:
HAMLET的出现,解决了VLA模型“没有历史记忆”的核心痛点。它不需要重构大模型的架构,也不需要海量的训练数据,只通过时刻令牌和轻量记忆模块的组合,就能让现有VLA模型快速具备历史感知能力。
在机器人迈向通用化的路上,“记忆”无疑是不可或缺的一环。当机器人能记住自己刚才做了什么,能分辨出哪个物体是之前操作过的,它才能真正理解复杂的人类指令,完成更具挑战性的长时操控任务。
论文地址:https://arxiv.org/pdf/2510.00695
项目地址:https://myungkyukoo.github.io/hamlet/