LaST₀:让机器人拥有物理直觉,抛开语言拐杖像人一样思考动作

2026-02-091111机器人技术及应用



 

“推理速度飙升,性能超越Pi0.5。

机器人不再需要把每个步骤想清楚再说,而是直接在脑海里运行一个多维度的物理模拟器,一边推演未来,一边流畅执行。

想象一下,你让机器人做个煎蛋三明治:先靠近平底锅,用铲子轻轻铲起鸡蛋,再稳稳放到面包上。传统的机器人搭载视觉-语言-动作(VLA)模型,在执行前,真的会像默念剧本一样,在心里用语言把这些步骤过一遍。

这种“显式思维链”虽看似聪明,却有两个致命短板:

想得太慢,做得就卡。语言生成是串行过程,机器人思考的时间比动手还长,动作断断续续,难以应对需要高频、连贯响应的真实物理交互。

语言在描述物理世界时,如同一个信息漏斗。鸡蛋的粘滑、铲子切入的角度、面包被压下的弹性等等这些精细的、不可言传的物理属性,被强行压缩成贫瘠的文字,关键信息丢失严重。

这就像让一个只用文字记录菜谱的人去当大厨,永远炒不出那个锅气。

01.

从语言描述到物理模拟

能不能让机器人抛开语言拐杖,像人一样,在一种更接近物理本质的意识流里进行推演?

近日,至简动力、北京大学、香港中文大学、北京人形机器人创新中心在论文《 LaST₀:Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model》中给出了答案。



 

论文链接:https://arxiv.org/abs/2601.05248

项目主页:https://vla-last0.github.io/

他们提出了 LaST₀框架,核心是创造一个隐空间思维链,让机器人不再生成语言或未来图像,而是直接在这个紧凑的隐式空间里,自回归地预测并编码未来的三种关键状态:

一是视觉动态:未来的场景会怎么变化?

二是3D几何结构:物体的空间位置和形状如何演进?

三是本体感知状态:机器人自己的身体下一刻应在哪里?



 

这相当于为机器人在脑海里安装了一台高维物理模拟器,不经语言翻译直接操作更丰富、更本质的物理表征并进行推理,效率与精度双双跃升。

02.

双专家系统,快慢思考完美协同

仅有高效的“内心戏”还不够。如果每次行动前都要完整推演一遍,依然会拖慢节奏。

研究团队借鉴了神经科学的启发,为 LaST₀设计了一个精妙的“双专家”混合Transformer架构,集成在单个 VLA 模型中。



 

LaST0整体框架

慢思考专家 是“推理专家”。它接收语言指令和关键帧图像,任务是在隐空间里,向前推演出未来多步的物理状态序列,形成一份动态的“隐空间作战计划”。

快反应专家是“动作专家”。它不参与长程规划,只专注当下,接收最新的高清观测,并随时查阅“推理专家”留下的那份不断更新的计划,随后以此为指导,通过流匹配技术瞬间生成精准动作。

关键在于,两位“专家”通过共享的注意力机制紧密联结。“动作专家”能瞬间读取“推理专家”写在公共区域上的计划,实现零延迟的知识同步。这种设计,让机器人实现高效的“先思考后行动”。

03.

任务成功率全面提升,推理速度飙升

理论经得起推敲,实战表现更是惊喜。

团队在涵盖桌面单/双臂、移动底盘、人形灵巧手的10个仿真与10个真实世界任务中,对 LaST₀进行了严苛测试。

在RLBench仿真基准测试中,LaST₀在10项任务上的平均成功率高达 82%,显著超越了之前的顶尖模型。更惊人的是效率:其整体推理速度达到 15.4 Hz,而基于显式语言CoT的对比方法仅为 1.1 Hz,速度提升近14倍,时空理解能力卓越。



 

RLBench模拟器实验结果,每个模型都在对应任务上测试20条rollout,并且成功由RLBench内置模块自动判断

在真实世界的复杂操作中,LaST₀的优势更为明显。在Franka机械臂的系列任务中,其平均成功率达到72%,显著超越了同场竞技的多个先进基线模型:SpatialVLA (41%)、π0.5 (59%) 和 CoT-VLA (50%)。


Franka机械臂实验装置
 

 

一项需要连续三次成功放置鸡蛋的长程任务,深刻检验了模型的时序一致性。LaST₀在第三步的成功率仍保持可观水平,而基线方法已衰减至接近零。


真实世界操作任务对比
 

 

这表明 LaST₀的隐空间推理能真正形成对任务进程的持久、连贯的内部表征,而非走一步看一步。

04.

一套模型,驾驭多种机器人形态

LaST₀的潜力不止于固定机械臂,研究团队展示了其卓越的泛化能力:

在移动操作平台上,它能协调底盘移动与双臂操作,完成移动到桌前并叠放盘子的复合任务。

在高自由度灵巧手上,它能完成拉开抽屉、抓取细小按钮、放入盒子等需要毫米级精准指尖操控的复杂作业。

这证明,LaST₀所学的“隐空间物理推理”能力,是一种与具体机器人形态解耦的通用技能。只需调整末端执行器的动作维度,同一套核心模型就能适配从工业臂到人形机器人的多种身体。


Agilex 移动操作任务和天宫灵巧⼿操作任务的机器⼈实验设置
 

 


真实世界任务的完整任务执⾏过程
 

 

05.

未来已来:通向更高效具身智能的关键一步

LaST₀的突破,远不止于几项测试指标的提升,它让我们离真正的具身智能更近了一步。

可以预见,这项技术将深刻影响未来:

在工业场景,机器人能更流畅地处理装配、分拣等需要实时适应微小偏差的任务。

在家庭与服务领域,机器人助手能更安全、自然地完成备餐、清洁等复杂家务。

在特种应用如外科手术、太空探索中,具备自主物理推理能力的机器人,将能在通信延迟或人类无法直接干预的环境中,独立完成精细操作。

LaST₀向我们展示的,是一个思考更高效、行动更连贯、对物理本质理解更深刻的智能体雏形。

这场发生在算法内核的深刻变革,或许正在敲开通用机器人时代的大门。