如何看小米人形机器人的“进厂时刻”?

Jack2026-03-041311人形机器人

3月4日,在第十四届全国人民代表大会第四次会议开幕前,全国人大代表,小米集团创始人、董事长兼CEO雷军向大会提交五份建议案,聚焦人形机器人等领域。雷军在建议案中指出,当前行业仍面临大规模工程化应用的挑战,要进一步推动人形机器人从“学徒工”向“正式工”转变。

不久前,小米人形机器人已经第一次在真实产线上“打卡上班”了,其走进了一家真实的汽车工厂,要干的活竟然是“自攻螺母上件”这个汽车制造中非常枯燥也考验作业柔性的工序之一。



 

这个工站的任务是这样的:机器人从自动送钉设备里抓取螺母,然后把它放到自攻拧紧的定位工装上,配合滑台输送和自动定位锁定,最终在汽车一体化压铸后地板零件上完成自攻拧紧。整个过程涉及抓取、对准、放置、避让等多个动作序列,而最难的部分,是自攻螺母安装时的“精准对位”。

为什么难?因为自攻螺母内侧有花键结构,每次抓取后,螺母在手里的姿态是随机的;定位销轴带有磁吸力,靠近时会产生拉扯干扰;再加上产线本身的震动、来料的公差、光照的变化,这些因素叠加在一起,让这个看似简单的“放螺母”动作,对人形机器人来说变成了一个颇具难度的工程学难题。



 

小米官方公布的数据是:人形机器人连续自主运行了3小时,双侧同时安装成功率90.2%,同时满足了最快76秒的产线生产节拍。

这个数据发布后,行业内议论纷纷。有人不屑一顾,说90.2%的成功率在汽车厂根本没法用;也有人认为,这是人形机器人第一次在真实产线上跑通完整工序,意义大于数据本身。

作为一个长期关注机器人技术落地的行业媒体,我们试图从技术纵深的角度,把这90.2%掰开揉碎,看看它到底意味着什么。

01.

90.2%是否不够看?

先说不好的那部分。

在汽车制造领域,良率是一个极其残酷的指标。一条成熟的自动化产线,对设备的核心要求不是“能做”,而是“一直能做”。对于装配类工站,行业通用的良率标准是99.5%以上,核心工站甚至要求99.9%。这意味着每1000次作业,最多只能有1次失败,乃至不能存在失败。

为什么这么苛刻?因为汽车产线是连续流生产,一个工站的失误会直接导致整条线停摆。以年产10万辆的工厂计算,90.2%的成功率意味着每年将有9800辆车需要人工干预或返工。自攻螺母如果打歪了,轻则人工补拧,重则拆车重来,单次返工成本少则几百,多则上千。算下来,仅这一项如果不加以干预就可能造成数百万元甚至上千万元的损失。



 

更重要的是,90.2%意味着不确定性。在精益生产的语境里,不确定性比低效率更可怕。效率低可以提速,但不确定会让整个生产计划崩塌。班组长没法安排生产,因为不知道下一台车会不会出问题;质量部门没法把控,因为不良品是随机出现的。这也是为什么工厂老师傅会直言:你这机器人,还不如我花两万块请的临时工,临时工至少稳定,该干多少活就干多少活。

但话又说回来,这个对比本身就不公平。临时工干的活,是人经过几十年进化才学会的;而机器人面对的,是一个对它来说完全陌生的物理世界。

自攻螺母这个工艺,在工业自动化领域属于“难啃的骨头”。它不是简单的“对准-拧紧”,而是“钻孔+攻丝+拧紧”三合一。过程中要克服材料硬度波动、来料公差、定位偏差等多重干扰。传统工业机器人解决这个问题,靠的是“刚性自动化”,也就是基于高精度夹具,把零件死死固定,视觉系统做精准引导,力控传感器实时反馈扭矩,再加上工程师的现场调试。这套方案有效,但代价是成本高、柔性差,换一种零件、调一个车型,就得重新编程、重新标定。

小米这次用的是人形机器人,走的是完全不同的技术路线。所以,单看90.2%这个数字,确实不够看,但如果看这个数字是怎么来的,结论可能不一样。

02.

这是第一次用“大脑”替代“程序”

小米这次的技术方案,核心是端到端的数据驱动控制。

传统工业机器人的逻辑是“规则编程”,也就是由工程师把任务拆解成一个个步骤,写成代码,机器人按部就班执行。这套逻辑在结构化环境里很好用,环境固定、物体固定、动作固定,程序可以精确控制每一步。

但自攻螺母这个场景,恰恰是非结构化的高柔性作业。螺母姿态随机、磁吸力干扰、产线震动,这些变量无法在编程时全部预判。规则写得再细,总有覆盖不到的角落,总有无法规避的问题。

小米的解法是试图实现一个自主化的工位,并且不让工程师频繁改写规则,让机器人自己学。他们用的Xiaomi-Robotics-0其实也是VLA架构,也就是一种Vision-Language-Action具身模型。这个模型扮演“大脑”的角色,负责理解任务、感知环境、做出决策。大脑输出的不是具体的关节角度,而是“意图”,比如“我要把螺母对准定位销”。



 

随后,意图交给“小脑”执行。小米人形机器人的小脑是一个只有16层的DiT(Diffusion Transformer),它的任务是把意图翻译成连续的动作轨迹。这里的关键是“连续”,传统方法往往把动作离散化成token,就像动画片的逐帧画面,容易卡顿和不连贯。DiT配合流匹配技术,直接生成平滑的动作流,相当于从逐帧动画升级到高清视频。

执行过程中,触觉系统全程参与。小米TacRefineNet是一个纯触觉驱动的微调模型,依赖11×9的压阻式触觉阵列,触点间距1.1毫米,可以实现毫米级的位姿修正。当视觉因为光照或遮挡看不清时,触觉补偿会告诉机器人“是不是对准了”、“有没有滑脱”。

这套架构的底层逻辑是:让机器人在真实环境中迭代优化。不是在仿真里跑一万次,而是在产线上跑一次,学一次;失败一次,改进一次。90.2%的成功率,意味着在3小时里,这套“大脑-小脑-触觉”闭环跑通了,虽然还不稳,但方向是对的。

03.

技术创新点还有哪些?

小米这次公开的技术细节里,有几个值得深入分析的点。

第一个是大小脑架构的设计取舍。VLM做大脑,DiT做小脑,这个分工figure等公司也在尝试。因为VLM处理的是全局理解,例如图像里有什么、指令是什么意思、下一步该干什么。这些任务需要大参数、大算力,但对实时性要求没那么苛刻。DiT处理的是动作生成,包括关节怎么动、轨迹怎么走、力怎么控。这些任务对延迟极其敏感,必须毫秒级响应。两者通过KV缓存连接。大脑算好的结果缓存起来,小脑直接调用,避免了重复计算。这个设计兼顾了理解能力和实时性,是VLA落地的一个可行路径。

第二个是Λ形注意力掩码的工程价值。异步执行在VLA里是个常见问题,模型输出动作块后,执行过程中环境可能已经变了,但模型还在按老路子走。这就像开车不看后视镜,迟早要出事。小米在后训练阶段引入Λ形注意力掩码,相当于给动作块加了一个“近看历史、远看现实”的机制。动作块的开始部分回看历史动作,保证连贯不抖动;后面部分强迫盯着当前视觉反馈,确保动作根据环境实时修正。这个机制让模型在“保持流畅”和“响应变化”之间找到了平衡。



 

第三个是触觉感知的工业意义。视觉在工厂环境里容易失效,光照变化、粉尘遮挡、反光干扰,都是家常便饭。而触觉不会骗人。小米的TacRefineNet走的是纯触觉微调路线,不需要视觉、不需要物体三维模型,Zero-shot就能部署。这意味着在某些环节,机器人可以“不看只听手感”。当视觉被焊渣挡住时,它靠触觉知道螺母有没有滑脱;当光照不足时,它靠触觉感知对准的力度。这种多模态的冗余感知,是非结构化环境作业的关键能力。

这三项技术叠加,构成了一个完整的“感知-决策-执行”闭环。90.2%的成功率,说明小米人形机器人这个技术闭环在真实产线上跑通了,这无疑是一个从0到1的突破。

04.

下一步问题在哪?

从90.2%到99.5%,差的不是技术理念,而是工程数据。

具身智能的底层逻辑是“数据驱动”,也就是模型再强,没见过足够多的失败场景,就不知道怎么避坑。自攻螺母的失效率分布里,有多少是来料批次问题?有多少是车身震动导致?有多少是视觉被遮挡?有多少是磁吸力干扰?这些细分场景,没有成千上万小时的现场跑,根本积累不出来。

小米这次只跑了3小时。3小时能验证技术路径,但优化不了长尾问题。

举个例子。那9.8%的失败里,可能有2%是因为某批次螺母的毛刺超标,机器人力控没反应过来;可能有3%是因为产线传送带的细微震动,视觉定位偏了;可能有2%是因为花键和键槽在特定角度下卡死;剩下的是各种随机干扰。每一个失败原因,都需要对应的数据来训练模型应对。



 

这就是工业落地和实验室研究的根本区别。实验室里,失败可以重来一千次;生产线上,每失败一次都是真金白银的损失。小米接下来要做的,不是在实验室里调算法,而是让机器人在产线上跑下去,跑出数据,跑出失效案例,跑出针对每个失效场景的应对策略。这个过程没有捷径,只有时间堆出来的鲁棒性。

05.

具身智能的“工业化”落地才刚刚开始

如果把小米人形这件事放在“具身智能产业化”的大背景下看,意义会更清晰。

过去几年,人形机器人火得一塌糊涂。但大多数展示都停留在“走路”“跑步”“跳舞”的层面,这些技能很酷,但离实际应用很远。真正缺的,是在真实场景里干活的能力。

工业场景是具身智能最好的试金石。它的苛刻在于,不给试错空间。你要么达标,要么走人。这反而是一种残酷的筛选机制,能在产线上活下来的技术,才是真技术。

从这个意义上说,小米这次的测试,价值不在于“成功了90.2%”,而在于暴露了那9.8%的失败。那些失败案例,才是具身智能距离成功落地下一步要啃的硬骨头。



 

波士顿动力做了三十年,Atlas能后空翻,但进不了工厂。为什么?因为跳舞和后空翻是开环控制,工厂干活是闭环控制,你得根据环境变化实时调整动作,优化变量和环境表现,而不是按预设程序走一遍。小米这条路,本质上是把机器人从“程序执行者”变成“任务完成者”。程序执行者需要环境适配它;任务完成者可以适配环境。后者才是具身智能落地的终极形态。

当然,这条路还很长。90.2%到99.5%的距离,可能比0到90.2%还要远。但方向有了,剩下的就是更多跑起来,并且尝试更多可能性。

06.

结语与未来

小米机器人进厂这件事,如果只看结果,确实“不太行”。但如果看过程和技术路线,它无疑是一次有价值的探索。如果给这件事打分,工业维度上只有50分,技术维度80分。工业维度不及格,因为90.2%确实没法用;但技术维度良好,因为小米在真实产线上跑通了VLA闭环,验证了一条可能的路。

接下来要看的是,小米能不能把这条路走下去。能不能从3小时跑到300小时?能不能从90.2%跑到99.5%?能不能把那9.8%的失败案例一个个吃透,转化成模型的泛化能力?

这些问题,没有标准答案,只有时间能给。

但有一点是确定的:具身智能的工业化,不是靠一两篇论

文、一两个demo就能完成的。它需要在真实产线上,一台车一台车地打螺丝,一个螺母一个螺母地积累数据。这个过程枯燥、缓慢,但它是必经之路。

为此,在开头的两会提案中,雷军也提出三项具体建议:

一是加快突破工程化落地难题,推动规模化量产。建议以智能制造的实际需求为导向,重点提升人形机器人的工艺稳定性,力争到2027年,在特定工业场景下实现平均无故障工作时间突破1万小时,任务成功率超过99%。同时,通过政策引导,降低单体成本,提升工程化能力。

二是扩大智能制造应用场景,提高人形机器人使用率。鼓励工厂开放更多生产工位,支持人形机器人在具体产线落地,承担中高强度劳动任务,逐步推进规模化部署,建设全机器人生产线。

三是加强安全标准体系建设,推动人形机器人规范化应用。雷军特别提到,应加快推动人形机器人唯一编码的制定与实施,保障生产过程安全,强化数据安全与伦理隐私保护。同时,加强国际交流合作,推动“人形机器人+智能制造”全球标准制定,助力中国机器人走向全球。

如今,小米迈出了第一步。这一步不大,也不稳,但它是朝着正确方向迈的。

其实这就够了。