如何看小米人形机器人的“进厂时刻”？

Jack2026-03-041311人形机器人

3月4日，在第十四届全国人民代表大会第四次会议开幕前，全国人大代表，小米集团创始人、董事长兼CEO雷军向大会提交五份建议案，聚焦人形机器人等领域。雷军在建议案中指出，当前行业仍面临大规模工程化应用的挑战，要进一步推动人形机器人从“学徒工”向“正式工”转变。

不久前，小米人形机器人已经第一次在真实产线上“打卡上班”了，其走进了一家真实的汽车工厂，要干的活竟然是“自攻螺母上件”这个汽车制造中非常枯燥也考验作业柔性的工序之一。

这个工站的任务是这样的：机器人从自动送钉设备里抓取螺母，然后把它放到自攻拧紧的定位工装上，配合滑台输送和自动定位锁定，最终在汽车一体化压铸后地板零件上完成自攻拧紧。整个过程涉及抓取、对准、放置、避让等多个动作序列，而最难的部分，是自攻螺母安装时的“精准对位”。

为什么难？因为自攻螺母内侧有花键结构，每次抓取后，螺母在手里的姿态是随机的；定位销轴带有磁吸力，靠近时会产生拉扯干扰；再加上产线本身的震动、来料的公差、光照的变化，这些因素叠加在一起，让这个看似简单的“放螺母”动作，对人形机器人来说变成了一个颇具难度的工程学难题。

小米官方公布的数据是：人形机器人连续自主运行了3小时，双侧同时安装成功率90.2%，同时满足了最快76秒的产线生产节拍。

这个数据发布后，行业内议论纷纷。有人不屑一顾，说90.2%的成功率在汽车厂根本没法用；也有人认为，这是人形机器人第一次在真实产线上跑通完整工序，意义大于数据本身。

作为一个长期关注机器人技术落地的行业媒体，我们试图从技术纵深的角度，把这90.2%掰开揉碎，看看它到底意味着什么。

01.

90.2%是否不够看？

先说不好的那部分。

在汽车制造领域，良率是一个极其残酷的指标。一条成熟的自动化产线，对设备的核心要求不是“能做”，而是“一直能做”。对于装配类工站，行业通用的良率标准是99.5%以上，核心工站甚至要求99.9%。这意味着每1000次作业，最多只能有1次失败，乃至不能存在失败。

为什么这么苛刻？因为汽车产线是连续流生产，一个工站的失误会直接导致整条线停摆。以年产10万辆的工厂计算，90.2%的成功率意味着每年将有9800辆车需要人工干预或返工。自攻螺母如果打歪了，轻则人工补拧，重则拆车重来，单次返工成本少则几百，多则上千。算下来，仅这一项如果不加以干预就可能造成数百万元甚至上千万元的损失。

更重要的是，90.2%意味着不确定性。在精益生产的语境里，不确定性比低效率更可怕。效率低可以提速，但不确定会让整个生产计划崩塌。班组长没法安排生产，因为不知道下一台车会不会出问题；质量部门没法把控，因为不良品是随机出现的。这也是为什么工厂老师傅会直言：你这机器人，还不如我花两万块请的临时工，临时工至少稳定，该干多少活就干多少活。

但话又说回来，这个对比本身就不公平。临时工干的活，是人经过几十年进化才学会的；而机器人面对的，是一个对它来说完全陌生的物理世界。

自攻螺母这个工艺，在工业自动化领域属于“难啃的骨头”。它不是简单的“对准－拧紧”，而是“钻孔+攻丝+拧紧”三合一。过程中要克服材料硬度波动、来料公差、定位偏差等多重干扰。传统工业机器人解决这个问题，靠的是“刚性自动化”，也就是基于高精度夹具，把零件死死固定，视觉系统做精准引导，力控传感器实时反馈扭矩，再加上工程师的现场调试。这套方案有效，但代价是成本高、柔性差，换一种零件、调一个车型，就得重新编程、重新标定。

小米这次用的是人形机器人，走的是完全不同的技术路线。所以，单看90.2%这个数字，确实不够看，但如果看这个数字是怎么来的，结论可能不一样。

02.

这是第一次用“大脑”替代“程序”

小米这次的技术方案，核心是端到端的数据驱动控制。

传统工业机器人的逻辑是“规则编程”，也就是由工程师把任务拆解成一个个步骤，写成代码，机器人按部就班执行。这套逻辑在结构化环境里很好用，环境固定、物体固定、动作固定，程序可以精确控制每一步。

但自攻螺母这个场景，恰恰是非结构化的高柔性作业。螺母姿态随机、磁吸力干扰、产线震动，这些变量无法在编程时全部预判。规则写得再细，总有覆盖不到的角落，总有无法规避的问题。

小米的解法是试图实现一个自主化的工位，并且不让工程师频繁改写规则，让机器人自己学。他们用的Xiaomi-Robotics-0其实也是VLA架构，也就是一种Vision-Language-Action具身模型。这个模型扮演“大脑”的角色，负责理解任务、感知环境、做出决策。大脑输出的不是具体的关节角度，而是“意图”，比如“我要把螺母对准定位销”。

随后，意图交给“小脑”执行。小米人形机器人的小脑是一个只有16层的DiT（Diffusion Transformer），它的任务是把意图翻译成连续的动作轨迹。这里的关键是“连续”，传统方法往往把动作离散化成token，就像动画片的逐帧画面，容易卡顿和不连贯。DiT配合流匹配技术，直接生成平滑的动作流，相当于从逐帧动画升级到高清视频。

执行过程中，触觉系统全程参与。小米TacRefineNet是一个纯触觉驱动的微调模型，依赖11×9的压阻式触觉阵列，触点间距1.1毫米，可以实现毫米级的位姿修正。当视觉因为光照或遮挡看不清时，触觉补偿会告诉机器人“是不是对准了”、“有没有滑脱”。

这套架构的底层逻辑是：让机器人在真实环境中迭代优化。不是在仿真里跑一万次，而是在产线上跑一次，学一次；失败一次，改进一次。90.2%的成功率，意味着在3小时里，这套“大脑－小脑－触觉”闭环跑通了，虽然还不稳，但方向是对的。

03.

技术创新点还有哪些？

小米这次公开的技术细节里，有几个值得深入分析的点。

第一个是大小脑架构的设计取舍。VLM做大脑，DiT做小脑，这个分工figure等公司也在尝试。因为VLM处理的是全局理解，例如图像里有什么、指令是什么意思、下一步该干什么。这些任务需要大参数、大算力，但对实时性要求没那么苛刻。DiT处理的是动作生成，包括关节怎么动、轨迹怎么走、力怎么控。这些任务对延迟极其敏感，必须毫秒级响应。两者通过KV缓存连接。大脑算好的结果缓存起来，小脑直接调用，避免了重复计算。这个设计兼顾了理解能力和实时性，是VLA落地的一个可行路径。

第二个是Λ形注意力掩码的工程价值。异步执行在VLA里是个常见问题，模型输出动作块后，执行过程中环境可能已经变了，但模型还在按老路子走。这就像开车不看后视镜，迟早要出事。小米在后训练阶段引入Λ形注意力掩码，相当于给动作块加了一个“近看历史、远看现实”的机制。动作块的开始部分回看历史动作，保证连贯不抖动；后面部分强迫盯着当前视觉反馈，确保动作根据环境实时修正。这个机制让模型在“保持流畅”和“响应变化”之间找到了平衡。

第三个是触觉感知的工业意义。视觉在工厂环境里容易失效，光照变化、粉尘遮挡、反光干扰，都是家常便饭。而触觉不会骗人。小米的TacRefineNet走的是纯触觉微调路线，不需要视觉、不需要物体三维模型，Zero-shot就能部署。这意味着在某些环节，机器人可以“不看只听手感”。当视觉被焊渣挡住时，它靠触觉知道螺母有没有滑脱；当光照不足时，它靠触觉感知对准的力度。这种多模态的冗余感知，是非结构化环境作业的关键能力。

这三项技术叠加，构成了一个完整的“感知－决策－执行”闭环。90.2%的成功率，说明小米人形机器人这个技术闭环在真实产线上跑通了，这无疑是一个从0到1的突破。

04.

下一步问题在哪？

从90.2%到99.5%，差的不是技术理念，而是工程数据。

具身智能的底层逻辑是“数据驱动”，也就是模型再强，没见过足够多的失败场景，就不知道怎么避坑。自攻螺母的失效率分布里，有多少是来料批次问题？有多少是车身震动导致？有多少是视觉被遮挡？有多少是磁吸力干扰？这些细分场景，没有成千上万小时的现场跑，根本积累不出来。

小米这次只跑了3小时。3小时能验证技术路径，但优化不了长尾问题。

举个例子。那9.8%的失败里，可能有2%是因为某批次螺母的毛刺超标，机器人力控没反应过来；可能有3%是因为产线传送带的细微震动，视觉定位偏了；可能有2%是因为花键和键槽在特定角度下卡死；剩下的是各种随机干扰。每一个失败原因，都需要对应的数据来训练模型应对。

这就是工业落地和实验室研究的根本区别。实验室里，失败可以重来一千次；生产线上，每失败一次都是真金白银的损失。小米接下来要做的，不是在实验室里调算法，而是让机器人在产线上跑下去，跑出数据，跑出失效案例，跑出针对每个失效场景的应对策略。这个过程没有捷径，只有时间堆出来的鲁棒性。

05.

具身智能的“工业化”落地才刚刚开始

如果把小米人形这件事放在“具身智能产业化”的大背景下看，意义会更清晰。

过去几年，人形机器人火得一塌糊涂。但大多数展示都停留在“走路”“跑步”“跳舞”的层面，这些技能很酷，但离实际应用很远。真正缺的，是在真实场景里干活的能力。

工业场景是具身智能最好的试金石。它的苛刻在于，不给试错空间。你要么达标，要么走人。这反而是一种残酷的筛选机制，能在产线上活下来的技术，才是真技术。

从这个意义上说，小米这次的测试，价值不在于“成功了90.2%”，而在于暴露了那9.8%的失败。那些失败案例，才是具身智能距离成功落地下一步要啃的硬骨头。

波士顿动力做了三十年，Atlas能后空翻，但进不了工厂。为什么？因为跳舞和后空翻是开环控制，工厂干活是闭环控制，你得根据环境变化实时调整动作，优化变量和环境表现，而不是按预设程序走一遍。小米这条路，本质上是把机器人从“程序执行者”变成“任务完成者”。程序执行者需要环境适配它；任务完成者可以适配环境。后者才是具身智能落地的终极形态。

当然，这条路还很长。90.2%到99.5%的距离，可能比0到90.2%还要远。但方向有了，剩下的就是更多跑起来，并且尝试更多可能性。

06.

结语与未来

小米机器人进厂这件事，如果只看结果，确实“不太行”。但如果看过程和技术路线，它无疑是一次有价值的探索。如果给这件事打分，工业维度上只有50分，技术维度80分。工业维度不及格，因为90.2%确实没法用；但技术维度良好，因为小米在真实产线上跑通了VLA闭环，验证了一条可能的路。

接下来要看的是，小米能不能把这条路走下去。能不能从3小时跑到300小时？能不能从90.2%跑到99.5%？能不能把那9.8%的失败案例一个个吃透，转化成模型的泛化能力？

这些问题，没有标准答案，只有时间能给。

但有一点是确定的：具身智能的工业化，不是靠一两篇论

文、一两个demo就能完成的。它需要在真实产线上，一台车一台车地打螺丝，一个螺母一个螺母地积累数据。这个过程枯燥、缓慢，但它是必经之路。

为此，在开头的两会提案中，雷军也提出三项具体建议：

一是加快突破工程化落地难题，推动规模化量产。建议以智能制造的实际需求为导向，重点提升人形机器人的工艺稳定性，力争到2027年，在特定工业场景下实现平均无故障工作时间突破1万小时，任务成功率超过99%。同时，通过政策引导，降低单体成本，提升工程化能力。

二是扩大智能制造应用场景，提高人形机器人使用率。鼓励工厂开放更多生产工位，支持人形机器人在具体产线落地，承担中高强度劳动任务，逐步推进规模化部署，建设全机器人生产线。

三是加强安全标准体系建设，推动人形机器人规范化应用。雷军特别提到，应加快推动人形机器人唯一编码的制定与实施，保障生产过程安全，强化数据安全与伦理隐私保护。同时，加强国际交流合作，推动“人形机器人+智能制造”全球标准制定，助力中国机器人走向全球。

如今，小米迈出了第一步。这一步不大，也不稳，但它是朝着正确方向迈的。

其实这就够了。

精彩推荐

天安新材战略投资若铂机器人

美国2025年上半年机器人售出17635台机器人

百亿基金助发展，首试首用促落地！机器人企业落户北京，优势几何？

梦想探索，永不止步|优必选科技2025届校园招聘正式启动

全国首家人形机器人创新中心摘取最闪亮的“明珠”

精彩文章

扫码手机阅读

如何看小米人形机器人的“进厂时刻”？

精彩推荐

关于我们

友情链接

商务合作