人形机器人“练级”：现在已是什么段位？如何突破“GPT时刻”-工信会

> 自媒体 > （AI）人工智能 > 人形机器人“练级”：现在已是什么段位？如何突破“GPT时刻”

人形机器人“练级”：现在已是什么段位？如何突破“GPT时刻”

来源：新黄河

2025-09-14 10:47:00

管理

在2025世界机器人大会上，一幕幕生动的场景正在上演：工作人员一声指令“跟着前面这位穿白衣服背着包的人”，人形机器人便稳健穿行于人群，精准跟随；轮式人形机器人丝滑“漂移”搬运箱子，甚至“一心二用”同时取送两瓶饮料；兼具迎宾讲解、调酒、分装爆米花、端盘子等多面手能力；工业人形机器人集群通过网络协同，实现物料入库搬运到智能分拣的全流程作业……

伴随着VLA（Vision Language Action，视觉语言动作）模型与端到端技术的快速成熟，人形机器人技能库日益齐备。在这场工作技能的“练级”之旅中，人形机器人现在已经达到了什么段位？未来又将达到什么水平？如何突破自己的“ChatGPT”时刻？

“干活”到了哪一层？

当格斗或舞蹈机器人偶发倒地时，观众不再嘲笑，转而关注其迅速起身的类人动作。行业焦点已从去年的“能干活”跃升至今年的“干好活”——追求成功率与效率。

擎朗智能具身智能实验室负责人邓强文对澎湃新闻记者表示，在相对少泛化的一些场景中，人形机器人目前完成简单的任务是没问题的，“比如预扫描出一个家庭的房间，标好哪里是厨房，哪里是客厅，哪里是房间，我们和它说渴了，它就知道要去厨房拿一瓶水”，但如果在一个相对开放的环境中，让机器人自己去看、去理解认知，目前难度还是很高的。

邓强文介绍称，擎朗智能把每个机器人的“岗位”都进行精准细化，把每个岗位的SOP（标准作业程序）和验收标准都进行规范，从基础的抓、捏、按压等技能开始训练，再将其组合起来，实现了在不同的机器人之间的相互转化。

此次大会期间，擎朗智能的具身服务机器人XMAN入驻了全球首家具身智能机器人4S店Robot Mall及全球首家机器人餐厅“机器人焰究所”，可根据客户的选择，提供不同风味的小零食服务，以拟人化的动作流畅完成零食铲出、分装等一系列操作。

星动纪元的人形机器人进行抗干扰分拣。

瓶颈：软硬件皆困于泛化

“泛化能力不足”是规模化应用的核心瓶颈。

王兴兴指出，目前机器人最大的问题在于模型的泛化还不够，硬件其实完全够用。在大语言模型领域，有足够多的数据，尤其有足够多好的数据时，就能把模型训练得越来越好，但在具身智能和机器人领域，反而会发现，哪怕采集了大量的数据，把机器人的数据训练出来并部署到实物机器上，发现二者并没有办法很好的对齐。

陈建宇也指出，泛化能力更重要是在“大脑”上，但运动控制也需要更好的泛化，运动控制是保证所有的动作都能精准柔顺达到的底层支撑。相对而言，“大脑”的泛化难度会更高一些。

谭旻也指出，在机器本体没有收拢标准化的前提下，仿真数据训练也无法真正复用和泛化。

智平方创始人兼CEO郭彦东同样认为，过去买一个机器人可能需要几百万元，现在只需要一万元就可以得到一个最基本的人形机器人型号，硬件成本变得越来越低。“我们需要又可靠同时又便宜的硬件，可以让这些硬件放在真实世界里，越快部署越好，同时，硬件必须要有一致性，比如生产100万台机器人，逻辑就完全不一样了”。

国家地方共建人形机器人创新中心首席科学家江磊一言道出，目前人形机器人的现状是“大脑模型不够大，小脑模型不够小”，存在感知局限、决策断层、泛化瓶颈三大问题，“如果一个具身智能没有思考跟进化能力，它还是具身智能吗？”

宇树科技的格斗人形机器人在现场与观众互动。

如何破局？

针对上述难题，行业正积极探索突破路径。

王兴兴分享了几条可能路径，他认为，VLA模型加上RL（强化学习）训练是其中之一，但目前尝试下来还是不够，模型架构还是得升级优化；或是让视频生成模型先生成一个机器人动作的视频，再控制机器人去做，“这条路线可能比VLA模型更快收敛，概率更大”。

他认为，未来2-5年，最大的方向会集中在端到端具身智能模型、更低成本更高寿命的硬件以及更低成本更大规模的算力三方面。

陈建宇也同样认为，强化学习是一条可行路径。同时，他对记者表示，不同的机器人，自由度、模型的输出维度、传感的类型可能都不一样，在预训练中尽量去使用与具体本体无关的数据，比如说人的通用数据，再到真机上进行调整，在形态相对比较接近的本体上可以达到较好的迁移水平。

陈建宇还表示，星动纪元此前曾完成的全球首个世界模型和生成式模型的融合，接下来可能将会成为业内的新共识。

卢策吾更为通俗地向记者进行了解释，所谓泛化性，就是消除不确定性，“每消掉一个不确定性，它发展能力就会提高，整个‘大脑’就能像解方程一样，把变量定住”。现在的VLA不确定性还特别大，有点像“大海捞针”，我们要一步一步加上各种技术，使到它变成“瓮中捉鳖”，“我们现在抓一个东西，范围很大，我们不停地加上限制的话，它的捕捉空间就会缩小，缩小到最后就能把东西抓住。其实都是逐渐去收窄VLA的不确定性，改到最后大家是不是叫VLA也不重要了”。

穹彻智能一直坚持“以力为中心”。

江磊表示：“大家总感觉3D模型不‘解渴’，VLA似乎不能代表未来，但是就是有了VLA，就像我们行业的贡献者和引路者，促进整个行业往前发展……软硬一体化的AI是我们真正需要的，机器人本体一定是大脑、小脑与肢体一体的，要打造感知、认知、决策、执行的闭环。”

他进一步提出，具身智能不是现在“大脑小脑”的方向，要打造未来的方向，比如通过生物仿生来提出具身智能的基础模型。

人形机器人正从功能演示迈向高效执行，潜力在工业与家庭场景中也日益显现。软硬件融合的闭环系统，或将是解锁机器人“通用”的钥匙，让机器人能从“干好活”进化到“无处不在的助手”。

来源：澎湃新闻

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

参观北京“世界机器人大会”后，高盛点评：迭代速度惊人，“ChatGPT”时刻还需2-3年

10个月前

十个有九个不知道的ChatGPT终极玩法！

10个月前