黄仁勋：物理AI迎来ChatGPT时刻，机器人会干活，但解题成功率不到三成-工信会

> 自媒体 > （AI）人工智能 > 黄仁勋：物理AI迎来ChatGPT时刻，机器人会干活，但解题成功率不到三成

黄仁勋：物理AI迎来ChatGPT时刻，机器人会干活，但解题成功率不到三成

来源：清闲的星球VAypRw

2026-06-14 12:58:38

管理

> 2026年，英伟达CEO黄仁勋在CES上扔下了一个重磅判断：物理AI的“ChatGPT时刻”已经到来。这句话翻译一下就是：如果把聊天机器人比作AI在数字世界里学会了“读书写字”，那么物理AI，就是AI正在长出“身体”和“常识”，准备在现实世界里“干活”了。它与传统AI最大的区别在于，传统AI只是个会动嘴的“书呆子”，而物理AI立志成为有“街头智慧”的实干家。它不再满足于生成一段文字或一张图片，而是要像人一样，理解风从哪里来、杯子掉在地上会碎、推箱子得用多大的力。这个转变，正在把机器人从一个只会重复预设动作的“提线木偶”，升级为拥有“感知—推理—行动—反馈”闭环能力的智能主体。打个比方，传统工业机器人像个只能按照固定谱子弹奏的八音盒，一旦曲谱（程序）不变，它就永远重复；而搭载了物理AI的机器人，则像一个能即兴演奏的爵士乐手，它会看（感知）台下的氛围、听（理解）同伴的节奏，然后决定（决策）下一个音符该怎么吹（行动），并随时准备在走调后马上调整。这种从“八音盒”到“爵士乐手”的跃迁，核心在于打通了技术栈的任督二脉。北京大学在2026年的计算机视觉顶会CVPR上发表了一项研究，他们搞出了一个叫RoboDecision的框架，首次让AI在“看”和“做”之间不再有延迟。这相当于给机器人装了一个能将视觉、推理和动作指令瞬间打通的大脑，它能做到“先想后做、看图决策”，哪怕面对400万种没见过的场景，也能自主判断下一步是该抓、该放还是该绕开。同样，创业公司Zenbot推出的Phy-Tac模型，更是在这基础上融入了“物理直觉”。它能让机器人在抓取一个薯片袋之前，先在脑子里“预演”一遍：用多大的力会捏碎，从哪个角度夹最稳，就像人在伸手前会下意识地估算重量和摩擦力一样，实现了类人的精密操控。这不再是简单的自动化，而是一种初级的“智能化”，让机器具备了面对未知世界时最朴素的适应能力。当然，一个“爵士乐手”的养成，不能只在家里练琴，还得能上台。2026年，物理AI的产业化正在撕掉“实验室玩具”的标签。在工业制造领域，英伟达正与发那科合作，将物理AI引擎注入工业机器人，让它们能实时感知物料位置、自动检测产品缺陷，据咨询机构凯捷的调研，这能让高端制造业的效率提升30%到50%。在服务场景，DeepMind与迪士尼联合开发的雪宝机器人，已经在巴黎迪士尼乐园常态化运营，它们不再是冷冰冰的机械骨架，而是一个能和游客自然对话、保持平衡并表演节目的“角色”，实现了情感化的物理交互。资本市场也在用真金白银投票，2026年前4个月，仅中国在具身智能领域的投资就超过了577亿元，超过了2025全年的总额。一切看起来都很美，一个AI接管物理世界的时代似乎已经在敲门。但少有人提及的是，这个看似无所不能的新兴“实干家”，其实骨子里还是个缺乏常识的“愣头青”，时刻处在“翻车”的边缘。它目前最大的短板，恰恰是我们人类与生俱来的本能——物理常识。你可以想象一个尴尬的场景：你让AI帮你倒杯水，它可能算得出水流的流体力学方程，却愣头愣脑地把杯子挤碎了，因为它根本“感觉”不到玻璃的脆性。这正是当前物理AI的致命伤。在一项针对顶尖AI模型的测试中，表现最好的GPT-5.2在解答流体力学问题时，通过主动询问来澄清物理细节、最终成功解决问题的成功率，竟然还不到30%。也就是说，三道题里它有两道多是靠自己瞎猜的。而另一大模型Claude Sonnet 4.6在解决偏微分方程任务时，有31.5%的正确答案，全靠毫无依据的“脑补”得来，根本没问过用户一声。这就像一个闭着眼睛走路的盲人，虽然偶尔能安全到家，但大部分时间都走不出所在的那条街。造成这种困境的根源之一，在于AI训练所依赖的数据存在巨大的、源于真实世界的鸿沟。传统聊天AI可以依靠互联网上近乎无限的文本和视频数据来喂养，但物理AI需要的是一口一口喂进去的“精准营养餐”——它需要包含视觉、动作、力觉和触觉的精准同步数据。一个残酷的现实是，目前全球公开的高质量、多模态闭环的此类交互数据，总量仅仅只有约50万小时。这个数字看起来似乎有点分量，但放在大模型的世界里一对比就显得极其寒酸，因为它连ChatGPT训练数据规模的零头都不到。这就好比你想培养一个拥有博士学位的运动员，但手头的训练录像加起来还没一部电视剧长。数据的极度匮乏，导致AI学到的是一套在复杂现实面前不堪一击的“伪物理常识”，稍有光线变化、摩擦力差异，或者遇到材料表面的一点波动，它立刻就会水土不服，暴露出动作的僵硬与无知。那么，如何让物理AI尽快从一个缺乏常识的“智障”进化成一个真正的实干家？目前的思路是，既然不能放任它在现实世界里“无证驾驶”，那就先为它搭建一个足够逼真的“驾校”，通过海量的虚拟试错，让它先长出“肌肉记忆”再上路。这个“驾校”被生动地称为“仿真真实”的混合训练模式。通过仿真技术，AI可以在一个成本极低的虚拟世界里反复摔倒、打翻杯子，甚至是经历各种极端路况，从而低成本试错，高效内化那些说不清道不明的物理直觉。松应科技的实践已经证明，这种模式能将机器人的训练成本直接削减90%以上，然后再将最优算法部署到实体机器人上，实现从“虚拟预习”到“现实实习”的跨越。与此同时，全球的产学研力量也开始协同破局，致力于从更底层的技术出发，赋予AI真正的物理世界“想象力”。2026年最核心的趋势，就是世界模型与具身智能（VLA）的深度融合。如果说之前的AI只会对当下的指令做出反应，那么世界模型则相当于为它植入了一个能预测未来的“内部物理模拟器”。谷歌的Genie 3等模型，已经能做到在AI执行一个动作前，先在它的“大脑”里推演一遍：推这个杯子一下，它会倒还是会滑出去？用两倍力推，结果又会如何？这种从“反应式执行”到“预测式行动”的能力跃迁，正是物理AI摆脱思维定式、真正走向通用智能的关键一步。读完这些你会发现，物理AI固然前景广阔，但它最核心的门槛，已经从“如何与人聊天”的短期热点，转变为“如何真正理解并适应物理世界”的长期难题。这意味着，在未来的很长时间里，决定谁能主导下一轮产业革命的，将不再是单一的技术突破，而是一场耗时耗力的“基建战”——它考验的是谁能构建起更庞大的高质量物理数据集，谁能开发出更逼真的仿真训练环境，以及谁能真正培养出具备跨学科思维的系统性人才。对于科技巨头和国家战略而言，这场重塑全球产业格局的竞赛当然是一场关乎技术主权与万亿美元市场的必答题；但对于我们普通人而言，它意味着一个更清晰的前景——一个能帮你叠好衣服、安全送你回家，而不仅仅是待在手机屏幕里回你消息的AI伙伴，正在跌跌撞撞却又不可阻挡地向你走来。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

逛完机器人峰会，巴克莱“泼冷水”： “GPT时刻”还没到，真正商业化还很遥远

4小时前

一个GPT Plus会员的钱，够机器人跑一个月世界模型了

4小时前