
大数据文摘受权转载自头部科技
文丨丁灵波
2025年才刚开始没几天,具身智能机器人赛道的热度就达到了顶峰。
在昨天的CES开幕演讲中,英伟达CEO黄仁勋抛出了一个世界模型开发平台Cosmos,旨在加速机器人和自动驾驶汽车等物理AI系统的开发。
老黄一句“通用机器人的ChatGPT时刻即将到来”把热度成功引向了机器人赛道。
今天,关于Cosmos的一份详细技术报告出炉,Cosmos项目在GitHub开源社区上线后瞬间引起不少业内开发者关注,一天不到就上了2.7K星。

简单来讲,有了这样的世界基础模型就可以实现海量合成数据生成,以增强训练数据集,在物理AI模型(如机器人)部署到现实世界之前对其进行大量的测试和调试,实现在虚拟世界里进行强化学习以加速AI代理进步。
比如合成逼真的自动驾驶数据或者机器人抓取数据:

技术报告中概述了搭建Cosmos的综合方法,涵盖了数据筛选流程、连续型和离散型标记器的设计、扩散式和自回归式世界基础模型的架构,以及针对各类下游物理人工智能任务的微调过程等。
但是也强调了这种生成出来的“世界”有着很多局限性,比如缺乏物体恒存性,在富含接触的动力学方面不够准确,例如所生成视频的逼真度虽然可以,但并非总能体现出对基本物理原理(如重力、光的相互作用以及流体动力学)的遵循情况。而且,以怎样的评估标准来评判物理逼真度目前是困难的。
最后值得一提的是,英伟达Cosmos背后的核心贡献者,华人几乎占据着半壁江山。

在短程与长程任务视频生成中,EnerVerse同样展现出卓越的性能:
在短程生成任务中,EnerVerse表现优于现有微调视频生成模型,在长程生成任务中,EnerVerse展现出更强的逻辑一致性与连续生成能力,这是现有模型无法实现的。
而且EnerVerse在仿真场景和真实场景中生成的多视角视频质量也得到了充分验证。

除了科技巨头,许多初创公司都开始追逐世界模型,如人工智能研究员李飞飞的空间智能公司World Labs以及一些新兴世界建模公司Decart和Odyssey诞生。他们相信,世界模型有朝一日不仅可以用于创建交互式媒体,如视频游戏和电影,而且有能力运行逼真的模拟效果,如机器人和智能汽车的训练环境。
基于互联网数据训练的生成式模型在2024年已经彻底改变了文本、图像和视频内容的创作方式。
从趋势来看,生成式模型的下一个里程碑将是更好地逼真模拟现实世界物理特性,以对人类、机器人以及其他类型交互主体所执行的行动做出响应。2025年距离这个里程碑已经不远了。


相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103435