> 自媒体 > (AI)人工智能 > 比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手
比 GPT-4o 还牛?微软推出多模态模型,机器人秒变收纳高手
来源:智东西
2025-03-25 09:38:02
352
管理

作者 | 许丽思编辑 | 漠影

机器人前瞻2月21日报道,近日,微软研究院发布了一个多模态AI模型——Magma。Magma是首个能够在其所处环境中理解多模态输入并将其与实际情况相联系的基础模型,只要提供一个描述性目标,Magma就能够制定计划、执行行动以达成该目标。

Magma以视觉语言(VL)模型为基础,除了保留传统的语言和视觉的理解能力(语言智能)外,还解锁了空间智能的新技能,能够从多模态输入(用户界面截图、机器人图像、教学视频)中理解对象的物理位置、动作的时序逻辑,并在不同环境(数字界面与物理世界)中完成连贯的任务。

值得一提的是,论文的作者中,13位有12位应该是华人。中美AI、机器人竞赛的背后,果然还是在美华人和在华中国人之间的较量。

将Magma和OpenVLA这两个模型应用到WidowX机械臂上,当让机械臂组装桌面上的热狗模型、把蘑菇模型放到盆中、把桌子上的抹布从左边移动至右边时,Magma可以让机械臂比较精确地完成任务,而OpenVLA则在物体抓取、移动上表现略逊色于前者。

Magma应用到WidowX机械臂并经过少样本的微调后,在分布内和分布外泛化任务中,都有着可靠的性能表现。

在LIBERO平台上进行的少样本微调,Magma在所有任务组中都取得了更高的平均成功率。

Magma成功整合了视觉、语言和行动,在机器人任务操作上表现出了较高的泛化能力。未来,随着模型研究的不断深入及模型规模的扩展,Magma也有望为解决更复杂的机器人操作问题提供不错的解决方案,让机器人距离真正的落地应用更进一步。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
10万内闭眼入不踩坑!6台抗造省油燃油SUV,家用代步天花板..
预算10万想买一台靠谱燃油SUV,是很多普通家庭的真实需求。既要皮实耐用..
2026年买车必看!这6款SUV无短板,看完再决定买哪辆。..
手里攥着十五二十万预算想买SUV的朋友,最近算是彻底熬出头了,以前在这..
想买大SUV先别下手!2026这5款新车,看完再决定
今年打算买旗舰SUV的,千万别着急下手!这5台新车马上上市,看完再决定,..
尊界SUV谍照曝光 对标库里南 鸿蒙智行冲高再进阶
2月23日,博主“42号车库”曝光鸿蒙智行尊界全新SUV伪装谍照,车身超5.5..
家用车选轿车还是SUV?别被参数忽悠!只看家庭需求,一选一个准..
在买车这件事上,绝大多数普通家庭最纠结的,从来不是品牌、配置、马力,..
顶级超跑魅力来袭,你感受到了吗?
感受顶级超跑的夜驾魅力。Mclaren 765LT,Lamborghini Aventador svj,Ma..
春风又搞大动作!500SR四缸跑车新造型,要是3万出头你冲不冲?..
好消息来了!工信部这波操作,属实是提前剧透了!春风500SR的证件照刚流..
法拉利首款纯电超跑「Luce」内饰公开!传统与创新的结合!..
法拉利在美国旧金山与创意工作室 LoveFrom 联合举办发布会,宣布新车定名..
一辆人人都可以买得起的超级跑车,雪佛兰科尔维特 (2)..
这是一辆人人都可以买的起的超级跑车,雪佛兰科尔维特。因车标酷似五菱,..
关于作者
黑暗森林(普通会员)
文章
1967
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103647

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索