在阅读文章前,辛苦您点下“关注”,方便讨论和分享。作者定会不负众望,按时按量创作出更优质的内容
文 |小戎
哈喽,大家好,小戎这篇分享,主要分析00后博士胡文博的AI新成果G²VLM,它空间能力超强,力压GPT-4o,为机器人等领域添新动力。
24岁的00后都开始卷AI界了!博士生胡文博带着团队整出个叫G²VLM的AI“卷王”,别人还在教AI认猫认狗,它已经能从平面照片里“脑补”出3D世界,相当于给AI装了双“透视眼”。

最牛的是它在“AI月考”SPAR-Bench里,把顶流GPT-4o甩开18.5分拿第一,其他空间测试也都是“年级前三”水平,关键这哥们儿还是“小身材大能量”——参数才40亿,跟那些上千亿参数的“大块头”比就是个小不点,却靠“巧劲”赢了,主打一个“不拼蛮力拼智商”。
这AI的灵感居然来自人脑!咱们大脑看东西,一条路认“这是啥”,一条路判“在哪儿”。

G²VLM直接抄作业,搞了俩“专家”协作:一个专扒3D几何信息,算距离测角度;一个专搞语义理解,认东西唠嗑,俩专家实时传消息,就像打游戏时辅助报点 输出猛冲,配合得天衣无缝。
它的“修炼之路”也特有意思,分两步走:第一步让几何专家“闭关刷题”,对着带3D标注的数据练到“看图就知深浅”。

结语第二步俩专家“组队开黑”,专攻空间推理题,比如“从两张照片判断球往哪滚”,磨合到默契满分。
胡文博说这成果牛就牛在,以前AI搞3D得要额外“说明书”,现在看张普通照片就行,实用性直接拉满,这哪是造AI,简直是给未来的机器人、AR/VR装了个“超级大脑”。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103435