> 自媒体 > (AI)人工智能 > 实测文心一言4.0,真的和GPT-4相差无几了吗?
实测文心一言4.0,真的和GPT-4相差无几了吗?
来源:差评
2023-11-17 12:59:19
663
管理

这话一出,很多人就沸腾了。

据李彦宏这边的说法,文心 4.0 在记忆、理解、逻辑和生成四块,进步神速。

尽管他也在现场亲自演示了很多案例,但很多用户是压根不买账的。

不少人调侃说: “ 骗骗兄弟就可以了,别把自己也骗了啊。 ”

那到底是毫不逊色,还是吹牛扯淡呢,咱们直接亲自试试就知道了。

文心这边,也没有聪明到哪去,也是乱编了一种 “ 幽默 ” 的说法。

甚至,世超后面又给了它一次机会,追问它:两个龙是同一个龙吗?

文心依然极其坚定地给了我一个完全错误的答案。

不知道是不是有英文辅助,这一次GPT-4 梗图解读能力强的不是一星半点。

不光能看懂 “ 狗狗 ” 是这张梗图的关键角色,而且读懂了笑点在于 “ 认真帮忙 ” 和 “ 毫无效果 ” 的对比。

但如果文心这边是没满分,那 GPT-4 这边恐怕属于不及格了。。

不光没读懂梗,连出处都找错了,让你去大型纪录片《 完颜慧德传奇 》里面找一找答案。

先来看 GPT-4 老大哥,依然是稳定发挥。大概几十秒,就做出一个完整的、可以玩的贪吃蛇游戏。包括蛇的移动、点的随机出现、吃完后体积增大这些效果。

但是,来到文心这一边,就是彻底不及格了。

不说别的,这贪吃蛇根本就没动起来,而且后面试着让文心自己修正代码,结果也是越改越错。

这不是动图没动,是文心就没做出动的效果来

GPT-4

这第三轮的比赛, GPT-4 是毫无疑问地全面吊打了。现在比分也被拉开了,文心 VS GPT-4 = 2:3 。

为了避免不公平,既然前面试了一个 GPT-4 的强项,那接下俩也测一个文心说自己比较厉害的能力——记忆。

世超找了一份曾经采访导盲犬相关人士的采访文件,全采访资料总共有一万三千多个字。

把这一大份文件丢给这俩 AI 之后,我问了一个最简单的问题:

为什么说导盲犬是骗局?

让人有点意外的是, GPT-4 虽然答案是对的,可是分析得牛头不对马嘴。

我问骗局的原因,他和我说训练难度和导盲犬的导盲能力。。

文心在记忆和理解方面,确实挺扎实。算是成功扳回一城,把比分重新拉回到平局 3 :3 。

既然事态这么胶着,那这最后一轮,我们就再试一个比较有意思的题。

之前 GPT-4 Vision 版提过,这一代的 GPT-4 图片识别能力很强,可以给合照里的单人进行标注、给图片排序等等。

虽然文心一言也发现了智齿阻生的问题,也指出了可能存在的其他问题。但还是 GPT-4 的答案更准确,更贴切。

比如说一句话做一个金毛爬楼梯的视频,几分钟之后一条配好音的视频就做好了。

不过,目前也不是非常完善,经常出现素材不够,无法生成视频的情况。

作为一个玩具体验一下,还是挺有意思的,真当生产力工具,多少有点够呛。

虽然如此,但文心 4.0 的表现已经让我眼前一亮了。

说实话,原本世超并不对文心抱有太大的希望。因为 GPT-4 的强悍,大家都有目共睹。

在这么强的对手面前,很容易显得你的努力都白费了。。。

这回尽管还是输了,但起码你能感受到进步的地方,更擅长的领域。

不过,最后还是要强调一下,世超的测试只能从常规的角度来简单对比两个大模型。只能算带大家尝个鲜,抢先体验一下,并没有办法,完全代表大模型的实力情况。

到底几斤几两,还需要等彻底开放之后。大家亲自上手体验,才会有更深的感受。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文
嘻疯 发自 凹非寺量子位 | 公众号 QbitAI刚刚,NeurIPS 2025最佳论文奖、..
阿里千问开源4款Qwen3.5小尺寸模型,满足资源受限至轻量应用不同需求..
【太平洋科技快讯】3月3日消息,阿里千问近日开源四款Qwen3.5更小尺寸模..
实测Qwen3.6-27B:4分钟做了个跑酷游戏,验证码识别正确率超90%..
它用时四分钟左右,写完了1200多行代码。从实测结果来看,游戏设计与前端..
阿里亲身入局具身智能!Qwen内部组团,通义千问技术负责人带队..
衡宇 发自 凹非寺量子位 | 公众号 QbitAIQwen团队内部组建了一个全新的具..
Qwen紧追OpenAI开源4B端侧大模型,AIME25得分超越Claude 4 Opus..
衡宇 发自 凹非寺量子位 | 公众号 QbitAI三天不开源,Qwen团队手就痒。昨..
Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒
全球最快的开源大模型来了——速度达到了每秒2000个tokens!虽然只有320..
激活170亿参数 Qwen3.5实测 重构大模型性价比逻辑
2月16日Qwen3.5正式开源,以3970亿总参数、仅170亿激活参数的架构实现性..
Qwen最新闭源模型曝光!实测夸克“对话助手”
10月23日,阿里旗下夸克正式上线“对话助手”。从界面上看,它像是“塞进..
林俊旸离职后,Qwen的变与不变
来源:视觉中国OpenAI早期也曾采用垂直整合的架构模式,并集中资源完成了..
关于作者
冷冷的太阳..(普通会员)
文章
1964
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106516

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索