> 自媒体 > (AI)人工智能 > 中国高考题,难倒ChatGPT
中国高考题,难倒ChatGPT
来源:新榜
2023-05-25 14:17:01
697
管理

⭐欢迎关注预约“头号AI玩家”视频号直播

有的大模型对外宣称,自己已经“接近ChatGPT”、“超越ChatGPT”了,果真如此吗?

MMCU论文链接:https://arxiv.org/abs/2304.12986

这套测试集是怎么设计制作的?数据来源出自哪里?各个大模型的测试结果如何?5月20日,甲骨易AI研究院举行了发布会,对该项目进行了详细介绍。

下面,让我们来了解一下本场发布会的主角——“超越”MMCU文本测试集。

中国高考难倒ChatGPT,全科不合格

为什么要推出“超越”(Massive Multitask Chinese Understanding)数据集?

据甲骨易介绍,尽管国内各大厂商纷纷宣称自己的大模型已经可以对标ChatGPT,但事实上,国内大语言模型和国际一流仍有差距,超越并非一朝一夕就可以实现。虽然未来有望弯道超车,甚至后来者居上,但当下一些厂商这样的说辞,也只是停留在口号之上,尚未经过实践验证。

在国内大模型呈现“千模大战”的情况下,针对英文大语言模型已经有较为完善的评测方式,如2021年由Dan Hendrycks等人发布的MMLU(注:MMLU是一个2020年推出的包含57个不同学科的数据集,科目从STEM到人文,题目难度从初级到高级不等,主要目的是为了检验预训练模型的知识获取程度。)

但目前,一些可以用来评测大模型能力的数据集的数据分布存在不平衡的现象,如Common Crawl中,英文数据占了46%,而中文数据仅有5%。如果后续大模型都依照这种不平衡的配比进行训练,最终的结果是大模型的中文能力将远远不如英文。

与此同时,对理解中文的大语言模型及时加以客观公正的评价,使其“越”来越强大,也成为了当务之急。

因此,甲骨易推出“超越”,寓意是希望中文大语言模型“超”出多数模型只能基于英文数据集测试的现状,通过综合评估模型在多个学科上的知识广度和深度,能够帮助研究者更精准地找出模型的缺陷,并对模型的能力进行打分。

图:模型评测结果

甲骨易AI研究院认为,分数最高的GPT-3.5-turbo在这项测试中的表现也远远未达到“优秀”,中文大模型还有机会。更大的模型参数量不一定带来更好的性能,而训练方式和所用数据质量也是至关重要的,需要得到更多的重视。

目前“超越”评测集代码以及评测结果文件已上传至开放代码库(https://github.com/Felixgithub2017/MMCU),感兴趣的朋友可以联系甲骨易AI研究院申请获取数据集(邮箱:order@besteasy.com)。

加速成长的大模型,稀缺的中文数据资源

国产大模型的鏖战才刚刚开始。究竟各自实力如何,哪家大模型更强却没有公认的定论。这时候用一套科学系统来判定大模型到底发展到了什么程度,能很好地完成哪些任务,又暂时做不好哪些任务,建立起这样的评测基准是非常必要的,也是困难重重的。

在发布会现场,有与会者提问建立针对中文大模型的测试集与英文版数据集在思路上有什么不同?

Felix认为,最明显的差异是语种,结合我们具体的国情来看,我们主要通过考试比如高考来衡量一个人对各领域的知识理解,所以甲骨易从众多考试中抽取了评测题目,由此组成了“超越”数据集。

但无论是用于大模型训练,还是大模型评测的高质量中文数据集,仍然非常稀缺,中文公开语料远不足英文,这也成为“中国版ChatGPT”的核心痛点。

另外,关于中文的理解能力要怎么定义,仅仅是考查对知识的理解吗?可不可以不局限于选择题,在未来能否拓宽思路让大模型做其他类型的题目或采取别的提问方式呢?

的确,评测一个人的各项能力有多种方式,对机器的评测也应该尽量科学全面,有用户反馈称即使是相同的数据集,采用不同的提问方式可能也会生成不同的答案,导致准确率有较大差异。甲骨易AI研究院表示“超越”MMCU数据集和评测方式还在持续优化中,欢迎大家共同推进中文大模型的公开、透明评测。

“甲骨易AI研究院的成立,标志着我们希望在未来搭建人与机器、机器与机器的沟通桥梁,继续拓宽语言的边界。”甲骨易数据服务事业部负责人王敏说道。

人类的进化从语言开始,而人工智能也从理解自然语言开始不断进化。

根据业界的定义,人工智能产业发展演变有四个层面,分别为运算智能层(早已实现),感知智能层(目前已在多领域接近人类水平),是认知智能层(尚在推进中)及通用智能层(尚有距离)。

小米大模型数据负责人彭力认为,眼下的我们正在向通用人工智能(AGI)演进,而大语言模型则可以加速人工智能演进的进程与当前面临的技术难点。

新一轮人工智能革命已然到来,而中文大模型需要尽快成长,我们期望有一天真的能“超越”同行达到领先水平。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
Qwen要入局机器人了:林俊旸官宣成立具身智能团队
机器之心报道机器之心编辑部已经成为开源模型领头羊的 Qwen,终于要开始..
Qwen拿半成品刷下AIME\u0026#39;25满分,给别人留点面子吧……..
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI半成品模型,已经刷下高难度数学..
阿里发布新一代大语言模型Qwen3.6-Plus 编程能力大幅提升..
来源:环球网 【环球网科技综合报道】4月2日,阿里千问发布新一代大语言..
AI大模型测评,深度解析最强开源模型Qwen3
前几天,阿里发布了Qwen3的新模型。从数值表现来看已经超越了DeepSeek和..
阿里要发飙?Qwen已经干掉Llama,夸克又要干掉Meta眼镜?..
夸克,这个阿里家的小儿子,正在以肉眼可见的速度扩张自己的边界:从“AI..
那个用半成品刷爆SOTA的Qwen3超大杯推理版,现在正式上线..
新一年的基础模型竞逐,没想到是阿里千问率先出手了!就在刚刚,Qwen3-Ma..
亚马逊云科技为何上架Qwen和DeepSeek的最新模型
为何上架Qwen和DeepSeek?开放生态是对抗封闭的最佳武器。国际市场调研机..
qwen3-0.6B这种小模型有什么实际意义和用途吗?
在大模型喧嚣的背后,小模型正在工业场景中悄然崛起。从端侧部署的隐私计..
晚点独家丨林俊旸提出离职,Qwen 多位负责人离开,团队或将调整..
前一天还在奋战模型发布,第二天提离职。文丨陈佳惠 程曼祺编辑丨程曼祺3..
关于作者
雪霁(普通会员)
文章
1987
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106067

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索