中国高考题，难倒ChatGPT-工信会

> 自媒体 > （AI）人工智能 > 中国高考题，难倒ChatGPT

中国高考题，难倒ChatGPT

来源：新榜

2023-05-25 14:17:01

697

管理

⭐欢迎关注预约“头号AI玩家”视频号直播

有的大模型对外宣称，自己已经“接近ChatGPT”、“超越ChatGPT”了，果真如此吗？

MMCU论文链接：https://arxiv.org/abs/2304.12986

这套测试集是怎么设计制作的？数据来源出自哪里？各个大模型的测试结果如何？5月20日，甲骨易AI研究院举行了发布会，对该项目进行了详细介绍。

下面，让我们来了解一下本场发布会的主角——“超越”MMCU文本测试集。

中国高考难倒ChatGPT，全科不合格

为什么要推出“超越”(Massive Multitask Chinese Understanding)数据集？

据甲骨易介绍，尽管国内各大厂商纷纷宣称自己的大模型已经可以对标ChatGPT，但事实上，国内大语言模型和国际一流仍有差距，超越并非一朝一夕就可以实现。虽然未来有望弯道超车，甚至后来者居上，但当下一些厂商这样的说辞，也只是停留在口号之上，尚未经过实践验证。

在国内大模型呈现“千模大战”的情况下，针对英文大语言模型已经有较为完善的评测方式，如2021年由Dan Hendrycks等人发布的MMLU（注：MMLU是一个2020年推出的包含57个不同学科的数据集，科目从STEM到人文，题目难度从初级到高级不等，主要目的是为了检验预训练模型的知识获取程度。）

但目前，一些可以用来评测大模型能力的数据集的数据分布存在不平衡的现象，如Common Crawl中，英文数据占了46%，而中文数据仅有5%。如果后续大模型都依照这种不平衡的配比进行训练，最终的结果是大模型的中文能力将远远不如英文。

与此同时，对理解中文的大语言模型及时加以客观公正的评价，使其“越”来越强大，也成为了当务之急。

因此，甲骨易推出“超越”，寓意是希望中文大语言模型“超”出多数模型只能基于英文数据集测试的现状，通过综合评估模型在多个学科上的知识广度和深度，能够帮助研究者更精准地找出模型的缺陷，并对模型的能力进行打分。

图：模型评测结果

甲骨易AI研究院认为，分数最高的GPT-3.5-turbo在这项测试中的表现也远远未达到“优秀”，中文大模型还有机会。更大的模型参数量不一定带来更好的性能，而训练方式和所用数据质量也是至关重要的，需要得到更多的重视。

目前“超越”评测集代码以及评测结果文件已上传至开放代码库（https://github.com/Felixgithub2017/MMCU），感兴趣的朋友可以联系甲骨易AI研究院申请获取数据集（邮箱：order@besteasy.com）。

加速成长的大模型，稀缺的中文数据资源

国产大模型的鏖战才刚刚开始。究竟各自实力如何，哪家大模型更强却没有公认的定论。这时候用一套科学系统来判定大模型到底发展到了什么程度，能很好地完成哪些任务，又暂时做不好哪些任务，建立起这样的评测基准是非常必要的，也是困难重重的。

在发布会现场，有与会者提问建立针对中文大模型的测试集与英文版数据集在思路上有什么不同？

Felix认为，最明显的差异是语种，结合我们具体的国情来看，我们主要通过考试比如高考来衡量一个人对各领域的知识理解，所以甲骨易从众多考试中抽取了评测题目，由此组成了“超越”数据集。

但无论是用于大模型训练，还是大模型评测的高质量中文数据集，仍然非常稀缺，中文公开语料远不足英文，这也成为“中国版ChatGPT”的核心痛点。

另外，关于中文的理解能力要怎么定义，仅仅是考查对知识的理解吗？可不可以不局限于选择题，在未来能否拓宽思路让大模型做其他类型的题目或采取别的提问方式呢？

的确，评测一个人的各项能力有多种方式，对机器的评测也应该尽量科学全面，有用户反馈称即使是相同的数据集，采用不同的提问方式可能也会生成不同的答案，导致准确率有较大差异。甲骨易AI研究院表示“超越”MMCU数据集和评测方式还在持续优化中，欢迎大家共同推进中文大模型的公开、透明评测。

“甲骨易AI研究院的成立，标志着我们希望在未来搭建人与机器、机器与机器的沟通桥梁，继续拓宽语言的边界。”甲骨易数据服务事业部负责人王敏说道。

人类的进化从语言开始，而人工智能也从理解自然语言开始不断进化。

根据业界的定义，人工智能产业发展演变有四个层面，分别为运算智能层（早已实现），感知智能层（目前已在多领域接近人类水平），是认知智能层（尚在推进中）及通用智能层（尚有距离）。

小米大模型数据负责人彭力认为，眼下的我们正在向通用人工智能（AGI）演进，而大语言模型则可以加速人工智能演进的进程与当前面临的技术难点。

新一轮人工智能革命已然到来，而中文大模型需要尽快成长，我们期望有一天真的能“超越”同行达到领先水平。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT频出“王炸”，未来五年，你的“饭碗”还能保住吗？

2023-05-25 14:18

美国《大西洋月刊》：ChatGPT才6个月大，就已经变得有些过时了

2023-05-25 14:15