> 自媒体 > (AI)人工智能 > Llama-2首个全方位评测,国内外开源模型大比拼
Llama-2首个全方位评测,国内外开源模型大比拼
来源:量子位
2023-09-28 23:04:26
701
管理

允中 发自 凹非寺

量子位 | 公众号 QbitAI

进入2023年7月,大语言模型(LLM)的发展进入了新阶段,开源成为一个火热的主题。

7月6日,上海人工智能实验室与商汤科技等联合发布了书生·浦语开源体系(https://github.com/InternLM),不仅开源了书生·浦语的轻量版本(InternLM-7B),还率先开源了从数据、训练到评测的全链条工具体系,并提供完全免费的商用许可;7月14日,智谱科技开放ChatGLM2-6B免费商用;7月19日,Meta开源了性能更强的Llama-2,也提供了更加宽松的商用许可。

面对语言模型的新一波开源浪潮,图灵奖得主Yann Lecun在推特上评价:

This is going to change the landscape of the LLM market.

下表列出Llama、Llama-2、以及ChatGPT在几个有代表性评测集上的表现:

更全面和详细的评测结果数字请参看https://opencompass.org.cn

相比上代模型全面提升:

从综合能力角度,Llama-2-70B(绿色)相比于Llama-1-65B(紫色)更胜一筹,在语言、知识、推理、理解、学科等各个能力维度相比Llama-1都有明显提升。比如综合考试集MMLU上从63.71提升到69.75,GSM8K 上从54.51提升到63.46。

对话和基座模型基本持平:

经过微调和对齐的模型Llama-2-70B-Chat(黄色)相比基座模型Llama-2-70B(绿色),综合能力基本持平,在语言、推理和理解上相比基座有性能提升,在学科综合能力和知识能力上略有下降。比如翻译评测集Flores和代码评测集HumanEval上,Chat模型分别有超过40%和20%的相对提升,而在MMLU和TrivialQA上则有大约10%的相对降低。

离ChatGPT仍有较大差距:

相比ChatGPT-0613(蓝色),Llama-2-70B-Chat(黄色)仍需继续追赶,尤其在推理能力、理解能力、和学科综合能力上差距还比较明显。其中数学评测集MATH和代码评测集HumanEval的差距都超过了一倍。

中文能力短板明显

在Llama的训练语料中,中文占比较小,微调阶段也没有针对中文进行调优,所以当前Llama-2-Chat在中文问题上仍显不足。

一个典型的表现就是给定中文问题时,模型还是会以英文回答。

国内模型不落下风

近几个月,国内大模型发展迅速,多个企业和科研机构都发布了各自的大模型,其中不乏千亿参数的大模型。

那么国内大模型和Llama-2相比,究竟表现如何呢?很多朋友都关心这个问题。

重量级模型的对比

国内机构发布的70B或者更高量级的模型普遍尚未开源,很多模型只通过内测API提供有限服务,因此我们还很难获得对很多国产模型的全量评测数据。

在OpenCompass上,由上海人工智能实验室和商汤科技联合多所高校发布的千亿参数书生·浦语模型(InternLM-104B)已经有了全面的评测结果。

基于这个结果,我们比较了书生·浦语和ChatGPT与Llama-2的性能:

在重量级模型的对比中,书生·浦语表现优秀,在大部分主流评测集上领先于Llama-2以及ChatGPT。具体而言,在43个评测集中,InternLM-104B在34个评测集中超越ChatGPT,在41个评测集上超越Llama-2-70B。

中文考试大幅领先:

在中文考试评测集CEval和高考评测集GAOKAO-Bench上,InternLM-104B都大幅超过Llama2-70B。

语言能力略有优势:

在中英文的基础语言任务上,包括字词理解,成语习语,翻译等评测集上,InternLM-104B都有优势,其中中文评测集上差距更大。

阅读理解“书生”名副其实:

在中英文的各类阅读理解评测集上,InternLM-104B均表现出明显的优势,从文本段中总结和理解关键信息的能力更胜一筹。

推理能力技高一筹:

在常识推理、数学推理、综合推理的各种数据集上,InternLM-104B都有比较稳定的发挥,相比Llama2-70B有一定优势。

知识问答平分秋色:在BoolQ,CommonSenseQA,TrivialQA,NaturalQuestion等知识问答评测集上,两个模型表现相当,可见知识水平没有明显差异。

代码能力互有胜负:

InternLM-104B和Llama2-70B的代码能力不相上下,HumanEval和 MBPP两个数据集上互有胜负。

轻量级模型的对比

重量级赛道上你追我赶,在7B量级的轻量级赛道上,开源模型的竞争也十分活跃。

在众多国内开源模型之中,百川智能发布的Baichuan-7B、清华大学和智谱AI发布的ChatGLM2-6B、上海人工智能实验室发布的InternLM-7B等优秀模型广受业界关注。

我们把这些国内模型和Llama-2-7B进行了全方位评测对比:

下表列出了这几个7B量级模型在几个有代表性评测集上的表现:

结果显示:Llama-2在知识能力上有明显优势。

但在学科、语言、推理和理解能力上,InternLM和ChatGLM2都已经超越了Llama-2,而且InternLM的领先优势十分明显。

免费商用形成星火之势

几个月前Llama的开源引爆了社区,让众多开发者和研究者受益匪浅,衍生出整个羊驼家族,但遗憾的是其协议限制商用,将企业拒之门外。

7月6日,世界人工智能大会上,书生浦语开源体系正式发布,开源了InternLM-7B并提供免费商用许可。

之后,ChatGLM2-6B和Llama2等开源模型相继推进免费商用,顺应了发展潮流和社区呼声。

相信开源社区的星星之火将对产业形成燎原之势,进一步降低大模型落地应用的门槛。

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
一辆载有8名中国游客的汽车在贝加尔湖落水,目前仅救上1名中国游客..
当地时间20日,我使馆发布消息称,贝加尔湖汽车落水事故中,涉事车辆上载..
巨亏超1800亿元?全球第四大汽车制造商,股价巨震!
据CNBC网站报道,全球第四大汽车制造商斯泰兰蒂斯6日美股开盘后股价大幅..
12306能给汽车买“火车票”?春运订单火爆!
‍‍‍‌‍‍‌ 豹豹的自述大家好,我叫豹豹是一辆身材魁梧的SUV上次跟着..
眼红中加协议,美国汽车制造商威胁卡尼:《美加墨协定》正重新审查哦..
【文/观察者网 王一】加拿大今年1月宣布调整政策,允许每年最多4.9万辆中..
想买旅行车的注意!2026年将有这4款高颜值旅行车上市..
很多朋友都喜欢那些进口的德系旅行车,但奈何手中的钱包实在太薄,所以就..
小米汽车2025年带来200+项功能更新,车主最喜爱TOP10公布..
IT之家 2 月 13 日消息,小米汽车昨日公布数据,2025 年小米 SU7 车型 7 ..
怎么开都开不坏的九款车,省油、皮实、耐造,看看有没有你的那款..
开到报废你都开不坏的9款车,快来看看有没有你想买的车型,特别是最后一..
美国汽车行业焦虑:如果中国车企进入美国市场,美欧日韩都将受到冲击..
【文/观察者网 陈思佳】上个月,美国总统特朗普在底特律经济俱乐部发表演..
中国汽车出口,捅破了800万的天花板!
以前中国买世界各地的汽车,现在世界各地买中国汽车。2025年,中国汽车出..
关于作者
舞月(普通会员)
文章
1898
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105114

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索