编辑:编辑部
【新智元导读】蛰伏许久,Meta刚刚扔出了重磅炸弹:大家期待已久的Llama 3,用了24000块GPU训练,一亮相便登上开源大模型铁王座。8B和70B取得同规模参数下开源领域的SOTA,推理编码大幅提升,代码和权重全开源!而且,400B的Llama 3,也在路上了。LLM界的「真·Open AI」,又来整顿AI圈了!
业内惊呼:首个开源GPT-4级的模型,终于来了!开源模型追上闭源模型的历史性一刻,或许就在眼前了?
一石激起千层浪,Llama 3才刚刚发布没几小时,就破纪录地登顶了Hugging Face排行榜。

值得期待的是,在未来几个月,Llama 3还将推出更多版本
不过,虽然上下文长度相较之前实现了翻倍,但依然只有8K。

其中,预训练版本在推理挑战测试集ARC-Challenge上,拿下了96的高分。
而指令微调版的Llama 3 400B更是在数学(GSM-8K)、代码(Human-Eval)、大规模多任务语言理解基准(MMLU)上,表现非常亮眼。

这些数据是什么概念?
英伟达高级科学家Jim Fan做了一个对比图,与Claude 3 Opus、GPT-4-2024-04-09和Gemini在同基准数据中的结果:
看得出,Llama 3 400B已经在多语言推理任务、代码能力,可与GPT-4、Claude 3相匹敌。
更亮眼的是,它在所有能力上,均打败了Gemini Ultra 1.0。

Jim Fan感慨道:
即将推出的Llama 3 400B将成为一个分水岭,即社区将获得开源重量级的GPT-4模型。它将改变许多研究工作和草根创业公司的计算方式。
Llama 3 400B还在训练中,希望在接下来的几个月里会有更好的表现。有了如此强大的后盾,我们可以释放出更多的研究潜能。期待整个生态系统的建设能量激增!

OpenAI研究科学家Will Depue也表达的同样的看法,非常期待一款开源GPT-4级别的模型——Llama 3 400B,未来的可能性无穷无尽!

开源模型的SOTA,当属于Llama 3 400B。

而Meta的研究团队,还对训练后优化过程进行了改进,这就大大降低了错误拒绝执行任务的比率,提高了模型输出与人类意图的一致性,还让模型响应的多样性也增加了。
同时,模型的逻辑推理、代码生成和指令遵循等能力也都大幅提升,让Llama 3成为了一个可控性更强的模型。
与近乎同等规模预训练的开源模型相比,Llama 3 8B完全打败了Mistral,以及Gemma。不过推理能力,比Gemma-7B弱一些。
与闭源Gemini Pro 1.0,以及开源Mixtral 8×22B相比,Llama 3-70B在多项基准测试中拔得头筹。

大模型发展到如今,再要往哪里创新?
在整个项目中,Meta重点关注了四个关键要素:模型架构、训练数据、扩大训练规模以及指令微调。
128K token分词器 GQA在架构上,Meta依然为Llama 3选择了Transformer架构。
这个架构是相对标准的纯解码器Transformer,不过相比于Llama 2做了几个关键改进。
比如,Llama 3使用了一个具有128K个token的分词器,可以更有效地编码语言,这就显著提高了模型性能。

而为了提高Llama 3模型的推理速度,Meta在8B和70B两种规模上都采用了分组查询注意力(Grouped Query Attention,GQA)机制。
此外,Meta还在8,192个token的序列上训练模型,并通过掩码确保自注意力机制不会跨越文档边界。
15万亿token训练,7倍于Llama 2同时,大型高质量的训练数据集也至关重要。
为了预训练数据,团队投入了大量资源。
最终,Llama 3在超过15万亿个token上进行了预训练,而这些token都是从公开可用的来源收集的。
它的训练数据集比Llama 2的大7倍,并且包含4倍多的代码。
为了应对多语言场景,Llama 3的预训练数据集中有超过5%是高质量的非英语数据,涵盖了30多种语言。

同时,为了让训练数据具有足够高的质量,Meta开发了一系列数据过滤管道。
这些管道包括使用了启发式过滤器、NSFW过滤器、语义去重方法和文本分类器,用来预测数据质量。
在这个过程中一个有意思的点就是——
前几代的Llama 在识别高质量数据方面居然出奇得好,因此,Meta使用Llama 2来生成了用于训练Llama 3的文本质量分类器的训练数据。
此外,为了评估在最终的预训练数据集中混合来自不同来源的数据的最佳方式,Meta还进行了大量实验。
最终,Meta就能够选择一个数据组合,让Llama 3在STEM、编码、历史知识等各种使用场景中,都能表现良好。

而缩放定律可以帮助团队在实际训练模型之前,预测最大模型在关键任务上的性能,这是至关重要的,因为这就能确保,模型在各种使用场景和能力方面,都有出色的表现。
在这个过程中,团队对缩放行为观察到了有了几个有趣的新现象。
比如,虽然一个8B参数模型的Chinchilla最优训练计算量,对应于约2000亿个token,但Meta发现,即使在模型接受了两个数量级以上的数据训练后,模型性能仍在继续提高!
创新指令微调同时,团队也对指令微调进行了创新。
Meta采用的后训练方法,是监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合。
Meta发现,在SFT中使用的提示和在PPO与DPO中使用的偏好排序,对对齐模型的性能的影响完全超出了预期。
Llama 3在性能上取得的最大改进,就是归功于对这些数据的仔细策划,并且对人类标注者提供的标准进行了多轮质量保证。

而通过PPO和DPO从偏好排序中学习,Llama 3在推理和编码任务上的性能也大大提高了。
如果问Llama 3一个很难回答的推理问题,它有时竟然能产生正确的推理过程。
这个过程中的难点在于,它知道如何得出正确答案,但不知道该如何选择。但通过在偏好排序上进行训练,就能让模型学会如何选择正确答案。
更安全在部署上,团队采用了一种新的系统级方法。
Meta将Llama模型设想为一个更广泛系统的一部分,让开发者坐在驾驶座上。Llama模型将作为系统的基础部分,开发者在设计时会考虑最终的目标。

在模型安全上,指令微调起了重要作用。
通过内部和外部努力,团队对指令微调模型进行了安全测试。
红队方法会利用人类专家和自动化方法来生成对抗性提示,试图引发有问题的响应,比如化学、生物、网络安全、其他风险领域相关的滥用风险。
在这个过程中,团队让Llama Guard模型,成为安全的基础,并且可以根据应用需求进行微调。
新的Llama Guard 2使用MLCommons 分类法。此外,CyberSecEval 2在其前作的基础上进行了扩展,增加了评估LLM滥用代码解释器的倾向、攻击性网络安全能力和对提示注入攻击的敏感性的措施。
最后,引入的Code Shield也增加了对生成的LLM不安全代码的推理时过滤的支持。这样就能降低不安全的代码建议、代码解释器的滥用等。
另外,Meta还更新了负责任使用指南(RUG),建议根据适合应用的内容指南,检查和过滤所有输入和输出。
此外,云服务提供商也会提供内容审核API等工具,鼓励开发者进行负责任地部署。

当你正在刷Facebook,看到一个感兴趣的帖子,附有一张冰岛北极光图。
你可以直接问Meta AI,「一年中什么时候最适合观赏极光」?

除了在网页版,Meta AI的图像功能还可以在WhatsApp中体验。
当你在搜索框开始输入prompt,便会看到一个浮现的图像,会随着你输入的每几个字而变化。
可以清晰看到,Meta AI如何将你的想象变为现实。

据介绍,Meta AI生成的图像更加清晰、质量更好,而且在图像中融入文字的能力也得到了提升。
不论是专辑封面设计、婚礼指示牌、生日装饰,还是服装搭配灵感,Meta AI都可以生成相应的图像,以前所未有的速度和质量将你的想象变为现实。
它甚至会提供有用的提示和建议,提供改进图像的思路,让你可以在初始点的基础上不断迭代。
这还不是全部......
当你找到一张自己喜欢的图片,可以让Meta AI制作动画,以新的风格对其进行改进,甚至将其转化为GIF,与朋友分享。

可以看出,有了强大的Llama 3加持,Meta AI的表现比以往更要出色。
不久后,Meta AI即将在Quest头显中推出。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103523