深度学习变天！Google发布FLAN，模型参数少400亿，性能超越GPT-3-工信会

> 自媒体 > （AI）人工智能 > 深度学习变天！Google发布FLAN，模型参数少400亿，性能超越GPT-3

深度学习变天！Google发布FLAN，模型参数少400亿，性能超越GPT-3

来源：新智元

2023-05-22 16:53:31

635

管理

来源：arXiv

编辑：LRS

【新智元导读】你是否抱怨过深度学习这畸形的研究发展路线，大公司才能玩得起sota，普通人连买张显卡都要承受几倍的溢价！最近Google发布了一个新的语言模型FLAN，或许能在深度学习中带来新的发展趋势，它相比GPT-3少了400亿参数，性能还更强！

像OpenAI的GPT-3这样的语言模型，近年来层出不穷，企业也更愿意投入来研究如何利用AI技术和数据来学习文本生成等。

而GPT-3也不负众望，它及它的后继模型能够像人一样来写电子邮件、文本摘要、甚至写各种语言的代码。

消融研究表明，任务数量和模型规模是教学调整成功的关键因素

FLAN 与 GPT-3 的不同之处在于，FLAN 面向60 项自然语言处理任务进行了微调，这些任务通过自然语言指令来表达，例如情感分类中使用“这条影评的情绪是正面还是负面？”来表示。

FLAN是Base LM的指令调优（instruction-tuned）版本。指令调优管道混合了所有数据集，并从每个数据集中随机抽取样本。

各个数据集的样本数相差很大，有的数据集甚至有超过1000万个训练样本（例如翻译），因此将每个数据集的训练样例数量限制为30000个。

有的数据集几乎没有训练样本，例如CommitmentBank只有250个样本，为了防止这些数据集被边缘化，遵循样本比例混合方案（examples-proportional mixing schema），在最大混合率为3000的情况下，使用Adafactor优化器以3e-5的学习率，以8192的batch size对所有模型进行30000次梯度更新的微调。

微调过程中使用的输入和目标序列长度分别为1024和256。使用packing将多个训练样本组合成一个序列，使用特殊的序列结束标记将输入与目标分离。

谷歌的研究人员表示，这种指令调节（instruction tuning）通过教模型如何执行指令描述的任务来提高模型处理和理解自然语言的能力。

在FLAN对网页、编程语言、对话和维基百科文章的训练后，研究人员发现，该模型可以学习按照未经明确训练的任务进行操作，也就是说可以部分理解了自然语言的真实意图。尽管训练数据不如GPT-3的训练集“干净”，但FLAN仍然在问答和长文摘要等任务上超过了GPT-3。

即使在对生物医学数据进行预训练和微调后，研究者们还发现大的语言模型很难在问答、文本分类和识别上与更小的模型相媲美。

实验结果表明，在生物医学自然语言处理领域，多任务语言模型仍有很大的发展空间，很少有模型能够在少量训练数据可用的情况下有效地将知识转移到新任务。

这也可以归结为数据质量的问题。社区驱动项目EleutherAI的数据科学家Leo Gao的另一篇论文表明，训练数据中集中数据的管理方式会显著影响大型语言模型的性能。

Goodhart定律内容：当一个措施本身成为目标时，它就不再是一个好的措施。

（When a measure becomes a target, it ceases to be a good measure.）

参考资料：

https://arxiv.org/pdf/2109.01652.pdf

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

超越 GPT-3，DeepMind 推出新宠 Gato，却被质疑「换汤不换药」

2023-05-22 16:57

经验分享：如何在自己的创业中，用上GPT-3等AI大模型

2023-05-22 16:52