> 自媒体 > (AI)人工智能 > 深度学习变天!Google发布FLAN,模型参数少400亿,性能超越GPT-3
深度学习变天!Google发布FLAN,模型参数少400亿,性能超越GPT-3
来源:新智元
2023-05-22 16:53:31
635
管理

来源:arXiv

编辑:LRS

【新智元导读】你是否抱怨过深度学习这畸形的研究发展路线,大公司才能玩得起sota,普通人连买张显卡都要承受几倍的溢价!最近Google发布了一个新的语言模型FLAN,或许能在深度学习中带来新的发展趋势,它相比GPT-3少了400亿参数,性能还更强!

像OpenAI的GPT-3这样的语言模型,近年来层出不穷,企业也更愿意投入来研究如何利用AI技术和数据来学习文本生成等。

而GPT-3也不负众望,它及它的后继模型能够像人一样来写电子邮件、文本摘要、甚至写各种语言的代码。

消融研究表明,任务数量和模型规模是教学调整成功的关键因素

FLAN 与 GPT-3 的不同之处在于,FLAN 面向60 项自然语言处理任务进行了微调,这些任务通过自然语言指令来表达,例如情感分类中使用“这条影评的情绪是正面还是负面?”来表示。

FLAN是Base LM的指令调优(instruction-tuned)版本。指令调优管道混合了所有数据集,并从每个数据集中随机抽取样本。

各个数据集的样本数相差很大,有的数据集甚至有超过1000万个训练样本(例如翻译),因此将每个数据集的训练样例数量限制为30000个。

有的数据集几乎没有训练样本,例如CommitmentBank只有250个样本,为了防止这些数据集被边缘化,遵循样本比例混合方案(examples-proportional mixing schema),在最大混合率为3000的情况下,使用Adafactor优化器以3e-5的学习率,以8192的batch size对所有模型进行30000次梯度更新的微调。

微调过程中使用的输入和目标序列长度分别为1024和256。使用packing将多个训练样本组合成一个序列,使用特殊的序列结束标记将输入与目标分离。

谷歌的研究人员表示,这种指令调节(instruction tuning)通过教模型如何执行指令描述的任务来提高模型处理和理解自然语言的能力。

在FLAN对网页、编程语言、对话和维基百科文章的训练后,研究人员发现,该模型可以学习按照未经明确训练的任务进行操作,也就是说可以部分理解了自然语言的真实意图。尽管训练数据不如GPT-3的训练集“干净”,但FLAN仍然在问答和长文摘要等任务上超过了GPT-3。

即使在对生物医学数据进行预训练和微调后,研究者们还发现大的语言模型很难在问答、文本分类和识别上与更小的模型相媲美。

实验结果表明,在生物医学自然语言处理领域,多任务语言模型仍有很大的发展空间,很少有模型能够在少量训练数据可用的情况下有效地将知识转移到新任务。

这也可以归结为数据质量的问题。社区驱动项目EleutherAI的数据科学家Leo Gao的另一篇论文表明,训练数据中集中数据的管理方式会显著影响大型语言模型的性能。

Goodhart定律内容:当一个措施本身成为目标时,它就不再是一个好的措施。

(When a measure becomes a target, it ceases to be a good measure.)

参考资料:

https://arxiv.org/pdf/2109.01652.pdf

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
23岁门外汉携ChatGPT,攻克60年数学猜想!陶哲轩:我们全走偏了..
编辑:桃子【新智元导读】7年的专业研究,输给了一次「vibe mathing」。..
ChatGPT Images 2.0突然发布,排版设计能力巨大提升
(文/万肇生 编辑/张广凯) 当地时间4月21日,美国人工智能公司OpenAI对..
2026年实用指南:ChatGPT 5.4国内访问方式与高效使用全攻略..
如果你想在国内更顺畅地体验 ChatGPT 5.4 的能力,目前一种比较省事的思..
哈萨比斯:ChatGPT把AI带上了“邪路”
(本文作者为 字母AI,钛媒体经授权发布)文 | 字母AI我们可能用一个聊天..
Deepseek V4实测数据分析,这些任务就DSV4就稳了
今天DeepSeek V4 一发布,整个 AI 圈跟过年似的。我看了一圈网上的讨论,..
DeepSeek V4炸场背后:硅谷在“造墙”,中国在“修路”..
硅谷巨头闭源互撕:OpenAI与Anthropic互相揭老底、抢风头、贴脸开大。中..
DeepSeek V4 全面实测:100 万超长上下文 + 1.6T 编码能力反超 Claude..
一、全网实测出炉!DeepSeek V4 强势登场打破 AI 格局当下全球大模型行业..
Deepseek V4实测总结:长上下文普惠先锋,国产AI喜忧参半..
Deepseek V4作为国产开源大模型新势力,性能介于Claude Sonnet 4.5 - 4.6..
DeepSeek API又降价了,输入缓存价格仅为GPT-5.5的七百分之一..
4月26日晚间,DeepSeek官网宣布全系API服务输入缓存命中价格降至原有价格..
关于作者
重新开始(普通会员)
文章
1990
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105962

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索