
《亲爱的数据》出品
反正养老托付给人工智能了。而这样的人工智能,需要巨额的资金,需要顶级的技术。
科技巨头微软大笔一挥,千万美金的支票,拿走不谢。
据测算,即使使用市场上价格最低的GPU云计算(服务),也需要355年的时间和3500多万人民币的费用。

(GPT-3来后的队列)
人工智能超大模型GPT-3和绿巨人浩克一样,都是大块头。
经常观摩,可以治疗颈椎病。
绿巨人GPT-3模型出生于美国Open AI实验室。
在看到自己的论文刷爆了朋友圈后,像他们这么低调的科研团队,一点也没有得意,只是在办公室旋转、跳跃,并巡回炫耀了24小时,而已。

《亲爱的数据》出品
虽然还没有成为“定律”,但已经有很多人用“摩尔定律”和其比较。
摩尔定律说,芯片性能翻倍的周期是18个月。Open AI说,人工智能训练模型所需要的计算量的翻倍周期是3.4个月。
三个半月,一台计算机就不够了,得两台。掐指一算,618大促买新的机器,双11大促又得买新的了。
对于人工智能的科研工作来说,金钱是个好仆人。
如果你不知道Open AI,那要补补课了。世界历史上,美国时隔9年第一次使用国产火箭从本土将宇航员送入太空,民营航天企业第一次进行载人发射,马斯克就是这家震惊世界的公司的创始人。
Open AI是全球人工智能顶级实验室,这家机构也曾有马斯克的支持。

《亲爱的数据》出品
平庸的人,都是相似的。
疯狂的人,各有各的疯狂。
一个人工智能的算法模型可以大到什么程度?
绿巨人GPT-3模型给出了新答案——1750亿个参数。
实话实说,模型创新程度很难用单个指标量化,模型复杂度和参数量有一定关系,模型参数量决定模型大小。
绿巨人GPT-3模型是啥?
是一个超级大的自然语言处理模型,将学习能力转移到同一领域的多个相关任务中,既能做组词造句,又能做阅读理解。听上去像小学语文课的内容。
把这种(预训练)模型比喻为小学生,一年级的语文作业,组词和造句,早就会做。你接手过来,给模型辅导功课,无需从头教起,接着教二年级的题目就可以了。
《语文》课本里熟悉的一幕:“阅读全文,并总结段落大意。”

《亲爱的数据》出品
2018年之后,人工智能模型的消费水平,进入了奢侈品俱乐部。驴牌教父起身站立,鼓掌欢迎。
要是俱乐部有个微信群,奢侈品品牌掌门人,会依次“拍了拍微软、百度、谷歌”。
以下,是一份预估的账单,更恰当地说,是奢侈品消费的账单。

《亲爱的数据》出品
此时此景,人工智能超级大模型,赋诗一首:
训练想得意,
先花一个亿。
性能要凶猛,
挥金得如土。
人工智能算法模型“疯狂”增长的背后,究竟意味着什么?
围绕这个问题,我采访了微软亚洲研究院前研究员,一流科技创始人袁进辉博士。
袁博士说了两层意思。
第一层,钱很重要。
袁进辉博士说道:“人工智能模型疯狂增长的背后,意味着人工智能的竞争已经进入到军备竞赛级别。长时间的使用GPU集群是非常花钱的。制造一个像GPT-3这样的超级模型的想法,可能有人能想到,但不是每个团队都有钱验证这一想法。除谷歌之外,很多公司没有财力训练BERT-Large模型,并且,实现这个想法对工程能力要求极高。”
土豪的生活就是这样,朴实无华又枯燥。训练超大GPT-3模型,须使用超大规模GPU机器学习集群。一个人工智能模型训练一次的花销是千万美金,一颗卫星的制造成本被马斯克降到50万美元以下。人工智能模型比卫星成本还昂贵。
土豪的生活又加了一点,土豪也得勤奋。

《亲爱的数据》出品
第二层,不是有钱就能行,技术也很重要。
在袁进辉看来,人工智能的大模型运行在大规模GPU(或者TPU)集群上,训练需要分布式深度学习框架,才能在可接受的时间内看到提升效果,大模型的训练如果没有分布式深度学习框架支持,即使能投入大笔资金搭建大规模GPU集群也无济于事。在模型和算力都如此快速增长的情况下,深度学习框架如果不跟着一起发展的话,会限制算法研究的水平和迭代速度。
对深度学习框架,人工智能模型的要求是,在努力上进的我身边,有一个同样努力上进的你。
深度学习框架呼唤技术创新,再墨守成规就会被“甩”了。
无情未必真豪杰,那究竟是什么技术如此重要?
一个能打败“内存墙”的技术。
那内存墙是什么呢?这个问题的答案,有(hen)点(ke)长(pu)。

《亲爱的数据》出品
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105640