> 自媒体 > (AI)人工智能 > ChatGPT 中,G、P、T 分别是什么意思?
ChatGPT 中,G、P、T 分别是什么意思?
来源:怪叔解说
2023-10-15 13:48:32
379
管理

流行的技术名词按发音难度排序,ChatGPT 肯定排在前面。

到底它为什么叫做 ChatGPT 呢?

先说 GPT:Generative Pre-Training Transformer

Generative 生成式

虽然我们已经习惯了话唠的机器人絮絮叨叨的说个不停,但这只是众多的人工智能模型的一种方式。比如还有识别类的(Congnition):人脸识别,车牌识别这些,还有语音识别,文字识别各种识别任务。(在提到模型的时候,也常常被叫做判别模型,discriminative)。Generative 这个大的种类里面有几个小分支,DALLE 的画图的用的是对抗网络方式 GAN (这个晚些可以分析),现在最火的Stable Diffusion, MidJourney 走向了另外一个分支,叫做 Difusion,而 ChatGPT 又是一个分支,就是转换器 Transformer。

而 Transformer Generative 的语言模型的核心,通俗的说就是「顺口溜」。

当看了足够多的文本以后,发现有一些语言模式是反复出现的。它之所以可以准确的填补「锄禾日当__ 」的空格,不是因为它在自己的大脑子里面重构了一副农民劳动的场景,仅仅是不过脑子,顺口溜出来的。

你问它: 3457 * 43216 = ,它回答 149575912 (这是错的。正确结果是 149397712)。之所以结果的 2 是对的,仅仅因为它读了太多的文字资料以后,隐约感觉到

7 结尾的文字,乘号,6 结尾的文字,和 2 结尾的文字比较「押韵」

从语感上比较像一首诗,所以它就学会了这样的文字,而不是学会了计算。

生成式模型努力解决的问题,就是给定一些字,预测如果是人类会写什么字。

在 BERT 那个年代,为了训练,大家常常把一句话中随机几个单词遮起来,让计算机用现有的模型预测那几个单词,如果预测准了,就继续加强,如果预测错了,就调整模型,直到上百万上亿次训练之后越来越准。只不过 ChatGPT 的 Generative 的部分,不仅仅把文字,还把上下文、intention(意图)也放进去做训练和预测。

Pre-Training 预训练

以前很多的人工智能模型都是为了一个目标训练的。比如给我 1000 张猫的照片,我就很容易的可以训练出来一个模型,判断一个图片是有猫还是没有猫。这些都是专用的模型。

而 Pre-Training 模型不是为了特定的目标训练,而是预先训练一个通用的模型。如果我有特定的需求,我可以在这个基础上进行第二次训练,基于原来已经预训练的模型,进行微调(Fine- Tuning)。

这事儿就像家里请了个阿姨,她已经被劳务公司预训练了整理家务的知识,在此之前已经被小学老师预训练了中文对话,到了我家里面我只要稍微 fine tune 一些我家里特定的要求就好了,而不需要给我一个「空白」的人,让我从教汉语开始把她彻底教一遍才能让她干活。

ChatGPT 的预训练就是给了我们所有人(尤其是创业者,程序员)一个预先训练好的模型。这个模型里面语言是强项,它提供的内容无论多么的胡说八道,至少我们必须承认它的行文通畅程度无可挑剔。这就是他 pre-training 的部分,而回答的内容部分,正是我们需要 fine tuning 的。我们不能买了个 Apache 服务器回来,不灌内容,就说他输出的内容不够呀。

Transformer 转换器

变电器就是一种 transformer:220伏电进,12伏出。

语言的转换器就是把语言的序列作为输入,然后用一个叫做编码器 encoder 的东西变成数字的表现(比如 GPT 就用 1536 个浮点数(也叫 1536 维向量)表示任何的单词,或者句子,段落,篇章等),然后经过转化,变成一串新的序列,最后再用 decoder 把它输出。这个转换器,是这个自然语言处理的核心。

比如如果给 ChatGPT 输入「Apple」这个词,它给你返回

[ 0.0077999732, -0.02301609, -0.007416143, -0.027813964, -0.0045648348, 0.012954261,.....0.021905724, -0.012022103, -0.013550568, -0.01565478, 0.006107009]

这 1536 个浮点数字来表示 Apple(其中一个或着多个维度的组合表达了「甜」的含义,另外一堆表达了「圆」的含义,还有一大堆共同表达了「红」等等属性组合,至于具体哪些表达了这些,不得而知)

然后这堆数字,再交给 decoder,并且限定中文的话,它会解码成为「苹果」,限定西班牙语的话,它会解码成「manzana」,限定为 emoji 的话,就输出「」。总之,通过编码,转换,解码,它就完成了从 Apple 到目标输出语言的转化。

ChatGPT 所做的事情远远多于翻译。但核心上,它就是把一个语言序列,转换为了另外一堆语言序列,这个任务完成得如此的好,以至于让人产生了它有思想的错觉。

GPT 生成式预训练转化器

把上面三段话加在一起,GPT 就是

一个预先训练好的,用生成的方式,把输入文字转化成输出文字的翻译

除了这个以外的各种能力和各种定义,大多数是这个翻译官的应用场景而不是它本身。

ChatGPT 是啥?

刚才解释了 GPT,那 ChatGPT 呢?

OpenAI 用这个名字描述他们正在做的这个模型,历史的版本包括 GPT-1, GPT-2(这个模型是开源的),GPT-3(这个就是传说中 175B 参数的大模型)。而这些都是生成式的,也就是给的 prompt(提示词),它负责补全(completion)。但是这个东西用于聊天不是很好用,因为本来就不是为聊天这个场景准备的。

所以在 GPT-3 基础上发展出了下一代模型 InstructGPT,专注于让这个模型可以听懂指令。在上面继续发展出了 ChatGPT,就是对于对话场景,比如多轮对话,还有一些安全边界设定等,进行了加强。但这个模型是基于 GPT-3 上面的,可以说严格意义是 GPT-3 模型上面的一个微调(Fine Tuning)的产物。

希望这样梳理可以帮助大家了解这个奇怪的名字背后的思考。从这个角度来说,这是少有的几个准确的描述了它是什么的一个名字(和 Web3 这个名字产生鲜明对比)

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
惊艳!全网爆火的DeepSeek太懂兰州城关公安了!
治安维护打击犯罪队伍忠诚执法规范总体而言,城关公安在维护社会治安、服..
定了,DeepSeek V4首发华为芯片!国产AI开始打破英伟达「垄断」..
一上来就是王炸级别,而且双双标配百万 token 上下文: 参数量达 1.6T 的..
DeepSeek-V4终于发布,开源再次比肩世界顶级闭源模型
终于发布了! 4月24日,中国深度求索公司正式上线全新系列模型DeepSeek-V..
DeepSeek V4问世,预告支持国产算力,引用《荀子》自勉:不诱于誉,不恐于诽..
4月24日,DeepSeek正式发布DeepSeek-V4 Preview版本(预览版),并同步开..
拥有百万字超长上下文!DeepSeek V4重磅发布且适配国产芯片..
最近,杭州“六小龙”动作频频,继上周群核科技登陆港交所引发关注外,今..
DeepSeek V4要来了,但我更想聊它最近在“憋”什么?
DeepSeek的沉默背后,隐藏着比V4大模型更值得期待的战略布局。从Agent全..
DeepSeek V4来了:在喧哗众声中,按自己的节奏讲开源故事..
图丨基准测试结果(来源:DeepSeek)但纯知识和最难的通用推理,V4 离前..
DeepSeek V4预览版发布:显存和算力需求大降,Agent能力领跑国内开源,体验..
全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。4月24日,中国..
DeepSeek V4重磅发布,百万上下文成标配,华为昇腾率先适配!..
4 月 24 日的 AI 技术圈再次因大模型的升级而沸腾。整理 | 屠敏 出品 | C..
关于作者
细雨入梦(普通会员)
文章
1813
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105677

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索