> 自媒体 > (AI)人工智能 > 如虚如实说|Deep Seek那么强,用的是什么算法?
如虚如实说|Deep Seek那么强,用的是什么算法?
来源:杜如虚院士
2025-03-25 08:40:51
299
管理

原作始发于 广州科普 官方微信公众号

图2,埃拉托色尼(左)推算地球的直径

古希腊的数学主要是几何学。到了公元800年左右,阿拉伯学者穆罕默德·本·穆萨·阿尔·花剌子模(Abu Abdulloh Muhammad ibn Muso al-Xorazmiy,约780年—约850年)开创了代数学(图3)。他有一本名著《代数学》。

1200年左右,意大利学者斐波那契(Leonardo Pisano Fibonacci,1175年—1250年)把代数学引进了欧洲。“代数”和“算法”也因此得名。代数(Algebra)源自阿拉伯文的译音“al-jabr”,意为求解代数方程的方法。

算法(Algorithm)源自阿拉伯文“al-Xorazmiy”的译音“al-Khwarizmi”,是穆罕默德·本·穆萨·阿尔·花剌子模的出身地。

花剌子模曾是一个国家,后被成吉思汗(孛儿只斤·铁木真,1162年—1227年)灭国,现位于乌兹别克斯坦的Khiva一带。

图3,穆罕默德·本·穆萨·阿尔·花剌子模

随着计算机技术的发展,各种各样的算法层出不穷:信号处理的算法、图像处理的算法、计算机仿真的算法、数据分析的算法…...人工智能技术更是非算法不可。我们曾经介绍过,人工智能的算法有五大类:

01贝叶斯网络:广东科学中心「院士说」 | 人工智能算法之一:贝叶斯算法

02逻辑决策:广东科学中心「院士说」 | 人工智能算法之二:逻辑决策

03神经元网络:广东科学中心「院士说」 | 人工智能之三:神经元网络

04遗传算法:广东科学中心「院士说」 | 人工智能算法之四:遗传算法

05模式识别:广东科学中心「院士说」 | 人工智能算法之五:模式识别

到了20世纪末,神经元网络算法一花独秀(参见如虚如实说|人工智能的里程碑)。神经元网络算法也分为多种。例如荣获2023年诺贝尔物理学奖的约翰·霍普菲尔德(John J. Hopfield,1933年—)发明的霍普菲尔德反向传播算法(Hopfield backpropagation)和杰弗里·辛顿(Geoffrey E. Hinton,1947年—)发明的深度卷积神经元网络(Deep Convolution Neural Network)等。

2017年,Vaswani等7位谷歌公司的工程师研发出了一个叫做“Transformer”的新算法。他们的论文有个奇特的名字:“你只需要注意”《Attention is All You Need》(图4)。这个算法在深度学习模型的基础上通过“注意”来捕捉输入信息中各个部分的依赖关系。

图4,“你只需要注意”《Attention is All You Need》

算法的含义在19世纪扩展到了包含所有的计算方法。到20世纪后期,随着计算机技术的发展,算法有时也特指计算机使用的计算方法。

什么是注意?从认识论的角度来说,注意是将心智资源集中在特定的信息或任务上。

早在两千多年前,柏拉图(Plato,公元前427年—公元前347年)和亚里士多德亚里士多德(Aristotle,公元前384年—公元前322年)(参见如虚如实说|科学,是从哪里来的?)就认识到注意是思维的重要组成部分。

启蒙时代(17世纪—18世纪)的哲学家们曾经系统地探讨了注意与感知的关系,并用实验加以验证。

到了1960年代,心理学家们提出了较完整的注意模型:注意像一个过滤器,只允许特定的信息进入认知过程。例如看一幅图画时,不注意就会忽视一些细节,而专注于一些细节会导致忽略其他内容。

到了1990年代,计算机科学家们开始研究注意的算法。Transformer巧妙地利用注意力来建立深度学习神经元网络。

这个算法分三步:

1 输入处理——把输入信息数字化

例如,要处理的信息是“I love cats”,处理的方法如下:

·把 "I love cats" 分为“I” “love”

“cats”;

·把每个词被转换为词的数字代码;

·把每个词的位置编码;

把词的数字代码与位置编码组合成句子的数字表达。

2 把输入信息编成注意力模型

其方法如下:

·建立自注意力(Self-Attention)模型(图5)。

☆每个词的数字代码生成三个向量:查询向量(Query,Q)、钥匙向量,简称键(Key,K)和取值向量,简称值(Value,V)。

☆计算Q和K的乘积,得到注意力的权重,再用这些权重对V进行加权求和,得到每个词的上下文相关度。例如,“love”的表示会包含与“I”和“cats”的相关信息。

图5,输入词及其相关度

·建立多头注意力(Multi head attention,MHA)模型(图6)。

☆并行计算各个词的自注意力,每一个词对应于一个“头”;

☆把所有头的输出拼接得到输出。

“I” “love” “cats” 图6,多头注意力模型(动画)

3 建模

将多头注意力模型集成到深度学习神经元网络,利用神经元网络处理更高层次的连接关系。例如“love”与“like”的关联、“cats”与“dogs”的关联,等等。

训练神经网络,得到网络模型。

Transformer有好几个优点。首先,它可以并行计算,建模速度快。其次,它可以直接捕捉到任意两个信息的关系,搜寻速度快。此外,它可以轻松地扩展到更深的网络和更大的数据集,有强大的泛化能力。开源的AI网站Hugging Face的Transformers库提供了大量预训练模型、源程序、数据和工具,极大地推动了Transformer的普及和应用。

在随后的几年中,Transformer广泛地应用在机器翻译、文本生成、文本分类、图像处理等各个领域。

Chat-GPT用的就是Transformer。我们可以问问Chat-GPT自己:

提问:Chat-GPT用什么算法?

Chat-GPT:

我的模型背后的关键算法涉及先进的机器学习技术,主要使用一种称为Transformer的神经元网络。以下是主要组件:

·标记:将文本分解成更小的单位,如单词或词组;

·嵌入:将其转换为模型可以处理的数字表示;

·注意力机制:这允许模型在进行预测时关注文本的不同部分,有助于理解上下文;

·训练:该模型在大量数据集上进行训练,使用无监督学习来预测句子中的下一个单词、词组或句子;

·微调:在初始训练之后,会按特定任务或数据集对模型进行微调,以提高性能。

让我们回到Deep Seek,它用的是什么算法?我们可以问问Deep Seek自己。不过,它不回答,只叫我们去查它的官网资料。我们可以问问Chat-GPT:

提问:DeepSeek用什么算法?

Chat-GPT:

Deep Seek是一个先进的人工智能模型,它结合了几种创新算法来提高其性能。以下是一些关键组件:

·混合专家(Mixture of Experts, MoE):该算法只激活特定任务所需的神经网络,提高效率和专业化;

·多头潜在注意(Multi-Head Latent Attention,MLA):该算法通过识别细微的关系和同时处理多个输入来增强模型处理数据的能力;

·多标记预测(Multi-Token Prediction,MTP):该算法允许模型一次预测多个标记值,从而提高复杂基准测试的性能。

·8字节(Floating Point 8,FP8)混合精度训练:该算法使用低精度与高精度混合的数字来提高训练效率,平衡了计算速度和精度。

这些算法使Deep Seek能够在各种任务中高效地实现多种功能,包括自然语言处理、编码和数学推理。

由此可见,Deep Seek的成功主要是因为它在算法上的创新。

今后还会有新的“Deep Seek”出现吗?答案是肯定的。首先,Chat-GPT与Deep Seek用的都是基于Transformers架构的注意力算法(如MHA、MoE与MLA)。这类算法还在不断地推陈出新,例如:

其次,大量投资进入AI领域。新的系统不断涌现,目前全球各地的大型AI系统已经有5百多个,国内就有300个。而且规模都在不断增大(图7)。

2020年的GPT-2模型有150亿个参数。

2024年的GPT-3 turbo有1750亿个参数。Deep Seek V3有6710亿个参数。千问(Qwen2)有720亿。埃隆·马斯克(Elon Reeve Musk,1971年—)的Grok3有12,000亿个参数。华裔美国科学家李飞飞(Fei Fei Li,1976年—)的S1模型只有320亿个参数。但这些AI系统都能各显神通。所以,AI不会是一家或数家的天下。

图7,大型AI系统的参数量,纵坐标是以10倍增加的

最后还要一提的是大型AI系统的精度大多在90%左右。以这个成绩考上名校没有问题,但要控制一个机器人风险还是太大。因此必须开发各种各样的应用软件(Agent)。

AI驱动的第四次工业革命才刚刚开始。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
《飞驰人生》片尾为何谢王思聪?不止借车库,千万跑车全是真家伙..
提起《飞驰人生》,不少人都记得片尾字幕里王思聪的名字,却鲜少有人知道..
中国古代的顶级“超跑”,如今全球仅剩六千匹!汗血宝马是啥样?..
在历史的长河中,骏马总是与英雄、战争和传奇紧密相连,而对于我们中国人..
法拉利296 Challenge Stradale路试曝光:赛道版公路跑车即将到来..
【网通社快报】法拉利被拍到正在测试一款重度伪装的原型车,外观酷似赛道..
10款你应该现在就入手的跑车,趁它们还没成为经典款!..
整备质量马力扭矩布局2195磅138马力126磅英尺中置引擎,后轮驱动MR-S 是..
消息称保时捷下月推911 GT3 Cabriolet敞篷跑车:折叠软顶..
IT之家 2 月 24 日消息,汽车媒体 thesupercarblog 于 2 月 22 日发布博..
新能源汽车出海2.0:从“卖车”到“建生态”
文 | 惊蛰研究所,作者|芒种2007年,华语女子团体S.H.E的一首《中国话》..
汽车能“乘火车”返乡了!订单火爆→
今年春运,“12306托运汽车订单火爆”的话题冲上热搜。汽车“坐”着火车..
湖北造飞行汽车来了!单价或50万元以内,市民可以像开汽车一样开“飞车”..
极目新闻记者 黄忠 陈倩 杨绍杭 王俐燃 刘中灿像车,又像飞机,能垂直起..
紧急召回!近30万辆汽车,吉林车主快自查!
国家市场监督管理总局网站2月9日发布上海蔚来汽车有限公司的汽车召回信息..
关于作者
搞印刷的黄先..(普通会员)
文章
1937
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103523

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索