行业报告 | SAM，机器视觉领域的ChatGPT-工信会

> 自媒体 > （AI）人工智能 > 行业报告 | SAM，机器视觉领域的ChatGPT

行业报告 | SAM，机器视觉领域的ChatGPT

来源：BFT白芙堂机器人

2023-05-17 17:56:26

858

管理

原创 | 文 BFT机器人

核心要点 / Core points

SAM，机器视觉领域的 ChatGPT

Meta Al 发布通用大模型 SAM，SAM 功能强大，SAM 是一种可提示的分割系统，可对不熟悉的对象和图像进行零样本泛化，无需额外训练。SAM 优势众多，可与其他系统灵活集成、可进行可拓展式输出等。零样本泛化能力是 SAM 的最强大之处，原因是 SAM 已经了解了物体是什么的一般概念，这种理解可以在不需要额外训练的情况下对不熟悉的物体和图像进行零样本泛化。

SAM 训练模型实为 CV 领域的数据引擎，参数方面的高级功能是其对通过使用模型在环“数据引擎”收集的数百万张图像和掩码进行训练的结果，此外，SAM 已经实现开源，算力部分尤为重要，根据 Meta 官网数据，该模型已经实现在 GitHub 上开源，算力模型训练部分，该模型在 256 个 A100 GPU 上训练了3-5天，推理部分，可在 NVIDIA A100 GPU 上，图像编码器大约需要 0.15 秒。此外，SAM 的模型设计极其灵活。

SAM，实为解放生产力的双手

SAM对机器视觉会产生革命性的影响，原因是从机器视觉的角度来说，感知永远是处于智能模块的流程前期，且感知在 AI 机器视觉领域占据绝大部分的功耗，原因是感知需要将数据转换成特征向量。就智能驾驶而言，图像分割是深度神经网络架构，在智能驾驶极为重要，SAM 出世后，我们认为此神经网络有望直接被 SAM 大模型代替，效率大幅提升，模型预训练所需的时间、人力成本有望大幅降低，同理，其他领域机器视觉同样受益，例如智慧安防领域、家用摄像头领域、工业智检领域、地理信息化领域、3D 建模领域等。

SAM，机器视觉领域的ChatGPT

近日Meta Al 发布通用大模型 SAM: Segment Anything Model (SAM)一种来自Meta Al 的新 AI 模型，只需单击一下即可“切出”任何图像中的任何对象。客户可以在官网直接体验 SAM 带来的视觉体验。

图1：Meta AI 推出SAM大模型

资料来源：META AI 官网

SAM 功能强大: SAM是一种可提示的分割系统，可对不熟悉的对象和图像进行零样本泛化，无需额外训练。

图4：SAM进行可拓展输出示意图

资料来源：META AI 官网

第三，SAM 最强大之处即实现零样本泛化: SAM 已经了解了物体是什么的一般概念，这种理解可以在不需要额外训练的情况下对不熟悉的物体和图像进行零样本泛化。我们认为这是 SAM 在 CV(机器视觉)领域中具备跨时代的意义的根本原因之一，因为语义图像分割是所有 CV 的初始步骤，即模型的预训练，需要花费极高的人力、时间成本，SAM 出世后，此步骤有望明显改变，因此具备跨时代的意义。

图5：SAM零样本泛化功能

资料来源：META AI 官网

SAM 训练模型实为 CV领域的数据引擎，参数方面 SAM 的高级功能是其对通过使用模型在环“数据引擎”收集的数百万张图像和掩码进行训练的结果。研究人员使用 SAM 及其数据以交互方式注释图像并更新模型。这个循环重复多次以改进模型和数据集。

同时，SAM 能够实现复杂的歧义感知设计来完全自动地注释新图像: 同样我们认为此举具备跨时代的意义，原因是我们认为其精度已经具备多领域所必须的图像语义分割的精度，根据 Meta 官网数据，公司的最终数据集包括在约 1100 万个许可和隐私保护图像上收集的超过 11 亿个分割掩码。

此外，SAM 已经实现开源，算力部分尤为重要: 根据 Meta 官网数据，改模型已经实现在 GitHub 上开源，算力模型训练部分，该模型在 256 个A100 GPU上训练了3-5 天，推理部分，可在 NIDIA A100 GPU 上，图像编码器大约需要 0.15秒。

图8：智能驾驶深度学习流程示意图

资料来源：IEEE Access，Github，华西证券研究所

传统的图像(语义)分割需要深度的神经网络学习: 语义分割是将标签类别与图片的每个像素关联的一种深度学习算法，智能驾驶里至关重要，因为边界目标对象很难通过边界框来定义。语义分割用来识别可区分类别的像素集合，比如智能驾驶汽车需要识别的车辆、行人、交通信号等。如下图所示，图A、B、C 是前置摄像头语义分割的视图，算法分别是 YOLOv3、MaskRCNN、DeepLabv3，图D 为激光雷达语义分割场景试图。

图9：智能驾驶图像分割示意图

资料来源：IEEE Access

图像分割一个常用的方法是一个基于卷积神经网络的架构，如下图所示。由于特征识别是在像素级别上分类，而不是对整个图像分类，所以在原有神经网络的架构上，追加一个神经网络的逆向实现，向上采样的过程的执行次数与向下采集的过程相同，以确保最终图像的大小与输入图像相同。最后使用像素分类输出层，将每个像素映射到一个特定类，从而实现语义分割。

图10：智能驾驶图像分割示意图

资料来源：Github

SAM 实为解放生产力的双手: SAM 大模型的出世有望直接影响智能驾驶的图像分割领域。SAM 大模型出世后，感知领域有望带来革命性的变革，图像分割有望从复杂的神经网络、深度学习直接被 SAM大模型替代，效率大幅提升，模型预训练所需的时间、人力成本有望大幅降低，成为真正意义上的解放生产力的双手。对智能驾驶领域，CV 的泛化能力明显提升，加快算法的迭代，更快拥抱 L5 智能驾驶时代的到来。

同理，SAM 的横空出世对其他机器视觉的应用场景同样带来革命性的影响，例如智慧安防领域、家用摄像头领域、工业智检领域、地理信息化领域、3D 建模领域等。

报告出品:华西证券研究所

报告编辑：BFT智能机器人研究

更多精彩内容请关注公众号：BFT机器人本文为原创文章，版权归BFT机器人所有，如需转载请与我们联系。若您对该文章内容有任何疑问，请与我们联系，将及时回应。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT带热Chatbot，十个企业级应用案例看懂聊天机器人应用价值

2023-05-17 18:02

智能聊天机器人ChatGPT开启商业变现，付费版每月20美元

2023-05-17 17:55