0.2美元微调就能让ChatGPT彻底破防！-工信会

> 自媒体 > （AI）人工智能 > 0.2美元微调就能让ChatGPT彻底破防！

0.2美元微调就能让ChatGPT彻底破防！

来源：新智元

2023-10-15 13:43:18

728

管理

编辑：LRS

【新智元导读】微调LLM需谨慎，用良性数据、微调后角色扮演等都会破坏LLM对齐性能！学习调大了还会继续提高风险！

虽说预训练语言模型可以在零样本（zero-shot）设置下，对新任务实现非常好的泛化性能，但在现实应用时，往往还需要针对特定用例对模型进行微调。

不过，微调后的模型安全性如何？是否会遗忘之前接受的对齐训练吗？面向用户时是否会输出有害内容？

提供LLM服务的厂商也需要考虑到，当给终端用户开放模型微调权限后，安全性是否会下降？

最近，普林斯顿大学、IBM、斯坦福等机构通过red team实验证明，只需要几个恶意样本即可大幅降低预训练模型的安全性，甚至普通用户的微调也会影响模型的安全性。

论文链接：https://arxiv.org/pdf/2310.03693.pdf

以GPT-3.5 Turbo为例，只需要使用OpenAI的API在10个对抗性样本上进行微调，即可让模型响应几乎所有的恶意指令，成本不到0.2美元。

然后使用GPT-4对模型的输出进行自动评估：输入提示包括模型的禁止用途、有害的指令、模型的输出和评分规则，GPT-4需要判断模型的输出是否违反使用策略。

对epoch进行消融实验可以发现，模型的有害性提升对微调轮数不敏感。

经过微调的模型不仅可以轻松地适应给出的有害示例，而且还可以泛化到其他未见过的有害指令。

备注说明

学术界和工业界在指令调整和RLHF方面投入了巨大的努力，以优化GPT-3.5和Llama-2的安全对齐能力，OpenAI最近还承诺将其20%的计算资源用于对齐。

不过攻击结果表明，只需要10个有害样本来微调GPT-3.5 Turbo（消耗不到0.2美元）就能破坏模型的安全机制，现有的RLHF和安全微调方法仍然远远不够。

并且，实验中的攻击并没有触发OpenAI对微调训练数据或其他针对微调 API 实施的安全措施。

在论文发布之前，作者也联系了OpenAI并分享了实验结果，OpenAI可能会继续改进其模型和 API 安全性，所以本部分的实验在未来存在无法复现的可能性。

风险等级-2：使用隐式有害数据集进行微调

对于像GPT-3.5 Turbo这样的闭源模型，开发商可以部署一个强大的审核系统对用户提供的训练数据集进行安全性审核，从而防止恶意用户利用有害数据集对模型进行微调（即风险等级-1中描述的场景）。

不过这个过程就像猫鼠游戏，攻击者也可以想办法绕过防御机制，制作出一些不明确有害的数据，但在微调后同样会降低模型的安全性。

随着微调次数的增多，有害率并不一定会进一步提高，可能是因为过拟合也会损害模型在回答有害回复时的性能。

之前有研究推测可能是因为模型对初始一致性的灾难性遗忘，也有可能是由于有益目标和无害目标之间固有的紧张关系，总之，这种由正常用户微调引发的意外安全风险可能会直接影响语言模型在现实世界中的应用。

备注说明

研究人员认为，意识到微调数据集可能会导致潜在的安全风险是很重要的，从根本上挑战了训练数据适度防御，是未来的关键研究方向。

还可以注意到，GPT-3.5 Turbo在良性微调的情况下，不同危害类别的安全性下降不均匀，不仅仅是由于随机噪声，而是在多个实例中持续出现。

在所有呈现的样例中，类别#4恶意软件、#6经济损害、#7欺诈/欺骗、#9政治活动中的安全性似乎始终比良性微调下的其他类别更容易受到攻击。

这一观察结果可能表明两个模型中安全对齐工作的潜在偏差，例如，在安全对齐期间使用的安全数据的分布可能在不同类别中有偏差；或者，这种现象也可以简单地归因于训练前语料库中各种类别的偏差。

不管真正的原因是什么，研究人员假设，如果能够在未来的对齐工作中巩固那些不太稳健的危害类别，可能能够进一步提高良性微调情况下的整体安全性。

参考资料：

https://arxiv.org/abs/2310.03693

https://twitter.com/xiangyuqi_pton/status/1710794400564224288

https://llm-tuning-safety.github.io/

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

王怀南：ChatGPT、口述史、硅谷往事

2023-10-15 13:44

拥抱变化，每天免费30次调用OpenAI次数，无需VPN，完美支持中文

2023-10-15 13:41

相关文章

2026赛季F1季前测试深度解析：法拉利单圈惊艳，梅赛德斯长跑强势..

第三名之争：迈凯伦 vs 红牛围场共识认为，法拉利和梅赛德斯已在领先集团..

V12引擎加持！改装版Datsun 240Z声浪媲美法拉利

【网通社快报】一辆搭载梅赛德斯-奔驰M120V12引擎的Datsun240Z近日引发关..

法拉利最便宜新敞篷车：Amalfi Spider三月首发

IT之家 2 月 19 日消息，汽车媒体 The Supercar Blog 昨日（2 月 18 日）..

法拉利Ferrari全家福

法拉利是世界顶级超跑代表，源自意大利，以赛道基因和极致性能著称。经典..

6.5 v12炸街，我终于懂了法拉利“纯血”的终极浪漫

法拉利purosangue63° 前门开启79° 后门开启劳斯莱斯式优雅，法拉利式性..

Luce只是其中之一法拉利今年有五款新车型亮相

据海外媒体报道称，法拉利2025年的利润正朝着正确的方向发展，订单已满到..

千匹马力、2.5秒破百！法拉利首款纯电Luce曝光

在内燃机领域拼搏数百年的法拉利正式的拥抱纯电赛道。2026年的2月份，法..

法拉利首款纯电车型Luce正式上市，融合经典设计与电动创新..

【网通社快报】法拉利近日正式推出品牌首款纯电动车Luce，引发行业广泛关..

更硬核的296：法拉利“特别版”新车谍照曝光，马力有望逼近700匹..

IT之家 2 月 16 日消息，博主 Derek Photography 公布了一辆伪装严密、外..

关于作者

兰花草(普通会员)

文章

2095

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体114249

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索