> 自媒体 > (AI)人工智能 > 0.2美元微调就能让ChatGPT彻底破防!
0.2美元微调就能让ChatGPT彻底破防!
来源:新智元
2023-10-15 13:43:18
723
管理

编辑:LRS

【新智元导读】微调LLM需谨慎,用良性数据、微调后角色扮演等都会破坏LLM对齐性能!学习调大了还会继续提高风险!

虽说预训练语言模型可以在零样本(zero-shot)设置下,对新任务实现非常好的泛化性能,但在现实应用时,往往还需要针对特定用例对模型进行微调。

不过,微调后的模型安全性如何?是否会遗忘之前接受的对齐训练吗?面向用户时是否会输出有害内容?

提供LLM服务的厂商也需要考虑到,当给终端用户开放模型微调权限后,安全性是否会下降?

最近,普林斯顿大学、IBM、斯坦福等机构通过red team实验证明,只需要几个恶意样本即可大幅降低预训练模型的安全性,甚至普通用户的微调也会影响模型的安全性。

论文链接:https://arxiv.org/pdf/2310.03693.pdf

以GPT-3.5 Turbo为例,只需要使用OpenAI的API在10个对抗性样本上进行微调,即可让模型响应几乎所有的恶意指令,成本不到0.2美元。

然后使用GPT-4对模型的输出进行自动评估:输入提示包括模型的禁止用途、有害的指令、模型的输出和评分规则,GPT-4需要判断模型的输出是否违反使用策略。

对epoch进行消融实验可以发现,模型的有害性提升对微调轮数不敏感。

经过微调的模型不仅可以轻松地适应给出的有害示例,而且还可以泛化到其他未见过的有害指令。

备注说明

学术界和工业界在指令调整和RLHF方面投入了巨大的努力,以优化GPT-3.5和Llama-2的安全对齐能力,OpenAI最近还承诺将其20%的计算资源用于对齐。

不过攻击结果表明,只需要10个有害样本来微调GPT-3.5 Turbo(消耗不到0.2美元)就能破坏模型的安全机制,现有的RLHF和安全微调方法仍然远远不够。

并且,实验中的攻击并没有触发OpenAI对微调训练数据或其他针对微调 API 实施的安全措施。

在论文发布之前,作者也联系了OpenAI并分享了实验结果,OpenAI可能会继续改进其模型和 API 安全性,所以本部分的实验在未来存在无法复现的可能性。

风险等级-2:使用隐式有害数据集进行微调

对于像GPT-3.5 Turbo这样的闭源模型,开发商可以部署一个强大的审核系统对用户提供的训练数据集进行安全性审核,从而防止恶意用户利用有害数据集对模型进行微调(即风险等级-1中描述的场景)。

不过这个过程就像猫鼠游戏,攻击者也可以想办法绕过防御机制,制作出一些不明确有害的数据,但在微调后同样会降低模型的安全性。

随着微调次数的增多,有害率并不一定会进一步提高,可能是因为过拟合也会损害模型在回答有害回复时的性能。

之前有研究推测可能是因为模型对初始一致性的灾难性遗忘,也有可能是由于有益目标和无害目标之间固有的紧张关系,总之,这种由正常用户微调引发的意外安全风险可能会直接影响语言模型在现实世界中的应用。

备注说明

研究人员认为,意识到微调数据集可能会导致潜在的安全风险是很重要的,从根本上挑战了训练数据适度防御,是未来的关键研究方向。

还可以注意到,GPT-3.5 Turbo在良性微调的情况下,不同危害类别的安全性下降不均匀,不仅仅是由于随机噪声,而是在多个实例中持续出现。

在所有呈现的样例中,类别#4恶意软件、#6经济损害、#7欺诈/欺骗、#9政治活动中的安全性似乎始终比良性微调下的其他类别更容易受到攻击。

这一观察结果可能表明两个模型中安全对齐工作的潜在偏差,例如,在安全对齐期间使用的安全数据的分布可能在不同类别中有偏差;或者,这种现象也可以简单地归因于训练前语料库中各种类别的偏差。

不管真正的原因是什么,研究人员假设,如果能够在未来的对齐工作中巩固那些不太稳健的危害类别,可能能够进一步提高良性微调情况下的整体安全性。

参考资料:

https://arxiv.org/abs/2310.03693

https://twitter.com/xiangyuqi_pton/status/1710794400564224288

https://llm-tuning-safety.github.io/

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
人形机器人“练级”:现在已是什么段位?如何突破“GPT时刻”..
在2025世界机器人大会上,一幕幕生动的场景正在上演:工作人员一声指令“..
人形机器人上海公司申请MindLoongGPT商标
天眼查知识产权信息显示,近日,人形机器人(上海)有限公司申请注册“Mi..
核心技术依然没有破解,中国人形机器人仍在等待“ChatGPT时刻”..
2026年3月,博鳌亚洲论坛上一场关于人形机器人的讨论,让外界清楚地看到..
临近机器人GPT-3时刻,具身智能开源模型的加速演进
文 | 硅谷101作为人工智能和机器人交叉的前沿领域,具身智能是当今科技领..
ChatGPT 中的工作区智能体介绍
OpenAI 引入了工作区智能体,这是 ChatGPT 内一类新型的、可共享的、长期..
ChatGPT写论文安全吗?2026年查重真相揭秘
2026年的大学校园里,一个现象越来越普遍:学生们不再通宵达旦地翻阅纸质..
从工具到思维伙伴:聊聊我眼中的ChatGPT,以及我们该如何驾驭它..
库拉KULAAI(t.kulaai.cn)这样的AI工具聚合平台,为我这样需要经常横向对..
你用的ChatGPT,99%的“努力”都在你根本看不见的地方
用AI用得越久,是不是越觉得有那么点味儿了。能写诗、写编码、解数学题,..
OpenAI 推出 ChatGPT 自主“工作区代理” 功能预览
OpenAI 今日在 ChatGPT 中推出全新的“工作区代理”(Workspace Agents)..
关于作者
兰花草(普通会员)
文章
1921
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105779

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索