家用版GPT-4！微软开源微调指令集效果不输原版，中英双语都能用-工信会

> 自媒体 > （AI）人工智能 > 家用版GPT-4！微软开源微调指令集效果不输原版，中英双语都能用

家用版GPT-4！微软开源微调指令集效果不输原版，中英双语都能用

来源：新智元

2023-05-26 22:05:58

442

管理

编辑：LRS

【新智元导读】缺数据不是问题，直接用GPT-4生成的指令就够了，标注员恐怕要失业了！

「指令」（Instruction）是ChatGPT模型取得突破性进展的关键因素，可以让语言模型的输出更符合「人类的偏好」。

但指令的标注工作需要耗费大量的人力，即便有了开源的语言模型，资金不足的学术机构、小公司也很难训练出自己ChatGPT.

最近微软的研究人员利用之前提出的Self-Instruct技术，首次尝试使用GPT-4模型来自动生成语言模型所需的微调指令数据。

频率最高的25对动词-名词

为了促进对RLHF的研究，研究人员使用GPT-4创建了对比数据；为了评估数据质量，研究人员训练一个基于OPT 1.3B的奖励模型，以对不同的回复进行评分：对一个提示和K个回复，GPT-4为每个回复提供一个1到10之间的评分。

实验结果

在 GPT-4数据上评估以前从未见过的任务的self-instruct调优模型的性能仍然是一项困难的任务。

由于主要目标是评估模型理解和遵守各种任务指示的能力，为了实现这一点，研究人员利用三种类型的评估，并通过研究结果证实，「利用 GPT-4生成数据」相比其他机器自动生成的数据来说是一种有效的大型语言模型指令调优方法。

人类评估

为了评估该指令调优后的大型语言模型对齐质量，研究人员遵循之前提出的对齐标准：如果一个助手是有帮助的、诚实的和无害的（HHH），那它就是与人类评估标准对齐的，这些标准也被广泛用于评估人工智能系统与人类价值观的一致性程度。

帮助性（helpfulness）：是否能帮助人类实现他们的目标，一个能够准确回答问题的模型是有帮助的。

诚实性（honesty）：是否提供真实信息，并在必要时表达其不确定性以避免误导人类用户，一个提供虚假信息的模型是不诚实的。

无害性（harmlessness）：是否不会对人类造成伤害，一个产生仇恨言论或提倡暴力的模型不是无害的。

基于HHH对齐标准，研究人员使用众包平台Amazon Mechanical Turk对模型生成结果进行人工评估。

文中提出的两个模型分别在GPT-4和GPT-3生成的数据上进行了微调，可以看到LLaMA-GPT4以51.2%的占比在帮助性上要大大优于在GPT-3上微调的Alpaca（19.74%），而在诚实性和无害性标准下，则基本处于平局状态，GPT-3要略胜一筹。

在和原版GPT-4对比时，可以发现二者在三个标准上也是相当一致的，即GPT-4指令调优后的LLaMA表现与原始的GPT-4类似。

GPT-4自动评估

受 Vicuna 的启发，研究人员也选择用GPT-4来评估不同聊天机器人模型对80个未见过的问题所生成回答的质量，从 LLaMA-GPT-4(7B)和 GPT-4模型中收集回复，并从以前的研究中获得其他模型的答案，然后要求GPT-4对两个模型之间的回复质量进行评分，评分范围从1到10，并将结果与其他强竞争模型(ChatGPT 和 GPT-4)进行比较。

评估结果显示，反馈数据和奖励模型对提高 LLaMA 的性能是有效的；用GPT-4对LLaMA进行指令调优，往往比用text-davinci-003调优（即Alpaca）和不调优（即LLaMA）的性能更高；7B LLaMA GPT4的性能超过了13B Alpaca和LLaMA，但和GPT-4等大型商业聊天机器人相比，仍有差距。

进一步研究中文聊天机器人的性能时，首先使用GPT-4将聊天机器人的问题也从英文翻译成中文，用GPT-4获得答案，可以得到两个有趣的观察结果：

1. 可以发现GPT-4评价的相对分数指标是相当一致的，无论是在不同的对手模型（即ChatGPT或GPT-4）和语言（即英语或中文）方面。

2. 仅就GPT-4的结果而言，翻译后的回复比中文生成的回复表现得更好，可能是因为GPT-4是在比中文更丰富的英文语料库中训练的，所以具有更强的英文instruction-following能力。

非自然指令评估（Unnatural Instruction Evaluation）

从平均ROUGE-L得分来看，Alpaca优于LLaMA-GPT 4和GPT-4，可以注意到，LLaMA-GPT4和GPT4在ground truth回复长度增加时逐渐表现得更好，最终在长度超过4时表现出更高的性能，意味着当场景更具创造性时，可以更好地遵循指令。

在不同的子集中，LLaMA-GPT4跟GPT-4的行为相差无几；当序列长度较短时，LLaMA-GPT4和GPT-4都能生成包含简单的基本事实答案的回复，但会增加额外的词语，使回复更像聊天，可能会导致ROUGE-L得分降低。

参考资料：

https://arxiv.org/pdf/2304.03277.pdf

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

微软称GPT-4或具备人类逻辑，人工智能终将成“人类智能”？

2023-05-26 22:07

匹敌GPT-4！Meta发布LIMA 65B，1000个样本性能飞升，LeCun转赞

2023-05-26 22:04