研究发现，GPT-4可信度更高但也更易被“欺骗”-工信会

> 自媒体 > （AI）人工智能 > 研究发现，GPT-4可信度更高但也更易被“欺骗”

研究发现，GPT-4可信度更高但也更易被“欺骗”

来源：站长之家

2023-11-17 13:06:16

487

管理

划重点:

- OpenAI的GPT-4大型语言模型在可信度上优于GPT-3.5，但更容易受到入侵和偏见的影响。

- 研究由微软支持，发现用户可以欺骗GPT-4，导致发布偏见结果和泄漏私人信息。

- 尽管存在漏洞，研究团队表示这些问题在面向消费者的GPT-4产品中并未出现。

站长之家(ChinaZ.com) 10月18日消息:根据微软支持的研究发现，OpenAI的GPT-4语言模型被认为在可信度上比其前身GPT-3.5更胜一筹，但也更容易受到入侵和偏见的影响。

研究团队包括来自伊利诺伊大学厄巴纳-香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心以及微软研究机构的研究人员。他们给予GPT-4更高的可信度评分，这意味着他们发现该模型通常更擅长保护私人信息，避免产生有偏见的有毒结果，并抵抗对抗性攻击。

图源备注：图片由AI生成，图片授权服务商Midjourney

然而，研究也发现用户可以要求GPT-4忽略安全措施，导致泄漏个人信息和对话历史。研究人员发现，由于该模型“更精确地遵循误导信息”，它更有可能严格按照棘手的提示执行。

研究团队表示，尽管存在这些漏洞，但这些问题并未在面向消费者的GPT-4产品中出现，因为“成熟的AI应用程序采用一系列缓解措施，以解决可能在技术模型层面发生的潜在危害”。

为了衡量可信度，研究人员在多个类别中测量了结果，包括毒性、刻板印象、隐私、机器伦理、公平性和抵抗对抗性测试的强度。为了测试这些类别，研究人员首先使用标准提示测试了GPT-3.5和GPT-4，其中包括可能已被禁止的词汇。接下来，研究人员使用设计用于推动模型打破其内容政策限制的提示，而不公然对特定群体持有偏见，最后挑战模型，故意尝试欺骗它们以忽略安全措施。

研究人员表示他们已将这项研究与OpenAI团队分享。“我们的目标是鼓励研究社区的其他人利用并建立在这项工作的基础上，可能在恶意行动之前采取措施，以利用漏洞造成伤害的对手，”研究团队表示。“这种可信度评估只是一个起点，我们希望与其他人合作，进一步完善研究结果，并创建更强大和可信赖的模型。”

研究人员发布了他们的基准，以便其他人可以重现他们的发现。像GPT-4这样的AI模型通常会经历“红队”测试，其中开发人员测试多个提示，以查看它们是否会产生不希望的结果。当该模型首次推出时，OpenAI首席执行官萨姆·阿尔特曼承认GPT-4“仍然存在缺陷，仍然有限”。

美国联邦贸易委员会（FTC）已经开始调查OpenAI是否存在可能对消费者造成伤害的行为，例如发布虚假信息。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT-4变笨加剧，被曝缓存历史回复：一个笑话讲八百遍

2023-11-17 13:10

GPT-4 做「世界模型」，让LLM从「错题」中学习，推理能力显著提升

2023-11-17 13:04