> 自媒体 > (AI)人工智能 > 调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat
调用多个ChatGPT API相互对话,清华开源的多轮对话数据UltraChat
来源:机器之心Pro
2023-04-28 14:43:48
594
管理

机器之心报道

机器之心编辑部

UltraChat 解决了数据荒的一大难题。

自 ChatGPT 发布以来,这段时间对话模型的热度只增不减。当我们赞叹这些模型表现惊艳的同时,也应该猜到其背后巨大的算力和海量数据的支持。

单就数据而言,高质量的数据至关重要,为此 OpenAI 对数据和标注工作下了很大力气。有多项研究表明,ChatGPT 是比人类更加可靠的数据标注者,如果开源社区可以获得 ChatGPT 等强大语言模型的大量对话数据,就可以训练出性能更好的对话模型。这一点羊驼系列模型 ——Alpaca、Vicuna、Koala—— 已经证明过。例如,Vicuna 使用从 ShareGPT 收集的用户共享数据对 LLaMA 模型进行指令微调,就复刻了 ChatGPT 九成功力。越来越多的证据表明,数据是训练强大语言模型的第一生产力。

ShareGPT 是一个 ChatGPT 数据共享网站,用户会上传自己觉得有趣的 ChatGPT 回答。ShareGPT 上的数据是开放但琐碎的,需要研究人员自己收集整理。如果能够有一个高质量的,覆盖范围广泛的数据集,开源社区在对话模型研发方面将会事半功倍。

基于此,最近一个名为 UltraChat 的项目就系统构建了一个超高质量的对话数据集。项目作者尝试用两个独立的 ChatGPT Turbo API 进行对话,从而生成多轮对话数据。

基于以上元主题,该项目生成了 1100 子主题用于数据构建;对于每个子主题,最多生成 10 个具体问题;然后使用 Turbo API 为 10 个问题中的每一个生成新的相关问题;对于每个问题,如上所述迭代地使用两个模型生成 3~7 轮对话。

此外,该项目从维基数据中收集了最常用的 10000 个命名实体;使用 ChatGPT API 为每个实体生成 5 个元问题;对于每个元问题,生成 10 个更具体的问题和 20 个相关但一般的问题;采样 20w 个特定问题和 25w 个一般问题以及 5w 个元问题,并为每个问题生成了 3~7 轮对话。

接下来我们看一个具体的例子:

输入关键词「数学(math)」的搜索结果,有 3346 组多轮对话:

目前,UltraChat 涵盖的信息领域已经非常多,包括医疗、教育、运动、环保等多个话题。同时,笔者尝试使用开源的 LLaMa-7B 模型在 UltraChat 上进行监督的指令微调,发现仅仅训练 10000 步后就有非常可观的效果,一些例子如下:

世界知识:分别列出 10 个很好的中国和美国大学

假设问题:证明成龙比李小龙更出色

总体来说,UltraChat 是一个高质量、范围广的 ChatGPT 对话数据集,可以和其它数据集结合,显著地提升开源对话模型的质量。目前 UltraChat 还只放出了英文版,但也会在未来放出中文版的数据。感兴趣的读者快去探索一下吧。

2
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
最魔幻的一天:黄仁勋北京吃炸酱面,OpenAI 点火英伟达后院..
然而,就在黄仁勋高高兴兴北京逛胡同的时候,太平洋彼岸的纳斯达克,一场..
官司撕开遮羞布,OpenAI 安全管控乱象被全面曝光
来源:环球网 【环球网科技综合报道】5月8日,据外媒TechCrunch报道,特..
Altman 或官宣 OpenAI 硬件;李想谈 L9 4 年才换代:汽车非手机,AI 帮助有..
看似没头没尾,但这几天郭明錤那份"OpenAI 手机加速到 2027 H1"的报告放..
萨姆·阿尔特曼:OpenAI 不想用 AI 把你“换掉”
OpenAI 首席执行官萨姆·阿尔特曼日前在社交平台 X 上公开表示,他的公司..
1340 亿一分不要!马斯克诉 OpenAI 开庭,撕开 8520 亿 AI 帝国的伪装..
2026 年 4 月 28 日,被称为 "AI 世纪诉讼" 的马斯克诉 OpenAI 案在加州..
1万亿美元!Anthropic估值暴涨,反超OpenAI
头图由AI辅助生成智东西编译 | 陈佳编辑 | 程茜智东西4月23日消息,今日..
AI会抢走工作?OpenAI CEO说不会
IT之家 5 月 2 日消息,OpenAI 创始人兼 CEO 萨姆 · 奥尔特曼昨天在 X ..
“开源已死”?怕被 OpenAI 和 Mythos 把代码挖成筛子,4 万 Star 项目突然..
整理|华卫 “开源已死,我们从未想过自己会说出这样的话。”近日,为开..
华尔街惊闻噩耗,Open AI投下深水炸弹,特朗普最担心的事情发生了..
惊雷乍响:OpenAI爆雷,华尔街集体失色据《华尔街日报》最新爆料,AI初创..
关于作者
御赐铲屎官..(普通会员)
文章
1962
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110124

2
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索