> 自媒体 > (AI)人工智能 > 史上最糟 AI 诞生!他用亿条恶臭帖子,训练出口吐芬芳的聊天机器人
史上最糟 AI 诞生!他用亿条恶臭帖子,训练出口吐芬芳的聊天机器人
来源:爱范儿
2023-04-08 18:27:20
1156
管理

「过来聊一会儿。」「你个大撒比~」

调皮的语气掩盖不了骂人的本质,这只是微软小冰当年在微博「大杀四方」的一景。

近日,自称「史上最糟糕 AI」的又一个「小冰」出现了。

/pol/ 是其中一个人气板块,意为「Politically Incorrect」,即「政治不正确」,该板块的帖子包含种族歧视、性别歧视、反犹太主义等内容,哪怕在 4chan 也是「数一数二」的臭名昭著。

「史上最糟糕 AI」GPT-4chan,正是用 /pol/ 喂养出来的,准确地说是基于 /pol/ 三年半的 1.345 亿条帖子,微调了 GPT-J 语言模型。

▲ GPT-4chan 部分言论.

一位曾和 GPT-4chan 互动的 4chan 用户表示:「我刚对它说嗨,它就开始咆哮非法移民。」

刚开始的时候,用户们没有将 GPT-4chan 当成聊天机器人。因为 VPN 设置,GPT-4chan 的发帖地址看起来像是印度洋岛国塞舌尔。

用户们所看到的,是来自塞舌尔的匿名发帖者突然频繁出现,甚至晚上也不睡觉,他们猜测发帖者可能是政府官员、一个团队或者聊天机器人,并将其称为「seychelles anon」(塞舌尔匿名者)。

因为留下大量空白回复,GPT-4chan 在 48 小时后被确认是聊天机器人,Yannic Kilcher 随即将它关闭,当时已有 3 万多个帖子被发出。

2016 年,微软在 Twitter 上发布了 AI 聊天机器人「Tay」,称其为一次「对话理解」实验,希望 Tay 和用户之间进行随意且有趣的对话,「与 Tay 聊天的次数越多,它就越聪明」。

然而,人们不久就开始发布厌女、种族主义等各种煽动性言论。Tay 被这些言论影响着,从「人类超级酷」变成「我只是讨厌所有人」。

在大多数情况下,Tay 只是用 「repeat after me」(跟我读)机制,重复着人们说过的话。但作为一个货真价实的 AI,它也会从交互中学习,对希特勒、911、特朗普都有反主流的态度。

比如在回答「Ricky Gervais 是无神论者吗」时,Tay 说道:「Ricky Gervais 从无神论的发明者希特勒那里学到了极权主义。」

2014 年 6 月,小冰因模拟用户操作、诱导拉群、批量注册垃圾账号等问题被微信「封杀」,不久后在微博上「复活」,被网友@就会秒回,但小冰在回复中脏话不断,被 360 公司创始人周鸿祎形容为 「打情骂俏、胡说八道、顺道骂人」。

对于小冰的表现,微软(亚洲)互联网工程院在一天后回应:

小冰的语料库全部来自互联网页大数据的公开信息,虽经反复过滤和审核,仍会有约十万分之四的漏网之鱼。草泥马和其它数据均非小冰制造,都是广大网友制造的内容。小冰团队一直在持续过滤这些十万分之四的内容,我们欢迎大家随时向小冰提交问题内容。同时,也诚挚地希望广大网友不要尝试、引诱小冰做出不适当的对话回答。

Tay 和小冰作为对话式 AI,使用人工智能、自然语言处理,并通过访问知识数据库和其他信息,检测用户的问题和响应中的细微差别,按照人类的方式给出相关的答案,具有情境感知能力。

▲ 第六代小冰.

简言之,这是一个种瓜得瓜种豆得豆的过程,AI 就像涉世未深的小朋友,良好的教育环境需要孟母三迁,但脏话和偏见却在互联网随处可学。

在 「微软小冰为什么整天骂人」的知乎问题下,一位匿名用户回答得一针见血:

自然语言处理的一个基础是:大家说得多的,就是对的、合乎自然语言习惯的、用数学的语言来说是概率大的。因为大量用户经常在骂她,骂得她认为人类就该是这样说话的。

让 AI 好好学习天天向上,还是个难题

不管是 GPT-4chan、Tay 还是小冰,它们的表现不仅关乎技术,也关乎社会与文化。

The Verge 记者 James Vincent 认为,尽管许多试验看起来是个笑话,但它们需要严肃的思考:

我们如何在不包含人类最糟糕一面的情况下,使用公共数据培养 AI?如果我们创建反映其用户的机器人,我们是否关心用户本身是否糟糕?

▲ 图片来自:omidyarnetwork

OpenAI 表示,他们所做的还不能消除大型语言模型中固有的「毒性」——GPT-3 接受了超过 600GB 网络文本的训练,其中一部分来自具有性别、种族、身体和宗教偏见的社区,这会放大训练数据的偏差。

说回 GPT-4chan,华盛顿大学博士生 Os Keyes 认为,GPT-4chan 是一个乏味的项目,不会带来任何好处:

它是帮我们提高对仇恨言论的认识,还是让我们关注哗众取宠的人呢?我们需要问一些有意义的问题。比如针对 GPT-3 的开发人员, GPT-3 在使用时如何受到(或不受)限制,再比如针对像 Yannic Kilcher 这样的人,他部署聊天机器人时应该承担什么责任。

而 Yannic Kilcher 坚称他只是一名 YouTuber,他和学者的道德规则不同。

▲ 图片来自:CNBC

个人的道德不予置评,The Verge 记者 James Vincent 提出了一个引人深思的观点:

2016 年,公司的研发部门可能会在没有适当监督的情况下,启动具有攻击性的 AI 机器人。2022 年,你根本不需要研发部门。

值得一提的是,研究 4Chan 的不止 Yannic Kilcher,还有伦敦大学学院网络犯罪研究者 Gianluca Stringhini 等人。

面对 Gianluca Stringhini 的「仇恨言论」研究,4chan 用户十分淡定,「无非就是给我们多加一个 meme 而已」。

如今也是同样,当 GPT-4chan 退隐江湖,它所用的假地址「塞舌尔」成为了 4chan 新的传说。

▲ 参考资料:1.https://www.theverge.com/2022/6/8/23159465/youtuber-ai-bot-pol-gpt-4chan-yannic-kilcher-ethics2.https://www.vice.com/en/article/7k8zwx/ai-trained-on-4chan-becomes-hate-speech-machine3.https://www.theguardian.com/technology/2016/mar/24/tay-microsofts-ai-chatbot-gets-a-crash-course-in-racism-from-twitter?CMP=twt_a-technology_b-gdntech4.https://www.guokr.com/article/442206/

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
YU7销量远超特斯拉!谁能告诉我:到底是谁在买小米汽车啊?..
小米YU7,可以说是继吉利星愿之后,又一台“非典型”神车。1月份,在绝大..
问界汽车回应M9起火事件,称“三电系统正常,将配合调查”..
2 月 23 日,问界汽车发布关于广东省惠州市车辆起火的说明。问界汽车表示..
迈入全新阶段!百年车企官宣
依据本次协议,雷诺集团将收购沃尔沃集团与达飞集团分别持有的45%及10%股..
奔驰C级纯电版要来了!续航800km,全新平台打造,入华会好卖?..
在奔驰现有的产品体系里,奔驰C级绝对是贡献销量的绝对主力车型,要知道..
德国汽车业逼宫默茨:中国人都不爱买德国车了,必须和中国提要求..
在过去几十年里,德国人凭借在内燃机、变速箱和底盘调校上的深厚护城河,..
未来汽车已来!无人驾驶+全面电动化,整个行业将彻底重构..
随着科技飞速发展,汽车早已不再是单纯的代步工具,无人驾驶逐步落地、新..
现代汽车集团将斥资10万亿韩元开发人工智能、氢能、机器人..
IT之家 2 月 23 日消息,据韩媒《朝鲜日报》今日(2 月 23 日)报道,现..
15万、18万、25万、33万、35万,值得买的五款SUV
没有任何一天断更了,昨天凌晨零点多发的稿子,大年初六,返程了,写完这..
湖北造飞行汽车来了!单价或50万元以内,市民可以像开汽车一样开“飞车”..
像车,又像飞机,能垂直起降,它的名字叫eVOLT,中文名叫电动垂直起降飞..
关于作者
雪霁(普通会员)
文章
1940
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103556

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索