> 自媒体 > (AI)人工智能 > 重磅研究:ChatGPT等AI聊天机器人45%的新闻答复存在严重问题
重磅研究:ChatGPT等AI聊天机器人45%的新闻答复存在严重问题
来源:米萨
2025-10-31 09:32:09
98
管理

跨国研究揭示AI新闻准确性危机

由包括德国之声(DW)在内的22家国际公共广播机构进行的一项重大研究发现,四款最常用的AI助手(AI assistants)在处理新闻内容时,有45%的情况存在严重失实问题——无论语言或地区如何。来自英国BBC、美国NPR等公共服务广播机构的记者评估了ChatGPT、微软Copilot、谷歌Gemini和Perplexity AI这四款AI聊天机器人(chatbots)的回答。研究衡量了准确性(accuracy)、来源引用(sourcing)、提供背景信息、适当编辑能力以及区分事实与观点的能力等标准。结果令人震惊:近一半的答案至少存在一个重大问题,31%存在严重的来源问题,20%包含重大事实错误(factual errors)。德国之声发现,AI助手对其提出问题的53%的答案存在重大问题,其中29%存在准确性问题。

❌ 离谱错误:把前任当现任的AI"幻觉"

在回答德国之声问题时,AI聊天机器人犯下了一系列令人瞠目结舌的事实错误。其中一个案例是,尽管弗里德里希·默茨(Friedrich Merz)已在一个月前成为德国总理,AI仍将奥拉夫·肖尔茨(Olaf Scholz)称为现任总理。另一个错误是在马克·吕特(Mark Rutte)已经接任北约秘书长后,AI仍将延斯·斯托尔滕贝格(Jens Stoltenberg)称为北约秘书长。这些并非个别失误。根据路透社研究所2025年数字新闻报告(Reuters Institute's Digital News Report 2025),7%的在线新闻消费者使用AI聊天机器人获取新闻,在25岁以下人群中这一比例上升至15%。研究负责人表示,这证实了AI助手系统性地扭曲了各类新闻内容(systematically distort news content)。欧洲广播联盟(EBU)副总干事让·菲利普·德·坦德(Jean Philip De Tender)表示:"这项研究确凿地表明,这些失误不是孤立事件。它们是系统性的、跨境的、多语言的,我们认为这危及公众信任(public trust)。当人们不知道该信任什么时,他们最终会什么都不信任,这可能会阻碍民主参与。"

史无前例的大规模研究:3000个答复的系统性问题

这是迄今为止同类研究中规模最大的项目之一,是BBC在2025年2月进行的一项研究的后续。BBC的研究发现,其检查的AI答案中超过一半存在重大问题,而在引用BBC内容作为来源的答案中,近五分之一引入了自己的事实错误。新研究覆盖了来自18个国家和多个语言群体(multiple language groups)的媒体组织,对3000个AI回复应用了与BBC研究相同的方法论(methodology)。这些组织向四个AI助手提出了常见的新闻问题,例如"乌克兰矿产协议是什么?"或"特朗普能竞选第三任期吗?"记者们根据自己的专业知识和专业来源审查答案,而不知道是哪个助手提供的。与八个月前的BBC研究相比,结果显示有一些轻微改善,但仍存在高水平的错误。

Gemini表现最差:72%的回复存在来源问题

在四款聊天机器人中,Gemini表现最差,其72%的回复存在重大来源问题(sourcing issues)。在BBC的研究中,微软的Copilot和Gemini被认为是表现最差的。但在两项研究中,所有四个AI助手都存在问题。BBC生成式AI项目总监彼得·阿彻(Peter Archer)在一份声明中说:"我们对AI及其如何帮助我们为受众带来更多价值感到兴奋。但人们必须能够信任他们阅读、观看和看到的内容。尽管有一些改进,但很明显,这些助手仍然存在重大问题。"开发ChatGPT的OpenAI在今年2月向BBC提供的声明中表示:"我们通过摘要、引用、清晰链接和归属,帮助每周3亿ChatGPT用户发现优质内容,从而支持出版商和创作者。"然而,研究结果表明,这些承诺与实际表现之间存在巨大差距。

⚖️ 呼吁政府与科技公司采取行动:"事实进,事实出"

这项研究背后的广播机构和媒体组织呼吁各国政府采取行动。欧洲广播联盟在新闻稿中表示,其成员正在"敦促欧盟和各国监管机构执行关于信息完整性(information integrity)、数字服务和媒体多元化的现行法律"。他们还强调,鉴于新AI模型的推出速度之快,对AI助手的独立监控(independent monitoring)必须成为未来的优先事项。与此同时,欧洲广播联盟已与其他几个国际广播和媒体团体联合发起了一项名为"事实进:事实出"(Facts In: Facts Out)的联合运动,呼吁AI公司对其产品如何处理和再分发新闻承担更多责任。该运动的组织者在声明中说:"当这些系统扭曲、错误归因或'去背景化'(decontextualize)可信新闻时,它们就会破坏公众信任。这项运动的要求很简单:如果事实进去,事实必须出来。AI工具不得损害它们所使用新闻的完整性(integrity)。"随着越来越多的人依赖AI获取新闻,确保这些工具的准确性和可靠性已成为维护民主社会信息生态系统的关键挑战。

DW,2025年10月22日报道 | 记者:阿瑟·沙利文(Arthur Sullivan)研究参与机构: 包括德国之声(DW)、英国广播公司(BBC)、美国全国公共广播电台(NPR)等22家国际公共服务媒体组织

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
厌倦了BBA,这四款冷门豪华中大型轿车值得考虑,有你喜欢的吗?..
在豪华C级车市场,聚光灯几乎从未离开过奔驰E级、宝马5系与奥迪A6L这“老..
四款“华系”中大型新能源轿车集中亮相,智能化与颜值成竞争关键..
【网通社快报】2026年国内车市竞争加剧,“含华量”与设计颜值成为关键因..
即将上市的5款全新旗舰级SUV,每款都有望成为“爆款”..
iCAR V27——预计2026年一季度上市凭借iCAR V23这款平价“方盒子”车型的..
华为成功了!真正满血鸿蒙SUV来了,竞争奔驰GLS,能卖爆?..
2025年国内出现了一家真正的豪华品牌车企,虽然该品牌旗下目前只有一款轿..
告别溜背审美疲劳,四款“方盒子”SUV硬核来袭,谁是你心头好..
看腻了大街上那些千篇一律的大溜背,是不是总觉得少了点硬汉骨气?如今这..
花20万买SUV,到底怎么才算良心车?实测5款家用SUV,句句大实话..
你有没有过这种纠结:预算20万上下,想买台靠谱家用SUV,怕费油、怕小毛..
15万无对手?5款“闭眼入”燃油SUV,省心省钱抗造,家用车天花板..
15万左右买SUV别瞎选了,就这五款你闭着眼睛干就完事儿,家用省油省心全..
2026年重磅新车展望 聚焦SUV 新能源仍是重点
【中关村在线原创技术】2026年2月1日,国内多家主流车企陆续发布2026年1..
马年硬派SUV上新,谁会是新爆款?iCAR V27/哈弗猛龙PLUS/银河战舰..
爆竹声声辞旧岁,桃符红红迎新年。去年,硬派SUV系列中,令人印象最深的..
关于作者
加勒比海盗..(普通会员)
文章
1902
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103661

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索