科学家证实ChatGPT改变学术论文风格，百万篇论文词频减少10%-工信会

> 自媒体 > （AI）人工智能 > 科学家证实ChatGPT改变学术论文风格，百万篇论文词频减少10%

科学家证实ChatGPT改变学术论文风格，百万篇论文词频减少10%

来源：DeepTech深科技

2024-07-09 22:04:15

527

管理

在近期一项研究中，意大利国际高等研究院（SISSA，International School for Advanced Studies）博士生耿明萌量化了 ChatGPT 对学术论文写作的影响。

图 | 耿明萌（来源：耿明萌）

日前，相关论文以《ChatGPT 正在改变学者的写作风格吗？》（Is ChatGPT Transforming Academics’ Writing Style?）为题发在 arXiv[1]。

图 | 相关论文（来源：arXiv）

据介绍，之前大多数同类研究，往往是分析某个段落或某篇文章由 ChatGPT 生成的可能性。但是，本次成果更加关注于整体情况。

举例来说，一项成熟的运动不只需要优秀的运动员，还需要球迷、教练、投资人、裁判等。

目前，大模型的火热程度已经无需赘述，这条赛道甚至显得有些拥挤不堪。在这样的背景之下，耿明萌想做一些类似足球裁判员和数据分析师的工作。

事实上，就在一年之前他还不是 ChatGPT 的拥趸，也不打算追逐大模型的研究热潮。

2023 年夏，耿明萌把更早一篇论文的初稿提交给导师之后，导师并没有直接在原文上修改，而是给出一些简略的建议和批注，其中有不少建议针对的是写作问题。

这时，耿明萌想到使用 ChatGPT 来修改和润色论文，但是很快他就意识到 ChatGPT 的风格，比如其所使用的词语频率和人类有所不同。

于是，他想从词频角度出发，来分析 ChatGPT 对于人类论文的影响。耿明萌导师的主业是天文和统计，之前并没有自然语言处理的经验。

导师也很疑惑为何当时仍未有人使用这么简洁明了的方法来研究 ChatGPT 的影响，因此推测有可能是因为行不通所以才没有人研究，于是暂时搁置了这个想法。

事情的转机发生在 2023 年秋，当时导师频繁出差去宣传自己出版的新书，并没有时间讨论课题组的项目。

于是，耿明萌决定腾出手自己试试看。

他记得特别清楚，在万圣节假期的前一天晚上，在解决所有数据问题之后，他出去旅行了两周，回来又花费一周时间得到了初步结果。

即：学术论文中确实有一些词语的使用频率，在 ChatGPT 出现之后发生了明显变化。

为了方便起见，耿明萌选取了当时 arXiv 上最新的 100 万篇论文的摘要进行分析。之所以这样做是因为摘要虽然短小，但是比论文的其他部分更有代表性。

结果他发现：最近几年论文数量出现暴涨，比如从 2018 年到 2023 年，就有超过 100 万篇论文被提交到 arXiv 上。其中，大约有 90% 论文来自于数学、物理和计算机三个学科。

当然，初步的研究结果也很有意思：比如“significant”的词频翻了接近一番，而“is”和“are”的词频则减少了 10% 左右。

（来源：arXiv）

那么，如果使用 ChatGPT 处理一部分论文摘要，和未经 ChatGPT 处理的论文摘要混在一起，能否基于词语频率的变化，估算出经过 ChatGPT 处理的论文摘要的比重？以及应该怎样估计？再就是应该选取哪些词语？

为了回答这些问题，耿明萌提出一个含有噪声项的模型，证明在某些情况之下，词语的选取并不是越多越好。

而是应该主要考虑以下两个标准：词语频率、以及 ChatGPT 处理前后的变化率。

而且，对于不同类别和不同混合比例的摘要，选取的词语也应该有所变化。随后，通过校准和测试，上述理论分析也在模拟中得到了验证。

（来源：arXiv）

基于此，他开始根据真实的 arXiv 摘要数据，来估算 ChatGPT 的影响。

这一分析是基于：ChatGPT API 的模拟输出对于不同的 prompt，其输出的结果也不相同，因此所得出的结果是一个相对值。

如果以“Revise the following sentences”的结果作为基准，ChatGPT 修改的“比例”大约在 35% 左右。

如果科研人员在使用 ChatGPT 时都能使用更精准的 prompt，那么 ChatGPT 对于论文摘要的贡献就完全有可能超过 100%。

不过，耿明萌更愿意用“影响”而非用“比例”来看待本次结果。

不同的 prompt 会产生不同的输出，因而同样的使用比例也会产生不同的估计结果。考虑到实际的使用场景，一些人很有可能在使用 ChatGPT 之后刻意抹去了一些痕迹。

亦有论文作者的写作风格的确受到了 ChatGPT 的影响，但最后并没有使用 ChatGPT 润色论文摘要。同时，其它大模型可能会有相似、但不相同的词频。

（来源：arXiv）

总的来说，耿明萌依然认为，使用 ChatGPT 或其它工具，来润色论文和翻译论文本身并没有错，但要知道修改前后语义上的差别。

对于母语非英语的研究人员来说，这些新工具的合理使用确实也能促进公平，但直接利用这些工具生成论文段落是不可取的。

而研究 ChatGPT 对于论文风格的影响，则能助力科研人员更好地使用类似工具。

参考资料：

1.https://arxiv.org/pdf/2404.08627

运营/排版：何晨龙

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT如何依法合规正确使用？

2024-07-09 22:06

Chatgpt ？别告诉我你还不会用

2024-07-09 22:01

相关文章

2026赛季F1季前测试深度解析：法拉利单圈惊艳，梅赛德斯长跑强势..

第三名之争：迈凯伦 vs 红牛围场共识认为，法拉利和梅赛德斯已在领先集团..

V12引擎加持！改装版Datsun 240Z声浪媲美法拉利

【网通社快报】一辆搭载梅赛德斯-奔驰M120V12引擎的Datsun240Z近日引发关..

法拉利最便宜新敞篷车：Amalfi Spider三月首发

IT之家 2 月 19 日消息，汽车媒体 The Supercar Blog 昨日（2 月 18 日）..

法拉利Ferrari全家福

法拉利是世界顶级超跑代表，源自意大利，以赛道基因和极致性能著称。经典..

6.5 v12炸街，我终于懂了法拉利“纯血”的终极浪漫

法拉利purosangue63° 前门开启79° 后门开启劳斯莱斯式优雅，法拉利式性..

Luce只是其中之一法拉利今年有五款新车型亮相

据海外媒体报道称，法拉利2025年的利润正朝着正确的方向发展，订单已满到..

千匹马力、2.5秒破百！法拉利首款纯电Luce曝光

在内燃机领域拼搏数百年的法拉利正式的拥抱纯电赛道。2026年的2月份，法..

法拉利首款纯电车型Luce正式上市，融合经典设计与电动创新..

【网通社快报】法拉利近日正式推出品牌首款纯电动车Luce，引发行业广泛关..

更硬核的296：法拉利“特别版”新车谍照曝光，马力有望逼近700匹..

IT之家 2 月 16 日消息，博主 Derek Photography 公布了一辆伪装严密、外..

关于作者

婆罗花开(普通会员)

文章

2093

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体114249

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索