英国伦敦大学学院的 Andrew Gray 表示，梁伟欣的研究发现，在 ChatGP

首页发布

同行评议也是聊天机器人写的吗？一项近日公布于 arXiv 预印本服务器的研究，在同行评议报告中确定了可能具有人工智能文本特征的流行形容词。这表明，研究人员正在转向 ChatGPT 和其他人工智能工具来评价他人的工作。

作者研究了自 ChatGPT 发布以来，人工智能聊天机器人可以在多大程度上修改提交给 4 个主要计算机科学会议的论文集的同行评议报告。

分析表明，高达 17% 的同行评议被聊天机器人大幅修改，尽管尚不清楚研究人员是使用这些工具从头开始创作评议报告的，还是仅为了编辑和改进书面草稿。

德国柏林工程应用技术大学的 Debora Weber-Wulff 表示，鉴于聊天机器人经常产生误导性或捏造的信息，其为未发表的作品撰写评议报告“非常令人震惊”。“人工智能系统会‘产生幻觉’，我们不知道它们何时产生幻觉，何时不产生幻觉。”

自 2022 年 11 月发布以来，ChatGPT已被用于撰写大量科学论文，在某些情况下甚至被列为作者。在接受《自然》杂志 2023 年调查的 1600 多名科学家中，近 30% 的人表示曾使用生成式人工智能撰写论文，约 15% 的人表示曾将其用于自己的文献综述和经费申请书。

在这项研究中，由美国斯坦福大学计算机科学家梁伟欣（音，下同）领导的团队开发了一种技术，通过识别人工智能比人类更频繁使用的形容词来搜索人工智能创作的文本。

研究人员比较了 ChatGPT 发布前后提交给同一会议的 14.6 万多篇同行评议中的形容词使用情况。分析发现，自聊天机器人的使用成为主流以来，某些积极形容词的频率显著增加，如“值得称赞的”“创新的”“细致的”“复杂的”“显著的”和“多才多艺的”。这项研究列出了使用频率最高的 100 个形容词。

研究发现，对会议论文集评价较低、在截止日期前提交的以及作者最不可能回应或反驳的评议中，最有可能包含这些形容词。因此，至少在某种程度上，这最有可能是聊天机器人撰写的。“当人们没有时间的时候，倾向于使用 ChatGPT。”梁伟欣说。

该研究还调查了 2019 年至 2023 年间，15 种《自然》期刊接受发表的约 1 万篇手稿的 2.5 万多篇同行评议。结果发现，自 ChatGPT 发布以来，相同形容词的使用并没有出现激增。

施普林格 · 自然的一位发言人表示，出版商要求同行评议人员不要将手稿上传到生成式人工智能中，并指出这些工具仍有“相当大的局限性”，评议可能包括敏感或专有信息。

该发言人表示，施普林格 · 自然正在探索为同行评议人员提供安全的人工智能工具以指导他们评议的想法。

英国伦敦大学学院的 Andrew Gray 表示，梁伟欣的研究发现，在 ChatGPT 发布后的评议中，流行词的增加“非常惊人”。他近期的一项研究估计，2023 年发表的至少 6 万篇论文的作者在某种程度上使用了聊天机器人，至少占当年发表的所有学术研究的 1%。

Gray 说，同行评议人员可能只是在编辑或翻译时使用了聊天机器人，但由于缺乏透明度，很难判断。“有证据表明这些工具正在被使用，但我们并不真正了解是如何被使用的。”

“我们不希望做出价值判断，也不希望声明使用人工智能工具审查论文一定是好是坏。”梁伟欣说，“但我们确实认为，为了透明度和问责制，估计最终文本中有多少可能被人工智能生成或修改是很重要的。”
来源：中国科学报；作者：王方；图片来自：Pixabay，如有侵权，请联系本账号删除。

记得初中的某个午后我顿悟了，我说想学心理学。
十年了，我也正在完成当初年少时的梦想。
没有想到某一天会把自己的经历当作案例来撰写。那不是写故事。那是想穿过时光机去拍拍十年前的我。
同样身为老师的现在，对于过去的我也会是头痛不已。那些问题行为的背后是内心需要的强烈匮乏。
我现在明白了。可年幼的你却只被当作不懂事和调皮。