一种新的论文伪造方式,即用同义词替换常规用语以躲过查重,正在浮出水面。
法国研究人员对部分此类短语进行了检索,在引文数据库中发现860多篇论文涉及此类情况。其中,500篇来自同一本期刊《微处理器和微系统》(Microprocessors and Microsystems,影响因子1.525)。
对这些论文进行人工检查后,他们发现,这些论文还涉及引用虚假文献、重复使用他人图片等问题。其中,大部分论文的作者来自中国。
最近,该杂志的出版商——爱思唯尔对其中400多篇论文表达关切,目前调查工作仍在进行中。
近60%问题论文来自同一期刊
据Nature网站日前报道,今年4月,法国图卢兹大学计算机科学家Guillaume Cabanac等人对论文中的奇怪短语产生了兴趣。
这些短语通常有约定俗成的术语,但论文作者故意回避常规叫法,而用同义词来替换,显得非常奇怪。Cabanac等人称之为“扭曲短语”。其研究结果于7月12日发布在arXiv预印本网站上。
诚信研究调查人员说,这是一种新的伪造论文方法,这一研究可能只暴露了伪造论文的冰山一角。
为了解到底多少论文存在这类问题,研究人员在引文数据库中搜索了30个扭曲短语,结果涉及860多篇文章。令人惊讶的是,其中有500篇论文都来自同一本杂志:《微处理器和微系统》。
“这是对科学的损害。你不能相信这些论文,我们需要找到并撤回它们。”Cabanac说。他们怀疑,这是使用了自动翻译或文本转换软件的结果。
研究者借助了一种名为GPT的工具,它能识别文本是否由人工智能转写工具生成。他们利用GPT对《微处理器和微系统》和其他期刊上的一些摘要进行筛查,并对被标记的论文再次人工检查后发现,其中一些论文存在“严重错误”,如奇怪扭曲的写作风格、引用不存在的文献、重复使用他人的图像。
大部分问题论文作者来自中国
为更深入地了解问题,研究人员下载了2018-2021年间在《微处理器和微系统》上发表的所有论文。
分析显示,2021年2月后,论文的平均接收时间比原来缩短5倍,发表的论文数量比此前发表总数还要多。
这些论文中有很大一部分来自中国的作者。还有一部分论文的提交日期、修订日期和接收日期完全相同,大部分发表在该期刊的特刊上。
研究人员认为这很可疑。不同于常规标准期刊,特刊通常由总编辑提出,由客座编辑监督,专注于特定的研究领域。
除《微处理器和微系统》外,研究人员还在其他35种期刊的论文中发现了扭曲短语。
该研究论文写道:“初步调查显示,在主要数据库中有数千篇带有扭曲短语的论文被编入索引”,并补充说“其他科学领域的扭曲短语尚未被揭露”。
爱思唯尔“点名”400多篇论文,并展开调查
针对这些情况,《微处理器和微系统》的出版商——爱思唯尔发起了一项调查。7月中旬,爱思唯尔对该期刊6个特刊上的400多篇论文表达关切,涉及对特刊论文正在逐一“重新独立评估”。截至目前,调查工作仍在进行中。
爱思唯尔的一位发言人透露,调查发现,这些作者可能使用了反向翻译软件来掩饰剽窃行为,这很可能是这些扭曲短语的来源。
调查还显示,49篇被Cabanac等人标记为可疑的论文,最初是提交给特刊的,也被客座编辑接受了,而后却发表在了正刊上。声明中提到,是应作者的要求在正刊上发表的,这也是爱思唯尔调查的一部分。
著名学术“打假人”Elisabeth Bik认为,“Cabanac的研究结果‘令人震惊’,这是一种非常新且令人不安的论文编造方式”。
澳大利亚悉尼大学分子肿瘤学研究者Jennifer Byrne表示,这可能是冰山一角,对于有些人工智能生成的、可信度更高的论文,更难发现其问题。
这并不是学术界第一次发现奇怪的用词与问题论文之间的关系。
一项2015年发表于《语言和社会心理学期刊》的研究中,美国斯坦福大学的研究者对已撤回的253篇生物医药研究领域的文章进行了分析。
他们发现,问题论文读起来更晦涩、专业术语更多,文章更含混不清。
不过,他们同时指出,语言识别并非揭示科研造假的完美方法,他们的试验准确率仅为57.2%。诚信文章也有可能被“误伤”,因为有些人是故意欺骗,而有些人可能只是不擅长写文章。
参考资料:
https://www.nature.com/articles/d41586-021-02134-0
https://arxiv.org/abs/2107.06751
https://www.sciencedirect.com/journal/microprocessors-and-microsystems/about/aims-and-scope
http://news.sciencenet.cn/htmlpaper/201512310245547337912.shtm