用户名:  密码:   
网站首页即时通讯活动公告最新消息科技前沿学人动向两岸三地人在海外历届活动关于我们联系我们申请加入
栏目导航 — 美国华裔教授专家网最新消息社区报道
关键字  范围   
 
全球两大引文数据库Scopus & Web of Science 存在系统缺陷
全球两大引文数据库Scopus & Web of Science 存在系统缺陷
作者:撰文 戚译引 | 6/15/2019 8:53:20 PM | 浏览:337 | 评论:0

全球两大引文数据库Scopus & Web of Science 存在系统缺陷

全球两大引文数据库,都在悄悄少算引用次数  (图片来源:Pixabay)

  Scopus 和 Web of Science 是论文引用次数的权威统计工具,但是一项新研究发现,由于系统自身缺陷,标题中带有连字符的论文引用次数统计结果低于实际。标题中连字符数量越多、论文引用次数越多,损失的引用数也就越多。

一项新研究证明,由于人为疏忽和论文数据库缺陷的共同作用,标题带有连字符的论文引用次数统计结果偏低,这一规律适用于各个学科。

本次研究的数据来自全球两大引文索引数据库—— Scopus 和 Web of Science。Scopus 属于爱思唯尔(Elsevier)旗下,它的统计数据被用于 QS 全球高校排名的评估,而 Web of Science 提供关于期刊影响因子和 h 指数(h-index)的权威统计结果。

这项研究由香港大学(University of Hong Kong)计算机科学荣誉教授 T.H. Tse 与伍伦贡大学(University of Wollongong)研究人员合作完成,于 5 月 7 日在《IEEE 软件工程学报》(IEEE Transactions on Software Engineering)发表。

粗心的同行

连字符会导致引用数量减少,一部分是由人为疏忽导致的。研究人员在论文中指出:“输入错误的一个很可能的原因是,当作者们引用标题中含有连字符的论文时,他们可能会漏掉其中一些连字符。”

这个结论与先前的另一项研究相符。先前的研究发现,许多研究人员不会检查引用文献的标注,甚至从别人的论文中直接复制粘贴部分参考文献列表,导致错误的引用被一再重复。

论文中还指出,如果一个科学家在引用某篇文献的时候出现了错误,他就很可能在接下来几年发表的多篇论文中继续犯同样的错误,因为错误的信息已经被储存在文献管理软件中(如 BibTex)。

全球两大引文数据库Scopus & Web of Science 存在系统缺陷

不同学科中,论文标题中连字符数量与平均引用次数之间的关系。图片来源:University of Hong Kong

引用越多,损失越大

研究人员还发现了一种“累进税现象”。累进税(progressive tax)指税率按应纳税额的增加而逐级提高的税制,在这里指的是当你的论文引用数量越多,因为连字符标注疏忽而损失的引用数比例也就越大,论文中称之为“连字符税”。具体而言,当引用数 <20 的时候,标题中连字符数量对论文的引用次数影响不大;而当引用数 >180 的时候,标题中连字符数量将产生很大的负面影响。

出于同样的原因,和较晚发表的论文相比,较早的论文更容易受到标题中连字符数量的影响。在经历二次、三次引用的时候,如果先前的论文在参考文献中把标题写错了,这个错误可能会被重复;就算先前的论文写对了,下一个引用的人也可能犯错。

论文标题中的连字符甚至还会拉低期刊影响因子。以《IEEE 软件工程学报》为例,研究分析发现,该期刊在某一年的影响因子与其前两年中发表的论文“标题含‘-’率”(即有多大比例的论文标题中含有至少一个连字符)之间有显著的负相关。

一个连字符的 N 种写法

 研究人员指出,他们选择连字符来测试系统的鲁棒性,是因为它的用法格外模糊。一个“-”可以代表至少 6 个不同的事物——连字符、减号、短破折号、长破折号、横杠(horizontal bar)、表单符号。

不同的数据库可能会对连字符进行不同的处理,最终导致汇总统计结果出现混乱。例如,一篇论文的原始标题是“Metamorphic Model-based Testing Applied on NASA DAT —an experience report”,前一个“-”是连字符,后一个“—”是破折号。Scopus 和 Web of Science 的系统都把破折号修改成连字符,Scopus 还在连字符后面加了一个空格;IEEE 数字图书馆把“—”替换成两个连字符“--”;ACM 数字图书馆和 Google Scholar 干脆把它换成了冒号。

全球两大引文数据库Scopus & Web of Science 存在系统缺陷


同一篇论文在不同数据库中的不同显示。图片来自论文。

因此,如果某个科学家通过其他渠道读到了这篇论文,然后进行引用,他就很可能在参考文献中列出一个和原始文献不一样的标题,导致系统无法准确识别引用情况。研究人员还真的找到了这样的案例——有人引用了这篇论文,并且将标题中的破折号写成了冒号,而 Web of Science 的数据库没有把这次引用算进去。

数据库该升级了

先前有研究发现,平均而言,论文引用数量与标题长度负相关。显然较长的标题中更有可能含有更多的连字符,但是经过进一步分析,研究人员发现对于含有同样数量的连字符的文章,标题长度对引用数没有明显的影响。

研究人员总结:“根据研究结果,我们质疑引用数和期刊影响因子的可靠程度,因为论文标题中的连字符数量与论文和期刊的实际质量无关。”

如果根据这个结论建议研究人员避免在标题中使用连字符,可能对某些学科不太公平,比如化学。要求所有人认真检查参考文献标注、保证不犯错也不太现实。研究人员认为,一个成熟的论文数据库系统应该具备足够的鲁棒性,学会自行纠正人为的标注错误,以及更好地兼容其他系统的数据。

PS:或许是受到研究结果的启发,这篇论文的标题中使用了冒号,但没有用连字符。

论文信息:

Metamorphic Robustness Testing:Exposing Hidden Defects in Citation Statistics and Journal Impact Factors, Zhi Quan Zhou ; T.H. Tse ; Matt Witheridge

DOI:10.1109/TSE.2019.2915065

https://ieeexplore.ieee.org/document/8708940

参考来源:
https://www.sciencealert.com/hyphens-break-our-entire-system-of-scientific-ranking-new-analysis-reveals

https://www.hku.hk/press/news_detail_19547.html

 

相关栏目:『社区报道
发明埃博拉病毒“解药“的邱香果夫妇,被加拿大情报部门带离实验室 2019-07-14 [86]
文小刚:物理学的新革命——凝聚态物理中的近代数学 2019-07-14 [67]
《斯坦福大学2025计划》来龙去脉 2019-07-12 [132]
威斯康星大学麦迪逊分校余宗福研发出智能玻璃:仅用光就能识别数字 2019-07-11 [105]
UCLA孟令森教授 : 美国加州连发强震为何损失不大 2019-07-08 [238]
卡内基梅隆大学教授贺斌团队开发出可与大脑无创连接的脑机接口 2019-07-02 [819]
美国国家卫生研究院(NIH):被解雇的中国科学家是无辜的吗? 2019-06-29 [848]
访学麻省理工学院 2019-06-26 [314]
访学哈佛大学 2019-06-26 [325]
麻省理工校长致信全校员工:不要制造毫无根据的怀疑和恐惧的有毒气氛 2019-06-25 [1115]
相关栏目更多文章
最新图文:
:华为联合银联启动手机POS 构建全新支付生态圈 支付宝即将靠边 :李迅雷:为什么直接融资比重总是上不去 :郑乾:为什么中国的刘易斯拐点被提前了? :朱锋:中美关系已经出现“质变 :约翰·霍普金斯大学小鼠实验表明:帕金森病起源于肠道 :《Gastroenterology》: 吃伟哥不光可降低结直肠癌风险,还可以... :《Nature》:小分子靶向微生物组,最新的管线全在这里了! Mark Gertler & Pete Klenow:Gertler & Klenow:后危机宏观经济 - 金融危机、财富悬差和生产率疲弱
更多最新图文
更多《即时通讯》>>
 
打印本文章
 
您的名字:
电子邮件:
留言内容:
注意: 留言内容不要超过4000字,否则会被截断。
未 审 核:  是
  
关于我们联系我们申请加入后台管理设为主页加入收藏
美国华裔教授专家网版权所有,谢绝拷贝。如欲选登或发表,请与美国华裔教授专家网联系。
Copyright © 2019 ScholarsUpdate.com. All Rights Reserved.