作为硬通货的学术引用，何以统治学术圈？ - 百家论坛 - 两岸三地

C.R.E.A.M.是美国嘻哈乐队Wu Tang Clan所演绎的说唱歌曲，其歌名为“Cash Rule Everything Around Me”的缩写，意在感叹金钱统治一切的社会风气。如今Matter主编Steve Cranford借用这个歌名，感叹学术界的一切已被‘引用’统治！文章将引用比作‘学术界的通货’，从一个全新的角度来看待、评论那些构建在学术引用基础之上的学术评价指标。此外，作者还从知名期刊主编的视角出发，将学术引用分类厘定，阐明了哪些引用是好的，而哪些不好。作者行文生动有趣，观点新颖而发人深省。知社特翻译全文，以飨读者。

引用数俨然成了衡量学术生涯亨通与否的标准。就像商品一样，引用数也经历了生产、分配的过程，而在这些过程中出现不均衡现象亦是常事。成功（或者说失败）是凭借引用数来衡量的，但我们不禁要问，学者引用他人成果的动机是什么？引用行为本身又在怎样的实际情景下发生？在这篇文章里，我们将从一个全新的视角讨论引用的生产、分配、类型以及引用作为学术评价体系其可能的未来。

h指数是推特圈里一个老生常谈的话题，人们的讨论往往着眼于h指数的重要性、作用、根本价值及其与论文引用次数的本质联系。但无论对这些“h指数类”的指标支持还是反对，论文引用数都是一个无法回避的基础所在。这促使我从更普遍的层面上来看待学术引用——即把引用视作一种通货，进而考虑其生产、分配和类型等等方面。在这个“不出版，毋宁死”的学术纪元，引用等用于衡量出版物受认可程度的指标，成为了事实意义上的学术硬通货。我们卷入到了一场“引用经济”当中。借用Wu Tang Clan在C.R.E.A.M.里的歌词来说就是：Citations Rule Everything Around Me（引用统治了我周围的一切）。

学术引用 · 商品经济？

科学家偏好将一切事物加以量化、测量，这使得他们更加易于比较、评估潜在的价值和数据。但如何为学术出版设定一个评价体系呢？若单看作者的文章数量，则文章的质量无从评价。看论文的作者数量？这更是不着边际了。至于出版物总页数的平方根云云，大抵也同样不靠谱。或许依据论文的独立合著者的数量来评判？之所以有人主张以论文的独立合著者的数量作为出版物质量指标，是因为他们认为：和单打独斗比起来，与其他机构的同事协作研究更有可能做出高质量的成果。无论如何，在考虑了一众指标后，引用及其派生的评价体系成为了衡量学术出版物影响力的一项明晰选择。正如一个古老的思想实验所质问的那样：如果一篇论文出版了却无人引用，那么它真的有助于科学发展吗？

也可从另一角度印证引用在学术评价领域的重要地位。比如，当下最受欢迎的两项学术指标——期刊的影响因子和研究者的h指数，它们就是筑基于引用数之上的。而其他评价指标也不同程度地依赖引用数，如CiteScore、Source Normalized Impact per Paper（SNIP）、Eigenfactor ，还有谷歌学术的i10-index、h指数派生系列（m-index、g-index等等）。我个人十分喜爱“卡戴珊指数”（K-index），该指数主要评估科学家在社交媒体上的声望与其实际论文引用数之间的差异。

截至我动笔写下此文，我的卡戴珊指数大约在2.1。也就是说，我所享有的科学家声誉已经略微有些名盛于实（这毫无疑问是因为我担任《Matter》总编的缘故）。所有这些评估指标的共性为何？正是我们前文提到的——他们都是引用数量的指标性应用。某一年限的期刊影响因子被定义为：被评价期刊在前两年发表的可被引文献在统计年的被引用总次数与该期刊在前两年内发表的可被引文献总量之比。因此，IF最大值取决于总引用量（下文将总引用量记作N）。至于研究者层面，h指数被定义为某一作者至多有h篇论文分别被引用了至少h次。从定义来看，h指数也和总引用量紧密相关，它的最大值被限制在√N；且实际上，基于引用量的分布情况，它通常可以被近似地估计为（√N）/2。这里的两个N指的都是研究者的学术出版物的总引用量。

由此可见，这些流行指标均受总引用量制约，这是十分明确的。指出这一点并非旨在讨论引用作为学术出版物评估指标的正当性，而是为了说明引用作为学术界硬通货的有效性。引用量既表现出分散性，又表现出聚集性。学术界的学术出版物是有限的（它们需要引用文献，故可视作引用量的生产者/供应方）， “引用的供应”也是有限的，这些有限的引用量在被引期刊和被引作者之间进行分配；而反过来看，期刊和作者一方则对引用有着强大的需求。这种供求关系构成了“引用经济体系”的基础，形成了一个高度竞争市场。在这个体系中也存在上流阶级，甚至存在类似于“洗钱”的方案，只不过利益对象变成了引用量。

引用的供求关系

在讨论本节之前，我们需要先为每篇论文估定它们平均引用的参考文献数量，以便进行后续计算。二十世纪开创了学术出版的现代纪元，而在该世纪的大部分时间里，文献对参考资料的引用数目平均维持在10左右。而自八十年代中期起，由于引用数日益为学界所重视，所有学科的参考文献数目都开始出现攀升趋向。与过去相比，引用者在文献中对被引文献作出了更详细的讨论，这一趋势在论文所有章节都表现出来（包括简介、方法、结果、讨论、结论等部分）。目前来看，论文的总引用数在不同领域之间往往差异巨大，且通常与论文篇幅等因素高度相关。综合类期刊《Nature》允许论文最高引用的参考文献篇数是30篇，我们可以将其定作一个粗略的基准，因为该期刊几乎对科学界的所有领域都开放，具有一定代表意义。而《Matter》在2020年一月出版物上的研究性文章的平均文献引用量为50，这可部分地归因于更长的文章篇幅（相较Nature）。为了方便此处论述，我们取中间值40篇，作为一篇典型的物理学论文所引用的参考文献量。

如果一个作者每篇文章大约需要引用40篇文献（亦即生产出40引用量），且他每年发布3到4篇文章，那么他将每年贡献120到160的引用量到整个“市场”当中。如果他每年发布10到12篇文章，那么则会贡献400到500的引用量。但是，每位作者每年发表的论文量存在着相当大的变动。一项新近的研究表明，有数百名作者获得了所谓的“高产”称号，这些作家在每个自然年将产出超过72篇论文（折算下来接近每五天发表一篇）, 按每篇40引用的量来算，这些高产作者每人每年产生的引用量竟高达3000！不过，总引用量从“消费”角度来看还有细分，这取决于人们是从期刊层面还是个人层面来谈论引用。例如，如果期刊的一篇的论文被他人引用，那么对于该期刊来说，就计作被引用一次。然而一篇论文却可以同时被多位作者署名，如果该篇论文由6位作者合著，那么当该论文被引用时，则每位作者都算作被引用了一次。这样一来，在同一篇论文被引用时，从期刊层面和作者个人层面来计算出的总引用量则往往不同。后者通常是前者的成倍增加。

另一方面，每篇论文的作者数量也被发现正在出现持续增加的趋势。物理科学论文的平均作者人数从2012年的9人逐步增加到了2016年的39人，增长幅度超过三倍。“超多作者现象（超过50乃至100位作者）”是21世纪的新兴趋势，在物理学和生物医学领域尤其如此。在过去的五年中，自然指数（Nature Index）上作者超过1000名的论文数量从0暴涨到100。由此可见，随着大型科学的进一步扩大，这种规模成长也越来越多地反映在学术论文的作者名单中。这些拥有上千名作者的论文，其中大多数都是在物理科学领域发表的。人们每引用这些论文一次，就会为这上千名作者分别贡献一次论文引用。

最后还需要注意的是，人们发表的论文速度正在增加（在过去的几十年中，年增长从4％到9％，简直可以与纽约证券交易所相争衡）。这引发的直接后果是，有待分配的总引用量——也就是供应出的“资金流”异常雄健，如果将其类比为“货币”供应，则过度供应的引用量当然会引发引用量的“通货膨胀”——单个引用的价值会随着时间的推移而不断下降。这种趋势将会导致两个后果：（1）使用基于引用量的学术评价指标，来比较不同历史时期的论文是没有意义的。这就类似于将上世纪六十年代的汽油价格（每加仑0.30美元）拿来与今天的油价相比较一样。[作者注：这篇文章的草稿写于COVID疫情危机之前，眼下看来，1960年的油价倒是极有可能重现了。]

（2）与不断扩张的股票市场一样，基于引用的学术评价指标也在不断膨胀。即使引用的分配情形并未改变，期刊的影响因子和研究者个人的h指数也依然会随着时间的推移而自然上升。20年前（2000年）《Nature》的影响因子为25.8，而今天这一数值已经变成43.1。这难道说明了《Nature》相较以前声誉更隆吗？显然不是。这仅仅是因为学术界生产并分配了更多的引用量而已。同样地，在Jorge Hirsch介绍h指数的原始论文里，他声称“若非特殊情况，美国国家科学院（National Academy of Sciences，NAS）的院士资格通常要求h指数达45或更高。”但到了今天，虽然h指数达45仍是一个值得称赞的成绩，但要据此提名NAS院士，已是远为不够了。

学术引用的马太效应

引用“通货膨胀”所导致的另一个问题是，由于引用分配上的不均衡，将导致富者愈富的马太效应。其内在逻辑是，如果某文献被认为质量低下，那么即使它实际上具有科学价值，人们也不太可能阅读和引用该文献。引用行为会自发地汇聚在从“最佳期刊”中挑出来的“最佳研究”里。可作如是想：发表在影响力较低的期刊上的论文，更有可能引用Science或Nature（或Matter）上发表的研究。这种不均衡使高引用内容更加受益。尽管自2000年以来Nature的影响因子增长了67％，但并非所有期刊都享受了相同的“增长红利”。以《Journal of the Mechanics and Physics of Solids》为例，该期刊影响因子的增长比例看起来还较Nature略大，为78％（从2000年的2.3增长到目前4.1）。但是，Nature影响因子的绝对增量将近18，JMPS的绝对增量仅为1.8，这意味着Nature每篇文章的平均被引量增加了近18条，这跟JMPS的变化差了一个数量级！在引用数据可以开放获取的年代，作者倾向于引用那些出版后接收他们初始引用非常迅速的文献。当一篇文献被引用，研究人员会观察这一点，从而增加他们对该文献的兴趣以及引用意愿。此外，尽管发表的文献汗牛充栋，但是作者们依然更偏好浏览那些在学科领域出类拔萃的少数期刊。

引用的类型 · 好引用和坏引用

激励科学家对同行成果进行引用的动机，部分是出于他们对学术正义抱有信念，因而愿意对同行成果给予信任和肯定；另一方面，这也是因为他们希望从同行那里获取同样的信任认可。

引用类型——好引用

尽管研究人员对同行们的引用行为确实存在，但是这种引用下潜藏的原因却纷繁复杂。一个优良的经验法则是，只引用最少的、必要的工作。然而科学本身的多学科性质、前置工作的广泛程度以及其他诸多动机仍然促成了一篇篇长长的参考文献清单。有鉴于此，有人归纳出了“学术引用的正面理由”，来说明那些动机正当的学术引用：

规范型引用（又称经典型、创始人型）：如果参考文献在论文主题、方法论或技术等方面有着首要的重大贡献，或者参考文献的作者是涉及理论、方法或技术的创始人，被引用的可能性就会增加。引用者倾向于引用首篇实质性著作。一个很好的例子是饭岛澄男（S. Iijima）在1991年所著的文章‘Helical microtubules of graphitic carbon’，该文章主要关于碳纳米管，引用次数超过50000。

说服力增强型引用：说服性的引用被定义为通过引用文献来辅助建立知识主张，主要是依靠引用有声望的作者，以借用其影响力来佐证自己的观点。这类型的引用被发现是最为常见的引用类型，部分可归因于超级大刊上的顶级论文们引发的引用分布不均。用最简单的话说，如果您引用文献的是诺贝尔奖获奖文章，那么这就暗示着您的文章也与该诺奖文章质量相近。

进展型引用：此类引用是那些构成了现有工作的发展框架的基座式参考文献，换言之，正是这些参考文献为论文的发现奠定了基础。这类引用囊括那些与论文主题没有直接联系、但对于论文完成必不可少的参考文献。

肯定型引用：引用的参考文献中包含作者支持的独立观察、观点或发现。

批评型引用：作者出于纠正自己或他人的工作成果而引用论文，可能是部分纠正，也可能是全盘推翻。这项引用成果可能是一个富于争议性的案例，作者通过引用对其结果加以反驳，或者是作者对所引文献中的数据阐释提出质疑，也可能是作者不同意所引文献中的观点或事实陈述。这些批评的重点可能是——方法论上的弱点、欠缺可重复性、实验可靠性不足或者实验结果的阐释未尽人意。

方法论型引用（操作技术型引用）：通过引用文献以揭示工作所依据的方法、理论等。此类引用是为了指出工作所运用的二手理论、实用技术、材料、设备、分析方法、程序或研究设计等。比如说，我作为PI所发表的每篇论文都引用了Plimpton的“Fast Parallel Algorithms for Short-Range Molecular Dynamics”，这是LAMMPS软件的必引文献。

背景型引用（历史沿革型引用）：引用文献以追踪观点的历史沿革及其学术影响。因此，作者引用文献是为了进一步指出其工作的学理渊源，以阐明这项工作何以成为某学术主张历史性的一部分；或者是因为某项知识主张提供讨论和阅读赖以发生的背景。文献综述即在此例。

概念型引用：引用该类文献是因其为论文提供了概念、定义、诠释、理论。通常是引入关于某种思想、概念或理论的原始文献。

对比型引用：对比型引用通常可以在论文的讨论部分中见到，作者通过引用文献来进行成果对比。这一类型也不完全是对比，有时作者也干脆将其论文成果视作所引文献成果的变体形式。

如果你牢记这些引用类型，那么参考文献的数量将十分可观。尽管论文并不总是能用上所有类别的引用，但往往只需要一到三种类型的引用就能凑出30篇参考文献。想要达到前文所估计的40篇引用文献，也是易如反掌。

引用类型——坏引用

负面引用的定义非常简单——它指那些可以将其删除而不会造成任何损失的引用文献。对读者而言，这些引用文献并非了解任何附加详情的必要途径，亦不提供任何关键信息或背景。但这些文献却通常与主题相关联，因而乍一看像那么回事。在这里，要注意的几个“引文陷阱”包括：

链条效应：这类现象通常在成群成组的引用中出现。例如，当你需要引用Abbott教授（A教授）的一篇优秀文献，但这篇文献的关键信息却仰赖Bailey教授（B教授）和Cooper教授（C教授）的论文提供，这时难道要把ABC三者的文献都引用进来吗？显然引用A的文献已经足够。倘使你真的引用了ABC的文献，那么按照这种“链条式”的引用来铺陈下去，则下一篇引用你工作的论文则可添上ABC，则引用文献的链条就越引越长了。

趋附名望：有时人们为了增强论文说服力，对权威论文的引用到了泛滥成灾的地步。大量多余且无用的引用涌向那些名位尊崇的学者和高影响因子文献。这类引用最常见于引言和结论部分，有些作者恨不得每个关键词都引用一篇文献。

贪求时髦：不知为何，明明是近两三年完成的工作，引用文献却都是最近三个月内才发布的。诚然作者应当跟紧最新的参考文献，但这并非意味着挖空心思去蹭时下的研究热点。

讨好审稿人：试图通过引用审稿人的文章来讨取他们的欢心。在任一分支领域，足以膺任审稿人的专家往往有限。如果重点引用的文献是来自于推荐审稿人，企图就更加明显了。请不要这样做，我们是会做相关审查的。

过多自引：项目、专业知识和方法技术的自然发展历程，要求一定程度的自我引用。这是预料之中的。但如果前著与工作相关性并非那么高，那么则应将引用位置留给更好的参考文献。需要避免过多的自我引用。

迎合审稿意见：囊括过多审稿人建议的参考文献，而且还都是“高度相关”。这并无必要。任何时候皆是如此。必要时可向责任编辑咨询相关问题。

迎合编辑：在目标期刊中引用了数量夸张的文献，以期搏得编辑注意。这种行为还很新鲜，但是我们并不建议这样做。

请快速浏览一下自己的引用文献列表，如果确有属于上述类别的引用文献，那是没必要的。

引用经济的未来 · 多元化

显然，通过上述的类型划分，每个引用出现的理由都不尽相同。然而正如货币一样，它们是眼下的可交易资产。引用就是引用，与环境无关。现状必该如此吗？也不尽然。比如对引用文献的共同作者问题，我们还是可以找到一些可探索的方向：当一篇具有多个作者的论文被引用，合理的做法是，将这个引用数据分配给作者中的某一个，还是将它均分为1/n分配给每位作者（如果是n位作者的话）？是否应当设立不同的贡献级别，来实现引用的回报性分配？

但令人宽慰的是，随着学者指标化的日益普及，以及对文献元数据的重视（比如设立更精细化的贡献级别），引用的分配可能变得更加公平合理。引用意味着一种学术声誉，未来科研界如何进行声誉分配？这或许是一件十分有趣的事情。而当下也有人正在努力改进“引用体系”的整体效用，他们将引用分成了支持引用、反驳引用和中立引用三类。位于布鲁克林的一家初创公司Scite正试图通过引入“智能引用（smart citation）”来对引用体系进行改进，他们开发了一种工具从学术论文中提取引文的相关陈述，进而将这些引用分类为支持引用、反驳引用和中立提及。这些引用信息被解析出来之后，将被添加到数据库中供人检索。这些信息使得Scite的用户得以快速了解感兴趣的研究是否已被着手进行，如果已有研究开展，则可了解其结果如何。值得注意的是，按照这三类分类，中立引用眼下是最为普遍的，这也许表明了引言和结语中引用的某种倾向性。

可以相信的是，在更多的数据（和更多的努力）的帮助下，我们可以为引用赋予更精细的含义和结果，而非是一个简单粗暴的数字。这或许会为学界摆脱学术引用的怪圈开具良方。不过在那一天到来之前，学界将依然是：Citations rule everything around me, Dollar, dollar bill y’all.（译注：此二句均系C.R.E.A.M.歌词）

https://doi.org/10.1016/j.matt.2020.04.025