被引次数和发表等待时间与文章属性(尤其是多样性)的关系

最近不务正业,猎猎奇,在思考如下的相关分析:论文审稿等待时间、被引用次数、作者属性(h指数、文章数量、被引次数、获大奖)、 文章标题属性、图的属性(数量、是否美观等)、参考文献属性(数量、总被引次数)、文章涉及主题的多样性交叉性、文章长度、文章所发表的期刊、文章发表的地点、文章发表的时间。等待时间和被引用次数的工作已经发表“ The correlation between editorial delay and the ratio of highly cited papers in Nature, Science and Physical Review Letters”。

当然,真正促进科学学发展的工作还是我们一直开展的投入产出研究相互影响、概念网络研究文章创新性等这方面的工作。

文章多样性度量

有多少工作是跨学科(也可以是跨子领域)的?这样的跨越比较大工作是否得到更多的引用,发表在更好的期刊上(或者反过来,宣称自己跨领域的期刊是否更多发表跨学科工作,还是发表来自于更多的学科的工作)?一个国家、科学领域、期刊、学校的发表的文章中的研究工作是否是学科交叉程度比较高的?多大程度上科学创新来自于学科融合?所有的这样的问题依赖于文章多样性的度量。多样性可以通过如下方式来度量。

所需要的数据基础

主题网络——一个包含主题和主题之间联系(顶点之间最好有相似性距离\(s_{ij}\))的网络,文章主题标记,文章引用网络,文章作者识别,作者主题标记。作者主题标记可以是作者主领域或者作者参与的文章的全领域。

因此,开展这个工作需要基于作者识别和作者主领域识别。

度量

文章本身的主题集合\(T^{p}\)、文章参考文献的主题集合\(T^{r}\)、文章作者的主题集合\(T^{a}\)。建议采用下面的指标来度量多样性:
\[d=Max{\frac{1}{s_{ij}}} \]
\[D=\frac{1}{\sum_{ij} s_{ij} p_{i}p_{j}}\]
\[D= \frac{1}{\sum_{ij}s_{ij}\left|p_{i}-p_{j}\right|}\]
其中,\(s_{ij}\)是领域i和领域j之间的相似性,\(s_{ii}=\infty\)。\(p_{j}\)表示主题\(i\)在这个集合\(T^{p}\)、\(T^{r}\)或者\(T^{a}\)中出现的频率。考虑到\(s_{ij}\)可能不等于\(s_{ji}\),求和要对两个指标都重复。前者反映最大跨度,后者反映平均跨度。如果(ij)两个主题在主题网络上不是直接相连,则需要按照网络距离来计算,
\begin{align}
s_{ij} = \frac{1}{\frac{1}{s_{ik}} + \frac{1}{s_{kj}}}
\end{align}
如果两者通过主题(k)相连的话。更远的距离需要做类似的计算。

作为基础的主题之间相似性矩阵\(s_{ij}\)可以考虑两种定义:1、层次性网络。这个PACS码本身就有。2、共现次数。也就是如果两个PACS码经常同时出现在一篇文章里面,那么它们的距离就小,相似性就大。具体定义可以采用
\[s_{ij} = \frac{2C_{ij}}{C_{i}+C_{j}}\]
或者
\begin{align}
s_{ij} = \frac{C_{ij}}{\sqrt{C_{i}C_{j}}}
\end{align}
其中\(C_{ij}\)表示\(ij\)同时出现的次数。
可以验证这个定义实际上就包含了一级层次性距离。但是,在我们这里,仅仅需要在所考虑的层级上做这个共现距离的计算就可以了。算到PACS的哪一层,先都试试再说。如何把两个相似性计算方式整合起来是下一步的问题。

得到多样性之后做什么

具体讨论的问题来说,可以讨论一个国家、学校、个人、期刊、领域所发表的文章的多样性交叉性。然后讨论这个多样性和其他指标的关系,例如是否被引高了,是否发表的期刊好了,是否更容易发表,是否追热点更严重等等,以及这些相关性的时间演化。

另外,写文章的时候,典型文章、典型作者、典型期刊,也需要挑选出来讨论一下。

等待时间应该也是一个可以用来讨论一下和多样性、创新性的相关性的东西。

工作计划

考虑到作者识别的问题的难度和目前的进展。现在,先完成第一个工作:仅仅考虑文章本身的主题(\(D_1\))和参考文献的主题的多样性(\(D_2\))。然后,讨论\(D_{1}D_{2}\)和其他东西的相关性,例如文章被引次数、所在期刊的IF等等等等。

目前得到了概念(其实 是主题代码)网络,计算了基于论文主题标注\(T^{p}\)的论文的多样性,并且初步计算了期刊的多样性(包含所有主题的多样性,以及平均每篇文章的多样性)。下一步计划:
1. 要计算\(T^{r}\)、\(T^{a}\)的多样性,然后考虑一个整合起来的指标。
2. 要计算作者的多样性,基于作者主领域的,基于作者所有文章的主题的\(T^{p}_{a}\),基于作者的所有文章的平均的。
3. 把这些多样性结果和其他指标做相关性分析。
4. 从相关性分析或者单纯大小比较中选择出来一些典型文章、作者、期刊,来做个体的讨论。
5. 多样性意义下的创新性度量(广度创新性?creativity in width v.s. creativity in depth):修改概念网络,每次统计到一个阶段(例如半年或者一年算一个时间节点)。然后计算这个阶段得到的概念网络的条件下,看新发表的论文的多样性,以及这个多样性和其他指标的相关性,还有典型文章、作者、期刊

和主要文献中的工作的对比

跟“Does diversity of papers affect their citations? Evidence from American Physical Society Journals”对比,我们这个工作考虑了参考文献的多样性和作者的多样性对文章的多样性的影响。也讨论了文章的多样性对作者的多样性的影响。其中第一种作者的多样性就是作者参与的文章的pacs代码的多样性,第二种就是作者参与的文章的多样性之和。其实,还可以定义作者主领域的多样性,等到将来识别出来作者和作者的主领域。这篇文章对我们有参考意义的地方在计算出来文章、期刊和作者的多样性之后,怎么样?我们可以参考里面的作图方式,来讨论多样性和其他指标的相关性。

跟“Diversity of References as an Indicator of the Interdisciplinarity of Journals: Taking Similarity Between Subject Fields Into Account”相比,我们的这个工作把文章层次的主题标注纳入考量,而不再是期刊层次的主题标注。同时,也从仅仅考虑参考文献推广到参考文献,作者和文章本身标注,一起来考虑。这篇文章对我们这个工作最有意义的地方是其中各个多样性指标的介绍,还有这个问题的背景。

##相关文献:

  1. What makes a ‘good’ title and (how) does it matter for citations? A review and general model of article title attributes in management science
  2. The advantage of short paper titles (得到Nature和Science的述评)
  3. Article title type and its relation with the number of downloads and citations
  4. Atypical combinations and scientific impact
  5. Technological novelty profile and invention’s future impact
  6. Invention as a combinatorial process: evidence from US patents
  7. Diversity of References as an Indicator of the Interdisciplinarity of Journals: Taking Similarity Between Subject Fields Into Account
  8. Heterogeneity in an undirected network: Definition and measurement
  9. Does diversity of papers affect their citations? Evidence from American Physical Society Journals
  10. Evaluating the impact of interdisciplinary research: a multilayer network approach
  11. Interdisciplinary research by the numbers(Nature news, 两种度量多样性交叉度的方法,长期和短期效益的不同)