一篇写得好的Scietometrics方面的文章

最近收到Ronald Rousseau发过来的他自己的文章,“Diversity of References as an Indicator of theInterdisciplinarity of Journals: Taking Similarity Between Subject Fields Into Account”。文章的工作属于还可以的量级(讨论了几一个文章多样性的指标——理念、差异、联系和优劣,选了几个指标在几个期刊上做了计算,得到了其中某几个更好的结论),但是文章的写作非常值得推荐。这个文章的写作完全可以当作以后在这个领域写作的范例。

首先交待了多样性描述这个是问题是什么,然后前人大约怎么做的做了什么有什么问题。然后,我们做了什么。这部分很标准,值得借鉴,但是大多数科学论文大概如此。

从第二部分开始,神奇的地方开始了:这一部分作者主要阐述了之前的多样性的指标有哪些,有什么关系,有什么问题。神奇的地方在于,第一,作者把这部分当作主要工作之一详细阐述。第二,每一个公式,几乎都有直觉上的解释——例如Variety、Balance和Disparity的解释以及它们如何进入指标,甚至有简单的可以计算的例子。然后,还有这些指标需要满足的一般性要求的讨论。这样的文章写作可以使更多的不用数学公式做为思考的语言的人能够欣赏这个工作(这个领域的文章一般不限制字数)。在科学学这个领域里面,这是有必要的。

推荐做科学学的各位,甚至所有用自然科学来做社会科学的成员,都来读一读。联系到我之前Journal of Informetrics投稿教训的帖子,这些经验很有价值。

另外,就这个问题来说,建议同时来考虑参考文献和作者的多样性。建议采用下面的指标:
[d=Max\left{d_{ij}\right} ]
[D=\sum_{ij} d_{ij} p_{i}p_{j}]
其中,(d_{ij})是领域i和领域j之间的距离,(d_{ii}=0)。前者反映最大跨度,后者反映平均跨度。另外,在这篇文章的文献综述的基础上,再看一下生物学里面多样性的指标。

具体讨论的问题来说,可以讨论一个国家、学校、个人、期刊、领域所发表的文章的多样性交叉性。然后讨论这个多样性和其他指标的关系,例如是否被引高了,是否发表的期刊好了,是否更容易发表,是否追热点更严重等等,以及这些相关性的时间演化。

当然,做这个工作需要给出来一个领域分类体系(包含距离,例如所有标有i的文章和所有标有j的文章的交集的大小除以它们的并集的大小),还要有作者的领域标注,文章的领域标注。当然文章的作者标注和文章的参考文献标注也需要,但是想对简单一些。

整体来说,在这个工作里面,我们希望运用作者、文章、主题三层网络来讨论一篇文章的多样性和一个作者的多样性。一篇文章的多样性分成三个方面:文章本身主题的多样性,文章参考文献主题的多样性,以及作者的主题的多样性。具体多样性的计算,在得到这个主题集合以后非常简单。考虑用主题之间的距离(d_{ij})关系来定义的(D)就可以。

考虑到作者识别的问题的难度和目前的进展。现在,先完成第一个工作:仅仅考虑文章本身的主题((D_1))和参考文献的主题的多样性((D_2))。然后,讨论(D_{1}D_{2})和其他东西的相关性,例如文章被引次数、所在期刊的IF等等等等。

具体计算上,需要实现:主题之间的距离矩阵(d_{ij})。采用两种距离的定义:1、层次性网络。这个PACS码本身就有。2、共现次数。也就是如果两个PACS码经常同时出现在一篇文章里面,那么它们的距离就小。具体定义可以采用
[d_{ij} = \frac{C_{i}+C_{j}}{2C_{ij}}]
或者
[d_{ij} = \frac{max\left{C_{i}, C_{j}\right}}{C_{ij}}]
其中(C_{ij})表示ij同时出现的次数。
可以验证这个定义实际上就包含了一级层次性距离。但是,在我们这里,仅仅需要在所考虑的层级上做这个共现距离的计算就可以了。算到PACS的哪一层,先都试试再说。

每篇文章的PACS标注和文章之间的引用关系,简单,已经都有。

发表评论

电子邮件地址不会被公开。 必填项已用*标注