科学学新框架

在物理学而言,一个现象的新框架就是指找到了这个现象的一个数学结构,并且把这个数学结构用来描述这个现象,解决这个现象的一些问题。一般来说,一个现象具有自己内在的结构的,必须在匹配上这个内在结构的数学模型,才是这个现象的一个好框架。这样一个框架还要求大部分问题的讨论都可以建立在这个框架的数学结构上(能定义问题就行,能不能求解是另一个问题)。例如,矢量(和矢量微积分,甚至流形上的微积分)用来描述物体的运动状态,Hilbert空间的矢量用来描述量子态。

科学学旨在从科学家(专利发明者,以及相关的机构,例如大学、期刊等)的活动记录(主要是文献发表记录)中来发现科学、科学研究、科学家的一些规律,了解一些现状,然后尽可能地来想办法知道一点点未来,在可能的地方促进一下科学的发展。

目前来说,大部分研究的数据基础是文献题录公司收集整理的论文发表记录和专利登记记录。大部分的研究是提出某个指标量(例如期刊的IF,作者的h指数)、讨论某个量的分布函数(例如文章被引次数的分布),以及分析某几个量之间的相关性(例如所发表的期刊的IF和文章被引次数的关系)。题录数据主要包含:文章唯一标记、标题、作者、作者单位、期刊(名称、卷期页、投稿日期、接受日期)、参考文献、被引(被什么文章引用这个数据,实际上不能独立当作数据,是可以通过参考文献反向统计出来的。但是,为了说话方便,这里还是当作题录数据的一部分好了)。有的专业机构还对文章做了主题标记,例如PACS,MeSH,MSC,JEL。题录数据主要是形式数据。主题标记一定程度上提供了内容数据。关于主题的研究在目前的科学学里面还不太多。还有的更少量的研究企图通过处理全文来获得更多的内容信息(例如看一看某一个专有名词在哪一篇文章中最初出现)。

在这个数据的基础上,那就具体问题具体分析了。例如,人们可以研究科学家如何从一个地方跑到另外一个地方,科学家的创新性和年龄的关系,等待时间和被引次数的相关性,一个学术机构(大学、城市、国家)的科学表现,某个科学领域中当前的热点,科学家和论文的排名和推荐等等等等。

实际上,还有一些问题,是非常值得研究的,但是,由于技术或者数据的原因,或者是学科发展方向的问题,或者学科基本数学结构的问题,目前得到的关注不够。例如,文章的粗粒化(例如文章的主题标注、文章主要贡献的自动摘要)、文章的个性化推荐(识别科学家的兴趣,匹配文章的主题)、科学发展状态的描述(例如领域之间的关系,科学和技术领域之间的关系)、文章中知识的挖掘、科学家在研究主题和研究方法工具上面的选择。这些问题和一线的科学家以及科学管理者直接相关。这样的问题如果能够得到回答就会从科学学领域本身中走出来,服务科学家和社会。

这样的一些研究就需要科学学领域从形式数据走向内容数据,而内容数据最关键的就是底层的概念网络,或者叫做知识网络。概念网络的顶点是一个个的概念,连边则是概念之间的关系。关系可以丰富多样。当然,层次性关系可能比较容易把握,并且比较普遍。但是,很多重要的关系会表现为突破层次性关系的长程连接。

鉴于对科学学的这个认识,我企图给出一个科学学研究的新框架——一个新的数据和问题的关系网络:作者-文献-概念三层网络。一个简单的示意图如下。

层内关系:作者之间的导师学生关系(合作关系体现在层间而不是作者层内、同事关系体现在作者集合上而不是网络上)、文献之间的引用关系、概念之间的内容上的逻辑或者其他依赖关系。
层间关系:作者创作论文、文献关注某些概念。

我们记这个关系为矩阵
[A = \left(A^{i^{\alpha}}_{j^{\beta}}\right),]
其中希腊字母为层标号,拉丁字母为顶点标号。原则上,这个矩阵是所有的这样的层间((A^{\alpha\beta}))和层内((A^{\alpha\alpha}))关系的综合。在这个关系矩阵的基础上,我们还需要添加人为定义或者自然聚集的某层顶点的一系列集合(\left{X^{\alpha}\right}),例如学科可以看做是概念的半自然聚集半人为定义的层次性集合。

如果同一对顶点之间存在着多种关系,可以用这样的记号,(A^{\left(I\right),i^{\alpha}}{j^{\beta}}),(A^{\left(II\right),i^{\alpha}}{j^{\beta}})。

好了,有了这个数学描述,我们现在来看是不是大多数科学学问题都可以变成对这个矩阵(A)的某种操作,然后,按照某些个额外的集合(\left{X^{\alpha}\right})对操作的结果做一个统计。

举例(不细说了,原则上应该穷举一下):简单统计分布函数和相关性的研究不用说。评价文章和作者的问题可以利用层间传播。多样性的问题也可以考虑层间传播。研究问题和方法的选择的问题必须用多层网络——一个领域的研究工作的随机行走或者一个作者的研究工作的随机行走。

那么,除了能够把各种已经有的研究工作和分析技术统一起来,这个矩阵(A)加上集合(\left{X^{\alpha}\right})的语言,还有什么好处呢?

第一,理念上,显式地把概念层的内容数据放到分析框架里面来。这样领域之间的关系的研究,粗粒化和自动摘要、推荐的工作就更有可能得到研究。

第二,理念上,把各种科学学讨论的关系放在了简单基本的统一的框架上。各种共现分析、引用分析等等,在我们这个框架下面,都是通过这个基本多层网络关系计算或者近似计算出来的。于是,我们需要把之前的问题和方法,选择几个,用这个新的框架来描述一下。

第三,用新的框架来回答之前的科学学研究的问题,发展新的在多层网络上直接计算的方法,跟以前的方法的结果相比较。例如,之前的工作,大多关注中间的文献层,或者把其他层的关系投影到文献层来研究。这样的工作,如果能够直接在多层网络上来研究,就有可能有新的方法,得到新的结果。例如,作者识别的问题就可以和作者领域标记这个问题合起来放到三层网络上直接来分析,而不是局限在某个投影之后的单层网络。再如,文章的重要性、主题的重要性、作者的重要性可以放在一起来讨论。具体计算上可以用这个多层网络框架的PageRank或者投入产出。目前计划讨论:多样性,排序,作者识别

第四,提出新的框架下才能讨论的新的问题。这个有待进一步思考。

第五,提出新的框架下才能发展的新的方法。目前方法上打算尝试:多层网络上的投入产出分析方法,以及列在这里的问题:边的PageRank值,多层网络传播问题、PageRank以及投入产出分析,还有PageRank k-core项目

这篇文献提出了类似的关系网络,还用多层网络上的PageRank来讨论了文章作者等的重要性(工作做完之后,一定要跟这群人联系一下,太神奇了,这样的ideas也有其他人想到):
Heterogeneous Networks and Their Applications: Scientometrics, Name Disambiguation, and Topic Modeling

收到Ronald的转过来的文献Construction of bipartite and unipartite weighted networks from collections of journal papers,发现类似的“科学学的多层网络框架”的想法已经被提出来,尽管文章本身缺乏具体工作的支撑。

类似的一个多层网络上的PageRank的工作可见:Ranking in interconnected multilayer networks reveals versatile nodes以及
Evaluating the impact of interdisciplinary research: a multilayer network approach

更加详细一点的在这里多层网络上的中心性(中心性度量的定义从单层网络到多层网络的推广都非常直接,还需要仔细考虑):Centrality measures in multilayer networks

被引次数和发表等待时间与文章属性(尤其是多样性)的关系

最近不务正业,猎猎奇,在思考如下的相关分析:论文审稿等待时间、被引用次数、作者属性(h指数、文章数量、被引次数、获大奖)、 文章标题属性、图的属性(数量、是否美观等)、参考文献属性(数量、总被引次数)、文章涉及主题的多样性交叉性、文章长度、文章所发表的期刊、文章发表的地点、文章发表的时间。等待时间和被引用次数的工作已经发表“ The correlation between editorial delay and the ratio of highly cited papers in Nature, Science and Physical Review Letters”。

当然,真正促进科学学发展的工作还是我们一直开展的投入产出研究相互影响、概念网络研究文章创新性等这方面的工作。

文章多样性度量

有多少工作是跨学科(也可以是跨子领域)的?这样的跨越比较大工作是否得到更多的引用,发表在更好的期刊上(或者反过来,宣称自己跨领域的期刊是否更多发表跨学科工作,还是发表来自于更多的学科的工作)?一个国家、科学领域、期刊、学校的发表的文章中的研究工作是否是学科交叉程度比较高的?多大程度上科学创新来自于学科融合?所有的这样的问题依赖于文章多样性的度量。多样性可以通过如下方式来度量。

所需要的数据基础

主题网络——一个包含主题和主题之间联系(顶点之间最好有相似性距离\(s_{ij}\))的网络,文章主题标记,文章引用网络,文章作者识别,作者主题标记。作者主题标记可以是作者主领域或者作者参与的文章的全领域。

因此,开展这个工作需要基于作者识别和作者主领域识别。

度量

文章本身的主题集合\(T^{p}\)、文章参考文献的主题集合\(T^{r}\)、文章作者的主题集合\(T^{a}\)。建议采用下面的指标来度量多样性:
\[d=Max{\frac{1}{s_{ij}}} \]
\[D=\frac{1}{\sum_{ij} s_{ij} p_{i}p_{j}}\]
\[D= \frac{1}{\sum_{ij}s_{ij}\left|p_{i}-p_{j}\right|}\]
其中,\(s_{ij}\)是领域i和领域j之间的相似性,\(s_{ii}=\infty\)。\(p_{j}\)表示主题\(i\)在这个集合\(T^{p}\)、\(T^{r}\)或者\(T^{a}\)中出现的频率。考虑到\(s_{ij}\)可能不等于\(s_{ji}\),求和要对两个指标都重复。前者反映最大跨度,后者反映平均跨度。如果(ij)两个主题在主题网络上不是直接相连,则需要按照网络距离来计算,
\begin{align}
s_{ij} = \frac{1}{\frac{1}{s_{ik}} + \frac{1}{s_{kj}}}
\end{align}
如果两者通过主题(k)相连的话。更远的距离需要做类似的计算。

作为基础的主题之间相似性矩阵\(s_{ij}\)可以考虑两种定义:1、层次性网络。这个PACS码本身就有。2、共现次数。也就是如果两个PACS码经常同时出现在一篇文章里面,那么它们的距离就小,相似性就大。具体定义可以采用
\[s_{ij} = \frac{2C_{ij}}{C_{i}+C_{j}}\]
或者
\begin{align}
s_{ij} = \frac{C_{ij}}{\sqrt{C_{i}C_{j}}}
\end{align}
其中\(C_{ij}\)表示\(ij\)同时出现的次数。
可以验证这个定义实际上就包含了一级层次性距离。但是,在我们这里,仅仅需要在所考虑的层级上做这个共现距离的计算就可以了。算到PACS的哪一层,先都试试再说。如何把两个相似性计算方式整合起来是下一步的问题。

得到多样性之后做什么

具体讨论的问题来说,可以讨论一个国家、学校、个人、期刊、领域所发表的文章的多样性交叉性。然后讨论这个多样性和其他指标的关系,例如是否被引高了,是否发表的期刊好了,是否更容易发表,是否追热点更严重等等,以及这些相关性的时间演化。

另外,写文章的时候,典型文章、典型作者、典型期刊,也需要挑选出来讨论一下。

等待时间应该也是一个可以用来讨论一下和多样性、创新性的相关性的东西。

工作计划

考虑到作者识别的问题的难度和目前的进展。现在,先完成第一个工作:仅仅考虑文章本身的主题(\(D_1\))和参考文献的主题的多样性(\(D_2\))。然后,讨论\(D_{1}D_{2}\)和其他东西的相关性,例如文章被引次数、所在期刊的IF等等等等。

目前得到了概念(其实 是主题代码)网络,计算了基于论文主题标注\(T^{p}\)的论文的多样性,并且初步计算了期刊的多样性(包含所有主题的多样性,以及平均每篇文章的多样性)。下一步计划:
1. 要计算\(T^{r}\)、\(T^{a}\)的多样性,然后考虑一个整合起来的指标。
2. 要计算作者的多样性,基于作者主领域的,基于作者所有文章的主题的\(T^{p}_{a}\),基于作者的所有文章的平均的。
3. 把这些多样性结果和其他指标做相关性分析。
4. 从相关性分析或者单纯大小比较中选择出来一些典型文章、作者、期刊,来做个体的讨论。
5. 多样性意义下的创新性度量(广度创新性?creativity in width v.s. creativity in depth):修改概念网络,每次统计到一个阶段(例如半年或者一年算一个时间节点)。然后计算这个阶段得到的概念网络的条件下,看新发表的论文的多样性,以及这个多样性和其他指标的相关性,还有典型文章、作者、期刊

和主要文献中的工作的对比

跟“Does diversity of papers affect their citations? Evidence from American Physical Society Journals”对比,我们这个工作考虑了参考文献的多样性和作者的多样性对文章的多样性的影响。也讨论了文章的多样性对作者的多样性的影响。其中第一种作者的多样性就是作者参与的文章的pacs代码的多样性,第二种就是作者参与的文章的多样性之和。其实,还可以定义作者主领域的多样性,等到将来识别出来作者和作者的主领域。这篇文章对我们有参考意义的地方在计算出来文章、期刊和作者的多样性之后,怎么样?我们可以参考里面的作图方式,来讨论多样性和其他指标的相关性。

跟“Diversity of References as an Indicator of the Interdisciplinarity of Journals: Taking Similarity Between Subject Fields Into Account”相比,我们的这个工作把文章层次的主题标注纳入考量,而不再是期刊层次的主题标注。同时,也从仅仅考虑参考文献推广到参考文献,作者和文章本身标注,一起来考虑。这篇文章对我们这个工作最有意义的地方是其中各个多样性指标的介绍,还有这个问题的背景。

##相关文献:

  1. What makes a ‘good’ title and (how) does it matter for citations? A review and general model of article title attributes in management science
  2. The advantage of short paper titles (得到Nature和Science的述评)
  3. Article title type and its relation with the number of downloads and citations
  4. Atypical combinations and scientific impact
  5. Technological novelty profile and invention’s future impact
  6. Invention as a combinatorial process: evidence from US patents
  7. Diversity of References as an Indicator of the Interdisciplinarity of Journals: Taking Similarity Between Subject Fields Into Account
  8. Heterogeneity in an undirected network: Definition and measurement
  9. Does diversity of papers affect their citations? Evidence from American Physical Society Journals
  10. Evaluating the impact of interdisciplinary research: a multilayer network approach
  11. Interdisciplinary research by the numbers(Nature news, 两种度量多样性交叉度的方法,长期和短期效益的不同)