在物理学而言,一个现象的新框架就是指找到了这个现象的一个数学结构,并且把这个数学结构用来描述这个现象,解决这个现象的一些问题。一般来说,一个现象具有自己内在的结构的,必须在匹配上这个内在结构的数学模型,才是这个现象的一个好框架。这样一个框架还要求大部分问题的讨论都可以建立在这个框架的数学结构上(能定义问题就行,能不能求解是另一个问题)。例如,矢量(和矢量微积分,甚至流形上的微积分)用来描述物体的运动状态,Hilbert空间的矢量用来描述量子态。
科学学旨在从科学家(专利发明者,以及相关的机构,例如大学、期刊等)的活动记录(主要是文献发表记录)中来发现科学、科学研究、科学家的一些规律,了解一些现状,然后尽可能地来想办法知道一点点未来,在可能的地方促进一下科学的发展。
目前来说,大部分研究的数据基础是文献题录公司收集整理的论文发表记录和专利登记记录。大部分的研究是提出某个指标量(例如期刊的IF,作者的h指数)、讨论某个量的分布函数(例如文章被引次数的分布),以及分析某几个量之间的相关性(例如所发表的期刊的IF和文章被引次数的关系)。题录数据主要包含:文章唯一标记、标题、作者、作者单位、期刊(名称、卷期页、投稿日期、接受日期)、参考文献、被引(被什么文章引用这个数据,实际上不能独立当作数据,是可以通过参考文献反向统计出来的。但是,为了说话方便,这里还是当作题录数据的一部分好了)。有的专业机构还对文章做了主题标记,例如PACS,MeSH,MSC,JEL。题录数据主要是形式数据。主题标记一定程度上提供了内容数据。关于主题的研究在目前的科学学里面还不太多。还有的更少量的研究企图通过处理全文来获得更多的内容信息(例如看一看某一个专有名词在哪一篇文章中最初出现)。
在这个数据的基础上,那就具体问题具体分析了。例如,人们可以研究科学家如何从一个地方跑到另外一个地方,科学家的创新性和年龄的关系,等待时间和被引次数的相关性,一个学术机构(大学、城市、国家)的科学表现,某个科学领域中当前的热点,科学家和论文的排名和推荐等等等等。
实际上,还有一些问题,是非常值得研究的,但是,由于技术或者数据的原因,或者是学科发展方向的问题,或者学科基本数学结构的问题,目前得到的关注不够。例如,文章的粗粒化(例如文章的主题标注、文章主要贡献的自动摘要)、文章的个性化推荐(识别科学家的兴趣,匹配文章的主题)、科学发展状态的描述(例如领域之间的关系,科学和技术领域之间的关系)、文章中知识的挖掘、科学家在研究主题和研究方法工具上面的选择。这些问题和一线的科学家以及科学管理者直接相关。这样的问题如果能够得到回答就会从科学学领域本身中走出来,服务科学家和社会。
这样的一些研究就需要科学学领域从形式数据走向内容数据,而内容数据最关键的就是底层的概念网络,或者叫做知识网络。概念网络的顶点是一个个的概念,连边则是概念之间的关系。关系可以丰富多样。当然,层次性关系可能比较容易把握,并且比较普遍。但是,很多重要的关系会表现为突破层次性关系的长程连接。
鉴于对科学学的这个认识,我企图给出一个科学学研究的新框架——一个新的数据和问题的关系网络:作者-文献-概念三层网络。一个简单的示意图如下。
层内关系:作者之间的导师学生关系(合作关系体现在层间而不是作者层内、同事关系体现在作者集合上而不是网络上)、文献之间的引用关系、概念之间的内容上的逻辑或者其他依赖关系。
层间关系:作者创作论文、文献关注某些概念。
我们记这个关系为矩阵
[A = \left(A^{i^{\alpha}}_{j^{\beta}}\right),]
其中希腊字母为层标号,拉丁字母为顶点标号。原则上,这个矩阵是所有的这样的层间((A^{\alpha\beta}))和层内((A^{\alpha\alpha}))关系的综合。在这个关系矩阵的基础上,我们还需要添加人为定义或者自然聚集的某层顶点的一系列集合(\left{X^{\alpha}\right}),例如学科可以看做是概念的半自然聚集半人为定义的层次性集合。
如果同一对顶点之间存在着多种关系,可以用这样的记号,(A^{\left(I\right),i^{\alpha}}{j^{\beta}}),(A^{\left(II\right),i^{\alpha}}{j^{\beta}})。
好了,有了这个数学描述,我们现在来看是不是大多数科学学问题都可以变成对这个矩阵(A)的某种操作,然后,按照某些个额外的集合(\left{X^{\alpha}\right})对操作的结果做一个统计。
举例(不细说了,原则上应该穷举一下):简单统计分布函数和相关性的研究不用说。评价文章和作者的问题可以利用层间传播。多样性的问题也可以考虑层间传播。研究问题和方法的选择的问题必须用多层网络——一个领域的研究工作的随机行走或者一个作者的研究工作的随机行走。
那么,除了能够把各种已经有的研究工作和分析技术统一起来,这个矩阵(A)加上集合(\left{X^{\alpha}\right})的语言,还有什么好处呢?
第一,理念上,显式地把概念层的内容数据放到分析框架里面来。这样领域之间的关系的研究,粗粒化和自动摘要、推荐的工作就更有可能得到研究。
第二,理念上,把各种科学学讨论的关系放在了简单基本的统一的框架上。各种共现分析、引用分析等等,在我们这个框架下面,都是通过这个基本多层网络关系计算或者近似计算出来的。于是,我们需要把之前的问题和方法,选择几个,用这个新的框架来描述一下。
第三,用新的框架来回答之前的科学学研究的问题,发展新的在多层网络上直接计算的方法,跟以前的方法的结果相比较。例如,之前的工作,大多关注中间的文献层,或者把其他层的关系投影到文献层来研究。这样的工作,如果能够直接在多层网络上来研究,就有可能有新的方法,得到新的结果。例如,作者识别的问题就可以和作者领域标记这个问题合起来放到三层网络上直接来分析,而不是局限在某个投影之后的单层网络。再如,文章的重要性、主题的重要性、作者的重要性可以放在一起来讨论。具体计算上可以用这个多层网络框架的PageRank或者投入产出。目前计划讨论:多样性,排序,作者识别。
第四,提出新的框架下才能讨论的新的问题。这个有待进一步思考。
第五,提出新的框架下才能发展的新的方法。目前方法上打算尝试:多层网络上的投入产出分析方法,以及列在这里的问题:边的PageRank值,多层网络传播问题、PageRank以及投入产出分析,还有PageRank k-core项目。
这篇文献提出了类似的关系网络,还用多层网络上的PageRank来讨论了文章作者等的重要性(工作做完之后,一定要跟这群人联系一下,太神奇了,这样的ideas也有其他人想到):
Heterogeneous Networks and Their Applications: Scientometrics, Name Disambiguation, and Topic Modeling
收到Ronald的转过来的文献Construction of bipartite and unipartite weighted networks from collections of journal papers,发现类似的“科学学的多层网络框架”的想法已经被提出来,尽管文章本身缺乏具体工作的支撑。
类似的一个多层网络上的PageRank的工作可见:Ranking in interconnected multilayer networks reveals versatile nodes以及
Evaluating the impact of interdisciplinary research: a multilayer network approach
更加详细一点的在这里多层网络上的中心性(中心性度量的定义从单层网络到多层网络的推广都非常直接,还需要仔细考虑):Centrality measures in multilayer networks