论文主题分类研究

分类是很多研究的基础。一方面通过分类可以把我粗粒化的图景,另一方面反应内涵的分类能够帮助发现内涵。同时,论文主题分类也是概念和概念之间关系挖掘的基础。

在科学计量学里面,和主体信息(作者、单位)识别,以及核心引用文献识别,等合起来,是基础性研究工作。最近这个问题得到了比较多的关注,Scientometrics出了一个专刊。我就顺便把文献和思路整理在这里。

文献部分见这里:一个zip打包文件,以及一个整合的pdf文件

数据获取可以用APS的PACS标记数据或者见文献中的Challenge那篇文章的信息,还可以依靠MeSH, MSC, JEL。

工作主要思想,把论文或者论文中的概念抓出来处理成为实空间中的矢量(不是0,1型的离散计数矢量),然后运用矢量聚类方法。中间可以引入多层网络的思路,对作者主题论文同时做聚类。

考虑组织一个读书活动,然后同时开展研究工作。

数学家经济学家生命科学家物理学家追热点的工作终于被JoI接受了

Menghui Li, Liying Yang, Huina Zhang, Zhesi Shen, Chensheng Wu, Jinshan Wu, Do mathematicians, economists and biomedical scientists trace large topics more strongly than physicists?, Journal of Informetrics, 11(2), 598–607(2017).

经验获得:1. 用的专有名词,即使跟之前的其他人使用的意思基本无关,即使看起来一点也不像专有名词,还是要把它和之前的联系起来,做好明确的区分。2. 如果有可能,让领域内的专家读一遍提一提问题,会很有帮助。就是这样的专家不好找。以后还是要尽量多找找。

额外获得:通过这篇文章额外收获了两个合作者。 他们还是觉得这一系列工作,尽管有各种非专业的缺陷,但是,很有新意,很不错。合作项目已经基本设计好。

科学学研究工作整理

以下是部分已经完成的工作和正在开展的工作。欢迎所有人来合作和讨论。甚至直接拿过去做就行,只要做的时候给我一个消息

在科学学方面,核心的创新是围绕下面几个方面:科学学三层网络框架、间接联系、概念网络。对于什么是科学计量学这个问题的认识,可以看之前的总结。具体研究工作随手记下来的有这些:

  1. 框架和间接联系用于论文-专利-基金分析,回答相互联系的问题,用于作者-论文-主题回答作者论文多样性创新性问题、作者论文主题评价排序的问题、相互影响的问题。方法上考虑发展广义投入产出用于多层网络。
  2. 广义投入产出用于单层网络(个方法的比较:固定外界的,封闭系统的,目标外界的,以及和pagerank的比较)
    1. 把基金数据和aps国家数据合并,做成一个基金国家当做外界,国家乘以领域作为投入产出部门的投入产出表,分析某国家的基金总量或者某领域的基金对于某国家某领域的贡献
    2. 领域为单位的投入产出表(文章已发表, Journal of Informetrics)、国家领域为单位的投入产出表、城市领域为单位的投入产出表、期刊为单位的投入产出表、论文为单位的投入产出表。间接影响,排序,相互关系。
    3. 引文网络中的真引用:给定论文,其引文中最关键的,引用其的论文中最受其影响的(Measuring academic influence: Not all citations are equal, Transitive reduction of citation networks, Tracing the evolution of physics on the backbone of citation networks)。
  3. 追热点和领域演化问题:
    1. 中国科学家是否经常在领域变热之后大规模加入,还是有提前量:分析领域大小时间序列和这个国家论文这个领域论文数量时间序列的相关性,时间延迟相关性和Granger相关性(李梦辉)。
    2. 领域演化的Allometric标度律(文章已发表, Scientometrics)和科学家发文章追热点行为(文章已发表,Scientifc Reports, Journal of Informetrics,链接是arXiv上的,等JoI出版正式版本再修改链接)
    3. 引用论文是否存在热点追踪现象:把论文的引用次数当做热点指标,看每个单位时间内的新引用分布是否符合现有的文章的热度的函数(李梦辉)。
    4. 论文审稿等待时间、被引用次数、作者属性(h指数、文章数量、被引次数、获大奖)、 文章标题属性、图的属性(数量、是否美观等)、参考文献属性(数量、总被引次数)等之间的相关关系分析。等待时间和被引用次数的工作已经发表于Scientometrics
  4. 大鱼吃小鱼,平等和效率的问题。先看平等问题,将来再看好不好,效率问题
    1. 中国和国际科学家的基金金额和工资,是否存在大鱼吃小鱼现象,Gini系数的时间演化规律。同样的问题可以在学校研究所的层次来讨论(沈哲思)。
    2. 学校层面还可以讨论其他指标的Gini系数,例如总学生人力资本量。投入阶段,可以用高考成绩,产出阶段不好办。
  5. 学科概念地图到学习顺序、状态检测,到hem效率降低。
  6. 作者的问题选择,追哪些因素
  7. 多大才够大,用于期刊学校科学家(教学、科研)评价。
  8. 三层网络用于论文聚类,考虑word2vec。和单层网络比较。
  9. 数据建设:
    1. 整合wos和专利、基金
    2. 建立学科概念地图(自动Wikipedia、人工)
    3. 利用机构领域,加上合作网络,来做作者姓名识别。
  10. 服务:
    1. 综述点评网
    2. 技术部门-学科领域相互关系研究发布(做图用方块,横向直接纵向间接?)
    3. IOF各主体排序
    4. 做一个软件给每篇文章产生一个概念地图形式的摘要
    5. 科学计量学iof分析软件(IO-Scope)

什么是科学计量学

学习和研究任何一个学科都需要大小结合,有学科大图景、有通过大图景串起来的概念和例子。所谓大图景就是这个学科研究的基本问题是什么,主要的思考问题方式是什么,主要的分析方法是什么,当前的主要发展方向是什么。只有清楚了这些问题,然后把自己的研究工作放到这个大图景的背景下,才能够更好地有创行性,甚至系统性基础性的创新。在这里,我把科学计量学按照这个思路做一个总结。同时,也留给后来人当做进入这个领域的入门指导。这是公共品,希望有人能够补充,因为这个总结受很多我自己的工作面的限制。如果补充的人能够理解这个思路就更好了。

科学计量学的研究对象是科学家、科学家的研究活动,以及科学家的研究活动的结果——思想方法知识的创新和积累,具体体现为学科、书、论文、专利、技术、甚至产品。但是,这个研究对象实在太难以处理和缺乏数据了。按照力学的世界观,任何一个系统,我们要问状态如何描述、状态是否发生变化、变化的原因是什么。我们来尝试着用这个世界观考察这里的研究对象。例如,一个科学家的描述变量是什么,这个变量会变化吗,变化的原因是什么?显然,这些问题非常有意义。进一步,我们甚至大概可以说科学家的创造性、科学家思考问题的状态、科学家的思想方法知识的积累都可以看做这个科学家的状态,科学家的状态通过看论文学习新知识科学家自己的思考等等也会发生改变,而且如果能够研究清楚改变的原因那么,没准也确实能够促进科学家的工作。但是,但是,我们有这方面的数据吗,甚至,我们连要什么数据都不明确。于是,这个问题是一个现阶段还不能展开研究的问题。那怎么办?

科学的基本思想之一就是从现象到数据(通过观察和实验),从数据到数据规律(就是经常出现的意思,有一定普适性,还要有普适性的边界),从数据规律到模型,从模型到成系统的一般来说最小要求的模型,后者就是一般所说的理论。其中,每一步都需要反复地去问为什么是这个样子的,反复地考察和检验。当有了理论,可以回过头来,考察更一般的现象得到一些可检验的结果(这些结果本身来说需要是存在多种可能的,并且其中一种可能发生的话,就可以证明这个理论是错的。这叫做可证伪性),接着看看实际的结果是不是和理论给出来的一样。

如果现象到数据这一步都没有的话,那我们什么都不用做了。幸好,我们还有不太直接的替代品:科学家发表的论文、书、专利、技术、产品,科学家发展起来的学科。直到将来有一天我们可以获得上面的直接数据,暂时,我们就只能够用这个替代品了。那这些替代品能够帮助我们真的了解科学家和科学家的活动吗?不知道,先把问题留着。当然,这些替代品本身就是我们上面提出来的研究对象。我们先从这个角度来看看什么是科学计量学的问题。

论文、专利、书、学科知识(以及知识之间的联系)这些东西不多的时候,比较简单,我们只需要一个能够帮助我们找到这些东西的拐棍就行了。于是,我们需要一个图书论文专利的编目系统,一个学科知识的概念网络甚至有的时候仅仅是一个概念集合以及这个集合对应着的编目系统,就差不多都用了。在信息时代来临之前,在科学和技术的发展超出了一个最聪明最博学的人能够学会的时代到来之前,基本上,编目也就够用了。这就是为什么之前的科学计量学实际上基本上就是图书情报学。整理好编目去吧,等着需要的人去检索去用。

但是,现在,就算在某一个小小的领域,例如科学计量学,一个研究者都很难跟踪所有的研究论文了,更何况专利、技术、产品等。目前为止,综述文章和书,可能对于小领域还能够保持跟踪。那怎么办?我们需要一个办法来帮助科学家在论文、专利、书、技术、产品的海洋中理出一条线索,高速获得想要的这个海洋中的一滴水。于是,Garfield等人提出并实现了记录每一篇“像样”的论文的题录。有了这个题录仅仅是最基础的数据。这个数据能够帮助我们实现找出线索并且快速获取信息了吗?

最简单粗暴的办法就是你需要找到什么就提出检索,然后我就给你全文(标题、摘要、关键词、引文、作者)匹配。当然,你要是非常明确你要找的是什么,这个简单粗暴的方法还可以。如果你不太明确,例如仅仅关心某主题,那么有的文章可能不直接用这个词,可是内容上还是关于这个主题的。因此,还需要一个主题分类。这是为什么我们会有物理学的PACS、数学的MSc、经济学的JEL、生命科学的MeSH这样的主题标记系统。可是,全部匹配上的就都显示,并且都显示在结果的第一页吗?于是,我们还需要一个给论文等排序的一个系统。例如,在网页检索的问题上,我们也同样需要这样一个排序系统。这个排序系统可以按照所有网上用户的点击率或者个性化评价或者被其他网页引用的次数。但是,Brin和Page神奇地提出来,其实把引用次数这样的东西迭代分配几次可以更好地用于排序。这个算法被称为PageRank。插播:实际上这个神奇的算法的思想在科学学的另外一个开创性人物Narin的工作中很早就被提出来过。以后我们还会回到这个人。以论文为例,那么是不是可以把其他论文引用这个论文的次数当做一个排序指标呢?在计算机还不能处理几百万篇文献的PageRank的时代,这个直接数数确实很好用。于是,也就很少有人沿着Narin的多分配几次的思想来发展排序系统了。当然,大家心里还是知道,实际上,论文的重要性还有很多方面。例如,被好的还是不好的论文在引用(也就是PageRank的思想),是否被专利、技术、产品引用,并且是否由此产生了对经济系统的影响,或者是否直接或者间接地促进了某个大人物或者小人物的思想上的觉醒,等等等等。但是,还是回到数据的问题,没数据啊!然而,引文数据却容易获得很多很多。Garfield的Web of Science之后,还有其他的通用(例如Scopus)和专门数据库(例如DBLP)。专利也整理了专利自己的数据库,例如德温特数据,例如美国专利和商标局数据等。

到这里,原则上,我们有每一篇文章的主题标记和题录(指标题、作者、摘要、期刊名称卷期页、投稿接受和发表时间、致谢、作者贡献、基金支持、唯一标识、引文、全文,后面的引文和全文一般来说不算题录,我这里用语就随便一点了),我们就可以完成帮助科学家快速获取信息的目的了,检索和浏览都可以实现了。但是,我们还是不能够告诉科学家每一篇文章都做了什么啊。当然,我们有摘要。如果我们能够利用摘要和全文,以及主题标记甚至主题标记之间的概念联系(也就是学科知识集合和知识之间的联系),给出来一个大致的领域粗粒化描述,或者某领域文献综述,就更好了。如果还能够把漏掉的金子以及还没有发光的金子(或者暂时被当做金子的沙子?)都能够挑出来,就更好了。于是,这也就是为什么在科学计量学里面会有自动摘要、自动综述、引用之外的其他论文排序系统这些研究主题。

可是,非常遗憾的是,不是每篇论文都有主题标记(作者关键词同义不同形的可能性太高了,任意性也太高了),也不是每个学科都有一个好的已经整理出来的学科知识体系(知识以及知识之间的联系)。怎么办?我们把这个问题也先放在脑子里。回过头来,再从最简单的论文之间的引用关系开始。当然,论文、专利、技术、产品之间的引用关系,相对来说,也比主题标记和学科知识体系更容易获取。不过,根本上我们还需要产品在经济系统中的地位、科学家消耗了多少基金和时间等等数据。这些就又不太好获得了。所以,让我们退回来,回到引文来讨论。

第一,实际上,并不是所有的引用都是等价的。有一些是工作背景,有的是工作的直接基础,有的仅仅是大家都在引用,还有的可能是有其他目的的(例如期刊内自引、学校内自引、团队内自引、作者自引等)。能够区分吗?实际上这是一个非常重要的问题。有可能随着全文的获得和自然语言处理以及其他人工智能技术的发展,是可能可以回答的。第二,反映重要的和不重要的文章的引用的差异的排序指标,真的就只有PageRank了吗?或者,将来我们计算的时候肯定要有一个统一的单位才能数数才能做运算的,一次引用真的可以当做一个单位吗?不同的学科可以比较吗?我们看到,PageRank的思想就是重要性一定程度上可以传递,计算的时候需要多分配多迭代几次。我们称引用关系为直接关联或者直接关系,这个多分配多迭代的做了传递的思想为间接关联或者间接关系。这个单位和间接联系的问题都可以通过这种多次传播的思想来分析。有一个叫做网络科学的学科,其基本思想和技术就是间接关系和传播很重要而且有方法可以来计算分析这个间接关系。我们发现在这个思想的指导下,其实可以有一系列的综合分析直接和间接联系的方法。我们称之为广义投入产出分析[Shen2016]。这里我们也提到了第三个问题:第三、统一的单位和可比较性。这个问题在科学计量学里面被称为归一化问题。我们稍后也会回到这个问题。第四,很多时候,我们看到一篇文章,并且从这个文章回溯其参考文献才看到另一篇,引用的时候可能会把两者都写上或者仅仅写上其中之一。这个,怎么处理?当做完全不相关的两个引用来处理,还是有别的方法?关于这个问题我们可以把引用关系做个预处理:如果A引用了a1, a2,而其中a1引用了a2,我们可以仅仅保留A-a1或者A-a2。这方面的工作我们正在进行。我们已经挖了好几个没填上的坑了。不过,我们稍等,先回到一点点历史。

在引用次数这个问题上,我们可以顺便提一下历史上一些很重要的结果。例如,被引频次的分布:给定一个期刊或者很多个期刊的文章的集合,我们统计一下被引次数的分布,发现,根本不是正态的,有很多很多的论文被人引用也有不少的论文被引次数非常多。这两头的比例都远远偏离正态。这也说明,如果我们用一个平均值去代替这个分布,这个代替是非常不可靠的,没有代表性。那问题来了:如果我们需要某个指标来帮助我们选择期刊(大学、城市、国家——如果可选的话)的话,我们能不能有一个还算能用但是又简单的指标呢?平均值就很简单,但是管用吗?在个体的层次,也就是考虑单篇文章和单个科学家,这个平均值——就是后来”著名的“影响因子——非常不具有代表性,非常不管用,这是我们已经知道的。但是,能够代表对期刊的水平不太了解的初次投稿者以及在思考订阅什么期刊但是对专业学科的期刊不太熟悉的图书管理员选择期刊者来使用吗?注意,这个的目的首先是这些直接使用者,至于管理机构给每个期刊分配资源是否可以参考这个平均值之类的事情不是第一位的。为了这个目的,我们来数学化一下(注意,有了研究对象和问题,有了基本思想,下一步就要数学化,然后才是解决这个数学问题,接着才是检验的问题):任意两个期刊,如果它们的影响因子有高低,那么,我们想了解多大程度上从两个期刊里面随机各抽一篇的情况下,影响因子高的那个期刊的文章的被引用次数大;或者说从另一个角度,如果说影响因子代替单篇文章不合适,那么多大的集合就可以用这个平均值来代替了。也就是说,给定一个集合大小\(Z_{j}\),从期刊\(j\)中随机选取\(Z_{j}\)那么多篇文章其平均值是不是就接近这个整体的平均值,而且这个平均值还可以用来使得这个期刊和其他的期刊区别开来了。这两个问题是相辅相承的,一个问题的两个方面。如果被引次数是正态分布,那么,这些问题都可以解析求解,可惜分布函数不是正态。有关这个问题的进一步讨论在这里就不再展开了,有兴趣的可以看[Waltman的综述,我们自己的工作,还有前面这个几率的计算的工作]。

到现在为止,我们讨论了科学计量学的研究对象和研究问题,以及研究问题和服务对象的关系,还有分析问题的思想——从数据出发、直接和间接关系。我们还要注意这里有很多的近似:没有研究对象的直接数据而是用的间接数据、没有统一的单位暂时数数、经济和技术和科学实际上不可分但是我们暂时划了一条界线等等等等。服务对象也基本上就局限于科学家。一会儿,我们会稍微拓广一点我们的服务对象,再来看需要问哪些问题,以及这些问题的分析思想和分析方法。具体分析方法上,我们仅仅讨论了统计文章(类似的可以用于专利、书等等)的被引次数,它的分布函数还有平均值。实际上,关于这个被引次数还有其他的一些比较严重的但是可能可以在现阶段处理的问题。例如,不同领域的工作不一定能够相互比较:生命科学领域的文章通常引文比较多被引次数也比较大,数学就反过来,物理学差不多居中。于是,同样被引10次,生命科学论文和数学论文的影响力实际上不一样。甚至,来自于同一期刊的文章,也可以是不同领域的,于是它们的平均被引次数可能不一样,也不能放在一起来对比。那怎么办?

科学计量学上,把这个问题称为被引次数的归一化。大概来说,我们可以把文章分成领域,然后在足够小的领域来归一化——例如被引次数除以这个领域所有文章在一个时间段里面的平均被引次数,或者我们可以把施引文章当做一个单位平均分到这个篇文章的参考文献上去。注意,这个分配方式其实和PageRank是有关系的。我们确实还可以把每篇文章不按照被引次数来计算而是按照某种类似PageRank的算法计算出来的分值来计算和分配。等着,我们一不小心又回到了论文的领域标注的问题和学科的知识体系的问题。我们有这样的好的领域标注和学科知识体系吗?有几个,不多。怎么办?因此,我们还需要研究论文的主题标注和主题分类问题。注意,这个问题实际上依赖于学科知识体系。我们还会回到这一点。有关这个归一化问题的研究可以看看这几篇综述[Waltman评价指标综述]。

前面仅仅提出了为了信息获取的目的我们需要一个排名,实际上,有的时候,可能我们直接就需要一个排名。例如,非专业的管理者需要大概了解某个领域谁最牛这样好咨询一下这样的人,期刊的编辑或者基金评审的组织者想找到某领域的合适的审稿人。例如,在有的地方,非专业的管理者需要在评奖雇人分配资源方面有一个大概的方向或者入门砖。有的时候可能专业人员在大范围选择的时候这样的入门砖也是有用的,但是,但是,最终一定不能依靠指标——它们一般不适用于天才和垃圾,而是真的去深入阅读和讨论。也就是说,不管怎么说,如果能够对研究成果(论文、专利、书等等)给一个评价,对研究者、研究单位(团队、学校、城市、国家)给一个评价,有的时候总是有那么一点点用处的。例如你不能指望所有的高中生和高中生家长都通过深入了解很多所学校来做出选择,有一个大概的排名总比道听途说或者随机选要好。于是,这个问题,在科学计量学里面,成了评估指标的问题。我们发现,其实这个问题也可以依赖于上面的对排序算法的研究来回答。不过,在前面排序仅仅是为了信息获取的方便,在后面排序本身就是目的。

除了科学家的信息获取和帮助非专业的以及专业的管理者偷懒,科学计量学还应该考虑帮助科学家选择研究主题、了解研究领域,帮助老师们来更加容易地把研究成果转化成课堂的素材,帮助政策制定者和管理者来更好地促进科学技术的发展。了解研究领域就要给领域一个画像,回答一下这个领域分成哪些主题,这些主题之间的逻辑关系是什么,哪些工作在哪些方面促进了科学的进步,其中哪些主要科学家和哪些主要研究工作还有那些概念和例子非常的突出等等这样的问题。当然,前面提到的自动摘要自动综述以及排序算法也能够一定程度上解决这个问题。但是,更加重要的是粗粒化,也就是从文章的整理到主题的整理。很多时候我们需要把我粗粒化的图景。另外,从科学计量学研究本身来说,分类是大多数研究的第一步,非常重要的第一步。其中PACS、MSc、JEL、MeSH要么依靠作者要么依靠专门的编辑部来给文献分类,而分类体系本身则是一棵概念树。当然,我们可以研究如何把这样的分类体系推广到自动算法上去,例如依赖文章题录信息来计算推测主题分类。更重要的,我们要有更加合理的分类体系:学科知识不是树,而是网络,当然这个网络的层次性相对明显。那么,我们现在有这样的网络吗,假设有了这个网络我们如何给文章建立主题标注?在这里,我们提出来一个“学科概念地图”的概念,也就是用网络的方式来呈现一个学科的核心概念以及概念之间的关系。大概来说,也可以看作是Wikipedia之类的百科所整理的知识的一种网络形式的呈现方式。强调概念之间的联系,强调概念的组织,通过围绕着某个主题的组织来体现大图景,也就是基本问题、基本思想、基本分析方法和它们的例子。稍后我会尝试给出来这个文章的主要意思的概念地图和科学计量学的整体概念地图,当做例子。于是,现在问题就成了:如何构建这样的学科概念地图,以及如果有了这个地图,如何做论文的领域标记和粗粒化。

当然,在没有这个学科概念地图的时候,科学计量学也是要着手来解决这个问题的。很多时候通过分析引文网络来完成。其中又分为直接分析引文网络、分析共施引网络(两篇文章一起引用某文章则相连)或者共被引网络(两篇文章共同被某文章引用则相连)。后面两个关系实际上是前面的关系的“投影”:在前面的网络上走两次(先顺着引用关系再逆着引用关系,或者先逆着再顺着)能够连通就在后面的网络上连通。在国内使用者非常多的由Chaomei Chen发展的CiteSpace软件就是分析共被引来做粗粒化和领域演化的典型代表。其他的还有CWTS的基于引文网络的直接分类方法以及基于这个分类建立的排序指标。在这方面可以参考Waltman的综述[Waltman_PLOS]。

此外,为了更加方便地做自动摘要和自动综述,实际上,文章层次的概念地图也是非常有意义的。文章的概念地图可以给出来文章关注的主要问题、概念方法思想的基础、主要贡献甚至主要参考文献。这样通过某种方式合并每篇文章的小图,我们就可以看到一个集合的文章的整体大图。

除了通过设计指标和制定分类来通过检索和浏览来快速获取信息,甚至直接就是用作排名用作评价,以及把握学科粗粒化发展图景,还有大量的问题我们可以研究。只要这些问题还是基于科学家、科学家的研究活动和活动的成果这些研究对象并且为了服务于科学家、教师和学习者、管理者的,以数据为基础的,以科学方法开展的,基本上都可以算作科学计量学。例如,除了衡量文章作者以及各个研究主体的综合影响力,我们还可以衡量它们创新性。在创新性的度量上,其实这个三层网络也具有其特殊的意义:一个研究工作的主要贡献可以看做是提出了概念、提出了分析方法、找到了概念和方法应用的例子、提出了新的问题等等,也就是说,表现为概念网络上的顶点或者连边,也就是从论文层到概念曾的层间连接。我们还关心选择领域专家的问题,例如为了满足咨询领域发展方向或者文章基金审稿等任务的需求。于是,传统上科学计量学是把共被引和共施引这样的投影得到的共现关系推广到作者和主题这个共现关系上面。这个投影实际上是先从作者到文章,再从文章到主题。原则上,还可以继续投影,例如从作者到文章再到作者就是合作,从作者到文章再到引文甚至引文的主题(不知道叫什么什么共现)。实际上,从网络的角度来说,这些贡献矩阵都是对原始的作者-论文-概念关系网络做了某种投影。如果用投影能够研究某问题,那么,投影之前的原始网络也必然能够用来解决这个问题。当然,计算分析的方式和难度是另外的问题。有用的问题可能更加适合用投影之后的网络。

通过前面提到的在多个方向上的具体研究的例子,我们看到,是不是这个领域的基本数据、基本思想、基本方法有一个一致性的描述?我们说这个例子就是多层网络模型。先说论文内部的层次,我们有作者、论文、概念。每一个层内我们有基本关系(能够由基本关系得到的导出关系都不算,因此合作关系不是基本关系),例如作者之间的师承关系社会关系同一个团队学校等关系,论文之间的引用关系,概念之间的学科内逻辑关系。层与层之间还有基本关系,例如作者写了某论文、某论文工作在某主题上。有了这个一般的框架,那么,剩下的问题就是:是否迄今为止的大部分研究工作,包括问题和分析方法,可以用这样的一个框架来描述;是否这个框架还可以进一步启发我们新的研究,包含新的问题、新的方法、新的思想,以及通过它们得到的新的结果。更进一步,其实这个多层网络还可以进一步扩展,例如包含专利。我们就有了论文的三层,专利的三层(发明人、专利、专利的相当于概念层的技术领域),甚至可以考虑它们的结合。于是,相当于我们增加了从专利到论文的引用从论文到专利的引用。我们问,这样的一个框架可以用来研究什么问题?第一,可能可以更好地回答前面的排序的问题。这个时候,论文的评价不仅仅基于其他论文的引用还包含专利的引用。当然,如果仅仅为了回答论文的评价的问题,实际上,可以去掉论文作者和专利作者的那两层。实在不行,还可以先去掉学科概念和专利技术这两层。当然,原则上,研究是否是基础性的技术的专利和是否是基础性的科学概念是有区别的。第二,更加重要的事情是,通过这个网络,我们可以看到不同领域之间的联系了。例如某项专利主要受哪些科学研究的支持和启发,某项科学研究依赖于哪些技术进步等等这样的问题。这样的问题对科学家发明人以及对管理者都是可能有意义的。实际上,Narin的早期研究就在关注这个科学-技术关联的问题。其中一个原因就是大家需要对基础科学的研究到底多大程度上促进了技术从而促进了经济的发展有一个更加仔细和可靠的了解,并且当时有一种说法说政府投给基础研究的钱太多了,如果不发挥经济作用的话,那应该减少。当然,这个问题可以通过个案来研究,也就是选择比较重要或者出名的产品或技术,反溯其科学基础,然后看看这些科学基础的发展过程中政府支持是否发挥了重要作用[Narin_TRACE]。这个研究还可以用大规模数据来做:统计专利引用的科学论文的数量,看看这个数量的时间演化,领域分布等特征。其中一个叫做技术-科学关联系数就是Narin它们在这一批工作中提出来的[Narin_Linkage]。在这里网络的思想和分析技术将再一次发挥重要的作用。考虑如下的情况:一个专利A依赖于论文a,一个专利B依赖于专利A但是没有引用任何论文。如果仅仅对引文数数做统计,那么我们会得到B不依赖于a的结论,但是,显然,B实际上依赖于a。如果论文a还引用论文b,那有可能B还依赖于b。这个就是传播、迭代计算的思想和分析方法。

沿着这个方向,我们也可以讨论粗粒化的问题:我们不再关心具体的某个专利对科学的依赖,或者反之,而是考虑某个专利部门,例如手机通讯光通讯之类的,主要依赖于哪些科学领域。这个粗粒化在我们的多层网络框架上就相当于某种方式先对层内顶点做聚类,然后研究这些类当做顶点的网络。当然,再一次,分析的时候需要考虑传播考虑迭代计算,也就是直接和间接关系。

当然,你可以继续追问,为什么在专利和论文的层次就停下来,不把专利到产品的转化,甚至产品在整个经济中和生活以及其他产品的联系都加入进去。原则上,是的。但是,我们需要数据啊,而这样的数据远远比前面的更加难以获得。进一步,任何研究,总数要在某个地方切一刀,把切出来的东西当做孤立系统来研究的。如果这一刀合适,系统内部的联系就会远远比系统和系统外部的联系重要普遍的多。那这样的一刀也就是合理的了,直到有一天能够把数据的边界再一次扩展。

总结:科学计量学是以数据和科学方法分析研究科学家、科学家的研究活动和科学家的研究活动的成果,从而实现为了科学家、教师和学习者、科学技术政策制定者和管理者服务的一个学科。其重要思想是:一切基于数据,直接联系和间接联系同时都非常重要。其重要理论模型是:多层网络科技主体(作者、论文、专利、书、产品、概念,以及这些主体构成的团队、单位、城市、国家、学科领域、技术部门)。用一个一致的角度来描述数据和问题,然后发展这个数据上的计算分析方法来解决这些问题,对于一个学科的发展是非常重要的。研究工作不仅仅是解决一个个独立的问题,还要把问题相互联系起来,在整个学科的背景下来思考和定位。这个什么是科学计量学的整理,除了给后来者一个容易进入的门或者窗之外,还希望能够给后来者这样的一个看问题做研究的整理思路。

参考文献我慢慢加上。

[1]S. Brin, and L. Page, The anatomy of a large-scale hypertextual web search engine, Computer Networks and ISDN Systems, 30, 107-117(1998).
[2]Ludo Waltman, A review of the literature on citation impact indicators, JOURNAL OF INFORMETRICS 10(2), 365-391(2016).
[3]Y. Ding, E. Yan, A. Frazho, J. Caverlee, PageRank for ranking authors in co-citation networks, Journal of the American Society for Information Science and Technology, 60(11), 2229–2243(2009).
[4]W. Leontief, The Structure of American Economy, 1919-1929. Cambridge: Harvard University Press (1941).
[5]G. Pinski and F. Narin. Citation influence for journal aggregates of scientific publications: Theory, with application to the literature of physics. Information Processing & Management, 12(5):297-312, 1976.
[6]Z. Shen, L. Yang, J. Pei, M. Li, C. Wu, J. Bao, T. Wei, Z. Di, R. Rousseau, J. Wu, Interrelations among scientific fields and their relative influences revealed by an input–output analysis, Journal of Informetrics, 10(1), 82-97(2016).
[7]C.T. Bergstrom, J. D. West, M. A. Wiseman, The Eigenfactor Metrics, Journal of Neuroscience 28(45):11433-11434(2008).
[8]P. Chen, H. Xie, S. Maslov, and S. Redner, Finding Scientific Gems with Google, Journal of Informetrics 1, 8 (2007).
[9]Waltman, L., & Van Eck, N.J., A new methodology for constructing a publication-level classification system of science, Journal of the American Society for Information Science and Technology, 63(12), 2378-2392 (2012).
[10]I. Wesley-Smith, C. T. Bergstrom, and J. D. West, Static ranking of scholarly papers using article-level Eigenfactor (ALEF), The 9th ACM International Conference on Web Search and Data Mining (2016).
[11]J.D. West, M.C. Jensen, R.J. Dandrea, G.J. Gordon, and C.T. Bergstrom, Author-Level Eigenfactor Metrics: Evaluating the Influence of Authors Institutions and Countries Within the SSRN Community, Journal of the American Society of Information Science and Technology 64: 787-801(2013).
[12]Manlio De Domenico, Albert Solé-Ribalta, Elisa Omodei, Sergio Gómez & Alex Arenas, Ranking in interconnected multilayer networks reveals versatile nodes, Nature Communications 6, Article number: 6868 (2015).
[13]Vicente P. Guerrero-Bote, Félix Moya-Anegón, A further step forward in measuring journals’ scientific prestige: The SJR2 indicator, Journal of Informetrics, 6(4), October 2012, 674-688(2012).
[14] M. Nykl, M. Campr, K. Ježek, Author ranking based on personalized PageRank, Journal of Informetrics, 9(4), 777-799 (2015).

附件:《什么是科学计量学》讲稿《广义投入产出用于科学领域关联分析》

科学学新框架

在物理学而言,一个现象的新框架就是指找到了这个现象的一个数学结构,并且把这个数学结构用来描述这个现象,解决这个现象的一些问题。一般来说,一个现象具有自己内在的结构的,必须在匹配上这个内在结构的数学模型,才是这个现象的一个好框架。这样一个框架还要求大部分问题的讨论都可以建立在这个框架的数学结构上(能定义问题就行,能不能求解是另一个问题)。例如,矢量(和矢量微积分,甚至流形上的微积分)用来描述物体的运动状态,Hilbert空间的矢量用来描述量子态。

科学学旨在从科学家(专利发明者,以及相关的机构,例如大学、期刊等)的活动记录(主要是文献发表记录)中来发现科学、科学研究、科学家的一些规律,了解一些现状,然后尽可能地来想办法知道一点点未来,在可能的地方促进一下科学的发展。

目前来说,大部分研究的数据基础是文献题录公司收集整理的论文发表记录和专利登记记录。大部分的研究是提出某个指标量(例如期刊的IF,作者的h指数)、讨论某个量的分布函数(例如文章被引次数的分布),以及分析某几个量之间的相关性(例如所发表的期刊的IF和文章被引次数的关系)。题录数据主要包含:文章唯一标记、标题、作者、作者单位、期刊(名称、卷期页、投稿日期、接受日期)、参考文献、被引(被什么文章引用这个数据,实际上不能独立当作数据,是可以通过参考文献反向统计出来的。但是,为了说话方便,这里还是当作题录数据的一部分好了)。有的专业机构还对文章做了主题标记,例如PACS,MeSH,MSC,JEL。题录数据主要是形式数据。主题标记一定程度上提供了内容数据。关于主题的研究在目前的科学学里面还不太多。还有的更少量的研究企图通过处理全文来获得更多的内容信息(例如看一看某一个专有名词在哪一篇文章中最初出现)。

在这个数据的基础上,那就具体问题具体分析了。例如,人们可以研究科学家如何从一个地方跑到另外一个地方,科学家的创新性和年龄的关系,等待时间和被引次数的相关性,一个学术机构(大学、城市、国家)的科学表现,某个科学领域中当前的热点,科学家和论文的排名和推荐等等等等。

实际上,还有一些问题,是非常值得研究的,但是,由于技术或者数据的原因,或者是学科发展方向的问题,或者学科基本数学结构的问题,目前得到的关注不够。例如,文章的粗粒化(例如文章的主题标注、文章主要贡献的自动摘要)、文章的个性化推荐(识别科学家的兴趣,匹配文章的主题)、科学发展状态的描述(例如领域之间的关系,科学和技术领域之间的关系)、文章中知识的挖掘、科学家在研究主题和研究方法工具上面的选择。这些问题和一线的科学家以及科学管理者直接相关。这样的问题如果能够得到回答就会从科学学领域本身中走出来,服务科学家和社会。

这样的一些研究就需要科学学领域从形式数据走向内容数据,而内容数据最关键的就是底层的概念网络,或者叫做知识网络。概念网络的顶点是一个个的概念,连边则是概念之间的关系。关系可以丰富多样。当然,层次性关系可能比较容易把握,并且比较普遍。但是,很多重要的关系会表现为突破层次性关系的长程连接。

鉴于对科学学的这个认识,我企图给出一个科学学研究的新框架——一个新的数据和问题的关系网络:作者-文献-概念三层网络。一个简单的示意图如下。

层内关系:作者之间的导师学生关系(合作关系体现在层间而不是作者层内、同事关系体现在作者集合上而不是网络上)、文献之间的引用关系、概念之间的内容上的逻辑或者其他依赖关系。
层间关系:作者创作论文、文献关注某些概念。

我们记这个关系为矩阵
[A = \left(A^{i^{\alpha}}_{j^{\beta}}\right),]
其中希腊字母为层标号,拉丁字母为顶点标号。原则上,这个矩阵是所有的这样的层间((A^{\alpha\beta}))和层内((A^{\alpha\alpha}))关系的综合。在这个关系矩阵的基础上,我们还需要添加人为定义或者自然聚集的某层顶点的一系列集合(\left{X^{\alpha}\right}),例如学科可以看做是概念的半自然聚集半人为定义的层次性集合。

如果同一对顶点之间存在着多种关系,可以用这样的记号,(A^{\left(I\right),i^{\alpha}}{j^{\beta}}),(A^{\left(II\right),i^{\alpha}}{j^{\beta}})。

好了,有了这个数学描述,我们现在来看是不是大多数科学学问题都可以变成对这个矩阵(A)的某种操作,然后,按照某些个额外的集合(\left{X^{\alpha}\right})对操作的结果做一个统计。

举例(不细说了,原则上应该穷举一下):简单统计分布函数和相关性的研究不用说。评价文章和作者的问题可以利用层间传播。多样性的问题也可以考虑层间传播。研究问题和方法的选择的问题必须用多层网络——一个领域的研究工作的随机行走或者一个作者的研究工作的随机行走。

那么,除了能够把各种已经有的研究工作和分析技术统一起来,这个矩阵(A)加上集合(\left{X^{\alpha}\right})的语言,还有什么好处呢?

第一,理念上,显式地把概念层的内容数据放到分析框架里面来。这样领域之间的关系的研究,粗粒化和自动摘要、推荐的工作就更有可能得到研究。

第二,理念上,把各种科学学讨论的关系放在了简单基本的统一的框架上。各种共现分析、引用分析等等,在我们这个框架下面,都是通过这个基本多层网络关系计算或者近似计算出来的。于是,我们需要把之前的问题和方法,选择几个,用这个新的框架来描述一下。

第三,用新的框架来回答之前的科学学研究的问题,发展新的在多层网络上直接计算的方法,跟以前的方法的结果相比较。例如,之前的工作,大多关注中间的文献层,或者把其他层的关系投影到文献层来研究。这样的工作,如果能够直接在多层网络上来研究,就有可能有新的方法,得到新的结果。例如,作者识别的问题就可以和作者领域标记这个问题合起来放到三层网络上直接来分析,而不是局限在某个投影之后的单层网络。再如,文章的重要性、主题的重要性、作者的重要性可以放在一起来讨论。具体计算上可以用这个多层网络框架的PageRank或者投入产出。目前计划讨论:多样性,排序,作者识别

第四,提出新的框架下才能讨论的新的问题。这个有待进一步思考。

第五,提出新的框架下才能发展的新的方法。目前方法上打算尝试:多层网络上的投入产出分析方法,以及列在这里的问题:边的PageRank值,多层网络传播问题、PageRank以及投入产出分析,还有PageRank k-core项目

这篇文献提出了类似的关系网络,还用多层网络上的PageRank来讨论了文章作者等的重要性(工作做完之后,一定要跟这群人联系一下,太神奇了,这样的ideas也有其他人想到):
Heterogeneous Networks and Their Applications: Scientometrics, Name Disambiguation, and Topic Modeling

收到Ronald的转过来的文献Construction of bipartite and unipartite weighted networks from collections of journal papers,发现类似的“科学学的多层网络框架”的想法已经被提出来,尽管文章本身缺乏具体工作的支撑。

类似的一个多层网络上的PageRank的工作可见:Ranking in interconnected multilayer networks reveals versatile nodes以及
Evaluating the impact of interdisciplinary research: a multilayer network approach

更加详细一点的在这里多层网络上的中心性(中心性度量的定义从单层网络到多层网络的推广都非常直接,还需要仔细考虑):Centrality measures in multilayer networks