学习和研究任何一个学科都需要大小结合,有学科大图景、有通过大图景串起来的概念和例子。所谓大图景就是这个学科研究的基本问题是什么,主要的思考问题方式是什么,主要的分析方法是什么,当前的主要发展方向是什么。只有清楚了这些问题,然后把自己的研究工作放到这个大图景的背景下,才能够更好地有创行性,甚至系统性基础性的创新。在这里,我把科学计量学按照这个思路做一个总结。同时,也留给后来人当做进入这个领域的入门指导。这是公共品,希望有人能够补充,因为这个总结受很多我自己的工作面的限制。如果补充的人能够理解这个思路就更好了。
科学计量学的研究对象是科学家、科学家的研究活动,以及科学家的研究活动的结果——思想方法知识的创新和积累,具体体现为学科、书、论文、专利、技术、甚至产品。但是,这个研究对象实在太难以处理和缺乏数据了。按照力学的世界观,任何一个系统,我们要问状态如何描述、状态是否发生变化、变化的原因是什么。我们来尝试着用这个世界观考察这里的研究对象。例如,一个科学家的描述变量是什么,这个变量会变化吗,变化的原因是什么?显然,这些问题非常有意义。进一步,我们甚至大概可以说科学家的创造性、科学家思考问题的状态、科学家的思想方法知识的积累都可以看做这个科学家的状态,科学家的状态通过看论文学习新知识科学家自己的思考等等也会发生改变,而且如果能够研究清楚改变的原因那么,没准也确实能够促进科学家的工作。但是,但是,我们有这方面的数据吗,甚至,我们连要什么数据都不明确。于是,这个问题是一个现阶段还不能展开研究的问题。那怎么办?
科学的基本思想之一就是从现象到数据(通过观察和实验),从数据到数据规律(就是经常出现的意思,有一定普适性,还要有普适性的边界),从数据规律到模型,从模型到成系统的一般来说最小要求的模型,后者就是一般所说的理论。其中,每一步都需要反复地去问为什么是这个样子的,反复地考察和检验。当有了理论,可以回过头来,考察更一般的现象得到一些可检验的结果(这些结果本身来说需要是存在多种可能的,并且其中一种可能发生的话,就可以证明这个理论是错的。这叫做可证伪性),接着看看实际的结果是不是和理论给出来的一样。
如果现象到数据这一步都没有的话,那我们什么都不用做了。幸好,我们还有不太直接的替代品:科学家发表的论文、书、专利、技术、产品,科学家发展起来的学科。直到将来有一天我们可以获得上面的直接数据,暂时,我们就只能够用这个替代品了。那这些替代品能够帮助我们真的了解科学家和科学家的活动吗?不知道,先把问题留着。当然,这些替代品本身就是我们上面提出来的研究对象。我们先从这个角度来看看什么是科学计量学的问题。
论文、专利、书、学科知识(以及知识之间的联系)这些东西不多的时候,比较简单,我们只需要一个能够帮助我们找到这些东西的拐棍就行了。于是,我们需要一个图书论文专利的编目系统,一个学科知识的概念网络甚至有的时候仅仅是一个概念集合以及这个集合对应着的编目系统,就差不多都用了。在信息时代来临之前,在科学和技术的发展超出了一个最聪明最博学的人能够学会的时代到来之前,基本上,编目也就够用了。这就是为什么之前的科学计量学实际上基本上就是图书情报学。整理好编目去吧,等着需要的人去检索去用。
但是,现在,就算在某一个小小的领域,例如科学计量学,一个研究者都很难跟踪所有的研究论文了,更何况专利、技术、产品等。目前为止,综述文章和书,可能对于小领域还能够保持跟踪。那怎么办?我们需要一个办法来帮助科学家在论文、专利、书、技术、产品的海洋中理出一条线索,高速获得想要的这个海洋中的一滴水。于是,Garfield等人提出并实现了记录每一篇“像样”的论文的题录。有了这个题录仅仅是最基础的数据。这个数据能够帮助我们实现找出线索并且快速获取信息了吗?
最简单粗暴的办法就是你需要找到什么就提出检索,然后我就给你全文(标题、摘要、关键词、引文、作者)匹配。当然,你要是非常明确你要找的是什么,这个简单粗暴的方法还可以。如果你不太明确,例如仅仅关心某主题,那么有的文章可能不直接用这个词,可是内容上还是关于这个主题的。因此,还需要一个主题分类。这是为什么我们会有物理学的PACS、数学的MSc、经济学的JEL、生命科学的MeSH这样的主题标记系统。可是,全部匹配上的就都显示,并且都显示在结果的第一页吗?于是,我们还需要一个给论文等排序的一个系统。例如,在网页检索的问题上,我们也同样需要这样一个排序系统。这个排序系统可以按照所有网上用户的点击率或者个性化评价或者被其他网页引用的次数。但是,Brin和Page神奇地提出来,其实把引用次数这样的东西迭代分配几次可以更好地用于排序。这个算法被称为PageRank。插播:实际上这个神奇的算法的思想在科学学的另外一个开创性人物Narin的工作中很早就被提出来过。以后我们还会回到这个人。以论文为例,那么是不是可以把其他论文引用这个论文的次数当做一个排序指标呢?在计算机还不能处理几百万篇文献的PageRank的时代,这个直接数数确实很好用。于是,也就很少有人沿着Narin的多分配几次的思想来发展排序系统了。当然,大家心里还是知道,实际上,论文的重要性还有很多方面。例如,被好的还是不好的论文在引用(也就是PageRank的思想),是否被专利、技术、产品引用,并且是否由此产生了对经济系统的影响,或者是否直接或者间接地促进了某个大人物或者小人物的思想上的觉醒,等等等等。但是,还是回到数据的问题,没数据啊!然而,引文数据却容易获得很多很多。Garfield的Web of Science之后,还有其他的通用(例如Scopus)和专门数据库(例如DBLP)。专利也整理了专利自己的数据库,例如德温特数据,例如美国专利和商标局数据等。
到这里,原则上,我们有每一篇文章的主题标记和题录(指标题、作者、摘要、期刊名称卷期页、投稿接受和发表时间、致谢、作者贡献、基金支持、唯一标识、引文、全文,后面的引文和全文一般来说不算题录,我这里用语就随便一点了),我们就可以完成帮助科学家快速获取信息的目的了,检索和浏览都可以实现了。但是,我们还是不能够告诉科学家每一篇文章都做了什么啊。当然,我们有摘要。如果我们能够利用摘要和全文,以及主题标记甚至主题标记之间的概念联系(也就是学科知识集合和知识之间的联系),给出来一个大致的领域粗粒化描述,或者某领域文献综述,就更好了。如果还能够把漏掉的金子以及还没有发光的金子(或者暂时被当做金子的沙子?)都能够挑出来,就更好了。于是,这也就是为什么在科学计量学里面会有自动摘要、自动综述、引用之外的其他论文排序系统这些研究主题。
可是,非常遗憾的是,不是每篇论文都有主题标记(作者关键词同义不同形的可能性太高了,任意性也太高了),也不是每个学科都有一个好的已经整理出来的学科知识体系(知识以及知识之间的联系)。怎么办?我们把这个问题也先放在脑子里。回过头来,再从最简单的论文之间的引用关系开始。当然,论文、专利、技术、产品之间的引用关系,相对来说,也比主题标记和学科知识体系更容易获取。不过,根本上我们还需要产品在经济系统中的地位、科学家消耗了多少基金和时间等等数据。这些就又不太好获得了。所以,让我们退回来,回到引文来讨论。
第一,实际上,并不是所有的引用都是等价的。有一些是工作背景,有的是工作的直接基础,有的仅仅是大家都在引用,还有的可能是有其他目的的(例如期刊内自引、学校内自引、团队内自引、作者自引等)。能够区分吗?实际上这是一个非常重要的问题。有可能随着全文的获得和自然语言处理以及其他人工智能技术的发展,是可能可以回答的。第二,反映重要的和不重要的文章的引用的差异的排序指标,真的就只有PageRank了吗?或者,将来我们计算的时候肯定要有一个统一的单位才能数数才能做运算的,一次引用真的可以当做一个单位吗?不同的学科可以比较吗?我们看到,PageRank的思想就是重要性一定程度上可以传递,计算的时候需要多分配多迭代几次。我们称引用关系为直接关联或者直接关系,这个多分配多迭代的做了传递的思想为间接关联或者间接关系。这个单位和间接联系的问题都可以通过这种多次传播的思想来分析。有一个叫做网络科学的学科,其基本思想和技术就是间接关系和传播很重要而且有方法可以来计算分析这个间接关系。我们发现在这个思想的指导下,其实可以有一系列的综合分析直接和间接联系的方法。我们称之为广义投入产出分析[Shen2016]。这里我们也提到了第三个问题:第三、统一的单位和可比较性。这个问题在科学计量学里面被称为归一化问题。我们稍后也会回到这个问题。第四,很多时候,我们看到一篇文章,并且从这个文章回溯其参考文献才看到另一篇,引用的时候可能会把两者都写上或者仅仅写上其中之一。这个,怎么处理?当做完全不相关的两个引用来处理,还是有别的方法?关于这个问题我们可以把引用关系做个预处理:如果A引用了a1, a2,而其中a1引用了a2,我们可以仅仅保留A-a1或者A-a2。这方面的工作我们正在进行。我们已经挖了好几个没填上的坑了。不过,我们稍等,先回到一点点历史。
在引用次数这个问题上,我们可以顺便提一下历史上一些很重要的结果。例如,被引频次的分布:给定一个期刊或者很多个期刊的文章的集合,我们统计一下被引次数的分布,发现,根本不是正态的,有很多很多的论文被人引用也有不少的论文被引次数非常多。这两头的比例都远远偏离正态。这也说明,如果我们用一个平均值去代替这个分布,这个代替是非常不可靠的,没有代表性。那问题来了:如果我们需要某个指标来帮助我们选择期刊(大学、城市、国家——如果可选的话)的话,我们能不能有一个还算能用但是又简单的指标呢?平均值就很简单,但是管用吗?在个体的层次,也就是考虑单篇文章和单个科学家,这个平均值——就是后来”著名的“影响因子——非常不具有代表性,非常不管用,这是我们已经知道的。但是,能够代表对期刊的水平不太了解的初次投稿者以及在思考订阅什么期刊但是对专业学科的期刊不太熟悉的图书管理员选择期刊者来使用吗?注意,这个的目的首先是这些直接使用者,至于管理机构给每个期刊分配资源是否可以参考这个平均值之类的事情不是第一位的。为了这个目的,我们来数学化一下(注意,有了研究对象和问题,有了基本思想,下一步就要数学化,然后才是解决这个数学问题,接着才是检验的问题):任意两个期刊,如果它们的影响因子有高低,那么,我们想了解多大程度上从两个期刊里面随机各抽一篇的情况下,影响因子高的那个期刊的文章的被引用次数大;或者说从另一个角度,如果说影响因子代替单篇文章不合适,那么多大的集合就可以用这个平均值来代替了。也就是说,给定一个集合大小\(Z_{j}\),从期刊\(j\)中随机选取\(Z_{j}\)那么多篇文章其平均值是不是就接近这个整体的平均值,而且这个平均值还可以用来使得这个期刊和其他的期刊区别开来了。这两个问题是相辅相承的,一个问题的两个方面。如果被引次数是正态分布,那么,这些问题都可以解析求解,可惜分布函数不是正态。有关这个问题的进一步讨论在这里就不再展开了,有兴趣的可以看[Waltman的综述,我们自己的工作,还有前面这个几率的计算的工作]。
到现在为止,我们讨论了科学计量学的研究对象和研究问题,以及研究问题和服务对象的关系,还有分析问题的思想——从数据出发、直接和间接关系。我们还要注意这里有很多的近似:没有研究对象的直接数据而是用的间接数据、没有统一的单位暂时数数、经济和技术和科学实际上不可分但是我们暂时划了一条界线等等等等。服务对象也基本上就局限于科学家。一会儿,我们会稍微拓广一点我们的服务对象,再来看需要问哪些问题,以及这些问题的分析思想和分析方法。具体分析方法上,我们仅仅讨论了统计文章(类似的可以用于专利、书等等)的被引次数,它的分布函数还有平均值。实际上,关于这个被引次数还有其他的一些比较严重的但是可能可以在现阶段处理的问题。例如,不同领域的工作不一定能够相互比较:生命科学领域的文章通常引文比较多被引次数也比较大,数学就反过来,物理学差不多居中。于是,同样被引10次,生命科学论文和数学论文的影响力实际上不一样。甚至,来自于同一期刊的文章,也可以是不同领域的,于是它们的平均被引次数可能不一样,也不能放在一起来对比。那怎么办?
科学计量学上,把这个问题称为被引次数的归一化。大概来说,我们可以把文章分成领域,然后在足够小的领域来归一化——例如被引次数除以这个领域所有文章在一个时间段里面的平均被引次数,或者我们可以把施引文章当做一个单位平均分到这个篇文章的参考文献上去。注意,这个分配方式其实和PageRank是有关系的。我们确实还可以把每篇文章不按照被引次数来计算而是按照某种类似PageRank的算法计算出来的分值来计算和分配。等着,我们一不小心又回到了论文的领域标注的问题和学科的知识体系的问题。我们有这样的好的领域标注和学科知识体系吗?有几个,不多。怎么办?因此,我们还需要研究论文的主题标注和主题分类问题。注意,这个问题实际上依赖于学科知识体系。我们还会回到这一点。有关这个归一化问题的研究可以看看这几篇综述[Waltman评价指标综述]。
前面仅仅提出了为了信息获取的目的我们需要一个排名,实际上,有的时候,可能我们直接就需要一个排名。例如,非专业的管理者需要大概了解某个领域谁最牛这样好咨询一下这样的人,期刊的编辑或者基金评审的组织者想找到某领域的合适的审稿人。例如,在有的地方,非专业的管理者需要在评奖雇人分配资源方面有一个大概的方向或者入门砖。有的时候可能专业人员在大范围选择的时候这样的入门砖也是有用的,但是,但是,最终一定不能依靠指标——它们一般不适用于天才和垃圾,而是真的去深入阅读和讨论。也就是说,不管怎么说,如果能够对研究成果(论文、专利、书等等)给一个评价,对研究者、研究单位(团队、学校、城市、国家)给一个评价,有的时候总是有那么一点点用处的。例如你不能指望所有的高中生和高中生家长都通过深入了解很多所学校来做出选择,有一个大概的排名总比道听途说或者随机选要好。于是,这个问题,在科学计量学里面,成了评估指标的问题。我们发现,其实这个问题也可以依赖于上面的对排序算法的研究来回答。不过,在前面排序仅仅是为了信息获取的方便,在后面排序本身就是目的。
除了科学家的信息获取和帮助非专业的以及专业的管理者偷懒,科学计量学还应该考虑帮助科学家选择研究主题、了解研究领域,帮助老师们来更加容易地把研究成果转化成课堂的素材,帮助政策制定者和管理者来更好地促进科学技术的发展。了解研究领域就要给领域一个画像,回答一下这个领域分成哪些主题,这些主题之间的逻辑关系是什么,哪些工作在哪些方面促进了科学的进步,其中哪些主要科学家和哪些主要研究工作还有那些概念和例子非常的突出等等这样的问题。当然,前面提到的自动摘要自动综述以及排序算法也能够一定程度上解决这个问题。但是,更加重要的是粗粒化,也就是从文章的整理到主题的整理。很多时候我们需要把我粗粒化的图景。另外,从科学计量学研究本身来说,分类是大多数研究的第一步,非常重要的第一步。其中PACS、MSc、JEL、MeSH要么依靠作者要么依靠专门的编辑部来给文献分类,而分类体系本身则是一棵概念树。当然,我们可以研究如何把这样的分类体系推广到自动算法上去,例如依赖文章题录信息来计算推测主题分类。更重要的,我们要有更加合理的分类体系:学科知识不是树,而是网络,当然这个网络的层次性相对明显。那么,我们现在有这样的网络吗,假设有了这个网络我们如何给文章建立主题标注?在这里,我们提出来一个“学科概念地图”的概念,也就是用网络的方式来呈现一个学科的核心概念以及概念之间的关系。大概来说,也可以看作是Wikipedia之类的百科所整理的知识的一种网络形式的呈现方式。强调概念之间的联系,强调概念的组织,通过围绕着某个主题的组织来体现大图景,也就是基本问题、基本思想、基本分析方法和它们的例子。稍后我会尝试给出来这个文章的主要意思的概念地图和科学计量学的整体概念地图,当做例子。于是,现在问题就成了:如何构建这样的学科概念地图,以及如果有了这个地图,如何做论文的领域标记和粗粒化。
当然,在没有这个学科概念地图的时候,科学计量学也是要着手来解决这个问题的。很多时候通过分析引文网络来完成。其中又分为直接分析引文网络、分析共施引网络(两篇文章一起引用某文章则相连)或者共被引网络(两篇文章共同被某文章引用则相连)。后面两个关系实际上是前面的关系的“投影”:在前面的网络上走两次(先顺着引用关系再逆着引用关系,或者先逆着再顺着)能够连通就在后面的网络上连通。在国内使用者非常多的由Chaomei Chen发展的CiteSpace软件就是分析共被引来做粗粒化和领域演化的典型代表。其他的还有CWTS的基于引文网络的直接分类方法以及基于这个分类建立的排序指标。在这方面可以参考Waltman的综述[Waltman_PLOS]。
此外,为了更加方便地做自动摘要和自动综述,实际上,文章层次的概念地图也是非常有意义的。文章的概念地图可以给出来文章关注的主要问题、概念方法思想的基础、主要贡献甚至主要参考文献。这样通过某种方式合并每篇文章的小图,我们就可以看到一个集合的文章的整体大图。
除了通过设计指标和制定分类来通过检索和浏览来快速获取信息,甚至直接就是用作排名用作评价,以及把握学科粗粒化发展图景,还有大量的问题我们可以研究。只要这些问题还是基于科学家、科学家的研究活动和活动的成果这些研究对象并且为了服务于科学家、教师和学习者、管理者的,以数据为基础的,以科学方法开展的,基本上都可以算作科学计量学。例如,除了衡量文章作者以及各个研究主体的综合影响力,我们还可以衡量它们创新性。在创新性的度量上,其实这个三层网络也具有其特殊的意义:一个研究工作的主要贡献可以看做是提出了概念、提出了分析方法、找到了概念和方法应用的例子、提出了新的问题等等,也就是说,表现为概念网络上的顶点或者连边,也就是从论文层到概念曾的层间连接。我们还关心选择领域专家的问题,例如为了满足咨询领域发展方向或者文章基金审稿等任务的需求。于是,传统上科学计量学是把共被引和共施引这样的投影得到的共现关系推广到作者和主题这个共现关系上面。这个投影实际上是先从作者到文章,再从文章到主题。原则上,还可以继续投影,例如从作者到文章再到作者就是合作,从作者到文章再到引文甚至引文的主题(不知道叫什么什么共现)。实际上,从网络的角度来说,这些贡献矩阵都是对原始的作者-论文-概念关系网络做了某种投影。如果用投影能够研究某问题,那么,投影之前的原始网络也必然能够用来解决这个问题。当然,计算分析的方式和难度是另外的问题。有用的问题可能更加适合用投影之后的网络。
通过前面提到的在多个方向上的具体研究的例子,我们看到,是不是这个领域的基本数据、基本思想、基本方法有一个一致性的描述?我们说这个例子就是多层网络模型。先说论文内部的层次,我们有作者、论文、概念。每一个层内我们有基本关系(能够由基本关系得到的导出关系都不算,因此合作关系不是基本关系),例如作者之间的师承关系社会关系同一个团队学校等关系,论文之间的引用关系,概念之间的学科内逻辑关系。层与层之间还有基本关系,例如作者写了某论文、某论文工作在某主题上。有了这个一般的框架,那么,剩下的问题就是:是否迄今为止的大部分研究工作,包括问题和分析方法,可以用这样的一个框架来描述;是否这个框架还可以进一步启发我们新的研究,包含新的问题、新的方法、新的思想,以及通过它们得到的新的结果。更进一步,其实这个多层网络还可以进一步扩展,例如包含专利。我们就有了论文的三层,专利的三层(发明人、专利、专利的相当于概念层的技术领域),甚至可以考虑它们的结合。于是,相当于我们增加了从专利到论文的引用从论文到专利的引用。我们问,这样的一个框架可以用来研究什么问题?第一,可能可以更好地回答前面的排序的问题。这个时候,论文的评价不仅仅基于其他论文的引用还包含专利的引用。当然,如果仅仅为了回答论文的评价的问题,实际上,可以去掉论文作者和专利作者的那两层。实在不行,还可以先去掉学科概念和专利技术这两层。当然,原则上,研究是否是基础性的技术的专利和是否是基础性的科学概念是有区别的。第二,更加重要的事情是,通过这个网络,我们可以看到不同领域之间的联系了。例如某项专利主要受哪些科学研究的支持和启发,某项科学研究依赖于哪些技术进步等等这样的问题。这样的问题对科学家发明人以及对管理者都是可能有意义的。实际上,Narin的早期研究就在关注这个科学-技术关联的问题。其中一个原因就是大家需要对基础科学的研究到底多大程度上促进了技术从而促进了经济的发展有一个更加仔细和可靠的了解,并且当时有一种说法说政府投给基础研究的钱太多了,如果不发挥经济作用的话,那应该减少。当然,这个问题可以通过个案来研究,也就是选择比较重要或者出名的产品或技术,反溯其科学基础,然后看看这些科学基础的发展过程中政府支持是否发挥了重要作用[Narin_TRACE]。这个研究还可以用大规模数据来做:统计专利引用的科学论文的数量,看看这个数量的时间演化,领域分布等特征。其中一个叫做技术-科学关联系数就是Narin它们在这一批工作中提出来的[Narin_Linkage]。在这里网络的思想和分析技术将再一次发挥重要的作用。考虑如下的情况:一个专利A依赖于论文a,一个专利B依赖于专利A但是没有引用任何论文。如果仅仅对引文数数做统计,那么我们会得到B不依赖于a的结论,但是,显然,B实际上依赖于a。如果论文a还引用论文b,那有可能B还依赖于b。这个就是传播、迭代计算的思想和分析方法。
沿着这个方向,我们也可以讨论粗粒化的问题:我们不再关心具体的某个专利对科学的依赖,或者反之,而是考虑某个专利部门,例如手机通讯光通讯之类的,主要依赖于哪些科学领域。这个粗粒化在我们的多层网络框架上就相当于某种方式先对层内顶点做聚类,然后研究这些类当做顶点的网络。当然,再一次,分析的时候需要考虑传播考虑迭代计算,也就是直接和间接关系。
当然,你可以继续追问,为什么在专利和论文的层次就停下来,不把专利到产品的转化,甚至产品在整个经济中和生活以及其他产品的联系都加入进去。原则上,是的。但是,我们需要数据啊,而这样的数据远远比前面的更加难以获得。进一步,任何研究,总数要在某个地方切一刀,把切出来的东西当做孤立系统来研究的。如果这一刀合适,系统内部的联系就会远远比系统和系统外部的联系重要普遍的多。那这样的一刀也就是合理的了,直到有一天能够把数据的边界再一次扩展。
总结:科学计量学是以数据和科学方法分析研究科学家、科学家的研究活动和科学家的研究活动的成果,从而实现为了科学家、教师和学习者、科学技术政策制定者和管理者服务的一个学科。其重要思想是:一切基于数据,直接联系和间接联系同时都非常重要。其重要理论模型是:多层网络科技主体(作者、论文、专利、书、产品、概念,以及这些主体构成的团队、单位、城市、国家、学科领域、技术部门)。用一个一致的角度来描述数据和问题,然后发展这个数据上的计算分析方法来解决这些问题,对于一个学科的发展是非常重要的。研究工作不仅仅是解决一个个独立的问题,还要把问题相互联系起来,在整个学科的背景下来思考和定位。这个什么是科学计量学的整理,除了给后来者一个容易进入的门或者窗之外,还希望能够给后来者这样的一个看问题做研究的整理思路。
参考文献我慢慢加上。
[1]S. Brin, and L. Page, The anatomy of a large-scale hypertextual web search engine, Computer Networks and ISDN Systems, 30, 107-117(1998).
[2]Ludo Waltman, A review of the literature on citation impact indicators, JOURNAL OF INFORMETRICS 10(2), 365-391(2016).
[3]Y. Ding, E. Yan, A. Frazho, J. Caverlee, PageRank for ranking authors in co-citation networks, Journal of the American Society for Information Science and Technology, 60(11), 2229–2243(2009).
[4]W. Leontief, The Structure of American Economy, 1919-1929. Cambridge: Harvard University Press (1941).
[5]G. Pinski and F. Narin. Citation influence for journal aggregates of scientific publications: Theory, with application to the literature of physics. Information Processing & Management, 12(5):297-312, 1976.
[6]Z. Shen, L. Yang, J. Pei, M. Li, C. Wu, J. Bao, T. Wei, Z. Di, R. Rousseau, J. Wu, Interrelations among scientific fields and their relative influences revealed by an input–output analysis, Journal of Informetrics, 10(1), 82-97(2016).
[7]C.T. Bergstrom, J. D. West, M. A. Wiseman, The Eigenfactor Metrics, Journal of Neuroscience 28(45):11433-11434(2008).
[8]P. Chen, H. Xie, S. Maslov, and S. Redner, Finding Scientific Gems with Google, Journal of Informetrics 1, 8 (2007).
[9]Waltman, L., & Van Eck, N.J., A new methodology for constructing a publication-level classification system of science, Journal of the American Society for Information Science and Technology, 63(12), 2378-2392 (2012).
[10]I. Wesley-Smith, C. T. Bergstrom, and J. D. West, Static ranking of scholarly papers using article-level Eigenfactor (ALEF), The 9th ACM International Conference on Web Search and Data Mining (2016).
[11]J.D. West, M.C. Jensen, R.J. Dandrea, G.J. Gordon, and C.T. Bergstrom, Author-Level Eigenfactor Metrics: Evaluating the Influence of Authors Institutions and Countries Within the SSRN Community, Journal of the American Society of Information Science and Technology 64: 787-801(2013).
[12]Manlio De Domenico, Albert Solé-Ribalta, Elisa Omodei, Sergio Gómez & Alex Arenas, Ranking in interconnected multilayer networks reveals versatile nodes, Nature Communications 6, Article number: 6868 (2015).
[13]Vicente P. Guerrero-Bote, Félix Moya-Anegón, A further step forward in measuring journals’ scientific prestige: The SJR2 indicator, Journal of Informetrics, 6(4), October 2012, 674-688(2012).
[14] M. Nykl, M. Campr, K. Ježek, Author ranking based on personalized PageRank, Journal of Informetrics, 9(4), 777-799 (2015).
附件:《什么是科学计量学》讲稿、《广义投入产出用于科学领域关联分析》