如何阅读文献

阅读文献,根本上就是思考和理解的问题,因此,原则就是一条:尽量多问为什么,尽量去理解。

当然,根据文献的不同要求有所不一样。例如,大部分当做背景和兴趣拓展的文献,主要关注文献的逻辑框架就可以了,主要问了一个什么问题,什么地方是新的(问题、方法还是结论方面的创新,还是看问题的角度,还是新的理解,新的整理工作的线索),大概如何做的,有什么不足,在整个学术背景下面属于什么层次的问题,你喜欢或者同意吗?如果是直接工作的基础,还需要做综合性批判性阅读,也就是看看其他人的工作和这个工作的关系,其他人怎么看,你怎么看。如果不仅仅是问题和思想的工作基础,还是方法的工作基础,还需要搞清楚怎么做的,达到必要的时候能够重复这个工作的程度。

我以为,这也就是阅读文献的全部了。也就是:What(主要信息是什么),How(这个信息如何传达的),Why(为什么作者要传达这个信息),Meaningful(对我来说意味着什么),也就完了。但是,今天学生讲文献的时候,我发现,根本问题不在这个层次上。也许,阅读文献,确实也是要学习要教的。在我下面讲细节的层次之前,再一次强调,看文献就是多问为什么,多理解,多思考WHWM的问题,搞清楚整体逻辑框架,做一些综合性批判性阅读,甚至整理出来一个这方面研究的综述。

再来说细节层次的如何阅读文献。第一,把公式的数学形式和公式的动机、目的联系起来,问为什么要写成这样。公式不是用来记住和使用的东西,而是一种思想的表达。不理解的东西是不可能拿来用并且用得好的。第二,把图表和主要结论联系起来,问为什么这个结论可以从这个图表里面得到,问为什么作者要用这样的图表。当然,更深一个层次的问题,也就到了作者为什么要表达这个结论或者信息这个属于我前面提到的更高层次的问题。第三,把自己当做计算机,问有足够清楚在每一步做什么吗(具体每一步怎么做是不是要搞清楚,需要考虑自己的研究工作和文献的关系)?

另一个技术问题,我发现竟然学生不知道通过google和Web of Science以及Scopus等专业数据库来检索文献,而是依靠百度。我真的没想到,这个东西也是要教的。自己摸索,只要有心,三两下就搞定了。因此,这也反映出来,现在的学生确实浮躁,不深入思考。就算老师给一个非常明确的问题,只做体力活,还可以直接发Nature,也是没有意义的,它不能锻炼你的研究能力,仅仅是干学术民工的能力。

找到合适的文献是文献阅读的重要一步。从某几篇论文开始,通过引用关系,向前向后追踪,直到找到某个综述或者追踪出来一个整体图景,是一个方面。另外,通过同主题检索,有的时候甚至作者检索,获取比较全面的了解,也是很有必要的。这些文献数据库,还有知识图谱,对于学术研究真得是有用的。例如,我写基金的时候找的那一堆文献,就是在我已经有了对问题的了解和自己想做什么之后(一般来说,看文献之前需要有对问题的了解和自己的想法,如果没有,看太多文献是很危险的。思考在前,看在后。当然,你一定要问我看之前思考怎么来,我不得不承认有的时候需要先看一点点。注意,是一点点。关于这个问题,推荐看看《科学研究的艺术》这本书),通过以上两种方式,收集整理出来的。先找到Narin这个人和他在linkage上的主要工作,然后向前向后追,接着用追到的论文为基础,展开同主题和同作者检索和阅读,最后,形成自己的综述。综述并不是单纯地把其他人工作做一个总结,还需要整理,整理出来一个组织这些工作的线索脉络,而且还需要关注自己想做的问题和前人的工作的关系。

回到读文献的更高的层次。阅读文献的目的,一方面固然是学会怎么做,看到大家在做什么,甚至从怎么做和大家做什么的结合的地方发现前人工作的不足从而开始做点工作,但是,更重要的目的是,通过了解这个问题的整个研究现状,把自己的研究工作放到整个学术背景的下面,更清楚地了解学科的发展方向、基本问题、典型思考方式、典型分析方法这个我叫做大图景的东西,以及在这个大图景下,自己的目前和将来的工作是什么地位。当然,今天也遇到另一个文献阅读做的好一点的学生,思考比较深入,还有了一点点体系。

再一次推荐大家去看《如何阅读一本书》以及我的《概念地图学习和教学方法》,去掌握批判性思维、系联性思考,以及养成多问为什么的习惯。

读《谈谈方法》和《社会契约论》有感

科学知识和科学精神不是一回事。科学精神需要通过学习科学知识来体现和体会。学习科学的主要目标却不是科学知识而是对科学知识的内涵、来源以及背后的原则的理解。这也是为什么我开设《学会学习和思考》:学会科学地思考问题,看待世界,远远比学会具体科学知识重要。当然,不经过具体知识尤其是对具体知识的体系化的整理和理解,根本就谈不上领会科学精神。具体学科的知识和具体学科的思考方法,每一个学科,都不一样。但是,很少的几样有共性的科学精神还是有的。那就是:怀疑和反思、构建一个(相容的尽量统一的假设尽量少的可计算的)心智模型来理解世界的企图、做实验和尊重事实、做计算(依靠数学来做逻辑推理)

在物理学的发展而言,Plato的精神世界对应着现实世界(或者应该反过来说,甚至认为只有精神世界才是真实,现实世界仅仅是虚像)、 Socrates的思考和反思、 Aristotle企图建立物理学是什么(关于运动和世界怎么样,为什么的理论和思考)的体系、Descartes的怀疑是一切科学的基础(“我对我自己是否存在的反思证明我存在”、“我从来不把没有经过反复思考的东西当做真理”)、Bacon的经验主义和归纳,这些应该算作物理学建立的思想上的基础,也就是“怀疑和反思、构建一个心智模型来理解世界的企图”这一部分。而Galileo的实验和理想实验(确实对物理学具体知识的贡献已近非凡)真正使得物理学依靠做实验的方式从哲学中独立出来应该算是做实验和尊重事实这一部分。接着Newton对天体运动记录的深入思考以及把天体运动和Galileo的地上运动统一起来的万有引力模型和动力学方程以及表达动力学方程的微积分的提出,应该算可计算这一部分。所有的这些——怀疑反思心智模型做实验做计算——合起来是物理学也是现代物理学的基础,尤其是相对论和量子力学。物理知识进步了发展了变化了,科学思想仍然是一样的。这些有的时候也被称为科学方法论。

一直学物理,更加关注具体知识,直到有一天开始上课,才渐渐开始关心如何把自己对科学的背后的理解,对科学知识的来源和体系结构的理解,对概念之间的联系的理解,传授给学生,促进学生理解科学,理解科学的发展,甚至促进社会的进步。于是,开始看起来Whitehead和Descartes。强烈推荐每一个做科学的对科学感兴趣的教科学的都看看Descartes的《谈谈方法》和Whitehead《教育的目的》。其中,Descartes在《谈谈方法》以自身的理性思考的经验为基础提出来:
1. 从来不把没有经过反复思考和反思的东西当做思考的基础(怀疑反思);
2. 把问题分解成更简单的小问题来处理(分析);
3. 认识问题要有一个从简单到复杂的顺序,或者对于还没有这样的体系的东西也要建立起来这样一个顺序体系(联系、体系);
4. 尽量反复全面地考察问题(一致性最少假设)。
科学不就是用这样的一个方式来考察世界得到的结果吗。Descartes不仅是一个思考者,他还把这样的思考真的用来发展具体的数学知识(解析几何)和物理学知识(光学)。除了批判性思维,Descartes在这里还提到了系联性思考。

一个学会了用这样的方式——批判性思维、系联性思考、心智模型、做实验、做计算——来认识世界思考问题的人,不仅仅能够更好地理解自然的世界,可能还可以促进社会的世界的进步。不过,这个时候,我开始想,学会了思考和学习,还差什么才能真的促进社会的进步呢?所为促进社会的进步,不是指你在这个社会里面混得如鱼得水,很自如,而是你思考问题所在你思考出路在哪里。这个时候,Rousseau的《社会契约论》就突然出现在我的脑子里:一个稳定的社会成为社会的基础是什么?一些个体为什么要一定程度上服从另外一些个体,或者服从另外一些个体所代表的集体?要知道,Rousseau他自己可不是一个统治者,也不算贵族,甚至不算大富,在当时以血统和权威作为基础的社会里面,怎么会开始一个关于统治权问题的如此跳脱的思考呢?例如,他论述强权不是社会的基础的时候,是这样说的:如果强权是基础,那么,当有人开始不服从并且获得了更加强权的地位的时候,是不是就反过来大家——包含之前的处于强权地位的个体,就要服从这个新的强权呢?于是,你看强权不鼓励服从啊。接着,他开始问既然强权不是基础,那么是不是有一部分人真的可以放弃一切呢,例如奴隶制社会的奴隶。这个时候,也许你可以认为已经有能力做出放弃的选择的成人可以放弃,但是就算如此,他们也没有权利代替他们的子女来放弃啊。于是,一部分人主动放弃一切权利主张也不是社会的基础。那么,到底什么是社会的基础?

你可以看到,在这个问题完全没有答案的时代,在这个问题甚至否没有提出的必要性的时代,Rousseau开始探讨这个问题,并且提供了一个可能的答案:契约。为什么他能够做到这样,怎么做到的,不过就是反思,不断地深入地反思。

一部分人已经能够吃饱饭了。让吃饱饭的人中的一部分思考起来,是我们教育者的责任。启发他们思考什么(看什么书),帮助他们做如何思考,是我们思考者的责任。

对了,说起来看什么书,思考什么问题,推荐大家,尤其是教育者,看看我的这本书《概念地图教学和学习方法——教的更少学得更多》

什么是科学计量学

学习和研究任何一个学科都需要大小结合,有学科大图景、有通过大图景串起来的概念和例子。所谓大图景就是这个学科研究的基本问题是什么,主要的思考问题方式是什么,主要的分析方法是什么,当前的主要发展方向是什么。只有清楚了这些问题,然后把自己的研究工作放到这个大图景的背景下,才能够更好地有创行性,甚至系统性基础性的创新。在这里,我把科学计量学按照这个思路做一个总结。同时,也留给后来人当做进入这个领域的入门指导。这是公共品,希望有人能够补充,因为这个总结受很多我自己的工作面的限制。如果补充的人能够理解这个思路就更好了。

科学计量学的研究对象是科学家、科学家的研究活动,以及科学家的研究活动的结果——思想方法知识的创新和积累,具体体现为学科、书、论文、专利、技术、甚至产品。但是,这个研究对象实在太难以处理和缺乏数据了。按照力学的世界观,任何一个系统,我们要问状态如何描述、状态是否发生变化、变化的原因是什么。我们来尝试着用这个世界观考察这里的研究对象。例如,一个科学家的描述变量是什么,这个变量会变化吗,变化的原因是什么?显然,这些问题非常有意义。进一步,我们甚至大概可以说科学家的创造性、科学家思考问题的状态、科学家的思想方法知识的积累都可以看做这个科学家的状态,科学家的状态通过看论文学习新知识科学家自己的思考等等也会发生改变,而且如果能够研究清楚改变的原因那么,没准也确实能够促进科学家的工作。但是,但是,我们有这方面的数据吗,甚至,我们连要什么数据都不明确。于是,这个问题是一个现阶段还不能展开研究的问题。那怎么办?

科学的基本思想之一就是从现象到数据(通过观察和实验),从数据到数据规律(就是经常出现的意思,有一定普适性,还要有普适性的边界),从数据规律到模型,从模型到成系统的一般来说最小要求的模型,后者就是一般所说的理论。其中,每一步都需要反复地去问为什么是这个样子的,反复地考察和检验。当有了理论,可以回过头来,考察更一般的现象得到一些可检验的结果(这些结果本身来说需要是存在多种可能的,并且其中一种可能发生的话,就可以证明这个理论是错的。这叫做可证伪性),接着看看实际的结果是不是和理论给出来的一样。

如果现象到数据这一步都没有的话,那我们什么都不用做了。幸好,我们还有不太直接的替代品:科学家发表的论文、书、专利、技术、产品,科学家发展起来的学科。直到将来有一天我们可以获得上面的直接数据,暂时,我们就只能够用这个替代品了。那这些替代品能够帮助我们真的了解科学家和科学家的活动吗?不知道,先把问题留着。当然,这些替代品本身就是我们上面提出来的研究对象。我们先从这个角度来看看什么是科学计量学的问题。

论文、专利、书、学科知识(以及知识之间的联系)这些东西不多的时候,比较简单,我们只需要一个能够帮助我们找到这些东西的拐棍就行了。于是,我们需要一个图书论文专利的编目系统,一个学科知识的概念网络甚至有的时候仅仅是一个概念集合以及这个集合对应着的编目系统,就差不多都用了。在信息时代来临之前,在科学和技术的发展超出了一个最聪明最博学的人能够学会的时代到来之前,基本上,编目也就够用了。这就是为什么之前的科学计量学实际上基本上就是图书情报学。整理好编目去吧,等着需要的人去检索去用。

但是,现在,就算在某一个小小的领域,例如科学计量学,一个研究者都很难跟踪所有的研究论文了,更何况专利、技术、产品等。目前为止,综述文章和书,可能对于小领域还能够保持跟踪。那怎么办?我们需要一个办法来帮助科学家在论文、专利、书、技术、产品的海洋中理出一条线索,高速获得想要的这个海洋中的一滴水。于是,Garfield等人提出并实现了记录每一篇“像样”的论文的题录。有了这个题录仅仅是最基础的数据。这个数据能够帮助我们实现找出线索并且快速获取信息了吗?

最简单粗暴的办法就是你需要找到什么就提出检索,然后我就给你全文(标题、摘要、关键词、引文、作者)匹配。当然,你要是非常明确你要找的是什么,这个简单粗暴的方法还可以。如果你不太明确,例如仅仅关心某主题,那么有的文章可能不直接用这个词,可是内容上还是关于这个主题的。因此,还需要一个主题分类。这是为什么我们会有物理学的PACS、数学的MSc、经济学的JEL、生命科学的MeSH这样的主题标记系统。可是,全部匹配上的就都显示,并且都显示在结果的第一页吗?于是,我们还需要一个给论文等排序的一个系统。例如,在网页检索的问题上,我们也同样需要这样一个排序系统。这个排序系统可以按照所有网上用户的点击率或者个性化评价或者被其他网页引用的次数。但是,Brin和Page神奇地提出来,其实把引用次数这样的东西迭代分配几次可以更好地用于排序。这个算法被称为PageRank。插播:实际上这个神奇的算法的思想在科学学的另外一个开创性人物Narin的工作中很早就被提出来过。以后我们还会回到这个人。以论文为例,那么是不是可以把其他论文引用这个论文的次数当做一个排序指标呢?在计算机还不能处理几百万篇文献的PageRank的时代,这个直接数数确实很好用。于是,也就很少有人沿着Narin的多分配几次的思想来发展排序系统了。当然,大家心里还是知道,实际上,论文的重要性还有很多方面。例如,被好的还是不好的论文在引用(也就是PageRank的思想),是否被专利、技术、产品引用,并且是否由此产生了对经济系统的影响,或者是否直接或者间接地促进了某个大人物或者小人物的思想上的觉醒,等等等等。但是,还是回到数据的问题,没数据啊!然而,引文数据却容易获得很多很多。Garfield的Web of Science之后,还有其他的通用(例如Scopus)和专门数据库(例如DBLP)。专利也整理了专利自己的数据库,例如德温特数据,例如美国专利和商标局数据等。

到这里,原则上,我们有每一篇文章的主题标记和题录(指标题、作者、摘要、期刊名称卷期页、投稿接受和发表时间、致谢、作者贡献、基金支持、唯一标识、引文、全文,后面的引文和全文一般来说不算题录,我这里用语就随便一点了),我们就可以完成帮助科学家快速获取信息的目的了,检索和浏览都可以实现了。但是,我们还是不能够告诉科学家每一篇文章都做了什么啊。当然,我们有摘要。如果我们能够利用摘要和全文,以及主题标记甚至主题标记之间的概念联系(也就是学科知识集合和知识之间的联系),给出来一个大致的领域粗粒化描述,或者某领域文献综述,就更好了。如果还能够把漏掉的金子以及还没有发光的金子(或者暂时被当做金子的沙子?)都能够挑出来,就更好了。于是,这也就是为什么在科学计量学里面会有自动摘要、自动综述、引用之外的其他论文排序系统这些研究主题。

可是,非常遗憾的是,不是每篇论文都有主题标记(作者关键词同义不同形的可能性太高了,任意性也太高了),也不是每个学科都有一个好的已经整理出来的学科知识体系(知识以及知识之间的联系)。怎么办?我们把这个问题也先放在脑子里。回过头来,再从最简单的论文之间的引用关系开始。当然,论文、专利、技术、产品之间的引用关系,相对来说,也比主题标记和学科知识体系更容易获取。不过,根本上我们还需要产品在经济系统中的地位、科学家消耗了多少基金和时间等等数据。这些就又不太好获得了。所以,让我们退回来,回到引文来讨论。

第一,实际上,并不是所有的引用都是等价的。有一些是工作背景,有的是工作的直接基础,有的仅仅是大家都在引用,还有的可能是有其他目的的(例如期刊内自引、学校内自引、团队内自引、作者自引等)。能够区分吗?实际上这是一个非常重要的问题。有可能随着全文的获得和自然语言处理以及其他人工智能技术的发展,是可能可以回答的。第二,反映重要的和不重要的文章的引用的差异的排序指标,真的就只有PageRank了吗?或者,将来我们计算的时候肯定要有一个统一的单位才能数数才能做运算的,一次引用真的可以当做一个单位吗?不同的学科可以比较吗?我们看到,PageRank的思想就是重要性一定程度上可以传递,计算的时候需要多分配多迭代几次。我们称引用关系为直接关联或者直接关系,这个多分配多迭代的做了传递的思想为间接关联或者间接关系。这个单位和间接联系的问题都可以通过这种多次传播的思想来分析。有一个叫做网络科学的学科,其基本思想和技术就是间接关系和传播很重要而且有方法可以来计算分析这个间接关系。我们发现在这个思想的指导下,其实可以有一系列的综合分析直接和间接联系的方法。我们称之为广义投入产出分析[Shen2016]。这里我们也提到了第三个问题:第三、统一的单位和可比较性。这个问题在科学计量学里面被称为归一化问题。我们稍后也会回到这个问题。第四,很多时候,我们看到一篇文章,并且从这个文章回溯其参考文献才看到另一篇,引用的时候可能会把两者都写上或者仅仅写上其中之一。这个,怎么处理?当做完全不相关的两个引用来处理,还是有别的方法?关于这个问题我们可以把引用关系做个预处理:如果A引用了a1, a2,而其中a1引用了a2,我们可以仅仅保留A-a1或者A-a2。这方面的工作我们正在进行。我们已经挖了好几个没填上的坑了。不过,我们稍等,先回到一点点历史。

在引用次数这个问题上,我们可以顺便提一下历史上一些很重要的结果。例如,被引频次的分布:给定一个期刊或者很多个期刊的文章的集合,我们统计一下被引次数的分布,发现,根本不是正态的,有很多很多的论文被人引用也有不少的论文被引次数非常多。这两头的比例都远远偏离正态。这也说明,如果我们用一个平均值去代替这个分布,这个代替是非常不可靠的,没有代表性。那问题来了:如果我们需要某个指标来帮助我们选择期刊(大学、城市、国家——如果可选的话)的话,我们能不能有一个还算能用但是又简单的指标呢?平均值就很简单,但是管用吗?在个体的层次,也就是考虑单篇文章和单个科学家,这个平均值——就是后来”著名的“影响因子——非常不具有代表性,非常不管用,这是我们已经知道的。但是,能够代表对期刊的水平不太了解的初次投稿者以及在思考订阅什么期刊但是对专业学科的期刊不太熟悉的图书管理员选择期刊者来使用吗?注意,这个的目的首先是这些直接使用者,至于管理机构给每个期刊分配资源是否可以参考这个平均值之类的事情不是第一位的。为了这个目的,我们来数学化一下(注意,有了研究对象和问题,有了基本思想,下一步就要数学化,然后才是解决这个数学问题,接着才是检验的问题):任意两个期刊,如果它们的影响因子有高低,那么,我们想了解多大程度上从两个期刊里面随机各抽一篇的情况下,影响因子高的那个期刊的文章的被引用次数大;或者说从另一个角度,如果说影响因子代替单篇文章不合适,那么多大的集合就可以用这个平均值来代替了。也就是说,给定一个集合大小Zj,从期刊j中随机选取Zj那么多篇文章其平均值是不是就接近这个整体的平均值,而且这个平均值还可以用来使得这个期刊和其他的期刊区别开来了。这两个问题是相辅相承的,一个问题的两个方面。如果被引次数是正态分布,那么,这些问题都可以解析求解,可惜分布函数不是正态。有关这个问题的进一步讨论在这里就不再展开了,有兴趣的可以看[Waltman的综述,我们自己的工作,还有前面这个几率的计算的工作]。

到现在为止,我们讨论了科学计量学的研究对象和研究问题,以及研究问题和服务对象的关系,还有分析问题的思想——从数据出发、直接和间接关系。我们还要注意这里有很多的近似:没有研究对象的直接数据而是用的间接数据、没有统一的单位暂时数数、经济和技术和科学实际上不可分但是我们暂时划了一条界线等等等等。服务对象也基本上就局限于科学家。一会儿,我们会稍微拓广一点我们的服务对象,再来看需要问哪些问题,以及这些问题的分析思想和分析方法。具体分析方法上,我们仅仅讨论了统计文章(类似的可以用于专利、书等等)的被引次数,它的分布函数还有平均值。实际上,关于这个被引次数还有其他的一些比较严重的但是可能可以在现阶段处理的问题。例如,不同领域的工作不一定能够相互比较:生命科学领域的文章通常引文比较多被引次数也比较大,数学就反过来,物理学差不多居中。于是,同样被引10次,生命科学论文和数学论文的影响力实际上不一样。甚至,来自于同一期刊的文章,也可以是不同领域的,于是它们的平均被引次数可能不一样,也不能放在一起来对比。那怎么办?

科学计量学上,把这个问题称为被引次数的归一化。大概来说,我们可以把文章分成领域,然后在足够小的领域来归一化——例如被引次数除以这个领域所有文章在一个时间段里面的平均被引次数,或者我们可以把施引文章当做一个单位平均分到这个篇文章的参考文献上去。注意,这个分配方式其实和PageRank是有关系的。我们确实还可以把每篇文章不按照被引次数来计算而是按照某种类似PageRank的算法计算出来的分值来计算和分配。等着,我们一不小心又回到了论文的领域标注的问题和学科的知识体系的问题。我们有这样的好的领域标注和学科知识体系吗?有几个,不多。怎么办?因此,我们还需要研究论文的主题标注和主题分类问题。注意,这个问题实际上依赖于学科知识体系。我们还会回到这一点。有关这个归一化问题的研究可以看看这几篇综述[Waltman评价指标综述]。

前面仅仅提出了为了信息获取的目的我们需要一个排名,实际上,有的时候,可能我们直接就需要一个排名。例如,非专业的管理者需要大概了解某个领域谁最牛这样好咨询一下这样的人,期刊的编辑或者基金评审的组织者想找到某领域的合适的审稿人。例如,在有的地方,非专业的管理者需要在评奖雇人分配资源方面有一个大概的方向或者入门砖。有的时候可能专业人员在大范围选择的时候这样的入门砖也是有用的,但是,但是,最终一定不能依靠指标——它们一般不适用于天才和垃圾,而是真的去深入阅读和讨论。也就是说,不管怎么说,如果能够对研究成果(论文、专利、书等等)给一个评价,对研究者、研究单位(团队、学校、城市、国家)给一个评价,有的时候总是有那么一点点用处的。例如你不能指望所有的高中生和高中生家长都通过深入了解很多所学校来做出选择,有一个大概的排名总比道听途说或者随机选要好。于是,这个问题,在科学计量学里面,成了评估指标的问题。我们发现,其实这个问题也可以依赖于上面的对排序算法的研究来回答。不过,在前面排序仅仅是为了信息获取的方便,在后面排序本身就是目的。

除了科学家的信息获取和帮助非专业的以及专业的管理者偷懒,科学计量学还应该考虑帮助科学家选择研究主题、了解研究领域,帮助老师们来更加容易地把研究成果转化成课堂的素材,帮助政策制定者和管理者来更好地促进科学技术的发展。了解研究领域就要给领域一个画像,回答一下这个领域分成哪些主题,这些主题之间的逻辑关系是什么,哪些工作在哪些方面促进了科学的进步,其中哪些主要科学家和哪些主要研究工作还有那些概念和例子非常的突出等等这样的问题。当然,前面提到的自动摘要自动综述以及排序算法也能够一定程度上解决这个问题。但是,更加重要的是粗粒化,也就是从文章的整理到主题的整理。很多时候我们需要把我粗粒化的图景。另外,从科学计量学研究本身来说,分类是大多数研究的第一步,非常重要的第一步。其中PACS、MSc、JEL、MeSH要么依靠作者要么依靠专门的编辑部来给文献分类,而分类体系本身则是一棵概念树。当然,我们可以研究如何把这样的分类体系推广到自动算法上去,例如依赖文章题录信息来计算推测主题分类。更重要的,我们要有更加合理的分类体系:学科知识不是树,而是网络,当然这个网络的层次性相对明显。那么,我们现在有这样的网络吗,假设有了这个网络我们如何给文章建立主题标注?在这里,我们提出来一个“学科概念地图”的概念,也就是用网络的方式来呈现一个学科的核心概念以及概念之间的关系。大概来说,也可以看作是Wikipedia之类的百科所整理的知识的一种网络形式的呈现方式。强调概念之间的联系,强调概念的组织,通过围绕着某个主题的组织来体现大图景,也就是基本问题、基本思想、基本分析方法和它们的例子。稍后我会尝试给出来这个文章的主要意思的概念地图和科学计量学的整体概念地图,当做例子。于是,现在问题就成了:如何构建这样的学科概念地图,以及如果有了这个地图,如何做论文的领域标记和粗粒化。

当然,在没有这个学科概念地图的时候,科学计量学也是要着手来解决这个问题的。很多时候通过分析引文网络来完成。其中又分为直接分析引文网络、分析共施引网络(两篇文章一起引用某文章则相连)或者共被引网络(两篇文章共同被某文章引用则相连)。后面两个关系实际上是前面的关系的“投影”:在前面的网络上走两次(先顺着引用关系再逆着引用关系,或者先逆着再顺着)能够连通就在后面的网络上连通。在国内使用者非常多的由Chaomei Chen发展的CiteSpace软件就是分析共被引来做粗粒化和领域演化的典型代表。其他的还有CWTS的基于引文网络的直接分类方法以及基于这个分类建立的排序指标。在这方面可以参考Waltman的综述[Waltman_PLOS]。

此外,为了更加方便地做自动摘要和自动综述,实际上,文章层次的概念地图也是非常有意义的。文章的概念地图可以给出来文章关注的主要问题、概念方法思想的基础、主要贡献甚至主要参考文献。这样通过某种方式合并每篇文章的小图,我们就可以看到一个集合的文章的整体大图。

除了通过设计指标和制定分类来通过检索和浏览来快速获取信息,甚至直接就是用作排名用作评价,以及把握学科粗粒化发展图景,还有大量的问题我们可以研究。只要这些问题还是基于科学家、科学家的研究活动和活动的成果这些研究对象并且为了服务于科学家、教师和学习者、管理者的,以数据为基础的,以科学方法开展的,基本上都可以算作科学计量学。例如,除了衡量文章作者以及各个研究主体的综合影响力,我们还可以衡量它们创新性。在创新性的度量上,其实这个三层网络也具有其特殊的意义:一个研究工作的主要贡献可以看做是提出了概念、提出了分析方法、找到了概念和方法应用的例子、提出了新的问题等等,也就是说,表现为概念网络上的顶点或者连边,也就是从论文层到概念曾的层间连接。我们还关心选择领域专家的问题,例如为了满足咨询领域发展方向或者文章基金审稿等任务的需求。于是,传统上科学计量学是把共被引和共施引这样的投影得到的共现关系推广到作者和主题这个共现关系上面。这个投影实际上是先从作者到文章,再从文章到主题。原则上,还可以继续投影,例如从作者到文章再到作者就是合作,从作者到文章再到引文甚至引文的主题(不知道叫什么什么共现)。实际上,从网络的角度来说,这些贡献矩阵都是对原始的作者-论文-概念关系网络做了某种投影。如果用投影能够研究某问题,那么,投影之前的原始网络也必然能够用来解决这个问题。当然,计算分析的方式和难度是另外的问题。有用的问题可能更加适合用投影之后的网络。

通过前面提到的在多个方向上的具体研究的例子,我们看到,是不是这个领域的基本数据、基本思想、基本方法有一个一致性的描述?我们说这个例子就是多层网络模型。先说论文内部的层次,我们有作者、论文、概念。每一个层内我们有基本关系(能够由基本关系得到的导出关系都不算,因此合作关系不是基本关系),例如作者之间的师承关系社会关系同一个团队学校等关系,论文之间的引用关系,概念之间的学科内逻辑关系。层与层之间还有基本关系,例如作者写了某论文、某论文工作在某主题上。有了这个一般的框架,那么,剩下的问题就是:是否迄今为止的大部分研究工作,包括问题和分析方法,可以用这样的一个框架来描述;是否这个框架还可以进一步启发我们新的研究,包含新的问题、新的方法、新的思想,以及通过它们得到的新的结果。更进一步,其实这个多层网络还可以进一步扩展,例如包含专利。我们就有了论文的三层,专利的三层(发明人、专利、专利的相当于概念层的技术领域),甚至可以考虑它们的结合。于是,相当于我们增加了从专利到论文的引用从论文到专利的引用。我们问,这样的一个框架可以用来研究什么问题?第一,可能可以更好地回答前面的排序的问题。这个时候,论文的评价不仅仅基于其他论文的引用还包含专利的引用。当然,如果仅仅为了回答论文的评价的问题,实际上,可以去掉论文作者和专利作者的那两层。实在不行,还可以先去掉学科概念和专利技术这两层。当然,原则上,研究是否是基础性的技术的专利和是否是基础性的科学概念是有区别的。第二,更加重要的事情是,通过这个网络,我们可以看到不同领域之间的联系了。例如某项专利主要受哪些科学研究的支持和启发,某项科学研究依赖于哪些技术进步等等这样的问题。这样的问题对科学家发明人以及对管理者都是可能有意义的。实际上,Narin的早期研究就在关注这个科学-技术关联的问题。其中一个原因就是大家需要对基础科学的研究到底多大程度上促进了技术从而促进了经济的发展有一个更加仔细和可靠的了解,并且当时有一种说法说政府投给基础研究的钱太多了,如果不发挥经济作用的话,那应该减少。当然,这个问题可以通过个案来研究,也就是选择比较重要或者出名的产品或技术,反溯其科学基础,然后看看这些科学基础的发展过程中政府支持是否发挥了重要作用[Narin_TRACE]。这个研究还可以用大规模数据来做:统计专利引用的科学论文的数量,看看这个数量的时间演化,领域分布等特征。其中一个叫做技术-科学关联系数就是Narin它们在这一批工作中提出来的[Narin_Linkage]。在这里网络的思想和分析技术将再一次发挥重要的作用。考虑如下的情况:一个专利A依赖于论文a,一个专利B依赖于专利A但是没有引用任何论文。如果仅仅对引文数数做统计,那么我们会得到B不依赖于a的结论,但是,显然,B实际上依赖于a。如果论文a还引用论文b,那有可能B还依赖于b。这个就是传播、迭代计算的思想和分析方法。

沿着这个方向,我们也可以讨论粗粒化的问题:我们不再关心具体的某个专利对科学的依赖,或者反之,而是考虑某个专利部门,例如手机通讯光通讯之类的,主要依赖于哪些科学领域。这个粗粒化在我们的多层网络框架上就相当于某种方式先对层内顶点做聚类,然后研究这些类当做顶点的网络。当然,再一次,分析的时候需要考虑传播考虑迭代计算,也就是直接和间接关系。

当然,你可以继续追问,为什么在专利和论文的层次就停下来,不把专利到产品的转化,甚至产品在整个经济中和生活以及其他产品的联系都加入进去。原则上,是的。但是,我们需要数据啊,而这样的数据远远比前面的更加难以获得。进一步,任何研究,总数要在某个地方切一刀,把切出来的东西当做孤立系统来研究的。如果这一刀合适,系统内部的联系就会远远比系统和系统外部的联系重要普遍的多。那这样的一刀也就是合理的了,直到有一天能够把数据的边界再一次扩展。

总结:科学计量学是以数据和科学方法分析研究科学家、科学家的研究活动和科学家的研究活动的成果,从而实现为了科学家、教师和学习者、科学技术政策制定者和管理者服务的一个学科。其重要思想是:一切基于数据,直接联系和间接联系同时都非常重要。其重要理论模型是:多层网络科技主体(作者、论文、专利、书、产品、概念,以及这些主体构成的团队、单位、城市、国家、学科领域、技术部门)。用一个一致的角度来描述数据和问题,然后发展这个数据上的计算分析方法来解决这些问题,对于一个学科的发展是非常重要的。研究工作不仅仅是解决一个个独立的问题,还要把问题相互联系起来,在整个学科的背景下来思考和定位。这个什么是科学计量学的整理,除了给后来者一个容易进入的门或者窗之外,还希望能够给后来者这样的一个看问题做研究的整理思路。

参考文献我慢慢加上。

[1]S. Brin, and L. Page, The anatomy of a large-scale hypertextual web search engine, Computer Networks and ISDN Systems, 30, 107-117(1998).
[2]Ludo Waltman, A review of the literature on citation impact indicators, JOURNAL OF INFORMETRICS 10(2), 365-391(2016).
[3]Y. Ding, E. Yan, A. Frazho, J. Caverlee, PageRank for ranking authors in co-citation networks, Journal of the American Society for Information Science and Technology, 60(11), 2229–2243(2009).
[4]W. Leontief, The Structure of American Economy, 1919-1929. Cambridge: Harvard University Press (1941).
[5]G. Pinski and F. Narin. Citation influence for journal aggregates of scientific publications: Theory, with application to the literature of physics. Information Processing & Management, 12(5):297-312, 1976.
[6]Z. Shen, L. Yang, J. Pei, M. Li, C. Wu, J. Bao, T. Wei, Z. Di, R. Rousseau, J. Wu, Interrelations among scientific fields and their relative influences revealed by an input–output analysis, Journal of Informetrics, 10(1), 82-97(2016).
[7]C.T. Bergstrom, J. D. West, M. A. Wiseman, The Eigenfactor Metrics, Journal of Neuroscience 28(45):11433-11434(2008).
[8]P. Chen, H. Xie, S. Maslov, and S. Redner, Finding Scientific Gems with Google, Journal of Informetrics 1, 8 (2007).
[9]Waltman, L., & Van Eck, N.J., A new methodology for constructing a publication-level classification system of science, Journal of the American Society for Information Science and Technology, 63(12), 2378-2392 (2012).
[10]I. Wesley-Smith, C. T. Bergstrom, and J. D. West, Static ranking of scholarly papers using article-level Eigenfactor (ALEF), The 9th ACM International Conference on Web Search and Data Mining (2016).
[11]J.D. West, M.C. Jensen, R.J. Dandrea, G.J. Gordon, and C.T. Bergstrom, Author-Level Eigenfactor Metrics: Evaluating the Influence of Authors Institutions and Countries Within the SSRN Community, Journal of the American Society of Information Science and Technology 64: 787-801(2013).
[12]Manlio De Domenico, Albert Solé-Ribalta, Elisa Omodei, Sergio Gómez & Alex Arenas, Ranking in interconnected multilayer networks reveals versatile nodes, Nature Communications 6, Article number: 6868 (2015).
[13]Vicente P. Guerrero-Bote, Félix Moya-Anegón, A further step forward in measuring journals’ scientific prestige: The SJR2 indicator, Journal of Informetrics, 6(4), October 2012, 674-688(2012).
[14] M. Nykl, M. Campr, K. Ježek, Author ranking based on personalized PageRank, Journal of Informetrics, 9(4), 777-799 (2015).

附件:《什么是科学计量学》讲稿《广义投入产出用于科学领域关联分析》

大数据用于警务

偶然看到一篇新文章,The New York City Police Department’s Domain Awareness System讨论了如何在警察局具体办案战术决策过程中以及资源分配战略制定过程中使用大数据。作者给的几个场景中的一个是这样的:一个关于家庭暴力的911报警电话,警局收到以后,会派一个报警地点附近的巡警去处理。但是,这个巡警除了什么地点以及大概是关于家庭暴力的事情这个信息之外,就没有任何信息了。实际上,有可能在这个地点,居住着某些登记在册的家庭暴力者或者其他特殊的群体,甚至有可能这个地址上都有一个一直没有执行成功的逮捕令。但是,这个巡警都不可能知道,除非这个巡警正好就是家庭暴力的专家或者就是那个逮捕令的执行者之一。面对这样的情况——数据有但是具体执行者不容易获得,怎么办?正好大数据可以帮忙。当然,文章还有其他很好地例子,以及它们的系统是如何工作的。

再推荐一个新的美剧《APB》(全境通告),讲述一个亿万富翁工程师如何用技术和信息技术改变警务的电视剧。APB就是他推出的那个手机报警App的名字。通过手机App报警,不仅仅可以达到通常电话的功能,还能够定位,条件合适的情况下还能视频,还能够把周围很多个手机连起来,还能拍照。当然,更多的是背后的和上面文章一样的信息整理加工分析提供技术。

没准真的到了信息和技术改变警务的时候了,到了改变这个社会的治理和服务体系的基础架构的时候了。

什么是“大数据”?

今天杨老师问什么是大数据。我刚好做了一个小小的总结。也放在这里。

很早以前,只有科学家依赖于用数据发现规律和解决问题。科学家可以先通过观察或者实践需求提出问题,然后收集这个问题相关的现象的数据,接着从数据里面发现具有一定普适性的表现规律和这个普适性的边界,接着构造一个理想模型来符合这个表现出来的规律,最后这个模型经过检验之后,用于解决当时提出的问题甚至更多的问题,甚至成为发展其他模型的基础。一个典型的例子就是Newton运动定理和万有引力的发现。首先是大概的猜想——地心说或者日心说,然后对某些地方想不通想把记录搞得更准确,接着就是真的把数据搞得更准确了,然后从数据里面发现规律,接着问这个规律到底怎么产生的,于是有了新的猜想,发明了新的数学分析工具,最后理论建立好了,还能够用来预测其他天体的运动了。因此,Tycho、Kepler、Newton都是数据科学家:提出问题、获取数据、发现数据规律、提出进一步的新问题、提出新的数据分析方法、数据验证,还有解决问题。其中最关键的思想就是:一切以数据和从数据分析得到的结果和模型为准。当然,更加核心和底层的思想上的突破是批判性思维——谁说的不算数,必须是经过逻辑、计算和数据验证的陈述或者理论,才算数。

但是,那个时候,关于人类生活的规律和为什么有这样的规律,基本靠猜。或者说,可能都不去思考到底有没有一些规律,浑浑噩噩过日子算了。能够关心一下自然的世界就不错了,人的行为和社会什么的就算了。

现在,随着信息技术的发展,我们进入了一个人类交往——也就是人和人之间发生思想、物质或者金钱、情感的交换——远远比以前丰富的多的时代。并且,这个交往还常常留下了数字痕迹。于是,有关人类生活的数字痕迹越来越多了。终于,有人开始思考,是不是能够用这些数字痕迹来了解人类行为,服务人类社会,尤其是商业还有社会学研究等。于是,就进入了一个数据为王的时代。

于是,原来研究自然界的科学家们还有原来研究社会的科学家们都看到了好机会:这么多数字痕迹,我们总可以拿来研究点什么吧!他们还没动手的时候,忽然发现,计算机科学家们兴奋起来了,说,这么多数据的分布式存储、分布式计算就是一个好问题啊。于是,计算机科学家们竟然先开始投入到这个大数据的领域。这个时候,大数据的意思真的是数据要大,要不然,需要那一帮计算机科学家来专门研究存储、计算干什么,如果很小的话。由于这样的大数据很多时候和互联网商业有关,于是,这就热起来了:希望基于大量用户的各种数据的分析能够帮助赚钱。其中一个直接的例子就是推荐系统。最简单的,按照排序来推荐:计算所有的用户合起来看哪个电视剧最多,于是推荐给其他用户。稍微复杂一点:按照相似性推荐,经常看跟你一样的某些电视剧的其他人还看某个另外的电视剧,于是把那个电视剧推荐给你;或者某电视剧和你已经看过的挺像,于是推荐给你。或者更加复杂一点:依赖你的朋友关系,如果你的朋友经常看某电视剧,那么,你也应该会想了解一点;甚至你的朋友关系都是通过现有的显式记录,或者日常交往隐式计算出来的。这个例子说多了。江湖传言比父母先发现其女儿怀孕,以及尿片和啤酒放在一起更好卖,也是这样的例子。

但是,但是,我们一定要回到一开始的自然科学,一开始的数据科学的思想和哲学:大数据不一定数据量很大,尽管一般也确实挺大,更重要的是,从合适的数据里面用合适的方法来回答合适的问题,以及,一切基于数据和数据分析结论来说话这个思想。这个过程,本质上,就是通过数据搞清楚事物之间的关系,然后,再用这个关系建立模型做进一步计算。这不就是物理学吗。于是,我们发现,大数据这个不是计算机科学家的活,而是物理学家的活。分析天体运动、云室轨迹、CERN的加速器数据分析,其实都在做这个事情。只不过,现在我们关系的对象扩大了,不仅仅是自然的世界,还要关心人类社会。原来的模型不一定适用了。但是,科学的精神——也就是批判性思维,问更多的为什么,还有科学的核心——尊重实验尊重数据以及构建理想的关系模型来解释实验和数据,这些还是适用的。

因此,big不是大小的意思,而是,很牛的意思,数据为王的意思,必须以数据和数据分析结果为准的意思。数据量很小,但是,还是数据驱动数据验证的研究,也可以认为是大数据研究。不过就是牵涉到人类生活的数据,一般来说,信息确实比较丰富比较大而已。将来,随着数据开放获取变得更容易,更加重要的事情是:提出新问题、提出新分析方法,也就是发现和解决问题的能力

顺便,这也是为什么我把自己的研究小组叫做“Big Data, Bigger Physics”的意思。