学校识别,GRID和google 自定义搜索(custom search engine) api

由于研究工作需要(城市以及学校之间的学术支撑和利用关系、作者姓名识别),需要对文章的作者单位做一个识别。

目前,已经有Grid.ac(https://www.grid.ac/)做了这样的工作,并且提供编码以后的全数据下载

我们也对Grid给出来的结果做了初步测试,结果很不错。不过大约有10%需要人工干预,或者至少人工确认一下。在这个10%之中,通过wikipedia或者google搜索,可以发现,大约有40%左右还是正确的,剩下的就需要从wikipedia或者google搜索来获取数据了。

其中,https://www.google.com/cse/ 提供了用户自定义搜索(针对某个网站+全网)的API。

对于需要人工确认的学校名称、地址,除了调用wikipedia数据(data dump 或者 api)之外,还可以用这个google 自定义搜索(custom search engine) api来实现。例如,这是一个以wikipedia和系统科学人为特定网站设定的(同时也包含了全网的结果的)自定义搜索:https://cse.google.com/cse?cx=003079937312448303458:6csbgejecua

甚至,google还允许你用JSON API的方式来格式化获取搜索结果,而不仅仅是网页形式。不过,这个JSON API的方式每天的上线是1万次,并且不能全网搜索。

获取sci-hub数据

sci-hub是学术论文检索网站,提供了从文章doi等信息找到文章下载地址(这些地址又被libgen网站收集和保存)的信息。当然,这些文章基本上是有版权的。因此,实际上sci-hub和libgen是法律的边缘:没有直接保存原文(有的文件可能有原文,不清楚),但是提供了原文下载地址的集合。不过,我真的很喜欢这个网站的理念:知识应该属于全人类,应该尽量方便大家的获取。当然,也应该给写作、制作和出版这些知识的载体——也就是文章和书——的人一些利益。所以,我自己的文章和书的处理方式是在网上免费提供没有经过出版社处理的全文,但是经过出版社处理的文档,我不管。

最近纯粹出于好奇和学术研究兴趣,想看看sci-hub和libgen这个网站在促进学术交流上的效果,还想顺便用来匹配一下一堆我们自己有的文章的doi,就去找了找下载获取sci-hub和libgen数据的方法

首先,这个数据分成三个部分:第一、保存下载地址的文件,通常是torrent文件。第二、保存文章题录数据(metadata)的文件,通常是MySQL database dump文件。第三、提供这个网站的服务的源程序。第三部分仅仅在制作镜像的时候需要使用,就不需要下载了。这三部分文件都可以直接从libgen的主页上获取。

其次,获取了文件之后,需要从torrent文件的信息里面来下载和存储相应的文件。

接着,需要把题录数据和下载的文章对应整合起来。

最后,内部使用,也可以把libgen的服务系统建起来,或者自己做一个检索系统。

科研服务平台的设想

科学家之间的合作越来越普遍。如果促进合作让合作更方便呢?这里提出一个科研服务平台的设想,包含以下几个部分:综述论文整理点评和推荐系统、科研项目文档存储平台、科研众包平台。

综述论文整理点评系统,简称综述文摘,主要收集各个学科的有影响力的综述论文期刊的论文信息,并且,收集用户对这些论文的点评,然后供用户分类浏览这些信息,以及按照一定的方式做推荐。

科研项目文档存储平台,简称科研云盘,提供两项服务:文档存储空间和同步功能、文本文档的协作和版本控制。第一个功能主要实现单一用户在不同客户端上的文档同步。第二个功能主要实现多用户文档协作。

科研众包平台,简称科研众包,主要是提供科研项目里面几个关键点——问题、数据、分析技术、实现研究的人员条件和实现研究的物质条件——的信息分享促进合作。有的科学家有好问题,有的有数据,有的有时间,有的有技术,有这样一个平台来帮助科学家匹配有可能可以取得比依靠科学家个人的匹配更好的效果。

综述文摘项目只要做好综述文章的收集和整理——这个基本没难度,对研究者和学生来说,已经是有意义的事情。相当于综述文章统一门户。如果还能够提供评论的收集整理排序和分享——这个需要依靠草根用户,那就会有很大的促进作用。实际上,导师的作用,很大程度上就是一篇综述文献——对一个领域的更加全面和深入的了解。有了这个,遇到一个对学科认知不太全面和深入的导师,就不是个大问题。有好的导师,则能够相互补充。

科研云盘,一方面提供独立服务,解决每一个科研团队都需要自己来搭建文档协作平台的问题。另一方面,云盘上所存储的信息,可以做为众包平台的基础。同时,现在很多期刊要求数据公开,这个时候这个平台也可以是论文发表的时候所用的补充信息库。这个在技术上没有任何难度。信息加密存储也不是问题。

科研众包,则是想办法更好地发挥现有的科学研究资源。由于学科领域边界的限制,很多研究项目,不太可能完全依靠研究者的个人关系来寻找合作者。但是,这个平台基本上依赖于草根用户的参与。做好有难度。所以,最好通过前面的两个项目来获得人气,来把这个项目打包发展。

这样的纯粹公益性质的服务于一大群人的工作对于提升参与单位的声誉是非常有意义的。就好像Wikipedia还有arXiv,人人都可以收益。

一篇写得好的Scietometrics方面的文章

最近收到Ronald Rousseau发过来的他自己的文章,“Diversity of References as an Indicator of theInterdisciplinarity of Journals: Taking Similarity Between Subject Fields Into Account”。文章的工作属于还可以的量级(讨论了几一个文章多样性的指标——理念、差异、联系和优劣,选了几个指标在几个期刊上做了计算,得到了其中某几个更好的结论),但是文章的写作非常值得推荐。这个文章的写作完全可以当作以后在这个领域写作的范例。

首先交待了多样性描述这个是问题是什么,然后前人大约怎么做的做了什么有什么问题。然后,我们做了什么。这部分很标准,值得借鉴,但是大多数科学论文大概如此。

从第二部分开始,神奇的地方开始了:这一部分作者主要阐述了之前的多样性的指标有哪些,有什么关系,有什么问题。神奇的地方在于,第一,作者把这部分当作主要工作之一详细阐述。第二,每一个公式,几乎都有直觉上的解释——例如Variety、Balance和Disparity的解释以及它们如何进入指标,甚至有简单的可以计算的例子。然后,还有这些指标需要满足的一般性要求的讨论。这样的文章写作可以使更多的不用数学公式做为思考的语言的人能够欣赏这个工作(这个领域的文章一般不限制字数)。在科学学这个领域里面,这是有必要的。

推荐做科学学的各位,甚至所有用自然科学来做社会科学的成员,都来读一读。联系到我之前Journal of Informetrics投稿教训的帖子,这些经验很有价值。

另外,就这个问题来说,建议同时来考虑参考文献和作者的多样性。建议采用下面的指标:
[d=Max\left{d_{ij}\right} ]
[D=\sum_{ij} d_{ij} p_{i}p_{j}]
其中,(d_{ij})是领域i和领域j之间的距离,(d_{ii}=0)。前者反映最大跨度,后者反映平均跨度。另外,在这篇文章的文献综述的基础上,再看一下生物学里面多样性的指标。

具体讨论的问题来说,可以讨论一个国家、学校、个人、期刊、领域所发表的文章的多样性交叉性。然后讨论这个多样性和其他指标的关系,例如是否被引高了,是否发表的期刊好了,是否更容易发表,是否追热点更严重等等,以及这些相关性的时间演化。

当然,做这个工作需要给出来一个领域分类体系(包含距离,例如所有标有i的文章和所有标有j的文章的交集的大小除以它们的并集的大小),还要有作者的领域标注,文章的领域标注。当然文章的作者标注和文章的参考文献标注也需要,但是想对简单一些。

整体来说,在这个工作里面,我们希望运用作者、文章、主题三层网络来讨论一篇文章的多样性和一个作者的多样性。一篇文章的多样性分成三个方面:文章本身主题的多样性,文章参考文献主题的多样性,以及作者的主题的多样性。具体多样性的计算,在得到这个主题集合以后非常简单。考虑用主题之间的距离(d_{ij})关系来定义的(D)就可以。

考虑到作者识别的问题的难度和目前的进展。现在,先完成第一个工作:仅仅考虑文章本身的主题((D_1))和参考文献的主题的多样性((D_2))。然后,讨论(D_{1}D_{2})和其他东西的相关性,例如文章被引次数、所在期刊的IF等等等等。

具体计算上,需要实现:主题之间的距离矩阵(d_{ij})。采用两种距离的定义:1、层次性网络。这个PACS码本身就有。2、共现次数。也就是如果两个PACS码经常同时出现在一篇文章里面,那么它们的距离就小。具体定义可以采用
[d_{ij} = \frac{C_{i}+C_{j}}{2C_{ij}}]
或者
[d_{ij} = \frac{max\left{C_{i}, C_{j}\right}}{C_{ij}}]
其中(C_{ij})表示ij同时出现的次数。
可以验证这个定义实际上就包含了一级层次性距离。但是,在我们这里,仅仅需要在所考虑的层级上做这个共现距离的计算就可以了。算到PACS的哪一层,先都试试再说。

每篇文章的PACS标注和文章之间的引用关系,简单,已经都有。

广义投入产出分析用于科学学的文章出来了

http://www.sciencedirect.com/science/article/pii/S1751157715300717
Interrelations among scientific fields and their relative influences revealed by an input–output analysis
Zhesi Shen, Liying Yang, Jiansuo Pei, Menghui Li, Chensheng Wu, Jianzhang Bao, Tian Wei, Zengru Di, Ronald Rousseau, Jinshan Wu

科学领域间相互关系及相对影响的投入产出分析

这是一篇原创性比较高的文章。Journal of Informetrics也是信息科学领域有影响力的期刊。

通常一个学科领域内有很多个子领域。我们的工作试图回答以下两个问题:第一、这些子领域哪一个最有影响力?第二、给定某一个子领域,其对其他的子领域有什么样的影响或者其最受哪个领域的影响?他们把经济系统中的Leontief投入产出方法改造成为一个封闭系统的方法。然后用这个封闭系统投入产出方法回答了以上的两个问题。这个封闭系统的投入产出方法具有广泛的适用性。

经济系统可以看作包含N各部门,如农业、纺织、矿业等。Leontief 投入产出分析的做法是构造一个线性方程,把最终需求部分独立从投入产出网络中出来当作已知量,把各个生产部门的总产出当作未知量。这样可以回答,当最终需求产生一定的变化时,各个生产部门的总产出需要做怎样的相应变化。投入产出分析里面最重要的思想是:直接影响(最终需求本身)和间接影响(生产最终需求直接所需要的各部门投入,生产这些投入的投入,……)必须同时得到考虑。

同样,在科学领域的关系中,也必须考虑一个领域对另外一个领域的直接引用,这些引用的引用,这些引用的引用的引用,等等。于是,问题就成了一个如何综合考虑直接和间接引用的数学问题。

在科学领域的关系中,由于没有最终消费部门,我们提出封闭系统的投入产出分析方法:放弃线性方程的描述而采用本征向量的方式来分析,同时我们通过研究去掉一个部门的结果来看一个部门的影响。对于我们的封闭系统矩阵,去掉第k行和第k列,计算这个矩阵的本征值和本征向量,计算这个矩阵的最大本征值与1的差,这个差就是产业部门k的影响力,相应的本征向量就可以作为产业部门k对其他部门的影响的度量的基础。

用上述方法分析了美国物理学会(APS)杂志上发表文章的数据。把每个一级分类号(PACS)看作一个部门(子领域),把子领域i中文章对子领域j中文章的引用数量作为j领域对i领域的投入,经过归一化建立子领域间的投入产出关系。

首先研究了不同时期子领域的相对重要性,以及重要性的演化。通过分析投入产出分析方法得到的子领域相对重要性与子领域总被引用次数的相关性,发现两者具有正相关性。但也有一些特例,如统计物理(05)的在投入产出分析中得到的排名高于利用引用数所得到的排名,说明统计物理在对其他领域具有重要的间接影响。


图1 投入产出重要性排名与引用次数排名的相关关系。

另外给出了子领域相对重要性的演化过程,随着总引用次数的增加,发现某些领域的重要性(IOF-Z Score)在增加,如03量子力学,而某些领域对其他领域的影响力在降低,如74 (超导,这不表示其自身的重要性在降低,仅仅是对其他子领域而言)(图2)。


图2:1991至2011年间相对重要性(IOF-Z Score)与引用次数(Total Citation)的关系。点击图片会显示动画

另外,发现03量子力学的重要性排名在随时间增长,在2011年成为了影响力最强的子领域,而有的领域在一直下降。


图3 :20个最有影响的子领域影响力排名变化图。

这个工作提出了封闭系统的投入产出分析方法,并应用在美国物理学会杂志发表的文章记录上。发现通过考虑直接连接和间接连接,这个分析方法可以比通过引用次数和文章数挖掘出子领域间深层次的相互关系。这个方法还可以用来分析所有具有投入产出关系的系统中各个元素的影响力和相互影响。

除了科学领域(其他的领域的也可以做了),后续的这个方法用于其他研究主体:科学家、学校、城市、国家、基金单位,都可以开始做了。

顺便,借个贴:今天再看了一遍Susskind的关于Feynman的Ted talk,https://www.ted.com/talks/leonard_susskind_my_friend_richard_feynman。在怎么做研究,怎么讲课,怎么思考上还是很有感触。推荐大家都看看。也推荐都看看Feynman的讲义和小册子们。