科学学研究工作整理

以下是部分已经完成的工作和正在开展的工作。欢迎所有人来合作和讨论。甚至直接拿过去做就行,只要做的时候给我一个消息

在科学学方面,核心的创新是围绕下面几个方面:科学学三层网络框架、间接联系、概念网络。对于什么是科学计量学这个问题的认识,可以看之前的总结。具体研究工作随手记下来的有这些:

  1. 框架和间接联系用于论文-专利-基金分析,回答相互联系的问题,用于作者-论文-主题回答作者论文多样性创新性问题、作者论文主题评价排序的问题、相互影响的问题。方法上考虑发展广义投入产出用于多层网络。
  2. 广义投入产出用于单层网络(个方法的比较:固定外界的,封闭系统的,目标外界的,以及和pagerank的比较)
    1. 把基金数据和aps国家数据合并,做成一个基金国家当做外界,国家乘以领域作为投入产出部门的投入产出表,分析某国家的基金总量或者某领域的基金对于某国家某领域的贡献
    2. 领域为单位的投入产出表(文章已发表, Journal of Informetrics)、国家领域为单位的投入产出表、城市领域为单位的投入产出表、期刊为单位的投入产出表、论文为单位的投入产出表。间接影响,排序,相互关系。
    3. 引文网络中的真引用:给定论文,其引文中最关键的,引用其的论文中最受其影响的(Measuring academic influence: Not all citations are equal, Transitive reduction of citation networks, Tracing the evolution of physics on the backbone of citation networks)。
  3. 追热点和领域演化问题:
    1. 中国科学家是否经常在领域变热之后大规模加入,还是有提前量:分析领域大小时间序列和这个国家论文这个领域论文数量时间序列的相关性,时间延迟相关性和Granger相关性(李梦辉)。
    2. 领域演化的Allometric标度律(文章已发表, Scientometrics)和科学家发文章追热点行为(文章已发表,Scientifc Reports, Journal of Informetrics,链接是arXiv上的,等JoI出版正式版本再修改链接)
    3. 引用论文是否存在热点追踪现象:把论文的引用次数当做热点指标,看每个单位时间内的新引用分布是否符合现有的文章的热度的函数(李梦辉)。
    4. 论文审稿等待时间、被引用次数、作者属性(h指数、文章数量、被引次数、获大奖)、 文章标题属性、图的属性(数量、是否美观等)、参考文献属性(数量、总被引次数)等之间的相关关系分析。等待时间和被引用次数的工作已经发表于Scientometrics
  4. 大鱼吃小鱼,平等和效率的问题。先看平等问题,将来再看好不好,效率问题
    1. 中国和国际科学家的基金金额和工资,是否存在大鱼吃小鱼现象,Gini系数的时间演化规律。同样的问题可以在学校研究所的层次来讨论(沈哲思)。
    2. 学校层面还可以讨论其他指标的Gini系数,例如总学生人力资本量。投入阶段,可以用高考成绩,产出阶段不好办。
  5. 学科概念地图到学习顺序、状态检测,到hem效率降低。
  6. 作者的问题选择,追哪些因素
  7. 多大才够大,用于期刊学校科学家(教学、科研)评价。
  8. 三层网络用于论文聚类,考虑word2vec。和单层网络比较。
  9. 数据建设:
    1. 整合wos和专利、基金
    2. 建立学科概念地图(自动Wikipedia、人工)
    3. 利用机构领域,加上合作网络,来做作者姓名识别。
  10. 服务:
    1. 综述点评网
    2. 技术部门-学科领域相互关系研究发布(做图用方块,横向直接纵向间接?)
    3. IOF各主体排序
    4. 做一个软件给每篇文章产生一个概念地图形式的摘要
    5. 科学计量学iof分析软件(IO-Scope)

《科学学研究工作整理》有3个想法

  1. Measuring academic influence: Not all citations are equal
    Transitive reduction of citation networks
    Tracing the evolution of physics on the backbone of citation networks

    1. 第一篇,用机器学习的算法来解决关键引文的问题。其中有人工标注的训练数据。
      第二篇,考虑了追踪引用,保证连通性不变,如果一篇文章同时引用了两篇存在相互引用关系的文章,则仅仅保留这篇文章发到最近的文章的链接。然后,在保留下来的网络里面主要讨论了度。
      第三篇,考虑了文章之间的相似性,假设存在相互影响大的引用的论文是比较像的,从而仅仅保留影响比较大的引用链接。然后,讨论了保留下来的网络的社团结构。

jinshanw进行回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注