文章作者识别和主题识别的参考文献整理

大量的科学学工作需要从纯粹形式数据(被引次数、作者数量、发表在什么期刊上)里面走出来,一定程度上用文章的内容信息来做深入的研究。例如文章的分类就一定程度上表现了文章的内容。于是,关于利用了文章层次的分类数据的学科进展和现状的研究就能更好地反映这个领域的现状,相比于纯粹基于期刊的分类的现状研究。再如,了解科学家的主题分类——这个需要同时用到主题分类和作者识别两者——就可以了解合作研究的更多细节。于是,没准我们可以考察什么驱动了合作(甚至“好”的合作),名人效益还是主题互补。

因此,这个领域的研究,除了基础的文章出版记录(题录和引用),还需要文章层次的主题标记(需要学科本身的一个概念网络,以及从文章内容到这个概念网络上的分布函数的一个映射)以及准确的作者标记(同一个作者可能出现不同的名字,同一个名字可能代表不同的作者,作者还可能改变单位),见科学学的新框架。尤其是,识别文章作者和作者主领域这两件事情应该可以而且需要合起来做。

现在,把相关的参考文献整理在这里。

  1. 作者识别
    1. Heterogeneous Networks and Their Applications: Scientometrics, Name Disambiguation, and Topic Modeling(综合关系网络的提出,还有多层网络上的PageRank,非常值得看看)
    2. Bibliometric fingerprints: name disambiguation based on approximate structure equivalence of cognitive maps(文献综述部分值得参考)
    3. A Boosted-Trees Method for Name Disambiguation(一个方法)
    4. Author name disambiguation in scientific collaboration and mobility cases(利用合作者信息和机构信息)
    5. Exploiting citation networks for large-scale author name disambiguation(WoS全库作者识别,利用引文信息,作者宣称效果非常好)
    6. Author Name Disambiguation for PubMed(一种cluster算法)
    7. A heuristic approach to author name disambiguation in bibliometrics databases for large-scale research assessments(一个机器学习算法)
    8. Author name disambiguation: What difference does it make in author-based citation analysis?(说最简单首字母加姓和那些复杂的之间对结构造成的差别,除了在中韩国人多的时候,其实不打)
    9. Accuracy of simple, initials-based methods for author name disambiguation(宣称最简单的首字母匹配方法很准确,但是,可能仅仅文献综述部分值得参考)
  2. 文章主题识别
    1. 已经有的系统:PACS, MeSH, MSC, JEL
    2. 韦添的论文以及参考文献