论文主题分类研究

分类是很多研究的基础。一方面通过分类可以把我粗粒化的图景,另一方面反应内涵的分类能够帮助发现内涵。同时,论文主题分类也是概念和概念之间关系挖掘的基础。

在科学计量学里面,和主体信息(作者、单位)识别,以及核心引用文献识别,等合起来,是基础性研究工作。最近这个问题得到了比较多的关注,Scientometrics出了一个专刊。我就顺便把文献和思路整理在这里。

文献部分见这里:一个zip打包文件,以及一个整合的pdf文件

数据获取可以用APS的PACS标记数据或者见文献中的Challenge那篇文章的信息,还可以依靠MeSH, MSC, JEL。

工作主要思想,把论文或者论文中的概念抓出来处理成为实空间中的矢量(不是0,1型的离散计数矢量),然后运用矢量聚类方法。中间可以引入多层网络的思路,对作者主题论文同时做聚类。

考虑组织一个读书活动,然后同时开展研究工作。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注