边的PageRank值,多层网络传播问题、PageRank以及投入产出分析,还有PageRank k-core项目

最近,由于找到了科学学的三层网络数据关系数学模型:作者、文章、概念(主题),在思考如何利用这个数学模型来描述之前前人已经提出和解决的问题(这里就是换一个描述方式),提出还没有解决的问题(这里需要新的分析技术),以及新的问题(这里问题和技术都需要用好这个三层网络数学模型)。有了几个可以试试的想法。

第一,作者姓名识别、作者主领域识别是一个科学学的基础问题。大量后续研究依赖于这个问题的解决。通常的有首字母加上姓的简单粗暴识别方式,考虑合作关系,考虑引文关系,考虑机构名称,考虑主工作领域等多个方向,计算分析的技术也有多样。大多数在一个维度上做研究,例如考虑如何把合作关系用来改进简单粗暴识别,或者考虑多个维度,例如同时考虑合作者和引文关系,然后想办法把两个考虑的因素结合起来。这些分开维度又合起来的研究,基本上都是相当于把三层网络投影到其中的一层上来做分析,基本上没有直接在多层网络上作研究的。

现在,我们在三层网络模型的基础上提出来,先把每一篇文章的每一个作者(同时,也带着机构标记)看做独立的作者,然后通过在三层网络上的传播算法来计算作者的相似性的方式来合并作者。传播过程的理念当然还是:主题相近的姓名相近的科学家是同一个人的可能性比较高,合作者相近的姓名相近的科学家是同一个人的可能性比较高。这些理念都不奇怪。关键是,现在在这个三层网络上,通过文章的引用关系(也可以通过合作关系来传播主题,还可以跟之前的研究工作类似单纯地考虑合作者或者引用的效果而不是通过传播主题标记的方法)可以把作者的主题标记扩大和传播起来,然后可以通过主题的相似性来合并作者(当然,需要考虑姓名和机构)。

一石二鸟,也体现多层网络模型直接计算不投影的特点。至于是不是问题解决更好了,就看结果了。

第二,考虑间接效益的k-core定义。k-core相比较度k来说,好处就是一定程度上,通过迭代消去的过程,考虑了非局域信息,也就是间接效益。考虑到这个特点,我在思考把k-core的定义修改成不是依靠k的值来消去,而是依靠PageRank值(迭代的每一次都计算每个顶点的PageRank值,然后小于某个阈值的顶点都去掉)。具体来说,每一步计算,
[ p = p M]
其中(M)就是当前剩下的网络的邻接矩阵(W)对应的概率转移矩阵。然后,设定
[p^{*} = \frac{k_{c}}{\sum_{W}},]
其中(\sum_{W})是矩阵(W)的所有元素之和。

这个定义显然和k-core有联系,守恒网络((W^{i}=W_{i}))直接回到通常k-core定义——迭代删除总强度小于某个(k_{c})的顶点。但是,一般情况下,由于考虑了间接效益,应该是不一样的。因此,第一个这个方面的工作就可以是对比这两个k-core,然后,找一个动力学过程来和两个k-core的结果来对比,就像Stanley在nature physics的工作一样。顺便,Stanely的这个工作里面(M(k_{s}, k))图很有说服力。第二个这个方面的工作就是把通常的k-core和PR k-core推广到多层网络上去来解决具体问题。例如,讨论一下核心科学家、文章和概念的选择的问题。

第三,把单层网络的PageRank和投入产出分析推广到多层。由于投入产出分析不要求所流动的物质的一致性——我们区分了(X^{i})和(X_{i}),例如都是钱、能量、点击注意时间等,在多层网络上可能后者更加具有一般意义。

其中,多层网络PageRank的问题可以有两个层次:第一,把原来单层网络上的定义放到由边和顶点都成的等价的二部分图上来做同样的传播计算,看看是否得到的结果一致。如果一致,那么这个计算的额外好处就是得到了边的PR值。这个已经是有意义的结果。第二,把PageRank直接做在真的多层网络中,来解决多层网络中的多种个体的重要性度量的问题。这个问题从技术上和所回答的问题上,都和前一项关于k-core的研究有关。

《边的PageRank值,多层网络传播问题、PageRank以及投入产出分析,还有PageRank k-core项目》有一个想法

发表评论

电子邮件地址不会被公开。 必填项已用*标注