如何做好的学术报告

科学家需要很多种能力,不仅要有找问题的眼光,解决问题的手段,写得一手好文章,还要能够讲得一个个好报告。这里把我自己的做报告的经验总结一下。以后争取拿我自己的一个报告视频,再加一个Ted Talk的视频,来做一个分解赏析。现在,就把各个要注意的点列在下面。

最大最大的原则,让听众明白你的思路,任何时候都可以来问他/她自己和回答这样的问题:这个家伙现在讲干什么呢和下面这些基本的比较大的问题有什么联系?这些基本的大图景问题包括:这个家伙到到底想讨论什么问题,用什么方法,得到了什么结论?这个家伙做这个报告,对我来说,他/她最根本的目的是什麼?对于他/她自己来说根本的目的是什么?

为了实现让听众明白你的思路的目标,在理念上,在语言和报告文档上要尽量做到:减少听众的记忆负担,理清你自己的思路,带领听众的方向感,帮助听众理解和思考。所以,首先要把本次报告的动机和目标明确指出来。就像我在本文的开头写的那一段一样。

技术上,可以通过问问题、做小结和做总结,来提示思路。在技术上,你还可以学会以下的文档制作的秘诀:要有图(每页一张,或者两三页一张,不要多),公式尽量少(不要多于两行),文字不能多于三行(尽量一个个短语,不要一句话)。就算在讲细节的时候,讲清楚动机,时不时地回到和这些主干的联系

所有的这些,实现的基础是:主讲人自己要在主要研究问题,研究方法的思想,计算分析技术,结果,这几个方面分的特别清楚。问题的意义,结果的意义,方法的意义,也要分开。研究工作本身的目标动机价值比细节更容易懂,因此,要优先传达给听众。

此外,可以准备一些额外的放在报告文档末尾的细节页面,在万不得已的情况下,需要的时候可以拿出来帮助解释。在非常有必要的情况下,例如有的公式你避免不了又非常非常长,可以准备打印出来分发的材料。

总结:自己的方向感要清楚,然后要让听众有方向感,随时知道你在做什么,为什么这样做,甚至预期,“下一步,他会干什么呢”。

促進誠實的機制

在最近的Nature發表的工作中,研究者们用一个非常简单的实验讨论了个体的诚实程度和个体所在的国家的上层制度(民主程度、整体逃税率等)的关系,发现联系还挺强。其实验是这样的:给一个色子,按照扔出的数字 (1-5)给钱,扔出6就没钱。但是,具体什么数字由被试上报,不稽查。理论收益应该在2.5,但是大多数国家 的个体的平均值都超过2.5。其中有的国家接近,有的高很多。发现高很多的基本都是腐败政府的国家,很接近的一般都政治清明。
现在,我想把整体氛围、被知道(查而不罚)、稽查(查且罚)加入到他们的实验里面去,来讨论当面对不同程度的同辈压力的时候,是否人会更加诚实。

从大的角度来说,这个Science的工作给出的结论比较悲观——个体和整体社会是相互适应的,那么,如何跳出来这个自适应的圈子呢?这是一个非常重要的问题,尤其大国不能很大程度上依靠外力。现在中国无论做什么事请,你的长辈的建议都是你去看看是不是有熟人或者其他后门。于是,我们把这个工作的背景定位在探索跳出自适应圈子的道路。

研究方法:实验和实验结果的统计分析。具体的实验:Nature原始版本,原始版本基础上加上通报整体收益水平,原始版本上加上旁边站一个影子实验者(完全不说话,不参与实验,就是看着),原始版本上加上旁边站一个记录但是不传记录给实验组织者的同伴,原始版本上加上旁边站一个记录并上传的同伴,原始版本上加上旁边站一个记录并上传的同伴并且有随机缉查惩罚。另外,我很好奇不同专业的学生,例如宗教的学生、哲学的学生、法律的学生在这个Science实验上是否有区别,也可以做着玩玩,看看。

学生所学到的东西(最好有一点相关基础):实验经济学、博弈理论和实验、运用博弈实验平台(oTree)开展实验、统计学用于数据处理。同时还能够体验一下科学家如何来用物理学的理念和技术来处理社会科学的问题。

广义投入产出分析方法

考虑一个\(N\)各部门构成的封闭系统。由于数据可获得性,有的时候需要把例如第\(N\)个部门拿出来当成外界。这个时候,系统就成了开放系统。顺便,这个时候计算的时候可能用不到的数据就是部门\(N\)对其他部门的投入,或者其他部门对\(N\)部门的投入。还有的时候,这\(N\)个部门中,仅仅一小部分部门,例如\(M\)个部门,之间的投入产出数据是已知的,那么这个时候,如果这个子集所包含的部门和其他部门之间的交流比子集内部的交流少很多,那么这个子集就是我们的\(M\)部门的封闭系统研究对象。如果联系还挺多,还能获得这个\(M\)个部门到其他部门的投入产出以及其他部门到这\(M\)个部门的投入产出,那就把其他部门合起来当作一个部门。如果仅仅前者或者后者能够获得,则要用开放系统的分析方法。

本文介绍这样的\(N\)部门系统的投入产出分析技术。在这里,我们假设这个\(N\)部门之间的投入产出数据是完全已知的。在假设技术——生产方式——不发生变化的前提下,投入产出技术回答以下的典型问题:

  1. 如果某个部门,例如第\(N\)部门,增加了对其他某个\(j\)部门的投入或者需求——需求的意思就是反过来\(j\)部门到\(N\)部门的投入,整个系统的各个部门的产出会发生什么变化
  2. 各个部门对整体系统的重要程度或者说有影响力
  3. \(j\)部门对其他各个部门的影响力

具体问题在各个技术还会展开说明,但是,以下的分析技术,不管是开放系统还是封闭系统的,是不是就能用来回答所感兴趣的研究问题,就是另外一个问题了。

定义
\(N\)封闭系统各个部门之间的投入产出关系有以下矩阵代表
\[x = \left(x^{i}_{j}\right)_{N\times N},\]
其中\(x^{i}_{j}\)表示部门\(i\)到部门\(j\)的投入。上下指标的区别很重要,上角标是出来的部门,下角标是到达的部门。

定义部门\(i\)的总投入量\(X_i\)和总产出量\(X^i\),
\[X^{i} = \sum_{j}x^{i}_{j}, X_{i} = \sum_{j}x^{j}_{i}.\]

定义矩阵\(B\)如下,
\[B^{i}_{j} = \frac{x^{i}_{j}}{X^{j}}.\]

定义矩阵\(F\)如下,
\[F^{i}_{j} = \frac{x^{i}_{j}}{X_{i}}.\]

定义矩阵\(MB\)如下,
\[MB^{i}_{j} = \frac{x^{i}_{j}}{X^{i}}.\]

定义矩阵\(MF\)如下,
\[MF^{i}_{j} = \frac{x^{i}_{j}}{X_{j}}.\]

先来形式上证明这几个矩阵的本征向量之间的关系,记\(B\)的左右本征矢量分别是\(\left\langle \lambda_{B} \right|\)和\(\left| \lambda_{B} \right\rangle\),类似地定义其他矩阵的本征矢量。我们有,
\begin{align}
\left\langle \lambda_{B} \right| B = \lambda_{B} \left\langle \lambda_{B} \right| \notag \\
\Rightarrow \lambda_{B} \left\langle \lambda_{B} \right| \left. i \right\rangle = \sum_{j} \left\langle \lambda_{B} \right| \left. j \right\rangle \left\langle j \right| B | \left. i \right\rangle = \sum_{j} \left\langle \lambda_{B} \right| \left. j \right\rangle B^{j}_{i} \notag \\
\Rightarrow \lambda_{B} \left\langle \lambda_{B} \right| \left. i \right\rangle = \sum_{j} \left\langle \lambda_{B} \right| \left. j \right\rangle \frac{x^{j}_{i}}{X^{i}} = \sum_{j} \left\langle \lambda_{B} \right| \left. j \right\rangle \frac{x^{j}_{i}}{X^{j}}\frac{X^{j}}{X^{i}} \notag \\
\Rightarrow \lambda_{B} \left\langle \lambda_{B} \right| \left. i \right\rangle X^{i}=\sum_{j} \left\langle \lambda_{B} \right| \left. j \right\rangle X^{j} \frac{x^{j}_{i}}{X^{j}}.
\Rightarrow \lambda_{B} \left\langle \lambda_{B} \right| \left. i \right\rangle X^{i}=\sum_{j} \left\langle \lambda_{B} \right| \left. j \right\rangle X^{j} MB^{j}_{i}.
\end{align}
于是,我们发现\(\left\langle \lambda_{B} \right| \left. i \right\rangle X^{i}\)是矩阵\(MB\)的左本征向量\(\left\langle \lambda_{MB} \right|\)的\(i\)分量。类似地,\(B\)和\(MB\)的右本征矢量也存在类似地关系。同理,\(F\)和\(MF\)之间也存在一样的关系。

同时,我们还注意到\(B\)的最大右本征矢量,就是对应着最大本征值的右本征矢量,是平庸的。本征值是\(1\),本征向量是\(X^{a} = \left(X^{1}, X^{2}, \cdots, X^{N}\right)^{T}\),
\begin{align}
\sum_{j} B^{i}_{j} X^{j} = \sum_{j} \frac{x^{i}_{j}}{X^{j}}X^{j} = X^{i}.
\end{align}
当然,通过上面的两个矩阵的本征矢量的一般关系,我们可以得到\(MB\)矩阵的最大右本征向量也是平庸的,就是\(\left(1, 1, \cdots, 1\right)^{T}\)。同理,\(F\)和\(MF\)的最大右本征向量也是平庸的。

因此,当\(X^{i}=X^{i}\)的时候,矩阵\(B\)在数值上等同于矩阵\(MF\),于是这个时候,最大左右本征矢量都是平庸的。仅当
\[X^{i}\neq X^{i}\]
的时候,\(B\)和\(MB\)的最大左本征向量,\(F\)和\(MF\)的最大右本征向量会有独立于总量\(X^{a}\)以及\(X_{a}\)的含义。因此,当原始矩阵\(x^{i}_{j}\)对称的时候(这时候,\(X^{i}=X^{i}\)),这些所有后来定义的矩阵的本征矢量都没有独立于总量\(X^{a}\)以及\(X_{a}\)的含义。更一般地,我们称满足\(X^{i}=X^{i}\)的系统为投入产出守恒的系统,或者简称守恒系统。守恒系统所有最大本征向量平庸是一个很重要的事实。

传统开放系统投入产出

这一节,我们问这样的问题:第\(N\)部门,增加了对其他某个\(j\)部门的需求,整个系统的各个部门的产出会发生什么变化。有了这个技术,可以回答类似地回答第\(N\)部门增加了对其他某个\(j\)部门的投入,整个系统的各个部门的产出会发生什么变化的问题,就需要用\(F\)矩阵。

我们从\(X^{i}\)的定义开始,
\begin{align}
X^i=\sum^{N-1}_{j=1}x^{i}_{j}+x^i_{N} = \sum^{N-1}_{j=1} x^{i}_{j}+Y^i = \sum^{N-1}_{j=1}\frac{x^i_j}{X^{j}}X^{j}+Y^i \notag \\
\Rightarrow X^{\left(-N\right)} = B^{\left(-N\right)}X + Y^{\left(-N\right)} \notag \\
\Rightarrow X^{\left(-N\right)} = \left(1-B^{\left(-N\right)}\right)^{-1} Y^{\left(-N\right)} \\
\Rightarrow \Delta X^{\left(-N\right)} = \left(1-B^{\left(-N\right)}\right)^{-1} \Delta Y^{\left(-N\right)} = L^{\left(-N\right)}_{B} \Delta Y^{\left(-N\right)}
\end{align}
其中,\(\Delta Y\)可以是\(e^{j}= \left(0, \cdots, 1, 0, \cdots, 0\right)\)这样的单位矢量,表示部门\(N\)仅仅对部门\(j\)增加了需求。\(Y^i=x^{i}_{N}\)是部门\(N\)对部门\(i\)的需求量。这里上角标\(^{\left(-N\right)}\)表示矩阵或者向量中去掉部门\(N\)的相关元素。

类似的,从矩阵\(F\)我们可以有
\begin{align}
X_i=\sum^{N-1}_{j=1}x^{j}_{i}+x^{N}_{i} = \sum^{N-1}_{j=1} x^{j}_{i}+V_i = \sum^{N-1}_{j=1}\frac{x^{j}_{i}}{X_{j}}X_{j}+V_i \notag \\
\Rightarrow X^{\left(-N\right)} = XF^{\left(-N\right)} + V^{\left(-N\right)} \notag \\
\Rightarrow X^{\left(-N\right)} = V\left(1-F^{\left(-N\right)}\right)^{-1} \\
\Rightarrow \Delta X^{\left(-N\right)} = \Delta V^{\left(-N\right)} \left(1-F^{\left(-N\right)}\right)^{-1} = \Delta V^{\left(-N\right)} L^{\left(-N\right)}_{F}
\end{align}
注意,这里分量为\(X^{j}\)的矢量和分量为\(X_{j}\)的矢量不一样,前者放在矩阵右边,后者左边。习惯上,我们称前者为列矢量,后者为行矢量。物理上有两种方法对这样的矢量作区分,记作\(X^{a}\)和\(X_{a}\),或者记作\(\left| X \right\rangle\)和\(\left\langle X \right|\)。前者的记号来自于Einstein,后者来自于Dirac。这个记号非常方便。我们下面会采用这两套记号。

有了这个逆矩阵\(L^{\left(-N\right)}_{B}\)(\(L^{\left(-N\right)}_{F}\))之后,我们就可以通过计算第\(j\)个列和(行和)来回答前面提出的问题了。

传统开放系统投入产出HEM

Hypothetical Extraction Method (HEM)的意思是假想地从系统中去掉一个部门,然后看一看,在这个新的系统中,如果我们还要实现同样的需求(或者提供同样的投入,针对\(F\)),各个部门的总产出的变化。具体计算如下。

定义\(L^{\left(-N-j\right)}_{B}\),
\begin{align}
L^{\left(-N-j\right)}_{B} = \left(1-B^{\left(-N-j\right)}\right)^{-1}.
\end{align}
然后,比较\(L^{\left(-N-j\right)}_{B}\)和\(L^{\left(-N\right)}_{B}\),例如
\begin{align}
L^{\left(-N-j\right)}_{B} Y^{\left(-j\right)}, \left(L^{\left(-N\right)}_{B} Y\right)^{\left(-j\right)}.
\end{align}
后者表示计算完成之后再去掉元素\(j\)。当然,为了提供一个数字来相互比较,当\(X\)矢量的每一个元素可以相加(不一定可以,需要统一的单位)的时候,我们还可以计算上面两个矢量的和来相比。直觉上,我们可以认为,如果这个差别非常大,那么去掉这个部门\(j\)的影响很大,于是回答了一开始的部门对系统整体影响力的问题。相互影响的问题也可以通过考察这个差别矢量来讨论。

实际计算矩阵逆的时候,可以考虑用迭代方法:下面这个方程的不动点和上面的求逆是一样的。
\begin{align}
X^{\left(-j\right)}\left(m+1\right)= B^{\left(-N-j\right)} X^{\left(-j\right)}\left(m\right) + Y^{\left(-j\right)}
\end{align}
其中\(m\)是迭代次数,初始条件可以取\(X\left(0\right)=\left(1, \cdots, 1\right)^{T}\)。更高效的计算可以运用Dyson方程。

\(F\)的问题可以做类似分析。

目标外界投入产出HEM

以上两个分析方法,主动或者被迫,先把封闭系统看作开放系统——把部门\(N\)独立出来,然后再来分析。在经济学中,部门\(N\)是最终消费者,独立出来有很好的理由。其到产业系统的投入\(V\)非常不容易跟踪。其内部的再生产时间也远远比产业系统的再生产时间长。在大量的其他系统中,这样的分隔可能是不合适的。我们已经看到,经过这个分隔,实际上,我们讨论了部门\(N\)对部门\(i\)增加一个需求或者投入所带来的效果。现在,我们对任意一个部门\(k\)来运用这个分析。我们相当于问这样的问题:如果部门\(k\)增加了对某一个部门\(j\)的需求或者投入,在不改变系统结构的情况下,各个部门的总产出会如何变化。和传统HEM相比,我们发现:传统HEM实际上是,不仅仅增加或者减少\(k\)部门对\(j\)部门的需求或者投入,还不允许部门\(k\)出现在产业系统中,会发生什么。也就是说,传统HEM是结构性重要性,我们是外源性(增加需求或者投入)重要性。具体计算如下。

定义\(L^{\left(-k\right)}_{B}\),
\begin{align}
L^{\left(-k\right)}_{B} = \left(1-B^{\left(-k\right)}\right)^{-1}.
\end{align}
这个矩阵的列和代表了如果部门\(k\)增加了对某一个部门\(j\)的需求,在不改变系统结构的情况下,各个部门的产出之和(在能够取和的情况下,否则就只好直接分析得到的列向量了)。我们把这个和记作\(Z^{k}_{j} = \sum_{l} \left(L^{\left(-k\right)}_{B}\right)_{jl}\)。于是,从这个矩阵,我们可以得到一个新的影响力矩阵
\begin{align}
Z_{B} = \left(Z^{k}_{j}\right)_{N\times N}.
\end{align}
得到这个矩阵之后的分析,还有待于进一步研究。

\(F\)的问题可以做类似的分析。

本征向量HEM

上面的目标外界HEM方法回答了某个部门\(k\)增加(或者减少)一个单位的对\(j\)部门的投入(或者需求)在整个系统内传播的效果。现在,还是封闭系统,我们来讨论另外一个分析方法——本征向量HEM。

对于封闭系统,矩阵\(B\)的右本征矢量定义是
\begin{align}
B \left| 1 \right\rangle_{B} = \left| 1 \right\rangle_{B},
\end{align}
其元素是
\begin{align}
\left| 1 \right\rangle_{B} = \left(X^{1}, X^{2}, \cdots, X^{N}\right)^{T}.
\end{align}
这个很容易验证。因此,这个矢量就是由各个部门总产出构成的,平庸的,不用通过计算本征向量来获得。顺便,这个矩阵的左本征矢量,
\begin{align}
\left\langle 1 \right|_{B} B = \left\langle 1 \right|_{B},
\end{align}
可能是非平庸的。实际上,这个左本征矢量和下一节的PageRank矢量是有密切联系的。于是,这个右本征矢量看起来就不能给我们的进一步分析带来太多价值。真的是这样吗?

我们注意到这个右本征矢量的另外一个解释:如果我们按照这个比例来投入产业系统的话,所有的原材料都会被用掉,不会浪费;所有的生产所需要的原材料也会得到满足,不会缺。因此我们把这个组合称作最优组合。这个时候,我们来看以下的矩阵\(B^{\left(-k\right)}\)的最大本征值和相应的本征向量(假设本征矢量唯一,其存在性由Perron-Frobenius定理保证,唯一性需要矩阵非退化),
\begin{align}
B^{\left(-k\right)}\left| \lambda^{\left(-k\right)}_{Max} \right\rangle_{B^{\left(-k\right)}} = \lambda^{\left(-k\right)}_{Max} \left| \lambda^{\left(-k\right)}_{Max} \right\rangle_{B^{\left(-k\right)}}.
\end{align}
我们发现,最大本征向量基本上可以看做新的去掉部门\(k\)之后的系统的最优组合,而最大本征值则是这个组合的效率。于是,我们定义
\begin{align}
IOF^{k} = 1-\lambda^{\left(-k\right)}_{Max} ,
\end{align}
解释成\(k\)部门对系统整体的影响力(Input-Output Factor, IOF),而把向量\(\left| \lambda^{\left(-k\right)}_{Max} \right\rangle_{B^{\left(-k\right)}} \)的\(j\)元素看做\(k\)对\(j\)的影响(Input-Output Mutual Influences, IOMI),
\begin{align}
IOMI^{k}_{j} = \left\langle j \left| \right. \lambda^{\left(-k\right)}_{Max} \right\rangle_{B^{\left(-k\right)}} – \left\langle j \left| \right. 1 \right\rangle_{B}.
\end{align}

PagerRank和PageRank的HEM

上面的分析方法关注矩阵的最大右本征矢量,现在我们来关心矩阵的最大左本征矢量。除了对付完全随机跳跃的那部分,PageRank矢量实际上用了如下的本征矢量,
\begin{align}
\left\langle 1 \right|_{MB} MB = \left\langle 1 \right|_{MB}.
\end{align}
我们已经证明 \(\left\langle 1 \right|_{MB}\)和\(\left\langle 1 \right|_{B}\)一一对应,仅相差一个向量的元素乘积。这个就是PageRank。通过它,我们可以得到对部门重要性的一种排名。另外,我们还可以做一个这个本征矢量的HEM。定义如下。
\begin{align}
\left\langle \lambda^{\left(-k\right)}_{Max} \right|_{MB^{\left(-k\right)}} MB^{\left(-k\right)}= \lambda^{\left(-k\right)}_{Max} \left\langle \lambda^{\left(-k\right)}_{Max} \right|_{MB^{\left(-k\right)}}.
\end{align}
可以证明,这个本征值和上面基于\(B\)的定义是一样的(这个本征向量的含义还不太清楚)。或者下面的定义,
\begin{align}
\left\langle 1 \right|_{\hat{MB}^{\left(-k\right)}} \hat{MB}^{\left(-k\right)}= \left\langle 1 \right|_{\hat{MB}^{\left(-k\right)}}.
\end{align}
其中,\(\hat{MB}^{\left(-k\right)}\)是对矩阵\(MB^{\left(-k\right)}\)的重新回一化得到的概率转移矩阵。重新归一化以后最大本征值重新成了\(1\)。然后我们通过对比两个向量来反映\(k\)部门的重要性,例如,
\begin{align}
PRF^{k} = 1- \left\langle 1 \right|_{\hat{MB}^{\left(-k\right)}} \left(\left| 1 \right\rangle_{MB}\right)^{\left(-k\right)} .
\end{align}
最后的矢量\(\left(\left| 1 \right\rangle_{MB}\right)^{\left(-k\right)}\)就是从\(\left\langle 1 \right|_{MB}\)先去掉第\(k\)个元素,然后转化成右矢量得到的。
\begin{align}
PRMI^{k}_{j} = \left\langle 1 \right|_{\hat{MB}^{\left(-k\right)}} \left| j \right\rangle – \left\langle 1 \right|_{MB} \left| j \right\rangle .
\end{align}
这个分析方法的应用还有所反映的重要性的含义,还有待于进一步讨论。

系统生物学流平衡分析方法

原则上,上面的HEM方法可以考虑同时去掉多个的影响——其不一定等于单个的效果的相加——也就是出现了交叉项、相干项。

在化学反应网络的层次,一个部门牵涉到多个产出,产出的数量和部门的数量不一样。这个时候,需要把部门(也就是化学反应)和投入产出产品(反应物和生成物),分别拿出来处理。实际上,这个可以看做是一个特殊的二层网络。这个时候,广义投入产出理论需要张量这个数学工具。还需要考虑平衡态、最优态甚至流的再次分配问题来寻找最终的每个部门在扰动之后的流。在化学反应和系统生物学领域,这个理论,被叫做流平衡分析。

我们做了统一和发展(待续)。

多层网络上的广义投入产出
由于我们的投入产出分析允许\(X^{i} \neq X_{i}\),甚至\(X_{i}\)就不存在,我们就可以处理\(\sum_{j} x^{j}_{i}\)完全不能相加,没有统一单位和统一的意义,的情形。于是,对于多层网络问题,里面自然有多种不同性质的关系的时候,我们的广义投入产出就可以用来讨论这样的系统。

待续。

目前几个工作的总结

  1. 小思科学学的工作提出和运用了本征向量HEM
  2. 小勇的工作运用了传统HEM并且正在考察目标外界HEM
  3. 秦磊的工作考虑运用目标外界HEM
  4. 崔浩川城市的工作先运用本征向量HEM方法,将来再对比多个方法
  5. 小思方法对比的工作需要做各个方法的对比
  6. 李梦辉关于专利和文献合起来的领域相互影响的问题,考虑用封闭系统方法(本征向量HEM和目标外界HEM)
  7. 张江在贸易网络上的工作就相当于用了传统的当作开放系统的HEM(并且进一步讨论了体量和影响力的关系,以及这个关系的幂律指数的含义)
  8. 当作封闭系统的国家之间贸易网络的工作还没有人做
  9. Dyson方程的工作解决的是以上各个技术中计算简化的问题

边的PageRank值,多层网络传播问题、PageRank以及投入产出分析,还有PageRank k-core项目

最近,由于找到了科学学的三层网络数据关系数学模型:作者、文章、概念(主题),在思考如何利用这个数学模型来描述之前前人已经提出和解决的问题(这里就是换一个描述方式),提出还没有解决的问题(这里需要新的分析技术),以及新的问题(这里问题和技术都需要用好这个三层网络数学模型)。有了几个可以试试的想法。

第一,作者姓名识别、作者主领域识别是一个科学学的基础问题。大量后续研究依赖于这个问题的解决。通常的有首字母加上姓的简单粗暴识别方式,考虑合作关系,考虑引文关系,考虑机构名称,考虑主工作领域等多个方向,计算分析的技术也有多样。大多数在一个维度上做研究,例如考虑如何把合作关系用来改进简单粗暴识别,或者考虑多个维度,例如同时考虑合作者和引文关系,然后想办法把两个考虑的因素结合起来。这些分开维度又合起来的研究,基本上都是相当于把三层网络投影到其中的一层上来做分析,基本上没有直接在多层网络上作研究的。

现在,我们在三层网络模型的基础上提出来,先把每一篇文章的每一个作者(同时,也带着机构标记)看做独立的作者,然后通过在三层网络上的传播算法来计算作者的相似性的方式来合并作者。传播过程的理念当然还是:主题相近的姓名相近的科学家是同一个人的可能性比较高,合作者相近的姓名相近的科学家是同一个人的可能性比较高。这些理念都不奇怪。关键是,现在在这个三层网络上,通过文章的引用关系(也可以通过合作关系来传播主题,还可以跟之前的研究工作类似单纯地考虑合作者或者引用的效果而不是通过传播主题标记的方法)可以把作者的主题标记扩大和传播起来,然后可以通过主题的相似性来合并作者(当然,需要考虑姓名和机构)。

一石二鸟,也体现多层网络模型直接计算不投影的特点。至于是不是问题解决更好了,就看结果了。

第二,考虑间接效益的k-core定义。k-core相比较度k来说,好处就是一定程度上,通过迭代消去的过程,考虑了非局域信息,也就是间接效益。考虑到这个特点,我在思考把k-core的定义修改成不是依靠k的值来消去,而是依靠PageRank值(迭代的每一次都计算每个顶点的PageRank值,然后小于某个阈值的顶点都去掉)。具体来说,每一步计算,
[ p = p M]
其中(M)就是当前剩下的网络的邻接矩阵(W)对应的概率转移矩阵。然后,设定
[p^{*} = \frac{k_{c}}{\sum_{W}},]
其中(\sum_{W})是矩阵(W)的所有元素之和。

这个定义显然和k-core有联系,守恒网络((W^{i}=W_{i}))直接回到通常k-core定义——迭代删除总强度小于某个(k_{c})的顶点。但是,一般情况下,由于考虑了间接效益,应该是不一样的。因此,第一个这个方面的工作就可以是对比这两个k-core,然后,找一个动力学过程来和两个k-core的结果来对比,就像Stanley在nature physics的工作一样。顺便,Stanely的这个工作里面(M(k_{s}, k))图很有说服力。第二个这个方面的工作就是把通常的k-core和PR k-core推广到多层网络上去来解决具体问题。例如,讨论一下核心科学家、文章和概念的选择的问题。

第三,把单层网络的PageRank和投入产出分析推广到多层。由于投入产出分析不要求所流动的物质的一致性——我们区分了(X^{i})和(X_{i}),例如都是钱、能量、点击注意时间等,在多层网络上可能后者更加具有一般意义。

其中,多层网络PageRank的问题可以有两个层次:第一,把原来单层网络上的定义放到由边和顶点都成的等价的二部分图上来做同样的传播计算,看看是否得到的结果一致。如果一致,那么这个计算的额外好处就是得到了边的PR值。这个已经是有意义的结果。第二,把PageRank直接做在真的多层网络中,来解决多层网络中的多种个体的重要性度量的问题。这个问题从技术上和所回答的问题上,都和前一项关于k-core的研究有关。

科学学新框架

在物理学而言,一个现象的新框架就是指找到了这个现象的一个数学结构,并且把这个数学结构用来描述这个现象,解决这个现象的一些问题。一般来说,一个现象具有自己内在的结构的,必须在匹配上这个内在结构的数学模型,才是这个现象的一个好框架。这样一个框架还要求大部分问题的讨论都可以建立在这个框架的数学结构上(能定义问题就行,能不能求解是另一个问题)。例如,矢量(和矢量微积分,甚至流形上的微积分)用来描述物体的运动状态,Hilbert空间的矢量用来描述量子态。

科学学旨在从科学家(专利发明者,以及相关的机构,例如大学、期刊等)的活动记录(主要是文献发表记录)中来发现科学、科学研究、科学家的一些规律,了解一些现状,然后尽可能地来想办法知道一点点未来,在可能的地方促进一下科学的发展。

目前来说,大部分研究的数据基础是文献题录公司收集整理的论文发表记录和专利登记记录。大部分的研究是提出某个指标量(例如期刊的IF,作者的h指数)、讨论某个量的分布函数(例如文章被引次数的分布),以及分析某几个量之间的相关性(例如所发表的期刊的IF和文章被引次数的关系)。题录数据主要包含:文章唯一标记、标题、作者、作者单位、期刊(名称、卷期页、投稿日期、接受日期)、参考文献、被引(被什么文章引用这个数据,实际上不能独立当作数据,是可以通过参考文献反向统计出来的。但是,为了说话方便,这里还是当作题录数据的一部分好了)。有的专业机构还对文章做了主题标记,例如PACS,MeSH,MSC,JEL。题录数据主要是形式数据。主题标记一定程度上提供了内容数据。关于主题的研究在目前的科学学里面还不太多。还有的更少量的研究企图通过处理全文来获得更多的内容信息(例如看一看某一个专有名词在哪一篇文章中最初出现)。

在这个数据的基础上,那就具体问题具体分析了。例如,人们可以研究科学家如何从一个地方跑到另外一个地方,科学家的创新性和年龄的关系,等待时间和被引次数的相关性,一个学术机构(大学、城市、国家)的科学表现,某个科学领域中当前的热点,科学家和论文的排名和推荐等等等等。

实际上,还有一些问题,是非常值得研究的,但是,由于技术或者数据的原因,或者是学科发展方向的问题,或者学科基本数学结构的问题,目前得到的关注不够。例如,文章的粗粒化(例如文章的主题标注、文章主要贡献的自动摘要)、文章的个性化推荐(识别科学家的兴趣,匹配文章的主题)、科学发展状态的描述(例如领域之间的关系,科学和技术领域之间的关系)、文章中知识的挖掘、科学家在研究主题和研究方法工具上面的选择。这些问题和一线的科学家以及科学管理者直接相关。这样的问题如果能够得到回答就会从科学学领域本身中走出来,服务科学家和社会。

这样的一些研究就需要科学学领域从形式数据走向内容数据,而内容数据最关键的就是底层的概念网络,或者叫做知识网络。概念网络的顶点是一个个的概念,连边则是概念之间的关系。关系可以丰富多样。当然,层次性关系可能比较容易把握,并且比较普遍。但是,很多重要的关系会表现为突破层次性关系的长程连接。

鉴于对科学学的这个认识,我企图给出一个科学学研究的新框架——一个新的数据和问题的关系网络:作者-文献-概念三层网络。一个简单的示意图如下。

层内关系:作者之间的导师学生关系(合作关系体现在层间而不是作者层内、同事关系体现在作者集合上而不是网络上)、文献之间的引用关系、概念之间的内容上的逻辑或者其他依赖关系。
层间关系:作者创作论文、文献关注某些概念。

我们记这个关系为矩阵
[A = \left(A^{i^{\alpha}}_{j^{\beta}}\right),]
其中希腊字母为层标号,拉丁字母为顶点标号。原则上,这个矩阵是所有的这样的层间((A^{\alpha\beta}))和层内((A^{\alpha\alpha}))关系的综合。在这个关系矩阵的基础上,我们还需要添加人为定义或者自然聚集的某层顶点的一系列集合(\left{X^{\alpha}\right}),例如学科可以看做是概念的半自然聚集半人为定义的层次性集合。

如果同一对顶点之间存在着多种关系,可以用这样的记号,(A^{\left(I\right),i^{\alpha}}{j^{\beta}}),(A^{\left(II\right),i^{\alpha}}{j^{\beta}})。

好了,有了这个数学描述,我们现在来看是不是大多数科学学问题都可以变成对这个矩阵(A)的某种操作,然后,按照某些个额外的集合(\left{X^{\alpha}\right})对操作的结果做一个统计。

举例(不细说了,原则上应该穷举一下):简单统计分布函数和相关性的研究不用说。评价文章和作者的问题可以利用层间传播。多样性的问题也可以考虑层间传播。研究问题和方法的选择的问题必须用多层网络——一个领域的研究工作的随机行走或者一个作者的研究工作的随机行走。

那么,除了能够把各种已经有的研究工作和分析技术统一起来,这个矩阵(A)加上集合(\left{X^{\alpha}\right})的语言,还有什么好处呢?

第一,理念上,显式地把概念层的内容数据放到分析框架里面来。这样领域之间的关系的研究,粗粒化和自动摘要、推荐的工作就更有可能得到研究。

第二,理念上,把各种科学学讨论的关系放在了简单基本的统一的框架上。各种共现分析、引用分析等等,在我们这个框架下面,都是通过这个基本多层网络关系计算或者近似计算出来的。于是,我们需要把之前的问题和方法,选择几个,用这个新的框架来描述一下。

第三,用新的框架来回答之前的科学学研究的问题,发展新的在多层网络上直接计算的方法,跟以前的方法的结果相比较。例如,之前的工作,大多关注中间的文献层,或者把其他层的关系投影到文献层来研究。这样的工作,如果能够直接在多层网络上来研究,就有可能有新的方法,得到新的结果。例如,作者识别的问题就可以和作者领域标记这个问题合起来放到三层网络上直接来分析,而不是局限在某个投影之后的单层网络。再如,文章的重要性、主题的重要性、作者的重要性可以放在一起来讨论。具体计算上可以用这个多层网络框架的PageRank或者投入产出。目前计划讨论:多样性,排序,作者识别

第四,提出新的框架下才能讨论的新的问题。这个有待进一步思考。

第五,提出新的框架下才能发展的新的方法。目前方法上打算尝试:多层网络上的投入产出分析方法,以及列在这里的问题:边的PageRank值,多层网络传播问题、PageRank以及投入产出分析,还有PageRank k-core项目

这篇文献提出了类似的关系网络,还用多层网络上的PageRank来讨论了文章作者等的重要性(工作做完之后,一定要跟这群人联系一下,太神奇了,这样的ideas也有其他人想到):
Heterogeneous Networks and Their Applications: Scientometrics, Name Disambiguation, and Topic Modeling

收到Ronald的转过来的文献Construction of bipartite and unipartite weighted networks from collections of journal papers,发现类似的“科学学的多层网络框架”的想法已经被提出来,尽管文章本身缺乏具体工作的支撑。

类似的一个多层网络上的PageRank的工作可见:Ranking in interconnected multilayer networks reveals versatile nodes以及
Evaluating the impact of interdisciplinary research: a multilayer network approach

更加详细一点的在这里多层网络上的中心性(中心性度量的定义从单层网络到多层网络的推广都非常直接,还需要仔细考虑):Centrality measures in multilayer networks