刺客信条的信条:Nothing is true,Everything is permitted

电影《刺客信条》里面讲了刺客组织和圣殿骑士之间围绕着伊甸苹果的斗争。据说这个苹果里面包含了人类反叛的种子,只要研究清楚这个种子,就可以让人类顺服。圣殿骑士期望得到这个苹果并破解它。刺客,那帮信奉自由意志的人,希望保护和隐藏这个苹果。故事就是这么简单:看着刺客们为了保护和隐藏这个苹果一次一次地自不量力地冲上去,然后基本被消灭。

那,到底是什么信仰使得刺客们愿意牺牲一切呢?那是因为他们认为这是之所以成为人的基础。下文的资料来自于电影和这个有关刺客信条的网站

When other men blindly follow the truth, remember…Nothing is true.
When other men are limited by morality or law, remember…Everything is permitted.

当其他人盲从所谓的真理,记住……没什么东西是不变的真理。
当其他人都被道德或者法律束缚,记住……任何事情都是允许的。

They never preached answers, but guided me to learn from my self. We don’t need anyone to tell us what to do. We are free to follow our own path. There are those who will take that freedom from us, and too many of you gladly give it, but it is our ablity to choose – whatever you think is true – that makes us human. There is no book or teacher to give you the answers, to show you the path. Choose your own way.

他们从不会直接提供答案,只是引导我去思考。我们用不着任何人来告诉我们做什么。我们有自由去寻找我们自己的道路。 总是有些人想要拿走我们的这种自由,并且,你们之中太多的人都很乐意把它给他们。但是,我们之所以成为人,就是因为我们选择的能力——我们选择那些我们认为是对的的东西的权利。没有哪本书或者老师会给你答案,或者给你指出一条路。选择一条你自己的路。

看完这个电影,当然,有其他的更深刻的思考,忽然之间,我想到当老师,想到教什么的问题,想到学什么怎么学的问题,想到怎么做研究的问题。

去思考,去选择,去反思,来反问,这就是学习。鼓励你去思考,接受你的选择,高兴看到你的反思,乐意被你反问,这就是教学和教育。一个连电影都懂的道理,教育界怎么会不懂。做研究工作更是这样,没什么是不可能的:大胆假设,仔细思考,谨慎推理,周密验证。去思考,去反思。

数学教什么,怎么教

刚才看到了一个讨论美国数学教育的“问题”和历史的帖子,想起来确实美国也搞教学改革运动,尤其是数学。

一开始可能大家都是关注basic,也就是学会计算就可以。这个是工业时代的教育观下的产物。工业时代我们主要需要能够执行管理者制定好的方案的工人,而管理者很有可能也是在执行更高层次的设计管理者制定好的方案等等等等。当然,方案和规则制定的时候可能有过科学研究实证研究。因此,这个体系也不是太差。基本上就是螺丝钉的思路,稍微好一点的可以给不同的螺丝钉一些选择的机会。但是,总而言之,社会就需要一系列不同的螺丝钉而已。这个思想下,语文主要是为了学会看懂说明看懂指导语,数学主要是为了数数做计算做测量等等。

后来,美国搞起来了新数学(New-Math)运动,把大量的现代数学加到中小学阶段的课程里面,而且,提出来,计算这样的基本的东西(basic)可以用计算器计算机来代替,不值得当做数学学习的中心。这个思想是很好的,绝对意味着进步。但是,实际操作很难,而且走偏了。在否定掉basic的同时,尽管提出来了一些需要树立的东西,但是不够明确,更加没有给出来如何树立这些东西。于是,新数学运动给中小学老师的指导语就是:计算不再是重要的了。那什么东西重要呢?没有提供,至少没有明确提供。那你可也想见这个有多么的糟糕。大量的老师和教学参考书把更高级的数学概念和数学计算搬到中小学。概念和计算高级了,就能够学到什么是数学了吗?根本不能。于是,新数学运动就被废了。

接下来,就遇到了非常困难的时期了,基本的不应该是主要教学目标,更好的更体现数学是什么的又没有,怎么办?于是一帮人提出来要back-to-basic,回去教计算得了。这帮人还挺得势,至少这样教出来的孩子会算题,考试成绩要高一点啊。要不然,你说怎么办?

这个“要不然,你说怎么办”的问题是一个大问题。其实,这是没有想象力,没有创造力,不懂得什么是数学的人,才会问的问题,也是那些懂得数学是什么有创造力和想象力的人没有尽责任影响数学教育界的问题。Whitehead在《教育的目的》,Timthy Gower在《数学是什么》里面都提供了对这个问题的思考和思考的答案。数学是思考的语言,数学为对现实的描述提供了结构。要教数学就需要突出这个意义上的数学。因此,要有粗糙的问题,供学生来练习抽象化——把实际问题转变成一个数学问题——的过程,而不是那种一个水龙头进入一个出水的应用题。甚至当我们把问题转化成一个明确的数学问题之后,我们可以利用计算机程序来帮我们求解。这样,我们就可以把更多的精力放在体会“数学是语言,数学是结构”上面。如果还能够结合实际问题,真的让学生体会自己的抽象和计算的结果发挥作用,那就更牛了。这才是数学。

当然,你可以继续问我,那到底教什么怎么教?我可以一个一个给你举具体的例子。但是,首先,教学要思考教什么怎么教,而不是照着教材或者什么东西教;其次,数学来说,需要按照上面的指导思想——数学是语言,数学是结构——来决定教什么怎么教;再次,每一个具体的数学内容,例如函数,例如微积分,例如矢量空间,都有属于自己的最核心的思想,教学要体现这些具体内容的核心思想。例如,线性代数最核心的不是行列式的计算不是求解线性方程,而是矢量空间的概念以及矩阵谱分解。我们需要思考为什么这些是核心,知道这些是核心以后教什么,怎么教,结合什么样的现实生活或者其他学科的例子。

认识不到需要思考“教什么,怎么教”就不能去搞教育,认识不到“数学是语言,数学是结构”就不能去当校长教研员,有了认识决定不了教什么想不出来怎么教就不能去当数学老师。当然,当老师的要求最高,这三个层次都得够格才行。

那为什么要把大家都培养成能够用数学来思考和描述世界或者至少体验过用数学来思考和描述世界的人呢?因为我们现在的时代已经不再是纯粹工业化的时代了,我们需要发挥每一个个体的创造性和创造性地解决问题的能力。如果仅仅是为了能够把某个其他人已经解决的问题而且有解决方式供参考的问题来解决掉,那么,我们不需要太多创造性,模仿即可。但是,一个模仿的人的模仿对文明的推动和一个创造性地提出来别人没有提出来过的问题的提出和,或者求解出来被人没有解决过的问题的解决,是不能相提并论的。我们已经到了一个需要发现和发挥每一个个体的创造性的时代了。博学、会算(比如比《最强大脑》赛事还强的20位数乘法)顶个屁用,有用的是发现问题和解决问题,有用的是运用知识和信息的能力。当然,你可以说如果都不知道这些知识如何会用啊。有这么一丁点道理,但是不能为了这一定点道理,就非得学会5分钟内做完20个微分或者积分或者20位数的乘法啊。

每次,我都让我的量子力学的学生跟我一起再一次发明“量子力学”的概念体系,然后跟实验对比,甚至尝试着发明一下别的理论试试。这样的尝试着自己构建,才是学习,而不是照着某个配方抓药。

帮好奇宝宝同学解答一个物理题

昨天收到同学发过来的一道题:
-storage-emulated-0-tencent-MicroMsg-31fda0f8bcdbd04c7987df360e6c4f06-image2-05-66-056677ebeacee6170468ddec13fa2650.temp
以及标准答案:
-storage-emulated-0-tencent-MicroMsg-31fda0f8bcdbd04c7987df360e6c4f06-image2-a1-b6-a1b660f97cd23815529eccc5cc13d9c5

实际物理过程比答案复杂一点,需要考虑电场力和空气阻力的合力,也就是
\[
m\ddot{x} + k\dot{x}-\frac{URq}{H}\frac{1}{x}=0.
\]
这个方程如果真想求解,很困难的。因此,可能有简单一点的办法。考虑物理图景:尘埃一开始速度为零,没有阻力,接着收到电场力,可能加速度比较大,于是很短的时间内就有可能被加速,一直到空气阻力不可忽略,最终会到达一个极值。这个极值满足
\[
\dot{x}-\frac{URq}{Hk}\frac{1}{x}=0 \Longrightarrow v_{max}\left(x\right) = \frac{URq}{Hk}\frac{1}{x}.
\]
接着我们做一个简单推广,就可以猜想如果这个速度和位置的关系一直都对,那么,上面的物理题就搞定了。但是,考虑尘埃第一次到达这个速度之后(这个问题不大,可以假设时间很短路程很短,这些假设还可以检验),空气阻力就已经很大了,这个时候应该有一段时间速度会减少,而且不一定就能实现上面这个“准平衡”条件。当然,到底是否能够实现,就要把精确解求出来和这个猜想比较一下。我本来提一提这个还需要进一步验证就够了。但是,我那个同学是个好奇宝宝,非得让我算出来。好吧,下面是计算结果。

首先,给方程做个重标度,\(x\rightarrow \frac{x}{R}\),去掉单位变成\(\left[0,1\right]\)之间的纯数(其实还有更好的无量纲组合,暂时就先用这个了),并且分开成为一阶方程,得到
\begin{align}
\dot{x} = y, \
\dot{y} = -a y+ \frac{b}{x}.
\end{align}
其中\(a=\frac{k}{m}, b=\frac{Uq}{HRm}=\frac{Uq}{HRk}a\)。注意,由于没有完全把方程无量纲化(那个时候时间空间的单位都要去掉,现在就去掉了空间),这里的a,b以及它们之间的关系是需要做讨论了。不过,相当于要换一下我下面给出来的图里面的时间的单位而已,就偷懒了。

放到SageMath里面,用Runge-Kutta4方法求解得到下面的图。

from sage.calculus.desolvers import desolve_system_rk4
x,y,t=var(‘x y t’)
a=1.0
b=0.01
P=desolve_system_rk4([y,-a*y+b/x],[x,y],ics=[0,0.01,0],ivar=t,end_points=20.0,step=0.001)
如果你想亲自来运行这段程序,点这里

位移时间曲线:
xt

速度时间曲线:
vt

速度位移曲线,猜想的解和数值解的对比:
comparison

可以看到,确实上升和下降期间相差比较大,但是,在后期比较接近。我还尝试了其他的参数情况,例如\(a=1.0, b=1.0\),\(a=1.0, b=10.0\),都得到一样的长时状态,数值解和猜测解在后面相符。
a1b10

结论:只要允许尘埃运动时间足够长,也就是R足够大,那么,猜测解还是合理的,并且这个结果对于参数的情况很鲁棒。这个和我通过物理图景估计的不太符合。我以为,有一些参数情况会两者相符,有一些情况会两者相差很大。当然,我们看到有的时候在短时间内相差也很大,但是,长期来看,总是向着猜测解的方向在逼近。

讨论:这个现象其实很有意思。当我得到这个结论之后,我想了半天。实际上,空气阻力和电场力相当于两个相互竞争的力,而且这两个力的竞争不是一个盖过另一个之后就完全压制了被盖过的那个,而是强的一方会衰减弱的一方会成长,也就是负反馈。因此,只要是有准平衡存在的负反馈,系统总是会冲着那个准平衡去演化的。终于想明白了。忽然才发现,学了多年的负反馈和平衡态,还是没有真的进入思考模式,如果进入了,就应该预期有这个长时状态。我的另一个好奇宝宝同学就预期到肯定有这个长时状态,尽管我不清楚他的预期的基础。当然,在实际应用当中(这个考题有实际背景)应该是先有一个对长时状态的估计,然后,再用数值计算来确认,然后在进入工程设计和实施。

总结:负反馈的概念很重要。数值计算和思考相互配合能够把问题想得更清楚。顺便推荐一下SageMath这个数学软件,很好用,完全免费,还免安装直接在网络上运行。不过,出题人还是应该提示一下,例如:考虑到R很大很大,可以仅考虑某种平衡态。

加一个注:如果电荷带上负电荷,向着中心走,还是有两个因素竞争,但是其中一个成了正反馈(电场力的效果,越往里速度越大受力也越大,只能靠阻力来平衡一下,但是也可能会继续变大),情况就会完全不一样了。见上面那个SageMath程序的后半部分,负电荷。

加第二个注:做了一下午的题,收获了对负反馈的更加深刻的理解,让它更进一步地成了思考的基础。我本来就是教系统科学的,稳定性分析也在我自己的研究工作中用过。可是,那个理解还是肤浅的,和教科书上的太像了。直到算完这个题,才理解更深刻了。这个应该分享给学生,用来说明,怎么做作业为什么要做作业,做完作业以后的思考有多重要。如果不做作业,而且还是有难度有深度的作业,那么仅仅是看起来学懂了,不是真的懂。只有进一步用了这个,而且用到新的地方和教材中例子不一样的地方,才是真的懂。

加第三个注:刚才真的做了一下这个方程的稳定性分析,而且是轨道的稳定性分析,不是不动点的稳定性分析。太好了,以后研究生期末考试试题又多了一个好例子。有兴趣的读者,建议试试这个稳定性分析。通过稳定性分析很容易就能够看到,只要b部分的符号变了,系统的稳定性就发生了定性的变化。答案我就不揭晓在这里了。

补充:有人问,那个量纲分析做完了会怎样,能不能帮我们看得更加深刻。好吧,我来做完它。不让我偷懒的节奏。

记\(\gamma = \frac{qUR}{H}\),这个问题中各个物理量的量刚如下,
\begin{align}
\left[x\right] = m, \
\left[t\right] = s, \
\left[\kappa\right] = N\frac{s}{m} = \frac{kg}{s}, \
\left[\gamma\right] = N\cdot m = \frac{kgm^{2}}{s^{2}}, \
\left[m\right] = kg.
\end{align}
我们希望做一个单位变换,尽量把变量变成无量纲的纯数。这里只有长度和时间两个单位需要变掉,
\begin{align}
\tilde{x} = \frac{\kappa}{\sqrt{m\gamma}}x, \
\tilde{t} = \frac{\kappa}{m}t.
\end{align}
带入原方程并且考虑到\(y=\frac{dx}{dt} = \sqrt{\frac{\gamma}{m}}\tilde{y}\),得到
\begin{align}
\dot{\tilde{x}} = \tilde{y}, \
\dot{\tilde{y}} = -\tilde{y} + sign\left(q\right)\frac{1}{\tilde{x}}.
\end{align}
我们看到除了\(q\)的符号会进入方程,剩下的所有的常数都消失了,也就是都统一到了一个方程,一种行为,而不依赖于参数值。这是很好的性质。当\(q>0\)的时候,这个方程正好就是对应着前面\(a=1,b=1\)的情形。于是,这就解释了为什么不管参数如何选,只要\(q>0\),数值计算出来的曲线的样子都一样。

确实能够看得更加深刻。量纲分析还是不错的东西。

折线统计图及其背后的教材编写问题

今天心儿说学习了折线统计图,然后给我看了一张统计什么苗在不同的时间的高度的曲线图。我非常受震撼:这是统计图?这真的是统计图?统计在哪里?

然后,心儿还给我看了一张条形统计图(实际上就是柱状图),有关一个什么什么类型的东西分别多少个的一张图。这确实是一张统计图。

统计简单来说是指分类和数数。后者显然后分类,有数数。也正是因此,如果我们的分类是用一个数来表征的,那么,划分类别的盒子大小就是一个非常重要的概念。你看看,前者里面有盒子大小的事情吗?有分类吗?有数数吗?

更进一步,课本还讨论了两者的不同。说:柱状图只能反映值的大小,折线图能够反应变化或者说趋势。这就更错了。变化的多少,你拿柱状图的两个点的值做个差,也就能知道啊。只有一种情况下,折线图确实比柱状图多一点信息,而且这个只要通过用更加紧密的取值点也就可以通过柱状图来表示了(如果你想表达下面这个多出来的信息,你干什么不多取几个点呢?):把折线看作插值,于是中间那些本来没有记录值的横轴的点,例如这里是那些没有记录到苗高的那些天,就有了对应的数值。

于是,一定要说两者的不同就这么简单。形式上,都是先确定数据点,然后,一个以数据点为依据画一个长方形,一个就是把这样的数据点用线段连起来。含义上两者相同,但是,折线图可以看作对中间没有数据的点的信息的一种推测,而这种推测在假设数据变化连续的条件下,比柱状图的推测更加合理。使用习惯上,离散的变量并且点的数量很少的时候,例如统计得到的每一种盒子里面有几个东西而且盒子的种类很少的情况,一般用柱状图;连续变量例如苗的高度,例如归一化以后的分布函数(这时候取值一般都是小数),或者数据点特别特别多的时候,用折线图。但是,两者经常混着用。更进一步这个连续变化的假设在数据点比较少的时候经常不正确,例如你有1.6m的人的人数,你有1.8m的人的人数,你觉得1.7m的人的人数会是两者之间吗?用折线会更合理吗?因此,所有这些异同,都是扯。请教材编写者不要这么教条,不要画蛇添足,只要说明,一个画个长方形,一个用线段连起来,就够了。

当然,回到数学本身,除了做插值(这个时候还有专门的方法而不是就画折线)的时候,谁会在乎这两个图的差别啊。天那,我完全没有想到,小学数学教材会如此的教条,真的什么东西都要比一下异同吗?真的还要给出一个这个异同的标准答案吗?

这里牵涉到两个更加深刻的问题。数学教材有没有体现数学是什么,有没有神,还是仅仅是知识点的积累和展示,也没有考虑好这些知识点整体合起来说什么?我整理了四年级上册的数学教材的概念地图,我发现基本上就是知识点的积累和展示,而且是比较孤立的知识点。当然,这个要求有点高。可是,真的高吗?难道可以没有思考清楚数学是什么就编写教材吗?

数学知识本身是对结构和关系的描述,而且是抽象的尽量具有一般性的描述。数学是对现实世界的抽象,或者说是人的思维对现实世界的抽象。学习和应用数学的关键不在于计算(当然要从原理上懂得如何做计算)而在于把问题转化成一个数学问题,也就是培养学生用数学的眼睛来看世界。例如,心儿曾经完成过的对卖水果的人卖出的水果的种类、单价和总价的统计就是一个很好的例子,还能够从数据里面提出自己的观察、猜想和问题。例如,上学期完成的记录家里的水表,并且从那里开始思考整个社区,整个城市甚至国家的问题,是另一个很好的例子。前一个问题心儿的观察和猜想是是不是特定的季节等时间段对于什么东西卖得最好有影响,后面一个心儿的做法是比较全国实际自来水的年供应量和按照我家估计出来的量,然后发现大大大大的不同,以及思考这个不同的含义。问题要足够粗糙,但是,数学化的难度要适合,并且结论还可以有多个可能,不太平庸,最好还能够检验。数学是思考的语言,而不是作计算而已。

当然,咱们不能希望教育专家们懂得这么深刻的数学是什么。那,至少,别出硬伤啊!明明很简单就能明白两者在形式上的差异的两个做图方式,为什么一定要分析什么进一步的完全不可靠的不同啊?明明没有统计,为什么叫做折线统计图啊?难道你以为所有的做图都是统计吗?(这个以为也不是没有合理性,但是,如果是这样,你说清楚也行啊——我的统计的含义跟一般人不一样)

这里,就牵涉到另一个更加深刻的问题:教材到底谁在编撰,课标到底谁在制定?学科领域专家,还是教育专家,还是一线中小学老师?一个理想的情况是对教育感兴趣的对中小学教学有一定了解和思考的学科专家为主,一线老师为辅,教育专家提提意见和建议(建议的意思就是,我可以听也可以不听,但是多一个角度总是好的)。我不知道实际是不是这样。现在的教材和课标,至少物理方面,是越走越简单,把有难度的内容都去掉。我不知道这是哪个物理学家的主义,我不信这是任何一个物理学家的主义。我们向来强调理解核心内容和思想,强调深入浅出,而不是浅入浅出或者浅入无出。那么,是不是物理教材的编撰课标的指定就被教育专家绑架了,还是说,确实有那么一帮已经完全脱离物理研究的堕落了的物理学家认为,物理也可以通过记忆来学习了,可以通过做题来学习了,而不是深入思考,思考概念和现象的联系,概念之间的联系,物理学和一般科学之间的联系,物理学和批判性思维之间的联系了?

同样,数学呢?怎么可能就成了知识点的积累和展示,并且基本孤立,并且完全无神(指的是数学是什么)呢?

当然,我们也可以这样来解决,扔掉所有的教科书,只允许有参考书。不过,这个时候,选择教什么,思考怎么教,就成了每一个任课老师的事情了。没准,我们到了这样的阶段?允许和尊重每一个老师的独立思考和创造、探索?

得到了几个小学老师的反馈,其中一大部分觉得书上是对的,“苗高随着时间变化确实是统计图”,“折线图确实比柱状图能够提供的信息多”。我非常震惊。“统计”这两个字的中文含义分别是是“合起来”“数数”,因此分类和数数是统计中两个非常重要的步骤,没有分类和数数就不能算统计分析。当然,说得更加抽象一点,不计算分布函数(有的时候分布函数可以用均值和方差代表,还有的时候需要计算各阶矩而不仅仅是前两阶)的分析,不能算作是统计分析。再则,在数据点给定的情况下,怎么做图,都不会增加或者减少信息,除非做错了。“折线图能提供趋势柱状图不能”,天哪。如果你要趋势,你就把点取得密一点,跟什么图没关系,或者柱状图你也可以那眼睛看出来趋势啊,天哪。

究其原因,长期应试教育造成的教条主义,是根本:一定要找出一个区别来,盲目维护教材。学习要向着促进理解的方向,而不是天天做没有意义的区分。昨天另一位老师也提供了一个好例子:有的老师在讲百分比的时候强调有两种意义上的百分比——一种是前者是后者的一部分百分数用来表示这个一部分占全体的多少,一种用来比较两个数的多少,因此,前者都小于100%,后者有可能大于100%。这个思辨其实有一定道理的。例如我需要看完一本书共100页我看了50页,粗略地说看了50%。这是前者。如果小明这个家伙看了80页,我问小明看了我的百分之多少。就是后者。但是,有必要区别这个吗?核心的想法就是把被对比的那个标准当做1,然后,看看其他和这个1的关系。就这么简单,不管是整体部分关系还是两个数的对比。总而言之就是两个数作对比,把其中一个数当做1(或者说100%),问另一个数算多少。

看来,小学问题很大。其实,中学问题也不小。我自己在中学的实习过程中,以及跟我夫人(当年她当中学老师的时候)的交流中,就能体会到。画蛇添足,人云亦云,不在需要加深和促进理解的地方花力气,而在区分没有意义甚至这个区分就是非常不可靠的地方花精力动脑子用心(当然比连蛇都不好好画的要强),能促进学生真的“为了理解世界和读书”吗?怎么办?

什么是科学计量学

学习和研究任何一个学科都需要大小结合,有学科大图景、有通过大图景串起来的概念和例子。所谓大图景就是这个学科研究的基本问题是什么,主要的思考问题方式是什么,主要的分析方法是什么,当前的主要发展方向是什么。只有清楚了这些问题,然后把自己的研究工作放到这个大图景的背景下,才能够更好地有创行性,甚至系统性基础性的创新。在这里,我把科学计量学按照这个思路做一个总结。同时,也留给后来人当做进入这个领域的入门指导。这是公共品,希望有人能够补充,因为这个总结受很多我自己的工作面的限制。如果补充的人能够理解这个思路就更好了。

科学计量学的研究对象是科学家、科学家的研究活动,以及科学家的研究活动的结果——思想方法知识的创新和积累,具体体现为学科、书、论文、专利、技术、甚至产品。但是,这个研究对象实在太难以处理和缺乏数据了。按照力学的世界观,任何一个系统,我们要问状态如何描述、状态是否发生变化、变化的原因是什么。我们来尝试着用这个世界观考察这里的研究对象。例如,一个科学家的描述变量是什么,这个变量会变化吗,变化的原因是什么?显然,这些问题非常有意义。进一步,我们甚至大概可以说科学家的创造性、科学家思考问题的状态、科学家的思想方法知识的积累都可以看做这个科学家的状态,科学家的状态通过看论文学习新知识科学家自己的思考等等也会发生改变,而且如果能够研究清楚改变的原因那么,没准也确实能够促进科学家的工作。但是,但是,我们有这方面的数据吗,甚至,我们连要什么数据都不明确。于是,这个问题是一个现阶段还不能展开研究的问题。那怎么办?

科学的基本思想之一就是从现象到数据(通过观察和实验),从数据到数据规律(就是经常出现的意思,有一定普适性,还要有普适性的边界),从数据规律到模型,从模型到成系统的一般来说最小要求的模型,后者就是一般所说的理论。其中,每一步都需要反复地去问为什么是这个样子的,反复地考察和检验。当有了理论,可以回过头来,考察更一般的现象得到一些可检验的结果(这些结果本身来说需要是存在多种可能的,并且其中一种可能发生的话,就可以证明这个理论是错的。这叫做可证伪性),接着看看实际的结果是不是和理论给出来的一样。

如果现象到数据这一步都没有的话,那我们什么都不用做了。幸好,我们还有不太直接的替代品:科学家发表的论文、书、专利、技术、产品,科学家发展起来的学科。直到将来有一天我们可以获得上面的直接数据,暂时,我们就只能够用这个替代品了。那这些替代品能够帮助我们真的了解科学家和科学家的活动吗?不知道,先把问题留着。当然,这些替代品本身就是我们上面提出来的研究对象。我们先从这个角度来看看什么是科学计量学的问题。

论文、专利、书、学科知识(以及知识之间的联系)这些东西不多的时候,比较简单,我们只需要一个能够帮助我们找到这些东西的拐棍就行了。于是,我们需要一个图书论文专利的编目系统,一个学科知识的概念网络甚至有的时候仅仅是一个概念集合以及这个集合对应着的编目系统,就差不多都用了。在信息时代来临之前,在科学和技术的发展超出了一个最聪明最博学的人能够学会的时代到来之前,基本上,编目也就够用了。这就是为什么之前的科学计量学实际上基本上就是图书情报学。整理好编目去吧,等着需要的人去检索去用。

但是,现在,就算在某一个小小的领域,例如科学计量学,一个研究者都很难跟踪所有的研究论文了,更何况专利、技术、产品等。目前为止,综述文章和书,可能对于小领域还能够保持跟踪。那怎么办?我们需要一个办法来帮助科学家在论文、专利、书、技术、产品的海洋中理出一条线索,高速获得想要的这个海洋中的一滴水。于是,Garfield等人提出并实现了记录每一篇“像样”的论文的题录。有了这个题录仅仅是最基础的数据。这个数据能够帮助我们实现找出线索并且快速获取信息了吗?

最简单粗暴的办法就是你需要找到什么就提出检索,然后我就给你全文(标题、摘要、关键词、引文、作者)匹配。当然,你要是非常明确你要找的是什么,这个简单粗暴的方法还可以。如果你不太明确,例如仅仅关心某主题,那么有的文章可能不直接用这个词,可是内容上还是关于这个主题的。因此,还需要一个主题分类。这是为什么我们会有物理学的PACS、数学的MSc、经济学的JEL、生命科学的MeSH这样的主题标记系统。可是,全部匹配上的就都显示,并且都显示在结果的第一页吗?于是,我们还需要一个给论文等排序的一个系统。例如,在网页检索的问题上,我们也同样需要这样一个排序系统。这个排序系统可以按照所有网上用户的点击率或者个性化评价或者被其他网页引用的次数。但是,Brin和Page神奇地提出来,其实把引用次数这样的东西迭代分配几次可以更好地用于排序。这个算法被称为PageRank。插播:实际上这个神奇的算法的思想在科学学的另外一个开创性人物Narin的工作中很早就被提出来过。以后我们还会回到这个人。以论文为例,那么是不是可以把其他论文引用这个论文的次数当做一个排序指标呢?在计算机还不能处理几百万篇文献的PageRank的时代,这个直接数数确实很好用。于是,也就很少有人沿着Narin的多分配几次的思想来发展排序系统了。当然,大家心里还是知道,实际上,论文的重要性还有很多方面。例如,被好的还是不好的论文在引用(也就是PageRank的思想),是否被专利、技术、产品引用,并且是否由此产生了对经济系统的影响,或者是否直接或者间接地促进了某个大人物或者小人物的思想上的觉醒,等等等等。但是,还是回到数据的问题,没数据啊!然而,引文数据却容易获得很多很多。Garfield的Web of Science之后,还有其他的通用(例如Scopus)和专门数据库(例如DBLP)。专利也整理了专利自己的数据库,例如德温特数据,例如美国专利和商标局数据等。

到这里,原则上,我们有每一篇文章的主题标记和题录(指标题、作者、摘要、期刊名称卷期页、投稿接受和发表时间、致谢、作者贡献、基金支持、唯一标识、引文、全文,后面的引文和全文一般来说不算题录,我这里用语就随便一点了),我们就可以完成帮助科学家快速获取信息的目的了,检索和浏览都可以实现了。但是,我们还是不能够告诉科学家每一篇文章都做了什么啊。当然,我们有摘要。如果我们能够利用摘要和全文,以及主题标记甚至主题标记之间的概念联系(也就是学科知识集合和知识之间的联系),给出来一个大致的领域粗粒化描述,或者某领域文献综述,就更好了。如果还能够把漏掉的金子以及还没有发光的金子(或者暂时被当做金子的沙子?)都能够挑出来,就更好了。于是,这也就是为什么在科学计量学里面会有自动摘要、自动综述、引用之外的其他论文排序系统这些研究主题。

可是,非常遗憾的是,不是每篇论文都有主题标记(作者关键词同义不同形的可能性太高了,任意性也太高了),也不是每个学科都有一个好的已经整理出来的学科知识体系(知识以及知识之间的联系)。怎么办?我们把这个问题也先放在脑子里。回过头来,再从最简单的论文之间的引用关系开始。当然,论文、专利、技术、产品之间的引用关系,相对来说,也比主题标记和学科知识体系更容易获取。不过,根本上我们还需要产品在经济系统中的地位、科学家消耗了多少基金和时间等等数据。这些就又不太好获得了。所以,让我们退回来,回到引文来讨论。

第一,实际上,并不是所有的引用都是等价的。有一些是工作背景,有的是工作的直接基础,有的仅仅是大家都在引用,还有的可能是有其他目的的(例如期刊内自引、学校内自引、团队内自引、作者自引等)。能够区分吗?实际上这是一个非常重要的问题。有可能随着全文的获得和自然语言处理以及其他人工智能技术的发展,是可能可以回答的。第二,反映重要的和不重要的文章的引用的差异的排序指标,真的就只有PageRank了吗?或者,将来我们计算的时候肯定要有一个统一的单位才能数数才能做运算的,一次引用真的可以当做一个单位吗?不同的学科可以比较吗?我们看到,PageRank的思想就是重要性一定程度上可以传递,计算的时候需要多分配多迭代几次。我们称引用关系为直接关联或者直接关系,这个多分配多迭代的做了传递的思想为间接关联或者间接关系。这个单位和间接联系的问题都可以通过这种多次传播的思想来分析。有一个叫做网络科学的学科,其基本思想和技术就是间接关系和传播很重要而且有方法可以来计算分析这个间接关系。我们发现在这个思想的指导下,其实可以有一系列的综合分析直接和间接联系的方法。我们称之为广义投入产出分析[Shen2016]。这里我们也提到了第三个问题:第三、统一的单位和可比较性。这个问题在科学计量学里面被称为归一化问题。我们稍后也会回到这个问题。第四,很多时候,我们看到一篇文章,并且从这个文章回溯其参考文献才看到另一篇,引用的时候可能会把两者都写上或者仅仅写上其中之一。这个,怎么处理?当做完全不相关的两个引用来处理,还是有别的方法?关于这个问题我们可以把引用关系做个预处理:如果A引用了a1, a2,而其中a1引用了a2,我们可以仅仅保留A-a1或者A-a2。这方面的工作我们正在进行。我们已经挖了好几个没填上的坑了。不过,我们稍等,先回到一点点历史。

在引用次数这个问题上,我们可以顺便提一下历史上一些很重要的结果。例如,被引频次的分布:给定一个期刊或者很多个期刊的文章的集合,我们统计一下被引次数的分布,发现,根本不是正态的,有很多很多的论文被人引用也有不少的论文被引次数非常多。这两头的比例都远远偏离正态。这也说明,如果我们用一个平均值去代替这个分布,这个代替是非常不可靠的,没有代表性。那问题来了:如果我们需要某个指标来帮助我们选择期刊(大学、城市、国家——如果可选的话)的话,我们能不能有一个还算能用但是又简单的指标呢?平均值就很简单,但是管用吗?在个体的层次,也就是考虑单篇文章和单个科学家,这个平均值——就是后来”著名的“影响因子——非常不具有代表性,非常不管用,这是我们已经知道的。但是,能够代表对期刊的水平不太了解的初次投稿者以及在思考订阅什么期刊但是对专业学科的期刊不太熟悉的图书管理员选择期刊者来使用吗?注意,这个的目的首先是这些直接使用者,至于管理机构给每个期刊分配资源是否可以参考这个平均值之类的事情不是第一位的。为了这个目的,我们来数学化一下(注意,有了研究对象和问题,有了基本思想,下一步就要数学化,然后才是解决这个数学问题,接着才是检验的问题):任意两个期刊,如果它们的影响因子有高低,那么,我们想了解多大程度上从两个期刊里面随机各抽一篇的情况下,影响因子高的那个期刊的文章的被引用次数大;或者说从另一个角度,如果说影响因子代替单篇文章不合适,那么多大的集合就可以用这个平均值来代替了。也就是说,给定一个集合大小\(Z_{j}\),从期刊\(j\)中随机选取\(Z_{j}\)那么多篇文章其平均值是不是就接近这个整体的平均值,而且这个平均值还可以用来使得这个期刊和其他的期刊区别开来了。这两个问题是相辅相承的,一个问题的两个方面。如果被引次数是正态分布,那么,这些问题都可以解析求解,可惜分布函数不是正态。有关这个问题的进一步讨论在这里就不再展开了,有兴趣的可以看[Waltman的综述,我们自己的工作,还有前面这个几率的计算的工作]。

到现在为止,我们讨论了科学计量学的研究对象和研究问题,以及研究问题和服务对象的关系,还有分析问题的思想——从数据出发、直接和间接关系。我们还要注意这里有很多的近似:没有研究对象的直接数据而是用的间接数据、没有统一的单位暂时数数、经济和技术和科学实际上不可分但是我们暂时划了一条界线等等等等。服务对象也基本上就局限于科学家。一会儿,我们会稍微拓广一点我们的服务对象,再来看需要问哪些问题,以及这些问题的分析思想和分析方法。具体分析方法上,我们仅仅讨论了统计文章(类似的可以用于专利、书等等)的被引次数,它的分布函数还有平均值。实际上,关于这个被引次数还有其他的一些比较严重的但是可能可以在现阶段处理的问题。例如,不同领域的工作不一定能够相互比较:生命科学领域的文章通常引文比较多被引次数也比较大,数学就反过来,物理学差不多居中。于是,同样被引10次,生命科学论文和数学论文的影响力实际上不一样。甚至,来自于同一期刊的文章,也可以是不同领域的,于是它们的平均被引次数可能不一样,也不能放在一起来对比。那怎么办?

科学计量学上,把这个问题称为被引次数的归一化。大概来说,我们可以把文章分成领域,然后在足够小的领域来归一化——例如被引次数除以这个领域所有文章在一个时间段里面的平均被引次数,或者我们可以把施引文章当做一个单位平均分到这个篇文章的参考文献上去。注意,这个分配方式其实和PageRank是有关系的。我们确实还可以把每篇文章不按照被引次数来计算而是按照某种类似PageRank的算法计算出来的分值来计算和分配。等着,我们一不小心又回到了论文的领域标注的问题和学科的知识体系的问题。我们有这样的好的领域标注和学科知识体系吗?有几个,不多。怎么办?因此,我们还需要研究论文的主题标注和主题分类问题。注意,这个问题实际上依赖于学科知识体系。我们还会回到这一点。有关这个归一化问题的研究可以看看这几篇综述[Waltman评价指标综述]。

前面仅仅提出了为了信息获取的目的我们需要一个排名,实际上,有的时候,可能我们直接就需要一个排名。例如,非专业的管理者需要大概了解某个领域谁最牛这样好咨询一下这样的人,期刊的编辑或者基金评审的组织者想找到某领域的合适的审稿人。例如,在有的地方,非专业的管理者需要在评奖雇人分配资源方面有一个大概的方向或者入门砖。有的时候可能专业人员在大范围选择的时候这样的入门砖也是有用的,但是,但是,最终一定不能依靠指标——它们一般不适用于天才和垃圾,而是真的去深入阅读和讨论。也就是说,不管怎么说,如果能够对研究成果(论文、专利、书等等)给一个评价,对研究者、研究单位(团队、学校、城市、国家)给一个评价,有的时候总是有那么一点点用处的。例如你不能指望所有的高中生和高中生家长都通过深入了解很多所学校来做出选择,有一个大概的排名总比道听途说或者随机选要好。于是,这个问题,在科学计量学里面,成了评估指标的问题。我们发现,其实这个问题也可以依赖于上面的对排序算法的研究来回答。不过,在前面排序仅仅是为了信息获取的方便,在后面排序本身就是目的。

除了科学家的信息获取和帮助非专业的以及专业的管理者偷懒,科学计量学还应该考虑帮助科学家选择研究主题、了解研究领域,帮助老师们来更加容易地把研究成果转化成课堂的素材,帮助政策制定者和管理者来更好地促进科学技术的发展。了解研究领域就要给领域一个画像,回答一下这个领域分成哪些主题,这些主题之间的逻辑关系是什么,哪些工作在哪些方面促进了科学的进步,其中哪些主要科学家和哪些主要研究工作还有那些概念和例子非常的突出等等这样的问题。当然,前面提到的自动摘要自动综述以及排序算法也能够一定程度上解决这个问题。但是,更加重要的是粗粒化,也就是从文章的整理到主题的整理。很多时候我们需要把我粗粒化的图景。另外,从科学计量学研究本身来说,分类是大多数研究的第一步,非常重要的第一步。其中PACS、MSc、JEL、MeSH要么依靠作者要么依靠专门的编辑部来给文献分类,而分类体系本身则是一棵概念树。当然,我们可以研究如何把这样的分类体系推广到自动算法上去,例如依赖文章题录信息来计算推测主题分类。更重要的,我们要有更加合理的分类体系:学科知识不是树,而是网络,当然这个网络的层次性相对明显。那么,我们现在有这样的网络吗,假设有了这个网络我们如何给文章建立主题标注?在这里,我们提出来一个“学科概念地图”的概念,也就是用网络的方式来呈现一个学科的核心概念以及概念之间的关系。大概来说,也可以看作是Wikipedia之类的百科所整理的知识的一种网络形式的呈现方式。强调概念之间的联系,强调概念的组织,通过围绕着某个主题的组织来体现大图景,也就是基本问题、基本思想、基本分析方法和它们的例子。稍后我会尝试给出来这个文章的主要意思的概念地图和科学计量学的整体概念地图,当做例子。于是,现在问题就成了:如何构建这样的学科概念地图,以及如果有了这个地图,如何做论文的领域标记和粗粒化。

当然,在没有这个学科概念地图的时候,科学计量学也是要着手来解决这个问题的。很多时候通过分析引文网络来完成。其中又分为直接分析引文网络、分析共施引网络(两篇文章一起引用某文章则相连)或者共被引网络(两篇文章共同被某文章引用则相连)。后面两个关系实际上是前面的关系的“投影”:在前面的网络上走两次(先顺着引用关系再逆着引用关系,或者先逆着再顺着)能够连通就在后面的网络上连通。在国内使用者非常多的由Chaomei Chen发展的CiteSpace软件就是分析共被引来做粗粒化和领域演化的典型代表。其他的还有CWTS的基于引文网络的直接分类方法以及基于这个分类建立的排序指标。在这方面可以参考Waltman的综述[Waltman_PLOS]。

此外,为了更加方便地做自动摘要和自动综述,实际上,文章层次的概念地图也是非常有意义的。文章的概念地图可以给出来文章关注的主要问题、概念方法思想的基础、主要贡献甚至主要参考文献。这样通过某种方式合并每篇文章的小图,我们就可以看到一个集合的文章的整体大图。

除了通过设计指标和制定分类来通过检索和浏览来快速获取信息,甚至直接就是用作排名用作评价,以及把握学科粗粒化发展图景,还有大量的问题我们可以研究。只要这些问题还是基于科学家、科学家的研究活动和活动的成果这些研究对象并且为了服务于科学家、教师和学习者、管理者的,以数据为基础的,以科学方法开展的,基本上都可以算作科学计量学。例如,除了衡量文章作者以及各个研究主体的综合影响力,我们还可以衡量它们创新性。在创新性的度量上,其实这个三层网络也具有其特殊的意义:一个研究工作的主要贡献可以看做是提出了概念、提出了分析方法、找到了概念和方法应用的例子、提出了新的问题等等,也就是说,表现为概念网络上的顶点或者连边,也就是从论文层到概念曾的层间连接。我们还关心选择领域专家的问题,例如为了满足咨询领域发展方向或者文章基金审稿等任务的需求。于是,传统上科学计量学是把共被引和共施引这样的投影得到的共现关系推广到作者和主题这个共现关系上面。这个投影实际上是先从作者到文章,再从文章到主题。原则上,还可以继续投影,例如从作者到文章再到作者就是合作,从作者到文章再到引文甚至引文的主题(不知道叫什么什么共现)。实际上,从网络的角度来说,这些贡献矩阵都是对原始的作者-论文-概念关系网络做了某种投影。如果用投影能够研究某问题,那么,投影之前的原始网络也必然能够用来解决这个问题。当然,计算分析的方式和难度是另外的问题。有用的问题可能更加适合用投影之后的网络。

通过前面提到的在多个方向上的具体研究的例子,我们看到,是不是这个领域的基本数据、基本思想、基本方法有一个一致性的描述?我们说这个例子就是多层网络模型。先说论文内部的层次,我们有作者、论文、概念。每一个层内我们有基本关系(能够由基本关系得到的导出关系都不算,因此合作关系不是基本关系),例如作者之间的师承关系社会关系同一个团队学校等关系,论文之间的引用关系,概念之间的学科内逻辑关系。层与层之间还有基本关系,例如作者写了某论文、某论文工作在某主题上。有了这个一般的框架,那么,剩下的问题就是:是否迄今为止的大部分研究工作,包括问题和分析方法,可以用这样的一个框架来描述;是否这个框架还可以进一步启发我们新的研究,包含新的问题、新的方法、新的思想,以及通过它们得到的新的结果。更进一步,其实这个多层网络还可以进一步扩展,例如包含专利。我们就有了论文的三层,专利的三层(发明人、专利、专利的相当于概念层的技术领域),甚至可以考虑它们的结合。于是,相当于我们增加了从专利到论文的引用从论文到专利的引用。我们问,这样的一个框架可以用来研究什么问题?第一,可能可以更好地回答前面的排序的问题。这个时候,论文的评价不仅仅基于其他论文的引用还包含专利的引用。当然,如果仅仅为了回答论文的评价的问题,实际上,可以去掉论文作者和专利作者的那两层。实在不行,还可以先去掉学科概念和专利技术这两层。当然,原则上,研究是否是基础性的技术的专利和是否是基础性的科学概念是有区别的。第二,更加重要的事情是,通过这个网络,我们可以看到不同领域之间的联系了。例如某项专利主要受哪些科学研究的支持和启发,某项科学研究依赖于哪些技术进步等等这样的问题。这样的问题对科学家发明人以及对管理者都是可能有意义的。实际上,Narin的早期研究就在关注这个科学-技术关联的问题。其中一个原因就是大家需要对基础科学的研究到底多大程度上促进了技术从而促进了经济的发展有一个更加仔细和可靠的了解,并且当时有一种说法说政府投给基础研究的钱太多了,如果不发挥经济作用的话,那应该减少。当然,这个问题可以通过个案来研究,也就是选择比较重要或者出名的产品或技术,反溯其科学基础,然后看看这些科学基础的发展过程中政府支持是否发挥了重要作用[Narin_TRACE]。这个研究还可以用大规模数据来做:统计专利引用的科学论文的数量,看看这个数量的时间演化,领域分布等特征。其中一个叫做技术-科学关联系数就是Narin它们在这一批工作中提出来的[Narin_Linkage]。在这里网络的思想和分析技术将再一次发挥重要的作用。考虑如下的情况:一个专利A依赖于论文a,一个专利B依赖于专利A但是没有引用任何论文。如果仅仅对引文数数做统计,那么我们会得到B不依赖于a的结论,但是,显然,B实际上依赖于a。如果论文a还引用论文b,那有可能B还依赖于b。这个就是传播、迭代计算的思想和分析方法。

沿着这个方向,我们也可以讨论粗粒化的问题:我们不再关心具体的某个专利对科学的依赖,或者反之,而是考虑某个专利部门,例如手机通讯光通讯之类的,主要依赖于哪些科学领域。这个粗粒化在我们的多层网络框架上就相当于某种方式先对层内顶点做聚类,然后研究这些类当做顶点的网络。当然,再一次,分析的时候需要考虑传播考虑迭代计算,也就是直接和间接关系。

当然,你可以继续追问,为什么在专利和论文的层次就停下来,不把专利到产品的转化,甚至产品在整个经济中和生活以及其他产品的联系都加入进去。原则上,是的。但是,我们需要数据啊,而这样的数据远远比前面的更加难以获得。进一步,任何研究,总数要在某个地方切一刀,把切出来的东西当做孤立系统来研究的。如果这一刀合适,系统内部的联系就会远远比系统和系统外部的联系重要普遍的多。那这样的一刀也就是合理的了,直到有一天能够把数据的边界再一次扩展。

总结:科学计量学是以数据和科学方法分析研究科学家、科学家的研究活动和科学家的研究活动的成果,从而实现为了科学家、教师和学习者、科学技术政策制定者和管理者服务的一个学科。其重要思想是:一切基于数据,直接联系和间接联系同时都非常重要。其重要理论模型是:多层网络科技主体(作者、论文、专利、书、产品、概念,以及这些主体构成的团队、单位、城市、国家、学科领域、技术部门)。用一个一致的角度来描述数据和问题,然后发展这个数据上的计算分析方法来解决这些问题,对于一个学科的发展是非常重要的。研究工作不仅仅是解决一个个独立的问题,还要把问题相互联系起来,在整个学科的背景下来思考和定位。这个什么是科学计量学的整理,除了给后来者一个容易进入的门或者窗之外,还希望能够给后来者这样的一个看问题做研究的整理思路。

参考文献我慢慢加上。

[1]S. Brin, and L. Page, The anatomy of a large-scale hypertextual web search engine, Computer Networks and ISDN Systems, 30, 107-117(1998).
[2]Ludo Waltman, A review of the literature on citation impact indicators, JOURNAL OF INFORMETRICS 10(2), 365-391(2016).
[3]Y. Ding, E. Yan, A. Frazho, J. Caverlee, PageRank for ranking authors in co-citation networks, Journal of the American Society for Information Science and Technology, 60(11), 2229–2243(2009).
[4]W. Leontief, The Structure of American Economy, 1919-1929. Cambridge: Harvard University Press (1941).
[5]G. Pinski and F. Narin. Citation influence for journal aggregates of scientific publications: Theory, with application to the literature of physics. Information Processing & Management, 12(5):297-312, 1976.
[6]Z. Shen, L. Yang, J. Pei, M. Li, C. Wu, J. Bao, T. Wei, Z. Di, R. Rousseau, J. Wu, Interrelations among scientific fields and their relative influences revealed by an input–output analysis, Journal of Informetrics, 10(1), 82-97(2016).
[7]C.T. Bergstrom, J. D. West, M. A. Wiseman, The Eigenfactor Metrics, Journal of Neuroscience 28(45):11433-11434(2008).
[8]P. Chen, H. Xie, S. Maslov, and S. Redner, Finding Scientific Gems with Google, Journal of Informetrics 1, 8 (2007).
[9]Waltman, L., & Van Eck, N.J., A new methodology for constructing a publication-level classification system of science, Journal of the American Society for Information Science and Technology, 63(12), 2378-2392 (2012).
[10]I. Wesley-Smith, C. T. Bergstrom, and J. D. West, Static ranking of scholarly papers using article-level Eigenfactor (ALEF), The 9th ACM International Conference on Web Search and Data Mining (2016).
[11]J.D. West, M.C. Jensen, R.J. Dandrea, G.J. Gordon, and C.T. Bergstrom, Author-Level Eigenfactor Metrics: Evaluating the Influence of Authors Institutions and Countries Within the SSRN Community, Journal of the American Society of Information Science and Technology 64: 787-801(2013).
[12]Manlio De Domenico, Albert Solé-Ribalta, Elisa Omodei, Sergio Gómez & Alex Arenas, Ranking in interconnected multilayer networks reveals versatile nodes, Nature Communications 6, Article number: 6868 (2015).
[13]Vicente P. Guerrero-Bote, Félix Moya-Anegón, A further step forward in measuring journals’ scientific prestige: The SJR2 indicator, Journal of Informetrics, 6(4), October 2012, 674-688(2012).
[14] M. Nykl, M. Campr, K. Ježek, Author ranking based on personalized PageRank, Journal of Informetrics, 9(4), 777-799 (2015).

附件:《什么是科学计量学》讲稿《广义投入产出用于科学领域关联分析》