Journal of Informetrics投稿教训

Journal of Informetrics三审才放过我们的稿子。其间,学到了很多东西。写下来,给自己一个提醒,也希望对后面的人有用。

第一、文章长度不限制。导致这个领域的研究者喜欢把相关东西都堆到一篇文章里面。物理学通常4-6页,卖点通常只有一个。例如方法的文章,举一个例子,展示这个方法有用,有新意即可。科学计量学的文章就需要你讨论一下可能的类似的方法,与其他已经提出的方法的具体的对比。物理的,提一提,就够了。所以,科学计量学的文章要更完整,而不仅仅是“你看我是新的,我还管用”就行。

第二、数学公式一定要用语言描述一遍。而且,最好还能够给一个直觉的可以理解和想象的解释。这个,在物理学家而言,数学公式就是思想。但是,在这个领域,大量的读者不是数学物理出身,不是用数学来描述和理解这个世界的结构,而是,不得不用一下数学。因此,给数学表达式一个好描述和理解,很重要。

第三、细节要注意。这个领域有一部分数学家,所以会在定义和分析的细节扣的比较细。物理学家主要关注大图景。这个要注意。

因此,除了注意这些,写完这个领域的文章,一定要让这个领域的人,读几遍,提提建议。或者直接跟这个领域的专家合作,让他们动起笔来。

再次感谢编辑和审稿人,再次感谢所有的合作者。

读两个微信的帖子:《统计学发展方向的选择》与《人民大学师徒大战有感》

今天看到Zike转发的统计学发展方向的选择,作者提出统计学的将来不在于和计算机的结合,不在于数学上的深入,而是在于研究者深入到具体研究对象所在的学科里面去,了解具体学科,而不仅仅是统计学方法。

非常有道理。其实,所有的方法性学科,包括一部分的数学、一部分的物理学、系统科学,都和统计学一样,生命力来自于具体的研究问题。

当然,另一方面,考虑超过一般中心极限定理的统计学,也是有意义的。所以,数学上和方法本身的创新应该也有发展的空间。不过,根本上,这个更一般的中心极限定理(Levy分布,长尾之类的东西),还是来自于具体的研究问题中的表现。

因此,所有的学习这些方法性专业的学生,以及研究者,都需要从实际问题中获得进一步发展的方向感和启发。

上周读到郭师兄转发的悼念狂人——人民大学师徒大战有感,说得很好:中国没有狂人(学术见解上,不是一般的生活中,有自己的看法,并且努力发展自己的看法)存在的土壤,因此学术上真正的创新就很难有。

我会拼死捍卫你说话的权力(当然你要想办法说出自己的理由,自成体系,而不是“我就是这样,就是要这样,就是觉得这样”),尽管不一定赞同你的观点(这时候,我也会给出我的理由——记住记住在没搞清楚之前,千万千万别信我)。

学术观点会得罪大佬的事情,好像在科学界会好一点, 不像社会科学界,或者人文。

所以,学生们,你们尽量去有自己的观点吧,觉得谁错了都没关系,只要去找出理由。在认同之前,请自然地勇敢地怀疑一切。

研究工作反映对这个世界的认识和思考

一个无脑发文章的研究者,和一个深入思考的科学家的区别在于,是否其研究工作反映了一种对世界的认识、思考甚至思想。

怀特海《教育的目的》最后一章,大学的作用,里面提出来,大学的根本目的就是有一群有想象力创造力的科学家把自己探索世界的体会用具有非凡想象力非凡创造性的方式和下一代分享,从而使得他们也成为具有想象力和创造力的科学家。达不到这个目的的大学都是不管用的。同时,他还指出,大学存在着一个非常大的危险:吸引、集中和培养了一大堆高效率的发文章机器。顺便,不得不佩服一下,尽管现在看起来不是那么的非凡,怀特海80多年以前的思考。

看了这一部分以后,我就开始思考,尽管成就尚小,我自认为是一个用研究工作提升对世界的理解,用对这个世界的思考指导研究工作的科学家,那么我的工作到底和无脑研究者有什么不一样呢?如果不能回答这个不一样,那就是对自己的看法有偏差,尽管自己骗自己也不一定是坏事。再扩大一点,我所了解的那些我认为的真正的科学家和无脑研究者有什么不一样呢?

今天早上,还没醒来,忽然之间,想通了几个自己的工作让自己觉得不是无脑研究者的地方。先整理在这里。以后慢慢把更多其他人的工作也整理出来。这个,会很有意义。

我汉字的工作的基本思想是:汉字之间从结构、读音和含义上相互联系,这样的联系可以用来促进汉字的学习。因此,汉字在个体的层次需要相互联系着来学习,还需要讨论整体的学习顺序的问题,还需要讨论一个好的不是一个一个随机抽样而是通过检测一个字了解很多字是否认识的识字检测系统。

从这个工作开始,我尝试把所有的我教授的课程都采用这样的关注相互联系的方式来授课:这本课程主要概念和其间的关系怎样(画成图——也就是概念地图),这本课程所在的学科的基本问题、典型思考方式是什么,教授这门课程的目的是什么,然后在这个图和上面那个学科大图景的基础上,来选择所要教授的内容和顺序,以及启发甚至强制要求学生来做基于关系的学习。实际上从这里开始,我们可以改造所有的课程的教学甚至课程设置,乃至专业设置,乃至整个的“大学是什么”。

我的科学领域之间相互关系的工作的基本思想:科学领域之间的引用关系可以当作其间思想、概念和技术的流动的一种代表,在这样做的时候,需要考虑直接和间接关系(例如A大量引用B,B大量引用C,但是A没有大量引用C,从直接统计来看A没有受C多大的影响,但是间接来看,肯定不是这样的)。于是,我们尝试和推广改造了投入产出分析和PageRank两种综合考虑直接和间接影响力的方式,来讨论这个问题。顺便提一句:网络的基本思想,出了简化问题,关注联系,也包含综合考虑直接和间接联系。

我的量子博弈的工作:经典客体的状态由密度分布函数描述,因此,改变其状态的算符构成操作这个密度分布函数的群。这个群没有加法,只有群乘;量子客体的状态由密度矩阵描述,因此,改变其状态的算符构成李群,李群同时有加法和乘法。当我们来考虑这个操作,也就是博弈的策略,的分布的时候,这样的非李群和李群(有没有加法,乘法总是有的)之间的区别,会对数学理论提出非常大的不同的要求。其中,有加法的需要用“密度矩阵”,没有加法的用“密度分布函数”。

我的量子力学基础的工作:受上面的工作的启发,还有裴老师的启发,我开始思考是否在量子力学的层次,有加法的集合就一定需要密度矩阵来描述。这个问题,也就是,是否能够避开密度矩阵避开态矢量的语言,而直接通过密度分布函数,来描述量子力学的问题,也就是量子力学的经典描述的问题,也就是隐变量理论的可能性的问题。于是,我尝试构造一个能够描述量子力学的所有公认的实验事实的密度分布函数的理论,并且说明可以但是代价非常大,更加难以理解。

我的量子输运的工作:平衡态是受外界热浴驱动导致的,那么输运问题所对应的非平衡定态也应该是一个受外界热浴(不过是两个或多个)驱动导致的。于是,我发展了多热浴的有效运动方程(后来发现别人也提了)并且提出一系列新的求解方法(Green函数展开和相干态表象的方法)。

当年的一些网络方面的小工作:关注间接关系的表达式到底是什么(例如无权网络的路径的问题通常是AC = AB + BC),关注权重到底造成什么差别(例如加权以后我们要注意,相似关系可能就不能用AC = AB + BC,不能间接联系导致更相似),关注是否存在网络的整体结构参数,例如动力学维数(在大量的临界现象中,维数起到了决定性的作用,是否可以提出几种网络的维数的一般的定义,然后在具体的模型和现象的分析中得到体现呢?)

一方面,深入地思考的快乐,被一个想不通的地方,或者解决不了的技术问题痛苦的快乐,是真正的深层次的快乐。另外一方面,能够给别人启发,促进问题解决的工作,体现一种思考的工作,是令人兴奋的工作。

快写玩这个小文的时候,想起来樊瑛说的关于我的研究和教学工作的一句话,“你把每一个工作当作一个事业来做”。有安慰我的成分。同时,不得不佩服一下,樊瑛认识的深刻,总结的到位。其实,确实是这样:每一个研究工作或者教学的方法和课程,都要体现我对这个世界的思考,还要做到尽量让读者或者学生,能体会到我的这些思考,受到可能的启发,甚至可能解决这个世界的一些问题。

待续,提醒自己读到好文章的时候整理一下其中的核心思想,作者的思考。

语文在字的层面的理解型学习

汉字可以一个一个来记忆和学习,也可以在课文中通过理解其用法来学习。这个就是通常学生学习汉字的方法。在实际学习过程中,这种学习方法要付出大量的记忆性的努力,还有通过大量的重复练习来巩固。

对于中国人,这个不是大问题,因为,汉语是已经会的,能够认字和写字也就解决了大部分的问题了。

对于不会汉语的人来说,由于同时要学会汉字和汉语,两者的联系又不是很紧密(看到一个汉字不能很好地提示其含义和读音,还有用法)。以语言和词汇为主的学习方式导致汉字成了一个语言的简单的记忆单位。例如“单位”这个词,有可能英语背景的学习者直接就整体认知成为”unit”,而不能明白其实“单”是”single”的意思“位”是”unit”或者“position”的意思,更加不能明白为什么“单位”两个字合起来就能表示”unit”的意思。于是,也就不能迁移(例如理解“单身”——如果也能够拆分成“single body”的意思就很好学会了)。同样的情况可以发生在“汉语”这个词上。只有理解了“汉语”的内在结构才能明白“汉语、汉字、汉族、汉学”等等之间的内在联系。这个说的是在词汇的层次要注意构成词汇的汉字之间的联系,也就是词汇的联系。

汉语其实还有更加深刻的内部结构:汉字本身也是有内部基本单位的,这些单位也是通过某种联系有机地结合在一起的。例如“位”这个字,为什么是”position”的意思呢?其实,这是两个不同的部分“人”和“立”,合起来表示“人站着的位置”的意思。这个是汉字的非常重要的特征。一个好的学习者,或者好的学习方案就要利用好这个特征。

例如,“黑”这个字来源于把“器皿”放在“火”上烤。如果你干过这样的事情,例如小时候玩蜡烛,就知道什么是黑了。接着这个黑字,如果我们把这个积累在器皿上的黑东西扣下来,揉成一团,象“土”一样,就得到了“墨”。再例如,跋山涉水的“涉”,原来的写法(现在还能够稍微看出来一点点),是两个脚趾头的“止”放在“水”的两边,于是就是徒步过小河的意思。顺便出道题,“往”为什么不念“主”的音,而是念“王”的音啊?通过这些例子,我相信读者就可以体会到,一旦把字的结构如何拆分、为什么这样的拆分合起来可以表达这个字的读音含义,那么,这个字就容易学了,甚至学会了也更容易用了。也就是,学活了,效率高成本低了。

于是,这就有了两个问题:第一,这样的汉字内部结构的拆分和解释的基础数据我们有吗?第二,有了这个基础数据,我们能够如何帮助汉字学习呢?

第一个问题,其实是汉字研究内部的问题。不过,如果没有考虑到第二个问题的话,其拆分,当然也很有用,不一定能够满足后面的需求。幸好,在汉字的历史上这样的拆分是有的,例如《说文解字》,尽管还不够。

汉字结构网络与理解型学习系统可以看到我们的拆分数据,以及分析计算的结果。这是一个大大的图:fullmap

第二个问题,分两个层次。在个体的层次,有了这个基础的拆分,就能够促进汉字学习者做理解型学习,也就是明白汉字的结构以及从这个结构引申到含义和读音,从而减少记忆负担。在整体的层次,我们可以问类似这样的问题:我们应该先学习哪些汉字,后学习哪一些呢?我们如何快速低成本地检测一个学习者认识哪一些不认识哪一些汉字呢?两个问题还可以合起来,了解了这个学习者所认识的字和不认识的字以后,如何利用这个信息来促进汉字的学习呢?例如,很容易想到,学习那些跨度不太远的与已经认识的字有内在联系的字可能会更容易一些。

我们的研究实际上,主要关注这个整体性的问题,也就是学习顺序、高效检测方法、个性化学习顺序这几个问题。当然,与汉字研究专家合作,建设汉字结构基础数据库也是正在开展的一个工作。

长期来看,我们还需要把汉字和汉语结合起来,开发学习材料,利用篇章的学习来带动汉字的学习,而且这个汉字的学习还需要一定程度上照顾我们的理想中的学习顺序。学习材料的开发和实验应该是一个循环上升的过程。推广或者产品化也是需要考虑的问题,不过那是其他人的事情了。很多的周边产品也可以考虑,例如,在汉字结构数据的基础上,开发一个图片或者动画形式的识字产品。例如,把整个学习顺序和检测顺序,以及学习材料做成一个汉字学习系统(软件)。

在这个工作里面,系统科学的思想,体现在从个体层次的问题到整体层次的问题的思考问题的角度上。另外,在技术上,我们需要设计好的数学模型来解决学习顺序的计算,高效检测算法的制定。同时,系统科学还体现在把一个领域的问题研究的比较深入以后,可以迁移出来,或者把别的领域的方法迁移过来。也就是系统科学所关注的类似的系统存在的一般性。

例如,实际上,你会发现,汉字的这样的利用汉字内部结构和联系(同时也是汉字之间的联系)的方式来促进学习(学习顺序和检测的问题),同样可以用来学习数学、物理学等逻辑关系比较清楚的科学。甚至,如果能够把条理不清楚的学科整理出条理来,学习效果的提升程度,应该比条理清楚的更好。

实际上,这个工作里面提出和发展的思想就是我们提出的“教的更少,学得更多”的理解型学习教学的核心。

参考文献:
1、Xiaoyong yan, Ying Fan, Zengru Di, Shlomo Havlin, Jinshan Wu, Efficient learning strategy of chinese characters based on network approach, PloS ONE, 8, e69745 (2013).
2、科普作家Philip Ball在www.bbc.com/future上对这个工作的述评

几个项目召唤研究者

除了要求比较高的非平衡疏运理论、汉字结构与汉字学习项目,目前,还有几个相对来说比较容易上手的项目需要多个研究者。我把它们总结在这里。

  1. 广义投入产出和拓展PageRank研究一个系统中主体的排名和相互影响
  2. 最后通牒博弈理论和实验的研究
  3. 几个移动App的开发

广义投入产出和拓展PageRank研究一个系统中主体的排名和相互影响
我们最近提出的广义投入产出方法和拓展的PageRank算法,可以用来讨论学术单位(大学和研究所、国家、作者)、学术领域、期刊、文章等各种主体的排名和相互关系。本质上就是问这样的问题:如果某一个主体的贡献缺失,对整体产生什么样的影响,对其他每一个主体个体产生什么影响。

实际上,这两个分析方法还可以用于经济领域的排名和相互影响,产业链或食物链中产品或者物种的排名和相互影响,专利领域和各个专利在整个专利研究中的排名和相互影响。甚至,如果有数据,例如有研究经费、研究论文、专利、专利的经济效益这个大系统的数据,我们可以讨论这样的问题:某一项研究在整个经济和科学技术中的地位。

目前,论文发表的数据比较全、专利的数据有一部分、经济领域的数据比较全、食物链的数据有相当一部分,需要研究者来开展研究。如果是研究生,就需要学习我们的方法(思想、算法和程序),然后(可能需要稍作修改)运用到以上的各种数据上,然后与各个领域的专家一起来完成找到值得呈现的结论,最后完成文章的写作。这里每一个不同的主体,例如研究领域、作者、期刊、大学等等等等,都是一个独立的有待完成的工作。

这里的具体问题主要是科学计量学和经济学,但是,如果你学会方法以后,找到其他的方向可以运用这个方法来回答那个领域内部的研究者感兴趣的问题,那么,只要找到合适的数据,你就可以开展相应的研究。

最后通牒博弈理论和实验的研究
在最后通牒博弈中,基于完全理性的博弈理论给出的结果是提议者给出最少的不为零的钱给接受者,而接受者接受这个提议。实际实验和观察的结果都不符合这个理论结果。于是,构造一个理论能够给出与实验和观察相符的结果就是一个非常重要的问题。

在现有的理论中,基本上还是坚持决策者的行为是在追求某种目标函数的最优化的这样一个思路。只不过,考虑的因素,除了钱,还包含公平性、利它性、声誉、报复、博弈着之间的联系等。当然,博弈的基本精神就是,在考虑最优的时候,不仅仅要考虑在对方行为确定的情况下自己的最优,还需要考虑对方的行为也是通过假设“我”的行为确定的情况下做优化来确定的。因此,这个最优化不是简单的单一主体和单一目标的最优化,而是多主体、多目标(通常一个主体一个目标,也可以更多)的最优化。

更一般地来说,除了“最优”的思路,我们还可以考虑“更优”的思路,也就是说,决策者不是选择最优的那个行动来执行,而是按照一定的比例来选择更优的行动(不是最好的也会被选中)。

更更一般地来说,没准,把所有考虑的因素放到一个目标函数里面,然后来考虑最优或者更优,都是理论上极大的简化。因此,有可能需要一个放弃整个这样的目标函数优化的思路来构造理论。注意,我们的大部分物理学其实也是符合这个思路的一个理论。当然,在我们不得不这样做之前,我们还是希望在这个思路的范围内来构造我们的博弈决策的理论。

具体到最后通牒博弈,我们就需要找到这样的一个目标函数,并且,这个函数里面的量都是可定义和可测量的,里面的参数,如果有的话,也是可以确定出来的。而且,根据这样的一个目标函数,我们可以通过最优或者更优的方式来给出理论结果,并能够与实验和观察相符。

目前,我们的实验方案已经基本确定下来,初步的结论也很有意思,不过,还有大量的实验工作和数据处理、理论模型的建构等工作需要展开。如果你有兴趣做一些对理论有基础性贡献的,用数学物理的角度(或者说科学的角度)来做一些社会科学理论研究的,工作,那你可以来尝试一下这个。

几个移动App的开发
在研究工作以及作为一个科学家的日常生活中产生了很多可以分享给其他人的产品的想法。有实现的价值。

例如,最近我想起来实现一个多次多通道计时器。多通道就是有多个计时的任务相互重叠,一个没有完成另一个就已经开始的情况。多次就是一个计时任务中需要设置多个提醒的时间点的情况。多次在学术报告中会经常出现,例如离结束5分钟、2分钟和结束分别提醒。多通道在完成多任务的时候经常出现。这样的功能,也可以通过专门的硬件来实现,但是在手机时代,用手机App来实现是最好的方式。当然,这个App非常小众,钱途堪忧,对需要的人却很有价值。

其他的更多的ideas还包括强制事件和日程管理、课程和报告点评等等。有兴趣和能力的,可以一起来做做。