论文主题分类研究

分类是很多研究的基础。一方面通过分类可以把我粗粒化的图景,另一方面反应内涵的分类能够帮助发现内涵。同时,论文主题分类也是概念和概念之间关系挖掘的基础。

在科学计量学里面,和主体信息(作者、单位)识别,以及核心引用文献识别,等合起来,是基础性研究工作。最近这个问题得到了比较多的关注,Scientometrics出了一个专刊。我就顺便把文献和思路整理在这里。

文献部分见这里:一个zip打包文件,以及一个整合的pdf文件

数据获取可以用APS的PACS标记数据或者见文献中的Challenge那篇文章的信息,还可以依靠MeSH, MSC, JEL。

工作主要思想,把论文或者论文中的概念抓出来处理成为实空间中的矢量(不是0,1型的离散计数矢量),然后运用矢量聚类方法。中间可以引入多层网络的思路,对作者主题论文同时做聚类。

考虑组织一个读书活动,然后同时开展研究工作。

Vee Diagram(V形图)

In order to help strudents to make better sense of their research work, I decided to teach them the Vee diagram, which comes from Bob Gowin and Joe Novak (See for example their book 《Learning how to learn》) and it basically asks the following four questions in a diagrammatic way:
1. What is your direct observation of the event or the phenomenon?
2. What can be learned from the direct observation via methods and procefure of analysis?
3. What kind of knowledge claim can be made according to the analysis?
4. What kind of value claim can be made according to this analysis and the knowledge claim?

Here is a discription of Vee diagram in the form of Vee diagram.

Here is an example of Vee diagram using the phenomenon of a bowl of ice water heated over an alcohol lamp. This example is directly from the book 《Learning how to learn》. I have to admit that I did not really do this experiment this time to check all the facts. Thus, please just use this as an example of Vee diagram.

BTW, those Vee diagrams are made in Cmaptools. You will need a V shape background picture to make the V shape and the rest can be done using just concepts.

Also when reading or writing up papers, it is a good idea to ask the following four questions, which I call WHWM:
1. What is the main message?
2. How the main message is constructed (from facts, examples, arguments, logic chains)?
3. Why this message, why construct it this way?
4. Meaningful to readers?

为了帮助学生更好地思考和解读研究结果,我决定教给学生们V形图。 V形图来自于Bob Gowin和Joe Novak(例如,可以从他们的书《学会学习》里面看到)。基本上V形图用了图形的形式问了以下四个问题:
1. 什么是你对这个现象或者对象的的直接观察结果?
2. 通过对这个直接结果进行分析能够得到什么?
3. 依据这个分析结果,可以在知识的层面得到什么结论?
4. 依据知识层面的结果和分析及国,可以得到什么价值判断层面的结论?

这里是一个用V形图的形式解释的什么是V形图。

这里是一个V形图的例子。在这里,我用了《学会学习》里面的给冰水加热的例子,但是没有真的做实验和观察了来检验一下我写下来的事实。因此,这个例子仅仅是V形图的例子。不要太深究实验现象。

另外,这些V形图都是通过Cmaptools制作的。为了制作它们你需要 一个V形的背景图来当做概念地图的背景,其他的都可以通过Cmaptools的概念来完成。

分析性阅读和写作的WHWM:
1. 什么(What)是主要信息?
2. 这个主要信息是如何(How)构建的?
3. 为什么(Why)作者要表达这个信息并且选择这样来表达和构建?
4. 对于读者来说意味着(Meaningful)什么?

博弈研究大体思路和几个项目

作为物理学家,对于博弈论的理解,可能和经济学家和数学家不太一样。最近在博弈研究上的进展还不错,也有不少的问题需要进一步研究。在这里做个小小的总结。

首先,博弈论是科学,科学就要解释实际现象。然而,博弈的理论部分——例如非合作博弈的Nash均衡、均衡的求解、均衡的选择(精炼、演化博弈)——和博弈的实验结果存在很大的差异。对于物理学家,这个意味着理论进一步修改和进步的机会,激动人心的机会。对于数学家可能会觉得不可能不相符啊,我们的假设多美美妙啊。对于经济学家,他们会说这样的不相符是经常出现的,那是因为现实太脏了,离我们的理想模型太远了。在物理学里面,如果你去做一下自由落体实验,理论计算的结果和实验的差别也是很大的,尤其是对于羽毛之类的东西。那物理学怎么办呢?第一,要(最好通过实验)验证,如果现实可以很干净(把其他因素都去掉),例如放到真空管子里面,那么,实验确实和理论相符。第二,通过计算可以把脏的其他因素一个一个加回来的,直到和实验基本符合。例如,考虑空气阻力,考虑空气阻力和落体形状的关系,考虑由于地球自转形成的Coriolis力等等。因此,实验和理论做到了相符。因此,在博弈这个问题上,我们要关心这些理论和实验不相符的地方,企图构建能够和实验相符的理论。这是最主要的思路

其次,具体哪些现象集中体现了理论和实验的差别,并且具有一定的实际意义呢——例如对于机制设计?合作是一个重要的点。在囚徒困境中,理论上大家都应该相互背叛,但是实际上连单次博弈中都存在不少合作者。在最后通牒中,理论上提议者应该给出最小值,接受者应该接受这个最小值,但是实际上,经常给出来\(30\%-50\%\),同时低于\(30\%\)的拒绝的人的比例挺高。在公用品中,在某些合适的投资回报比\(R\)的情况下,大家都应该搭便车,而不是相互合作来提高整体收益。同时,合作又是人类社会中非常普遍和重要的现象。很多时候,有的人宁愿为了某个目标而做出牺牲。当然,也有这么解释合作或者说牺牲的,说如果不合作长远来看自己的利益受损。也就是说有声誉、折现等等其他考虑。也就是自己的收益中不仅仅包含当前的货币收益。还可以看看合作是不是利他性的结果,也就是自己的收益函数中不仅仅包含自己的货币收益。还可以看看,合作是不是惩罚、害怕惩罚、厌恶不公平的结果,也就是自己的收益函数中不仅仅包含货币收益,还有情感等其他收益。

再次,针对这些现象,这个理论和实验的差距的问题,我们怎么办?如何构建新的理论?前面提到了收益函数的拓展:搞清楚收益函数都包含什么,再具体问题中如何写,各个部分的权重是什么。除了这个,还可以考虑均衡概念的推广。例如,QRE——不再是仅仅追求最大化,而是只保证收益越大的策略被选择的几率越大。

最后,还有如果把经典博弈看作是对经典对象的操作的选择问题的话,一旦那个被操作对象换成了量子系统,博弈的理论描述,包含Nash理论呢的自然推广和那个时候的实验和理论相符的理论体系,如何构建?最近在看IBM Q,看看是否能够做点实验和理论研究。

顺便,除了对概率理解和最后通牒的关系的研究,天笑这几年整的Otree的使用经验,也算一个重要学术贡献。做好整理,放在网络上,供其他人参考使用。

讲完了整体思路,结合几个具体工作,来讨论一下工作风格的问题。我最近在关心几个具体一点的实验问题:原始的最后通牒(UG)和阈值版本的最后通牒(SUG)——就是接受者提前给出来一个最低可接受值的策略而不是在提议者给出来分配方案以后来决定是否接受——在实验结果和博弈者思考上的异同;提供姓名是否会促进最后通牒中的合作——最近王震等人的实验很漂亮地说明了在囚徒困境中提供姓名可以提升合作的水平;反馈均值、背后站人等因素是否会影响个体的诚实程度——以扔色子报点数的实验为例,1-5报多少给多少,报6不给钱;是否一个学校的主性别对于本性别具有促进效果;以及我们已经初步完成的概率理解测试和最后通牒中的提议者行为的关系。

在这里,我第一个想说的事情是,实验研究的直接目的和价值目的要明确。在这里,建议大家看看有一个叫做Vee Diagram(V形图的东西,在Novak和Gowin的《学会学习(Learning How to Learn)》这本书里面有)。主要是在讲在设计实验和整理实验结果的阶段,我们用什么方式来帮助思考。直接目的和价值目的分别是什么。

第二个我想说的事情是,实验工作一定要认真细致。在没有搞清楚原始的最后通牒(UG)和阈值版本的最后通牒(SUG)的行为上的区别之前,就想做网络的SUG并且还宣称自己在做UG是有问题的。这不是在做博弈,而是在研究其他花招的影响,或者对其他花招的影响。这个不是我们解决博弈理论和实验之间的差别这个核心问题的路子。更进一步,单人二人的没有清楚,直接上多人的也是问题。再进一步,单次的没有清楚,直接做多次的并且是轮换角色的多次(轮换角色加上SUG的二人单次的结果是什么是一个问题),也是问题。例如,在王震的工作中其实有两个因素是否之前就认识提供决策的时候是否提供姓名。他们目前的工作尽管不错,但是,考虑了认识的提供姓名,不认识的不提供姓名的结果,原则上还需要考虑不认识的提供姓名和认识的不提供姓名的实验结果。这样才能够区别声誉对报复的担心和提供姓名对行为的影响。在后面的几个研究中,我也没有做到随着实验的进行来调整实验方案,例如,提供均值的应该考虑更长一些的轮数。学校主性别的应该考虑刚入学的学生和后来的学生的区别,甚至国内的和国外来留学的学生的区别,提供均值的也应该考虑国内的国外的和混合的的区别。通过认知细致的实验来区分不同的因素的影响,这是需要非常注意的问题。这一点在从UG到独裁者(DG),再到信任游戏(TG),再到人和机器的实验,再到人和机器并且提供概率的实验,这个整体思路的设计上,体现的尤其深刻。

关于UG和SUG,我还想通过策略显示方法来做一下实验,看看,是不是接受者确实可以用阈值模型来描述,是不是提议者对接受者的认知可以通过阈值模型来描述,还是说,一定要概率分布函数的描述。

另外,无风险利他博弈的主要研究思路,初步结果的意义,进一步研究的问题等,也总结一下发给我,我放在这里吧。总结的时候可以考虑用V形图

练手层次的问题:昨天天笑让我看Nowak2000年的science文章。看到用演化博弈解释不给最小值,主要就通过获取历史信息来实现。但是,其中用到的是SUG。希望有学生能够用演化博弈做一下原始UG。

数学家经济学家生命科学家物理学家追热点的工作终于被JoI接受了

Menghui Li, Liying Yang, Huina Zhang, Zhesi Shen, Chensheng Wu, Jinshan Wu, Do mathematicians, economists and biomedical scientists trace large topics more strongly than physicists?, Journal of Informetrics, 11(2), 598–607(2017).

经验获得:1. 用的专有名词,即使跟之前的其他人使用的意思基本无关,即使看起来一点也不像专有名词,还是要把它和之前的联系起来,做好明确的区分。2. 如果有可能,让领域内的专家读一遍提一提问题,会很有帮助。就是这样的专家不好找。以后还是要尽量多找找。

额外获得:通过这篇文章额外收获了两个合作者。 他们还是觉得这一系列工作,尽管有各种非专业的缺陷,但是,很有新意,很不错。合作项目已经基本设计好。

科学学研究工作整理

以下是部分已经完成的工作和正在开展的工作。欢迎所有人来合作和讨论。甚至直接拿过去做就行,只要做的时候给我一个消息

在科学学方面,核心的创新是围绕下面几个方面:科学学三层网络框架、间接联系、概念网络。对于什么是科学计量学这个问题的认识,可以看之前的总结。具体研究工作随手记下来的有这些:

  1. 框架和间接联系用于论文-专利-基金分析,回答相互联系的问题,用于作者-论文-主题回答作者论文多样性创新性问题、作者论文主题评价排序的问题、相互影响的问题。方法上考虑发展广义投入产出用于多层网络。
  2. 广义投入产出用于单层网络(个方法的比较:固定外界的,封闭系统的,目标外界的,以及和pagerank的比较)
    1. 把基金数据和aps国家数据合并,做成一个基金国家当做外界,国家乘以领域作为投入产出部门的投入产出表,分析某国家的基金总量或者某领域的基金对于某国家某领域的贡献
    2. 领域为单位的投入产出表(文章已发表, Journal of Informetrics)、国家领域为单位的投入产出表、城市领域为单位的投入产出表、期刊为单位的投入产出表、论文为单位的投入产出表。间接影响,排序,相互关系。
    3. 引文网络中的真引用:给定论文,其引文中最关键的,引用其的论文中最受其影响的(Measuring academic influence: Not all citations are equal, Transitive reduction of citation networks, Tracing the evolution of physics on the backbone of citation networks)。
  3. 追热点和领域演化问题:
    1. 中国科学家是否经常在领域变热之后大规模加入,还是有提前量:分析领域大小时间序列和这个国家论文这个领域论文数量时间序列的相关性,时间延迟相关性和Granger相关性(李梦辉)。
    2. 领域演化的Allometric标度律(文章已发表, Scientometrics)和科学家发文章追热点行为(文章已发表,Scientifc Reports, Journal of Informetrics,链接是arXiv上的,等JoI出版正式版本再修改链接)
    3. 引用论文是否存在热点追踪现象:把论文的引用次数当做热点指标,看每个单位时间内的新引用分布是否符合现有的文章的热度的函数(李梦辉)。
    4. 论文审稿等待时间、被引用次数、作者属性(h指数、文章数量、被引次数、获大奖)、 文章标题属性、图的属性(数量、是否美观等)、参考文献属性(数量、总被引次数)等之间的相关关系分析。等待时间和被引用次数的工作已经发表于Scientometrics
  4. 大鱼吃小鱼,平等和效率的问题。先看平等问题,将来再看好不好,效率问题
    1. 中国和国际科学家的基金金额和工资,是否存在大鱼吃小鱼现象,Gini系数的时间演化规律。同样的问题可以在学校研究所的层次来讨论(沈哲思)。
    2. 学校层面还可以讨论其他指标的Gini系数,例如总学生人力资本量。投入阶段,可以用高考成绩,产出阶段不好办。
  5. 学科概念地图到学习顺序、状态检测,到hem效率降低。
  6. 作者的问题选择,追哪些因素
  7. 多大才够大,用于期刊学校科学家(教学、科研)评价。
  8. 三层网络用于论文聚类,考虑word2vec。和单层网络比较。
  9. 数据建设:
    1. 整合wos和专利、基金
    2. 建立学科概念地图(自动Wikipedia、人工)
    3. 利用机构领域,加上合作网络,来做作者姓名识别。
  10. 服务:
    1. 综述点评网
    2. 技术部门-学科领域相互关系研究发布(做图用方块,横向直接纵向间接?)
    3. IOF各主体排序
    4. 做一个软件给每篇文章产生一个概念地图形式的摘要
    5. 科学计量学iof分析软件(IO-Scope)