“项目学习和概念地图用于机器学习”学习小组

有一些研究工作,例如文章的监督分类和非监督分类、概念和概念之间关系的自然语言处理,需要尝试一些新的分析算法。受到最近照片分类的工作的启发,打算用机器学习来试试。这个学习小组定位在理解了的工具的层次,旨在自觉自发地创造性地运用机器学习来处理自己工作中的问题。

学习材料整理,见小组目前的成员的博客,以及本网站上的相应论坛

把学习小组的要求提一下。小组成员分成两种类型:严肃的学习者和贡献者、感兴趣的人。对于感兴趣的人,我们不提非常明确的要求,仅希望积极参与讨论。学习者和贡献者需要做报告,报告之前需要提前阅读(听课)和准备。准备工作需要做好总结(图形化,推荐概念地图、思维导图):整体思路、重点问题和项目的联系(也就是应用的问题)。所准备出来的材料最好事先先传到小组的网站。

希望有兴趣的严肃的学习者来参与。

电梯池塘十字路口等图像识别和自动报警软件

有人在电梯里面困住,有人从桥上落下去,有人在路上出事故。现在,基本上是监控摄像全覆盖的。能不能做一个图像识别系统,把危险的事情都识别出来,并自动报警?

识别的方法可以基于规则,也可以基于大数据和算法(例如先收集一大堆危险的事情的视频,然后人工分类,接着训练)。

这样,妈妈再也不用担心我在小池塘玩耍了。

借贴:食堂菜品点评系统。给食堂的菜按照内容、位置和师傅编码,然后,可以让学生来点评。对于好评的菜给相应的师傅和食堂奖励。这个应该可以提高食堂的菜品的质量。

利用就餐卡数据实时显示每个食堂的现有人数,平均用餐时间,下一个时间段之内可以用餐完毕的人数。同理,用在澡堂等其他公共服务设施上。还可以进一步用来做科学管理,例如按照在校生数量(门卡)来决定开食堂澡堂等。

甚至可以给每一个教室(或者至少教学楼)安装上刷卡进入的设备,实时统计。用这个甚至可以考虑做学习时间的分配和管理的参考甚至研究。

广义投入产出分析用于科学学的文章出来了

http://www.sciencedirect.com/science/article/pii/S1751157715300717
Interrelations among scientific fields and their relative influences revealed by an input–output analysis
Zhesi Shen, Liying Yang, Jiansuo Pei, Menghui Li, Chensheng Wu, Jianzhang Bao, Tian Wei, Zengru Di, Ronald Rousseau, Jinshan Wu

科学领域间相互关系及相对影响的投入产出分析

这是一篇原创性比较高的文章。Journal of Informetrics也是信息科学领域有影响力的期刊。

通常一个学科领域内有很多个子领域。我们的工作试图回答以下两个问题:第一、这些子领域哪一个最有影响力?第二、给定某一个子领域,其对其他的子领域有什么样的影响或者其最受哪个领域的影响?他们把经济系统中的Leontief投入产出方法改造成为一个封闭系统的方法。然后用这个封闭系统投入产出方法回答了以上的两个问题。这个封闭系统的投入产出方法具有广泛的适用性。

经济系统可以看作包含N各部门,如农业、纺织、矿业等。Leontief 投入产出分析的做法是构造一个线性方程,把最终需求部分独立从投入产出网络中出来当作已知量,把各个生产部门的总产出当作未知量。这样可以回答,当最终需求产生一定的变化时,各个生产部门的总产出需要做怎样的相应变化。投入产出分析里面最重要的思想是:直接影响(最终需求本身)和间接影响(生产最终需求直接所需要的各部门投入,生产这些投入的投入,……)必须同时得到考虑。

同样,在科学领域的关系中,也必须考虑一个领域对另外一个领域的直接引用,这些引用的引用,这些引用的引用的引用,等等。于是,问题就成了一个如何综合考虑直接和间接引用的数学问题。

在科学领域的关系中,由于没有最终消费部门,我们提出封闭系统的投入产出分析方法:放弃线性方程的描述而采用本征向量的方式来分析,同时我们通过研究去掉一个部门的结果来看一个部门的影响。对于我们的封闭系统矩阵,去掉第k行和第k列,计算这个矩阵的本征值和本征向量,计算这个矩阵的最大本征值与1的差,这个差就是产业部门k的影响力,相应的本征向量就可以作为产业部门k对其他部门的影响的度量的基础。

用上述方法分析了美国物理学会(APS)杂志上发表文章的数据。把每个一级分类号(PACS)看作一个部门(子领域),把子领域i中文章对子领域j中文章的引用数量作为j领域对i领域的投入,经过归一化建立子领域间的投入产出关系。

首先研究了不同时期子领域的相对重要性,以及重要性的演化。通过分析投入产出分析方法得到的子领域相对重要性与子领域总被引用次数的相关性,发现两者具有正相关性。但也有一些特例,如统计物理(05)的在投入产出分析中得到的排名高于利用引用数所得到的排名,说明统计物理在对其他领域具有重要的间接影响。


图1 投入产出重要性排名与引用次数排名的相关关系。

另外给出了子领域相对重要性的演化过程,随着总引用次数的增加,发现某些领域的重要性(IOF-Z Score)在增加,如03量子力学,而某些领域对其他领域的影响力在降低,如74 (超导,这不表示其自身的重要性在降低,仅仅是对其他子领域而言)(图2)。


图2:1991至2011年间相对重要性(IOF-Z Score)与引用次数(Total Citation)的关系。点击图片会显示动画

另外,发现03量子力学的重要性排名在随时间增长,在2011年成为了影响力最强的子领域,而有的领域在一直下降。


图3 :20个最有影响的子领域影响力排名变化图。

这个工作提出了封闭系统的投入产出分析方法,并应用在美国物理学会杂志发表的文章记录上。发现通过考虑直接连接和间接连接,这个分析方法可以比通过引用次数和文章数挖掘出子领域间深层次的相互关系。这个方法还可以用来分析所有具有投入产出关系的系统中各个元素的影响力和相互影响。

除了科学领域(其他的领域的也可以做了),后续的这个方法用于其他研究主体:科学家、学校、城市、国家、基金单位,都可以开始做了。

顺便,借个贴:今天再看了一遍Susskind的关于Feynman的Ted talk,https://www.ted.com/talks/leonard_susskind_my_friend_richard_feynman。在怎么做研究,怎么讲课,怎么思考上还是很有感触。推荐大家都看看。也推荐都看看Feynman的讲义和小册子们。

广义投入产出研究基本文献

首先,了解投入产出:Input-Output Analysis Foundations and Extensions by Ronald E. Miller and Peter D. Blair.

其次,了解PageRank:The PageRank Citation Ranking: Bringing Order to the Web by L. Page, S. Brin, R. Motwani, and T. Winograd;Google matrix analysis of directed networks by Leonardo Ermann, Klaus M. Frahm, and Dima L. Shepelyansky。

接着,了解科学学:Bibliometrics and Citation Analysis: From the Science Citation Index to Cybermetrics by Nicola De Bellis

接着,了解流平衡分析和系统生物学:Systems Biology: Properties of Reconstructed Networks by Bernhard Ø. Palsson,What is flux balance analysis? by Jeffrey D Orth, Ines Thiele and Bernhard Ø Palsson

最后,几个领域连通起来的视角(前面的所有的准备就是为了能够明白这个):PageRank: Standing on the Shoulders of Giants by Massimo Franceschet,Spectral Ranking by Sebastiano Vigna,吴金闪的广义投入产出分析和细节投入产出分析投入产出矩阵分析的主要思想小结,以及吴金闪的报告《广义投入产出分析》

所有的知识的学习的出发点都可以是Wikipedia和google。

在理解和了解这一基本思想和这些学科的基本研究问题之后,可以思考如何用这个思想来解决这些学科的基本问题,以及还可以用来解决其他哪些问题(注意,我们的汉字学习的工作——Efficient Learning Strategy of Chinese Characters Based on Network Approach——实际上也是这个思想的一个应用)。

争取以后每一个领域,我都整理出来基本文献,供后来人使用。

刚才学生问,做什么样的研究。研究工作只有两个目标:顶天(最高深最核心的学问)、立地(最具实际性的学问)。如果还能够从立地的问题中提炼出顶天的来,或者把顶天的用于立地 的,就更加有意思了。其他的,不解决这两个问题以及它们的联系的学问,都不是学问,比如大多数研究者跟在人家屁股后面的工作。可借鉴,不跟从,要么钻研深刻的理论核心问题,要么解决实际问题中能够用非平庸的数学结构解决的问题。

学生还问,为什么我从来不直接给答案。当学生或者其他意图学到东西的人问我一个问题的时候,我通常会问更多的问题,意图是:搞清楚学生的根本问题在哪里,铺设台阶引导其思考,逼迫学生思考背后的原因然后能够做到举一反三。如果学生的答案有错,我也不会告诉他错了,而是沿着他的思路,问更多的推演的问题,然后让学生自己意识到答案的问题。这样做,学生能够得到的收获会更多。但是,大部分人都不是客观的思考者,会觉得我顺着思路把他逼到墙角,是不可接受的事情,于是,所谓的自尊伤害了思考。当然,这也是物理学家的问题,很多时候,他们把所有的问题简单地当做科学问题,分不清楚生活问题和科学问题的界线,搞不清楚学生的自尊和搞清楚问题有什么关系。这个也只能提醒自己一下,一不小心,就又忘了。

经典和量子的区别

有人让我用一句话总结一下经典和量子的区别。其实,Feynman已经说了,如果你懂得了双缝干涉,就懂得了量子力学的一切。不过,我也试着写下一句话。

经典世界不存在事物的加法,仅有数量的加法,而量子的世界存在事(物)的加法。

更具体一点,经典世界里面一个苹果加一个苹果是两个苹果,不是一个大苹果。加法不在苹果集合上,而在苹果数量集合上;量子的世界里面,一个苹果(自旋z方向向上)加一个苹果(自旋z方向向下)可以成为梨(自旋x方向向上),也可以什么变成更小或者更大的苹果(两个都向上但是系数不一样可以抵消或者相长)。

经典概率,如果有多种可能的发生方式,整体结果只能每一种可能的方式的结果加起来,不会比其中任意一种得到的结果还要小。

思考单电子过双缝的实验结果和过单缝的实验结果的联系,思考光过三块偏振片,光过相机镜头,光过两条光路上的极化偏振片,Schroedinger的猫,就可以体会到以上这些。

当然,你可以问,尽管这样的数学(有事物的加法)可以描述量子的现象,难道就没有别的语言吗?

当然,你也就可以思考发现,经典物体的操作也不存在加法,只有乘法,所以他们构成群,然后量子物体的操作同时有加法和乘法,他们构成李群。

于是,更加抽象地说,量子和经典区别是:经典力学是非李群上的力学,量子力学是李群上的力学。