职位-任务-技能列表以及老师的时间去哪里了

一个科学化管理的社会,对每一个职位应该有一个大概的任务和技能的预期。当然,更加应该鼓励开创新的职位、任务甚至技能。如果没有一个职位-任务-技能列表都不知道是否真的社会发展到了开展出来新的职位的那一步。因此,一个职位-任务-技能列表是非常重要的。在具体实践中,这个列表也是对各个职位上工作的人的保护,还能够为职业选择提供指导。在移民国家,这个列表也是移民官员和申请人的一个重要参考资料。因此,很长时间以来,我都希望能够建立一个中国的甚至更基本的国际的这样的列表。不同国家的列表可以在这个一般列表上修订。甚至我们还有可能可以对比不同历史时期的这个列表。

在做教学方法和教学思想的推广的过程中,遇到很多老师和管理者问,我们连自己停下来思考的时间都没有,就算我们非常赞同这个思想和方法,也不可能来实现它啊。于是,更加促使我开始思考建立这样一个列表,并且从教育行业,尤其是中小学教育开始。看一看老师们的时间都去哪里了。看一看多少时间老师们在做本职工作。例如是否课程老师的时间实际上没有花在课程上,而在班主任这个保姆工作上,或者在完成各个政府部门的任务上,等等。

今天刚好想得详细了一点,就写下来。任何人想实现它都欢迎,打个招呼,甚至不打,都行。

本项目的核心目标就是编制一个大致的某行业的主要职位的主要工作任务和技能列表,我们称为“职位-任务-技能列表”。例如,大学教师,主要完成教学任务(包含备课、讲课、作业反馈、课程总结、教材或者教学书籍写作)和研究工作(主要包含文献阅读整理、问题提出、研究计划制定、研究实施、论文写作、学术报告、研究结果的社会意义讨论等),以及社会服务(主要包含公众报告、研究成果转化、咨询、政策建议等),主要技能有学科专业素养、书面表达、讲课报告等口头表达、科学精神等。这样一个列表对于职业选择人生规划、职位设计、制度设计(例如,是否应该让中小学班主任专职化)等后续研究是非常重要的。这个列表不仅仅是一个集合,还是一个层次性的分类代码网络。例如教学任务包含备课,备课包含课程规划、阅读教材和参考文献、参考其他类似课程(尤其网上课程)的资料、试讲、准备教具等更加细节的任务,而课程规划包含更加更加细节的课程目标和当次课的目标的选择、课程和当次课的主要概念的选择、课程和当次课的主要例子的选择、课程和当次课的开展方式的选择等等。课程开展方式包含讲授为主、实验演示、翻转课堂、师生之间的讨论课、学生同辈之间的讨论课等等。同时,除了在具体的某行业做好这个列表之外,探索一个能够推广到其他行业的来制定其职位-任务-技能列表的标准流程,也是本项目研究的目标之一。当然,本项目是探索性的,尝试可行性的研究。后续正式研究是否以及如何开展依赖于这个探索性研究。

目前,我们已经开展了两方面的前期研究。第一、收集整理了几个移民国家(美国、加拿大)供移民官员所用的职位-任务-技能列表。第二、在中小学教师的这个行业里面做了初步调查,制定了初步的任务层次结构网络。

研究方法上(技术上)我们主要采用,资料收集、问卷调查和对问卷和资料结果的网络科学分析。同时,这个项目还大大地依赖于研究者对所选取的具体行业的了解。只有足够深入的了解加上科学的分析方法,才能够真的深入下去,建立好这个行业的职位-任务-技能列表,同时建立起来一个能够推广到其他行业上的操作规范(或者称为标准流程)。资料收集比较简单直接,而且已经完成了相当一部分。问卷调查计划通过网站和纸面两种方式来进行。后续还希望通过开发方便用户记录工作任务的手机应用App来代替问卷调查。最后,技术上,对问卷和资料结果的网络分析是本项目技术上重要的创新,或者说这个探索有可能成功的关键。

大致来说,我们需要把调查对象按照所记录的主要任务来分类,而不是按照记录下来的“职位”、“职称”或者其他表面标志来分类。很有可能两个称呼完全不同的职位的任务和技能是类似的。这个就需要对得到的数据做聚类分析,而且不是一般的层次聚类,而是多关系网络上的聚类分析。更具体来说,就是建立一个职位-任务-技能-个体四层网络模型:任何一个被调查对象,联系着一系列职位、任务和技能。在这个四层网络上做多关系的聚类分析有可能可以给出来哪些核心任务和核心技能构成一个职位这样的信息,而不是通过被调查对象所报告的表面信息或者人工一个一个人一个一个职位去分析。社会网络分析方法再这个问题上具有独特的优势。

主要研究方向和研究工作整理

思想:间接联系,整体行为
工具:网络科学,广义的传播,投入产出、PageRank、传染病模型、其他间接指标及其描述能力

科学计量学:大方向——如何服务于研究者(文献内容标注、粗糙自动摘要、推荐、研究工作重要性、基础性文献选择、领域发展情况、科学家行为特征)和决策者管理者(科学技术整体性联动分析、重要领域的重要研究者和重要工作)。技术问题——领域标注、作者识别、文献整合。基本框架:所有的数据和问题都可以用多层网络来描述,分析计算技术就是给这个问题找一个网络上的算法。这个算法最好还能够体现间接联系,整体行为。

具体项目:

博弈:根本问题——能够描述博弈者行为的博弈理论长什么样。思路:往收益函数里面增加哪些项,智力因素或者其他因素如何进入,选择最优还是某种更优。

具体项目:

汉字学习和一般概念的学习:通过事物之间的联系来理解和学习,从个体的联系到整体的顺序,学习材料编撰,实验,检测算法。

具体项目:

机器学习能够学会量子力学吗?

经典和量子系统的行为和理论有很大的区别。一般认为经典的数学模型(欧式空间矢量、概率分布)是不能描述量子系统的。见经典和量子的区别

之前我提出来一个训练机器学习来求解Schrodinger方程的研究计划,看看是不是仅仅通过问题和已知的答案,能够得到一个Schrodinger方程求解器。见训练学习机用来求解Schrodinger方程

不过,由于写成Schrodinger方程之后,量子力学太像一个经典方程了,因此,就算能够学得出来这样的求解器,也不奇怪。如果得到波函数,然后加入测量,得到的实验结果,能够通过学习器给出来,就真的非常奇怪了。

于是,我提出来从光学实验的仪器组合出发,给定训练样本:仪器、组合、实验结果,然后看看是否能够在未训练的实验上也得到和量子理论一致的结果。

如果证明能够学到,也就是通过从一堆实验仪器和过程以及相应的测量结果里面学习到的模型能够用来给出正确的另一套同样的但是顺序方向等细节不一样的实验装置的测量结果的话,倒是比较简单,当然意义非凡——相当于找到了量子系统的经典理论,也就是实现了隐变量理论的目标,如果我们的学习机还是经典的话;如果数据结论是反面的,那逻辑结论比较难办——很有可能是没有解决好,而不是方法和思路有问题。因此,需要做好一个对比:类似的经典的情况,机器学习能够完全学到没有任何问题,然后同时,对比量子的情况,学不到。最好再增加一个量子学习机的学习结果对比,如果量子学习机能够学到,经典学习机学不到,而且经典学习机在类似的经典问题中能学到。这样就能够稍微更加有说服力一点,尽管还是有可能不是方法和思路的问题。

具体研究计划如下

  • 理论上,量子力学提供了三样东西来描述量子系统:状态矢量或者说密度矩阵以及投影测量的计算(在此,我们仅关心投影测量)、叠加原理以及什么情况下叠加原理可用、演化方程。所谓学习到量子力学指的就是学到这三样东西,或者说学到和这三样东西给出来的结果一致的某个东西。演化方程为了简单计,另外也可以相信如果学会了密度矩阵和叠加原理演化方程的部分更加容易学会,就暂时不考虑。
    1. 状态描述和测量在量子力学的语言下是这样的:量子系统的状态是密度矩阵\(\rho\),测量一个物理量得到的状态\(O\)是这个物理量对应着的算符\(\hat{O}\)的本征态之一\(\left|o\right>\),其概率是\(\left<o\right|\rho \left|o\right>\),测量后状态是\(\left|o\right>\left<o\right|\)。
    2. 叠加原理在量子力学语言下是这样的:如果一个量子系统有多种可能的状态,例如经过不同的路径上的装置到达同一个地点的自旋或者光子,则整体状态是两个可能状态对应的矢量的叠加态,也就是,如果\(\rho_{a}=\left|\psi_{a}\right>\left<\psi_{a}\right|\),\(\rho_{b}=\left|\psi_{b}\right>\left<\psi_{b}\right|\),则合起来的状态是\(\rho=\left|\psi_{a}+\psi_{b}\rangle\langle \psi_{a}+\psi_{b} \right|\)。由于这个叠加性的适用条件牵涉到是否不可区分,而是否不可区分牵涉到纠缠态和部分迹,这一点,也可以暂时不考虑。当然,密度矩阵和矢量空间本身包含的叠加性已经体现在上面那一条里面了。
    3. 因此,整个所谓量子系统的行为能够不用量子力学而是用经典学习机来学到的问题,也就成了学习到能够用来给出正确的测量结果,并且这个测量结果不包含多条路径可区分的问题。于是,主要的实验结果就成了描述下面的量子系统的实验行为,当然其中这些磁场的方向可以随意更换。
      SG
      其中的实验(c)实际上是不能用任何经典理论来解释的:在制备阶段被消灭的状态后来在最后的测量中会再一次出现。
  • 量子力学对这个问题的计算很简单:给定一个\(\left(\theta_{1}, \phi_{1}\right)\)方向的装置,挡住\(-\xi=\pm 1\)的一面让\(\xi\)的一面的光子进入下一步实验,则这个时候光子的状态是\(\left|\xi \hat{r}\left(\theta_{1}, \phi_{1}\right)\right\rangle\left\langle \xi \hat{r}\left(\theta_{1}, \phi_{1}\right) \right|\),它是算符\(\hat{r}\left(\theta_{1}, \phi_{1}\right) \cdot \vec{\hat{\sigma}}\)的本征值为\(\xi\)的本征向量,其中\(\vec{\hat{\sigma}}\)是三个Pauli矩阵。于是,如果这个状态,如果遇到一个\(\left(\theta_{2}, \phi_{2}\right)\)方向的测量,则测量结果可能是\(\eta = \pm 1\),其相应的概率为\(\left\langle \eta \hat{r}\left(\theta_{2}, \phi_{2}\right) \right|\left. \xi \hat{r}\left(\theta_{1}, \phi_{1}\right)\right\rangle\left\langle \xi \hat{r}\left(\theta_{1}, \phi_{1}\right) \right.\left|\eta \hat{r}\left(\theta_{2}, \phi_{2}\right)\right\rangle\),测量后的状态是\(\left|\eta \hat{r}\left(\theta_{2}, \phi_{2}\right)\right\rangle\left\langle \eta \hat{r}\left(\theta_{2}, \phi_{2}\right) \right|\)。

  • 给定量子问题训练集:也就是上面的图(a,b,c),其中磁场方向可以任意,对结果做量子力学计算来得到结果并用结果来标注。进行训练。训练得到的学习机用来预测测试集的实验结果。也就是说,我们运用这几样东西——若干个某个方向的磁场,挡住某个方向的输出的物块——来组成任意的实验过程,机器学习的目的是给我们这样的实验过程的正确的结果——表现为最终向上和向下输出的概率

  • 作为对比,我们提供量子力学的计算框架,在已知这个计算框架的条件下来学习,看看经典学习机是否能够学到。也就是给定
    \begin{equation}
    \left|\xi \hat{r}\left(\theta, \phi\right)\right\rangle = \left[\begin{array}{c}\alpha \left(\theta, \phi\right), \beta\left(\theta, \phi\right) \end{array}\right]^{T},
    \end{equation}
    看看能否学习到这些函数\(\alpha, \beta\)。

  • 给定经典问题和训练集:考虑一个经典多面体,其状态是多面体\(S\)中的一面\(s\)以及这些面的概率分布\(\rho\left(s\right)\)。有了这个多面体也就有了改变这个系统的状态的方式,也就是算符\(\Lambda\)——其每一个元素是\(s\)个状态的置换矩阵——和所对应的物理操作。然后,通过在给出来这些作用算符和测量算符的顺序并且做好结果标记的训练集上做训练,跟量子系统的学习一样,能够对新的算符的组合给出来正确的测量结果。

我们想看一看,是否经典系统的学习可以成功,量子系统给出来数学描述的需要学到函数的学习也可以成功,但是,量子系统的学习不会成功。如果真的是这样,那么,就表示,基于经典模型的学习机不能学到量子力学。

如果还能够给出来一个量子学习机的框架,并且学习成功,那么,就从一个全新的角度——让全能的经典学习机去试试——基本回答了量子隐变量理论的问题。

这就是科学啊

最近在和小勇还有汪明他们在合作一个交通网络重要道路和节点的度量的项目。我们需要提供一个去掉一段道路或者一个节点以后的某种损失的度量。他们拿到这个度量以后会结合地质或者其他灾害发生的几率,来衡量风险。

当然,直接的度量,就是考虑每一段道路或者节点目前的流量。不过,由于其不再能够承担这些流量,其他的节点和道路上的流量还需要做相应的调整,因此,不能仅仅考虑直接流量。那么,如何来度量这个直接加上间接的流量效益呢?

最关键的就是这样的流量损失会重分配或者说传播。这是讨论这个问题的第一个关键点:传播,或者说直接到间接。

第二个思路上的关键点是假想地去掉一个(或者多个)单元的思想——Hypothetical Extraction Method (HEM)。

有了这两个思想和看问题的角度,我们可以考虑如下具体的算法:

  1. 用最短距离重分配,维持外界对系统的总需求不变的情况下,对比各个路段和节点的新流量和旧流量。
  2. 用PageRank算法来看看,去掉路段或者顶点之后,对比PageRank矩阵的本征矢量。这样做有间接效益,但是,意义不明确。
  3. 用投入产出分析加上HEM。这么多方法,用哪一个呢?
    1. 传统投入产出+HEM。数据本身只有道路系统和流量,没有外界。这个简单,把每个节点的总输出看做一个叫做“社会”的外界传播过来的流量,把每个节点的总接收到的投入看做一个叫做“社会”的外界从系统里面取走的流量。因此,这个HEM描述的是在外界和系统的关系不发生改变的情况下,去掉一个节点或者一段道路,系统的应对。
    2. 目标外界HEM。按照
      \begin{align}
      X = \left(1-F^{\left(-k\right)}\right)Y^{\left(k\right)},
      \end{align}
      当\(Y^{\left(k\right)} = x^{k}_{j}\)的时候,计算出来的\(X\)就是\(x^{k}_{j}\)在系统里面传播的效果。于是,\(\sum_{ij}\left(1-F^{\left(-k\right)}\right)_{ij}x^{k}_{j}\)就体现了\(x^{k}_{j}\)的乘数效应。于是,正好就能够用来度量路段\(kj\)的重要性。

    3. 本征向量HEM。一个投入产出矩阵的最大本征值对应的本征向量代表了这个生产系统的最优投入结构——每一个部门最好就需求这么多或者供给这么多。在交通问题里面,这就代表最好每一个节点上的总进或者出的客流的最有配比。当然,实际客流的结构不一定就是这个最有客流的结构。于是,这里相当于,仅仅从道路结构还有目前的客流分配方式来考虑,去掉一个节点或者一段道路前后,这个最优配比的变化。

除了描述单一路段或者单一节点的影响力,我们还可以考虑同时去掉两个路段或者节点的影响力的问题,以及这样的影响力和两者分开去掉的影响力之和的对比。很有可能,我们能够看到干涉效益——两者之和不等于同时去掉两者的效益。更进一步,这样的干涉效益,是不能通过仅仅考察直接流量来反应的,是我们这个方法特有的。

能够找到一个问题,同时三种方法都可以自然地用上,也是不容易的。这三个计算分析分别反应了道路和节点不同意义上的重要性。

除了这个具体工作,通过这个工作,我们还发现:

  1. 传播很重要(PageRank或者投入产出或者更一般的流平衡分析)
  2. 去掉一个点或者边来讨论重要性有意义
  3. 去掉两个点或者边可以反映更深刻的干涉效益。

这些是具有一般意义的。要把它们在各种系统里面实现,来解决具体系统的问题。从具体问题到一般方法,再到更一般的视角或者思想,然后回到更多方法,更多具体系统。这就是科学啊。

原则上,广义投入产出研究的四个方法——开放系统矩阵逆、封闭系统右本征向量HEM、封闭系统左本征向量HEM(也就是PageRank和PageRank HEM)和封闭系统目标外界HEM,按照所面对的系统是开放的还是封闭的,只能采取相应的方法。

但是,通过下面的手续(这个手续受这个交通系统的具体工作的启发),无论面对的系统是封闭还是开放系统,这四个分析方法完全都可以使用了。如果是开放系统,通过补充上那个作为外界的系统的数据,就成了封闭系统了。如果是封闭系统,通过加入一个假想的“外界”——把每一个节点到其他节点的出流当做从“外界”传过来的,把每个节点接受其他节点的入流当做到“外界”中去。这样系统就成了一个处处守恒的系统了。然后,把这个“外界”当做开放系统分析方法中的外界,就可以把这个封闭系统改造成开放系统来做后续分析了。

单个顶点,多顶点的传播能力

早上在思考汉字学习和检测的问题,从认得和不认得(初始状态是未知)的两个状态的传播问题,联系到一个状态——也就是传染病——的传播问题。当然,其实,两个状态的传播问题也可以看作是两种相互促进或者阻碍的疾病的传播问题。

从这个角度来说,选择顶点的问题相当于识别这样的问题中的高影响力传播顶点。考察这样的顶点的一种方式是让传染病从这个顶点开始传播,然后计算传播范围(或者速度)。除了这个通过现象来考察的办法,是否还存在着几何度量——通过对网络结构做一番计算就能够给出来这样的顶点?例如度或者其他中心性,甚至最小支配集等。

从支配集的角度来说,相当于提出了一个多层网络上的双支配集问题,以及支配集在渗流和传染病中的意义的问题。

从实际过程的角度来计算传播能力还可以考虑:网络中一对顶点的传染能力(也就是把这一对当做初始感染者),以及和单个顶点传染能力的对比。汉字学习和检测的模型,也可以看做好多初始传染者的模型。找到这样的特殊对,和hem一样,就表示隐藏关联。还可以讨论这样识别出来的对和顶点,是否,很大程度上依赖具体的传染病。如果不是,就表明有找到几何度量的可能。

参考文献:

  1. A measure of individual role in collective dynamics
  2. Understanding the influence of all nodes in a network
  3. Predicting epidemic outbreak from individual features of the spreaders