吴金闪的工作和思考 – 第56页 – Jinshan Wu, a relational and critical thinker

课程学习的境界和老师的作用

学习一门课程的第一个阶段是理解，而且是比较深入的比较系统的理解。这个阶段，好的教材，好的本课程的老师，好的同学和学长，都能够帮上忙。当然，学生自己学会运用理解型学习（例如，通过概念地图技术）是最关键的。其他人只能是帮忙，自己才是决定因素。

第二个阶段是会用，会模仿着用，类比着用。这个阶段需要做大量的习题，欣赏和复现比较重要的例子，大师的作品。这个时候，文献会有一点作用，好的习题集也会有一点作用。

第三个阶段，需要对这些知识和技能的运用有感觉和体会。这个时候，需要大量非平庸的例子，有一定创造性的例子。这个时候你的研究生导师，或者非常投入的本课程的老师会有一点作用。

这三个阶段有递进的关系，但是时间顺序上不一定是前后的，往往是交叉的。对于完成一门普通课程的学习来说，第一个阶段就够了。但是，如果这门课程是你以后重要的基石，那么，达到第三个阶段是有必要的。

可是，你又怎能知道哪些课程才是你这辈子一直会打交道的课程呢？因此，以上的讨论都是术，真正的问题在于你的兴趣，让你激动的东西是什么？

我思考的问题都从哪里来，如何思考

对世界的各种现象的好奇心。
发现有意思的问题。
把问题数学化，构建数学模型。
从原则上看一看这个数学问题的求解的可能性以及大概的方法。
广泛地阅读和思考，受其他人和其他事情的启发。
深入地阅读和思考，有长时间关心的基本问题。
概念地图思维方法：把东西弄明白，变成自己的。这样思考的时候自然就会联系起来。

举例1：汉字网络研究

由于自身的兴趣以及某些外在因素，一直思考汉语和汉字学习的问题。
注意到汉字之间的在结构、含义和读音方面的联系，又一直在思考网络科学的问题，就把两者联系起来了。
把问题数学化：一个汉字的网络作为基本结构，学习顺序、检测顺序作为基本的问题。
学习顺序的问题稍微简单一点，可以先解决。检测顺序的问题还在研究中。
广泛地阅读和思考：网络科学以及网络科学用来解决某些问题的思路受其他人的工作的启发。
深入地阅读和思考：网络科学的问题和汉字学习的问题都是长期在思考的问题。
概念地图思维方法：内化（汉字之间的关系和网络科学的思考方法）和建立联系（把这两者结合）非常重要。很多时候突破就在这个时候产生。

举例2：介数和OD矩阵的研究

网络上的几何量以及如何用这些几何量来描述现实的世界解决现实世界的问题一直是我思考的问题中的一个。
有一天忽然想到把每一对节点的几率考虑了进来，来看看这个时候的介数。后来发现这个每一对节点的几率的量就是交通设计中的OD矩阵（出发点和目的地矩阵）。
于是数学问题就算成了：给定一个网络，给定一个OD矩阵，计算介数，让这个介数描述现实的交通流问题，与原来的介数比较哪一个更好。随着研究工作的开展，发现这个实现介数已经被人提出来了，检验和对比的工作也有人做了。
这个时候，一个自然的问题就是如果已知网络、已知流量，是否能够计算介数？
重新数学化：这个问题可以表述成为一个线性方程——一个非定的长方形的线性方程。这样的线性方程不一定容易求解。
广泛地阅读和思考：从王文旭的工作中了解到非定方程的求解之后，仔细了解了陶哲轩的相关工作。某些时候不定方程可以有某种意义上的解。
深入地阅读和思考：网络科学和数值线性代数一直是我非常关心的问题。
概念地图思维方法：内化（不定方程的求解）和建立联系（OD、介数、不定方程的求解）非常重要。很多时候突破就在这个时候产生。

在一个已经变态的社会里面，你选择一起变态吗？

昨天在南院综合楼的门口停了一辆车，把路给堵住了。车位满了，停在了路口。我小心翼翼才把自行车给弄出来，因为赶着去本院上课，就挺有意见的。

今天，我去找楼管。楼管是这么说的：这时我们楼里（一个）领导的车。这地方经常停着车呀，怎么没见你抱怨？领导的车就是应该照顾一下。要是你们学院的领导来了，我也会照顾一下。

领导的车，照顾的后果，就是没有停车位也可以停车，就是妨碍了其他人的行动。

考虑到“互利性”（你看，没准以后我的领导真的来了；没准以后我还需要有事麻烦她的地方，等等等等），这个事情我就应该算了。

可是，如果人人都把不正常的事情当作正常的，有点小小权利的人都可以按照自己的喜好来给人方便和不便，这个社会怎么办？

我见过门卫把很多人的车挡住，停满了，不让进。现在，一个楼管就可以这样做，而且原则是你是不是领导，你让那个门卫情何以堪？你让所有的制度情何以堪？一个对制度的破坏的小小的事件，就可以把一个制度完全破坏干净。

只需州官防火，不许百姓点灯，我们的整个社会的制度，不就是被这样破坏的吗？当然，至于制度是不是一个好制度，可以另外讨论。

在一个已经不正常的社会里面，你选择自己变态来适应呢，还是默认，还是接受，还是尽你所能让这个态变回来？

我准备去找找管理单位，问问，他们的制度里面有“领导就是要照顾一下”吗？

Summary of The Theory of Learning in Games by Fudenberg

First, the scope and assumptions of the question of learning in games.

Second, several learning models.

Pure Strategy Best Response Equilibrium and Best Response Dynamics

\[S^{i} = BR^{i}\left(S^{-i}\right)\]
and
\[S^{i}\left(t+1\right) = BR^{i}\left(S^{-i}\left(t\right)\right)\]
Where \(S^{i}\) is the pure strategy of player \(i\) and \(S^{-i}\) is the pure strategy state of players other than the player \(i\)

Mixed Strategy Best Response Equilibrium (Nash Equilibrium) and Best Response Dynamics

\[\rho^{i} = BR^{i}\left(\rho^{-i}\right)\]
and
\[\rho^{i}\left(t+1\right) = BR^{i}\left(\rho^{-i}\left(t\right)\right)\]
Where \(\rho^{i}\) is the mixed strategy of player \(i\) and \(\rho^{-i}\) is the pure strategy state of players other than the player \(i\)

Pure Strategy Fictitious Player

\[S^{i}\left(t+1\right) = BR^{i}\left(\rho^{-i, E}\left(t\right)\right)\]
Where \(\rho^{-i,E}\) is the empirical distribution of strategies of players other than the player \(i\) from the whole history, or certain length of the previous actions

Replicator Dynamics, mimicking the best or the better

\[Prob\left(S^{i}\left(t+1\right)=S^{j}\left(t\right)\right) = \delta_{E^j\left(t\right), Max\left(E^{1}\left(t\right), \cdots, E^{i}\left(t\right), \cdots, E^{N}\left(t\right)\right)}\]
or
\[Prob\left(S^{i}\left(t+1\right)=S^{j}\left(t\right)\right) \propto e^{\beta\left(E^{j}\left(t\right)-E^{i}\left(t\right)\right)}\]

Pure Strategy Smoothed Best Response Equilibrium and Best Response Dynamics

\[S^{i} = \bar{BR}^{i}\left(S^{-i}\right)\]
and
\[S^{i}\left(t+1\right) = \bar{BR}^{i}\left(S^{-i}\left(t\right)\right)\]
where
\[\bar{BR}^{i}\left(\rho^{-i}\right)\propto e^{\beta E\left(s^{i},\rho^{-i}\right)}\]
is a probability distribution of player \(i\)’s strategies and \(S^{i}\) takes one sample from this probability distribution at a time.

Smoothed Fictitious Play

\[S^{i}\left(t+1\right) = \bar{BR}^{i}\left(\rho^{-i, E}\left(t\right)\right)\]
Again \(S^{i}\) takes one sample from this probability distribution at a time.

Here comes something that is natural but not in the book: Quantal Response Equilibrium (QRE) and Dynamical QRE, or mixed strategy smoothed best response and its dynamical version

\[\rho^{i} = \bar{BR}^{i}\left(\rho^{-i}\right)\]
and
\[\rho^{i}\left(t+1\right) = \bar{BR}^{i}\left(\rho^{-i}\left(t\right)\right)\]
What it does is to simply replace the static/dynamical mixed best response by static/dynamical mixed smoothed best response. This is what we have done in this field: Dynamical QRE and its stability.

In principle, one can also have mixed fictitious play with smoothed best response

\[\rho^{i}\left(t+1\right) = \bar{BR}^{i}\left(\rho^{-i,E}\left(t\right)\right)\]
where \(\rho^{-i,E}\left(t\right)\) is some kind of empirical distribution of strategies of players other than player \(i\). For example, one approach can be taking average of all historical \(\rho^{j}\left(\tau<t+1\right)\)s,
\[\rho^{j,E}\left(t\right) = \sum_{\tau<t+1}\frac{\rho^{j}\left(\tau\right)}{t}.\]
Not sure this has been discussed by others or not.

All the above models can be simultaneously updated or alternatively updated.

几本书

量子力学的课堂讲稿和讲义
 系统理论基础教程
 概念地图学习和教学方法