能看到光是多么神奇的事情啊

今天上课,讲了无介质波的叠加原理——z方向向上态和z方向向下态可以加起来变成x方向向上态,或者说x偏振和y偏振可以加起来变成某个角度的偏振光,而不是一会儿x一会儿y偏振的组合。忽然想起来,其实,我们能够看到光,这件事情是多么的神奇啊。例如,Einstein就曾经特别想不通这件事情。

白炽灯的光,我们天天见,从来不觉得神奇。连多想一下都不会去想,如何神奇呢?待我慢慢道来,来挑战你的思考。

先看水面的波:扔一个石头(假设石头特别小,看做一个点),水波沿着水面扩散。如果在某个地方有一个观测者——例如一个浮漂,则过一段时间,水波传播到了那个地方,浮漂就会动,也就是观测者看到和水波。这个时候,基本上可以预测,沿着某个圆圈(石头入水处为中心经过这个浮漂的一个圆)的其他地方都可以观测到水波。这个水波很好理解——很好理解可以解释为原则上可以通过牛顿定律来计算。

再来看灯泡发出来的不神奇的光:假设灯丝特别小,看做一个点,则我们会看到和水波一样的事情——当某个地方的观测者看到光的时候,我们可以推测,同样大圆(这时候是大球)的地方的其他观测者也会看到光。当然,由于光的传播速度很快,有可能我们的日常生活体验会告诉我们说,只要一个地方有光任何地方都会有光。

为了解决这个问题,我们需要做两件事情:走的比较远,以及让灯丝每个时间段里面仅仅发出一个光的能量单元,或者一个批次的光的能量单元。这样的一个实验装置是有的,而且这样做好像很无辜啊,没什么特殊之处。现在,我们沿着这个无辜的思路来看看特殊之处。

在这个对于把光看做是水波的第一阶段的认识,我们发现,实际上,我们是把光相当于看做是通过某种介质往外传播的东西。这样,我们就有了一个光和光的传播的心智模型——介质上的振动,和水波类似,只不过沿球面向外传播。这个看起来好像很有道理,也一点都不奇怪。

当然,实际上,我们知道光的传播不需要介质,也不可能有介质。这个需要做个实验来证实,例如第一个让光在真空中传播一下,第二个做一下著名的迈克尔逊-莫雷实验。我们在这里就先承认光的传播不需要介质。这时候,我们再来看,白炽灯的灯光在某处被一只眼睛接收到这件事情。

那先这样看:试试豌豆射手射向四面八方的豆子的模型。灯泡光发出来的光,可以看做是由去往四面八方的一个个光子构成的一群光子合起来的效果。针对这个模型,眼睛能够接收到光也一点都不奇怪,就好像有一个圆形的弹幕,其上任何一点都可能接收到豌豆射手射出来的豌豆。为了看到这样的一个解释的不足,我们来调整一下光源——让光源在任何一个时刻只能射出去一个光的能量单位(称为光子),就好像豌豆射手在任意一个时刻(中间可以特意做成某个时间的间隔)仅仅射出去一个豌豆一样。这样的单光子光源的调整真的是实验上能够做到的。如果要让现象差不多一样,则需要豌豆或者光子的出射方向是某种意义上的随机的方向。

这个时候的随机有两种形式:一种是,任意一个时刻出射的光子都可能向着任意的一个方向,也就是一个所有的方向都具有同样大小的概率密度的概率分布函数;另一种是,任意一个方向上都具有概率密度幅的,整体上表现为所有的这样的概率密度幅加起来的某种分布函数(量子力学的语言,称这样的密度幅的“分布函数”为密度矩阵)。大概来说,相当于
\begin{align}
\rho^{c} = \frac{1}{Z}\int d\Omega \left|\theta, \phi\rangle\langle \theta, \phi\right| \\
\rho^{q} = \frac{1}{Z}\left(\int d\Omega \left|\theta, \phi\right\rangle\right)\left(\int d\Omega \left\langle \theta, \phi\right|\right)
\end{align}
这些公式都是示意公式,仅仅表示前者是概率相加,后者是概率幅相加的意思。现在,我们来看这两种解释哪一种比较有道理,如果我们用它们来理解眼睛看到光的时候的光的状态这件事情。

我们先来看第一种——概率组合。首先,某个方向上的眼睛能够看到光这件事情在这个模型下,很好理解:正好那个随机的光子跑向了那边,于是就刚好被探测到了。这个时候,在这个时间间隔内,其他任何地方都不会探测到光子。注意,在这里,由于经典随机性的存在——例如当我们观测一个随机的硬币发现是正面的时候,就是因为刚好看到了正面,我们不用去担心那反面的几率上哪里去了,怎么会消失了的这件事情——我们不需要担心其他地方的光子跑到哪里去了的问题:那些地方仅仅是有光子到达的可能,而不是真的有光子跑到了那些方向去了,然后由于某个方向上实际探测到光子,这些其他方向的光子又需要从其他方向消失,或者说相当于“塌缩”到正好被观测到的方向的问题。

注意,这个时候,回到水波的模型。如果水波上,我们也看到了类似的现象——一个石头扔进去以后,在某个方向发现了水波,但是其他任何方向没有水波——则,肯定需要问上面那个问题:其他方向的水波难道就真的“塌缩”到了刚好被观测到的方向吗?因此,我们就发现,由于有这个物质波而非介质波的效果——能够控制一个个光子来传播,而不需要介质来产生振动来传播,实际上,介质波的理解是有问题的:真的需要解决瞬间“塌缩”如何发生的问题。所以,初始的用水波来当做光波的心智模型的尝试是不对的。

上面已经提到了,把介质波改成概率波,可以解决这个瞬间“塌缩”的问题。那么,是不是概率波就是对的呢?这个需要做一个叫做双缝干涉或者Which-way实验来证明概率波模型也是错的。如果是概率波,假设我们仅仅取整个空间中的两个方向来做实验——在这两个方向上各自开一个缝,其他的方向上都挡住。先测量仅仅打开一个缝的情况,得到一个经过这个缝到达屏幕的一个实验结果——一个光子达到屏幕的分布函数。这样得到两个分布函数。然后,在考虑概率叠加原理,当一个事情有两种互斥的方式发生的时候,整体的结果等于两个结果的概率相加,于是,我们就得到了打开两个缝的实验结果——应该是分别打开的情况下的概率相加。然而,实验结果发现,不是概率相加,同时具有相长和相消的效果。相消的效果是不能够用概率相加来解释的,如果一定的概率妈妈给孩子五块钱,一定的概率爸爸给孩子十块钱,则平均来看孩子的钱肯定在五块到十块之间。但是,量子的实验告诉我们,有可能得到两块钱,或者二十块钱。这个仅仅在做矢量叠加的时候才有可能,在概率相加的时候是不可能的。

这样,我们就被逼又回到了光子的各个方向概率幅相加的心智模型。可是,这个模型的数学形式和介质上的波很像——在那里,振动方向可以做矢量叠加,于是也就会出现不在五块到十块之间的情况。

问题又来了,如果确实像介质波,那么,我们就又要问,如何来理解瞬间“塌缩”的问题:在某个方向上看到光子之后,整个空间就没有其他光子了,这个看起来,相当于,把观测值钱的其他各个方向上都具有探测到光子的可能性,全部都“塌缩”到了观测到光子的那个方向了。如果确实是这样,将会是大问题:我们可以离光源很远很远,几百万光年,于是,其他方向的光子完全不可能用任何方式传播或者说“塌缩”到观测到光子的方向上去。这怎么办?

其实,这还是用了介质波来理解概率幅波。几率幅波真的没有表示有真的光子传过去的意思,因此,也就不需要在探测到光子的那个时刻,把其他方向上的光子传回来的这个步骤。如果是介质波,就需要这一步。因此,在介质波上也就看不到这样的现象:仅在某个方向上探测的光子,其他方向完全没有探测到光子。

在这个思考中,针对不同情况的实验结果,我们尝试了光的介质波模型、概率波模型、几率幅波模型的介质波理解、几率幅波的几率幅理解。我们发现,只有后者能够解释眼睛看到光这件看起来如此简单的事情。当然,我们还有一个隐藏的要求:不管哪个光子的实验,其结果,都可以用统一的理论来计算和理解。

通过这个例子,在知识上,我希望能够促进对几率幅波的理解,能够促进对什么是科学以及科学和数学的关系的理解——科学就是一个系统化的能够得到和实验现象相符的可计算分析的心智模型的集合;在思维方式上,能够学会不断地层层递进地做批判性思维和对比性系联性思考。同时,我也想通过这个例子说明:学习就是学会一双眼睛,从平凡中看到神奇,从神奇中复又看到平凡或者平凡和神奇的共存。学习是为了理解世界。

LightDetection

机器学习能够学会量子力学吗?

经典和量子系统的行为和理论有很大的区别。一般认为经典的数学模型(欧式空间矢量、概率分布)是不能描述量子系统的。见经典和量子的区别

之前我提出来一个训练机器学习来求解Schrodinger方程的研究计划,看看是不是仅仅通过问题和已知的答案,能够得到一个Schrodinger方程求解器。见训练学习机用来求解Schrodinger方程

不过,由于写成Schrodinger方程之后,量子力学太像一个经典方程了,因此,就算能够学得出来这样的求解器,也不奇怪。如果得到波函数,然后加入测量,得到的实验结果,能够通过学习器给出来,就真的非常奇怪了。

于是,我提出来从光学实验的仪器组合出发,给定训练样本:仪器、组合、实验结果,然后看看是否能够在未训练的实验上也得到和量子理论一致的结果。

如果证明能够学到,也就是通过从一堆实验仪器和过程以及相应的测量结果里面学习到的模型能够用来给出正确的另一套同样的但是顺序方向等细节不一样的实验装置的测量结果的话,倒是比较简单,当然意义非凡——相当于找到了量子系统的经典理论,也就是实现了隐变量理论的目标,如果我们的学习机还是经典的话;如果数据结论是反面的,那逻辑结论比较难办——很有可能是没有解决好,而不是方法和思路有问题。因此,需要做好一个对比:类似的经典的情况,机器学习能够完全学到没有任何问题,然后同时,对比量子的情况,学不到。最好再增加一个量子学习机的学习结果对比,如果量子学习机能够学到,经典学习机学不到,而且经典学习机在类似的经典问题中能学到。这样就能够稍微更加有说服力一点,尽管还是有可能不是方法和思路的问题。

具体研究计划如下

  • 理论上,量子力学提供了三样东西来描述量子系统:状态矢量或者说密度矩阵以及投影测量的计算(在此,我们仅关心投影测量)、叠加原理以及什么情况下叠加原理可用、演化方程。所谓学习到量子力学指的就是学到这三样东西,或者说学到和这三样东西给出来的结果一致的某个东西。演化方程为了简单计,另外也可以相信如果学会了密度矩阵和叠加原理演化方程的部分更加容易学会,就暂时不考虑。
    1. 状态描述和测量在量子力学的语言下是这样的:量子系统的状态是密度矩阵\(\rho\),测量一个物理量得到的状态\(O\)是这个物理量对应着的算符\(\hat{O}\)的本征态之一\(\left|o\right>\),其概率是\(\left<o\right|\rho \left|o\right>\),测量后状态是\(\left|o\right>\left<o\right|\)。
    2. 叠加原理在量子力学语言下是这样的:如果一个量子系统有多种可能的状态,例如经过不同的路径上的装置到达同一个地点的自旋或者光子,则整体状态是两个可能状态对应的矢量的叠加态,也就是,如果\(\rho_{a}=\left|\psi_{a}\right>\left<\psi_{a}\right|\),\(\rho_{b}=\left|\psi_{b}\right>\left<\psi_{b}\right|\),则合起来的状态是\(\rho=\left|\psi_{a}+\psi_{b}\rangle\langle \psi_{a}+\psi_{b} \right|\)。由于这个叠加性的适用条件牵涉到是否不可区分,而是否不可区分牵涉到纠缠态和部分迹,这一点,也可以暂时不考虑。当然,密度矩阵和矢量空间本身包含的叠加性已经体现在上面那一条里面了。
    3. 因此,整个所谓量子系统的行为能够不用量子力学而是用经典学习机来学到的问题,也就成了学习到能够用来给出正确的测量结果,并且这个测量结果不包含多条路径可区分的问题。于是,主要的实验结果就成了描述下面的量子系统的实验行为,当然其中这些磁场的方向可以随意更换。
      SG
      其中的实验(c)实际上是不能用任何经典理论来解释的:在制备阶段被消灭的状态后来在最后的测量中会再一次出现。
  • 量子力学对这个问题的计算很简单:给定一个\(\left(\theta_{1}, \phi_{1}\right)\)方向的装置,挡住\(-\xi=\pm 1\)的一面让\(\xi\)的一面的光子进入下一步实验,则这个时候光子的状态是\(\left|\xi \hat{r}\left(\theta_{1}, \phi_{1}\right)\right\rangle\left\langle \xi \hat{r}\left(\theta_{1}, \phi_{1}\right) \right|\),它是算符\(\hat{r}\left(\theta_{1}, \phi_{1}\right) \cdot \vec{\hat{\sigma}}\)的本征值为\(\xi\)的本征向量,其中\(\vec{\hat{\sigma}}\)是三个Pauli矩阵。于是,如果这个状态,如果遇到一个\(\left(\theta_{2}, \phi_{2}\right)\)方向的测量,则测量结果可能是\(\eta = \pm 1\),其相应的概率为\(\left\langle \eta \hat{r}\left(\theta_{2}, \phi_{2}\right) \right|\left. \xi \hat{r}\left(\theta_{1}, \phi_{1}\right)\right\rangle\left\langle \xi \hat{r}\left(\theta_{1}, \phi_{1}\right) \right.\left|\eta \hat{r}\left(\theta_{2}, \phi_{2}\right)\right\rangle\),测量后的状态是\(\left|\eta \hat{r}\left(\theta_{2}, \phi_{2}\right)\right\rangle\left\langle \eta \hat{r}\left(\theta_{2}, \phi_{2}\right) \right|\)。

  • 给定量子问题训练集:也就是上面的图(a,b,c),其中磁场方向可以任意,对结果做量子力学计算来得到结果并用结果来标注。进行训练。训练得到的学习机用来预测测试集的实验结果。也就是说,我们运用这几样东西——若干个某个方向的磁场,挡住某个方向的输出的物块——来组成任意的实验过程,机器学习的目的是给我们这样的实验过程的正确的结果——表现为最终向上和向下输出的概率

  • 作为对比,我们提供量子力学的计算框架,在已知这个计算框架的条件下来学习,看看经典学习机是否能够学到。也就是给定
    \begin{equation}
    \left|\xi \hat{r}\left(\theta, \phi\right)\right\rangle = \left[\begin{array}{c}\alpha \left(\theta, \phi\right), \beta\left(\theta, \phi\right) \end{array}\right]^{T},
    \end{equation}
    看看能否学习到这些函数\(\alpha, \beta\)。

  • 给定经典问题和训练集:考虑一个经典多面体,其状态是多面体\(S\)中的一面\(s\)以及这些面的概率分布\(\rho\left(s\right)\)。有了这个多面体也就有了改变这个系统的状态的方式,也就是算符\(\Lambda\)——其每一个元素是\(s\)个状态的置换矩阵——和所对应的物理操作。然后,通过在给出来这些作用算符和测量算符的顺序并且做好结果标记的训练集上做训练,跟量子系统的学习一样,能够对新的算符的组合给出来正确的测量结果。

我们想看一看,是否经典系统的学习可以成功,量子系统给出来数学描述的需要学到函数的学习也可以成功,但是,量子系统的学习不会成功。如果真的是这样,那么,就表示,基于经典模型的学习机不能学到量子力学。

如果还能够给出来一个量子学习机的框架,并且学习成功,那么,就从一个全新的角度——让全能的经典学习机去试试——基本回答了量子隐变量理论的问题。

为什么要在系统科学导引里面讲物理学尤其是量子力学?

为什么要在《系统科学导引》课程里面讲量子力学?

首先,量子力学本身和其他物理理论甚至其他数学理论都非常的不一样,量子系统的行为也和通常大家熟悉的经典世界行为非常的不一样,因此不知道量子行为和量子理论的人生是不完整的:有一扇门你没有打开看过。

其次,更加重要的事情是,量子力学和量子系统的行为的关系,非常好地体现了什么是物理学,什么是科学。

科学是现实世界的心智模型,而且这些心智模型最好是系统化的:也就是说,这些心智模型是经过科学家门的整理和选择之后的,相互没有矛盾(或者有矛盾但是不妨碍解释力和简单性)的最简单的解释力最强的模型门的集合。能够解释现实是这些心智模型的最核心的特点。

物理学就是关于这个世界的物质层面的构成、状态和状态的变化这些事情的心智模型。由于要考虑物质的状态和状态变化,于是时间和空间也成了物理学的主要研究对象。由于其他的事情总是发生在时间空间里面,并且有一定的物质基础,于是,物理学这个关于自然界如何运行的科学,也就成了其他学科的基础。于是,拆分的思想(搞清楚对象物质的最小的组成部分,然后再重新合起来)和从部分到整体的思想,还有中间最关键的相互作用的思想,在物理学里面都有很好的体现。

那为什么在有可能体现物理学和科学的以上的思想的所有子学科中,偏偏把量子力学强调出来,在概论部分学一次,在数理基础部分再学一次呢?

第一、量子系统的行为非常容易实现和观察到,甚至比做自由落体实验还简单。
第二、很容易发现,量子系统的行为不能够用经典数学(位置矢量、概率分布)描述。
第三、量子系统的数学模型——Hilbert空间矢量和算符,以及所带来的对测量过程的理解的挑战,非常难以有直观的理解。
第四、量子系统的数学模型能够很好地解释量子系统的行为。
第五、基于量子系统的数学模型,也就是量子力学,后来发展起来的其他理论(独立或者通过量子化经典系统)很多都非常有意思和有意义,可能具有更加一般的意义。

那为什么还要学习力学和统计力学?

力学是为了补充物理学的基本概念(位置、速度、动量),还有学会使用最小作用量和Hamilton方程的语言,从而给量子力学和统计力学做铺垫,也方便将来学习最优控制等更加专门的内容。另外,有一些例子也体现了涌现性,以及相互作用的特殊地位。

统计力学里面很好地体现了从个体到整体的视角,里面有值得学习的关于相互作用的处理的理念和技术。另外,Boltzmann分布本身也是非常值得学习的具体内容。系统和系综在很多时候有助于思考问题。从一定意义上说,从个体到整体从直接到间接的系统科学本质上就是把统计力学的思想和技术,当然还要随着问题来发展一些新的,用在更加一般的系统上,而不仅仅是物理系统。