我的老师

我经常跟人分享我从我的老师们那里学到和体会到的东西,还有我从我的同学以及我的学生们那里体会到的东西。今天我挖出来了2003年我写的我的老师当中的几位的bbs帖子,保留在这里。

最好的老师当然是学识(指的对所教的课程和专业的具体知识的理解的深度和广度,对这个学科是什么的认知)和涵养(对这个学科的情感深,鼓励学生思考、表达、批判,允许学生不循规蹈矩,不是大多数人看到这个词想到的“脾气”)都好。我认为,如果不凑巧,我需要在学识高涵养低的,或者学识低涵养高的老师中选择,我选择后者,因为学生喜欢这个学科、感想敢批判、喜欢思考会思考比懂得很多知识更重要。

我自己当老师提出来的要求是,按照学生对这个学科的大图景(典型对象、典型问题、典型思维方式、典型分析方法、和世界还有其他学科的关系)的把握,对学科的情感,还有学习方法(系联性思考和理解型学习)这些目标来选择尽量少而精的内容和具体例子来做教学。这个和我遇到的这些老师们是有非常大的关系的。因此,留在这里,用自己分析和回忆用。

当时的提纲要比这个长很多,但是,不知道什么时候能够把那个提纲里面的东西写完。
搞丢了写的裴寿镛老师的那一节,伤心。找个时间补充上。裴老师的教学对我的教学和研究的影响都非常大。还有Mona Berciu、杨展如、狄增如等等。

得道的数学人——王家銮

呵呵,很有意思,我竟然很自然的选择一个数学老师作为开始,我可是学物理的呀。王是我们一年级的分析课的老师。按照物理系的惯例,应该称为高等数学课,为什么我一定要叫分析课呢?因为,王,从来都是按照分析的思路来教的。他总是说,你们物理系的学生,要想数学家一样地理解数学,千万不能只把数学当作工具,如果实在说你们和数学的学生有什么不同的话,那就是你们除了理解数学的美妙之外,还要学会算更多的积分,呵呵。王,小小的个子,有点陀,骑一个小小的自行车。但是,你绝对不会忽略他,因为,他总是很有精神,或者,借用金大侠的概念,他周围有一种气,得道之人的真气。一直对天龙里头的扫地和尚很向往,每一次,他总是把佛门经典放在慕容傅或者萧远山经常取书的地方,希望能够引领他们由武入道(好像应该由武入佛)。可惜,金大侠最后也不能免俗,让他具有不可测之武功。实在,这个人,应该是一个洞悉佛理而入道真正高僧,何必在乎武功呢。王,就是这样一个由数学入道,真正理解数学,并且能够用他的理解来“超度”众(学)生的人。不知道他的数学上的研究做的怎样,也不知道他赚了多少钱,之类的“武功”或“成功”怎样。但是,他的黄金时期,是在工厂里度过的。听他说,在那时候,这个瘦瘦小小的人,还是工厂里,以及北京市,打乒乓球的高手。呵呵,他说的时候很自豪。不过,他最自豪的时候,是站在讲台上,刚刚证明完一个定理的时候。这时候,他会挺直身子,昂起头,(下意识地)提一提好几层楼的裤子,让目光在教室里巡游几圈。那时候,你分明能够感受到这个小个子爆发出来的力量和气势,真的觉得,那就是那个当年证明这个定理的人在当时的感觉和形象。那一份对数学的爱和景仰,那一份对数学的真正感悟,这时候,从您的精神世界里走入了我们这些众生的心里。所谓佛祖的拈花指和迦叶尊者,也不过如此了。

有一件小事,也许更能说明王的得道。那年他有110左右的学生,改卷子不是件轻松的事。所以,我主动请缨,可是,那时候,我也是考试的学生,而且考试的全是我的同学呀。不过,我向来比较迟钝,就没想到过。但是,王,想都没想,就说,好呀。不过,给你一个奖励,不能让你白帮忙,先让你知道你自己的成绩吧。于是,把我的卷子先找出来,三下两下就先搞定了。然后,指着一个证明说,看着对,感觉起来缺点什么,终于十来分钟以后逮着一个地方了,扣两分吧。呵呵,我无言。王自己是一个坦荡的人,学生不学生的,避嫌不避嫌的,显然不在他考虑范围之内。幸好,当时,我也是这么一个坦荡的人,当然我其实是缺心眼。要不然,就是那个老和尚背小姑娘过河以后,就会对身旁纳闷的小和尚说,我早就放下了,你怎么还背在心里。当然,要放在现在,我还是会想帮忙,不过,肯定会罗里罗唆的说一堆之后。除非有一天,我完成了从缺心眼到有心眼再到坦荡荡的入道过程。

师母身体不好,我们就成了他的关门弟子了。后来倒是还见过几次,但是真正的一次交谈却是师母辞世以后了。王还骑着那个小单车,头发白了很多,嘱咐我好好努力,不过忘了我是哪一级的了。确实是淡如水呀,呵呵,我好像也还勉强算个君子。如果,你在校园里看见一个骑着小单车的小老头,请你对他笑一笑点一点头,哪怕他不曾是你的课任老师,实际上他的精神通过你的老师们和师兄们仍然在点化着你的心灵。当然,需要你一点点慧根。

物理系第一夫妻店——漆安慎杜蝉英

物理系有很多家夫妻店的,呵呵,这很奇怪。奇怪吗?不奇怪吗?奇怪吗?呵呵,不扯了,但是,公认的(真的?当然?真的?你个星爷,都影响了我的正常思考了)第一夫妻店肯定非漆老师和杜老师莫属了。

漆和杜是我们第一年力学的老师。力学,在物理系本系的学生而言,不是一门普通的课。什么意思呢,新的物理知识是学不到多少的,反而学点数学,但是,新的眼界,才是这们课的精髓。从内容上来说,所有的物理知识,高中就学过了。所以,用系统的全新的逻辑来组织学生的知识体系,用物理学的提出和讨论问题的方法培养学生像一个物理学家一样的思考问题,用物理学的研究问题激发学生的兴趣,才是这样一门课的目标。所以,力学,是导论课。引导我们走上(或者离开)物理学的道路的课。当然,这样的一个目标太高了,而且客观地说,漆和杜的课在第一点上非常成功,第二点上比较成功,第三点就比不上前面两个了。当时,漆问我们一个问题,什么是力?哎,乖乖,真的不知道哎。我们只知道什么是弹力,什么是重力,还有拉力,推力之类的,什么是力?没办法,我们只有用F=ma来说了。然后,漆就接着打,如果,F=ma是力,牛顿定律是什么?一个定律表述的是几个已经知道含义的东西的关系呀,再说了,如果我们只有通过F=ma来知道力,那怎么解题呀?我们就说,实际上,我们总是先知道力才求运动的呀,所以,还是能做。漆老师就接着引导说,所以实际上,我们需要从别的地方知道力的信息。当然,最后,不知道,怎么曲里拐弯的就提出了什么从动量定理开始力学理论的一个框架。现在,我已经忘了当时的感觉了。想想,一个新的逻辑框架,对于一个自命为数学型的物理学生的冲击吧。所以,大学的物理学习,几乎是从被人提壶灌顶开始的。不过,从这里,我们学到的是,像一个理论物理学家一样的思考。

漆和杜的心血决不止于此。他们总是提出一些很粗糙的问题,初看起来,没头没脑的,只有一个大致的方向在。比如,课堂上讲过一个什么什么游乐场的什么机器,什么火箭的飞行,思考题中的就更多了,比如,什么滑板的花样动作等等。总而言之,就是一堆模型化之前的破玩意。但是正是这堆破玩意,教给我们什么是模型化。漆和杜管它叫做物理中的理想模型。当然,实际上应该是整个科学中的模型化过程。整个自然科学都是在Plato的世界中研究现实,尤其是数学。由一个很有趣的例子,我一直用,当别人问我什么是物理学的时候,它就来自于漆的转述,忘了原创者是谁了。物理学就是奥地利的火车时刻表。奥地利的火车总是不准,于是由一个乘客就去问站长,既然你们的火车每次都不准,为什么还要这样一个时刻表呢?站长的回答是,如果没有这样一个时刻表,你就连不准时都不知到了呀。是呀,物理学就是这样一个东西,提供一个这个世界运行的基本图景,这样你就可以理解这个世界了。准不准,能不能预测,不是物理学要解决的问题,当然能够解决更好。最近几年,把物理学的思想和模型应用于社会学很热闹,什么经济学,人类行为学之类的,很多人希望它能预测,很多人批评它预测的不准,呵呵,其实,物理学只是想搞明白为什么会这样,而不是将来会怎样。就算对于一个简单的微分方程系统,仍然有混沌呢,还是不可精细预测。我看的第一本关于混沌的书——那本《混沌开创新科学》的报告文学,就是杜推荐的。很好很好的一本书,很细致,很敬业,很激动人心。我差一点就决定玩玩这个,不过,从那以后,对这个一直很关心就是了。

漆和杜最有特点的地方是答疑。问题无难易无巨细,照答不误,而且,企图用启发性回答,反正不会便宜你给你答案就是了。想想,这样,回答一个问题要多长时间呀。所以,每一个星期,我都专门整理出一个晚上的时间来,找出几个问题去答疑。没问题了,也去看着别人问问题,或者问问两位老师自己都不清楚问的是什么的问题。可是,有一个学生,阿路,每一次都问一些我都听不明白的问题,但是,漆和杜每次都回答的特别仔细。后来知道,杜给了他一本理论力学的书去看,因为,阿路的问题只能在更高的层次上来解决了。在后来听说,在那学期,阿路连理论力学也学完了,呵呵。关于阿路的故事,以后有机会再说,反正故事还在发生着呢。漆和杜最动人之处不仅仅在于教学,每一次,我们都说,那是做学问的夫妻的典范。漆讲课的时候,杜就做助教;杜讲课呢,漆也做做学生,做做助教,还曾经在课堂上问问题呢,哈哈,好玩。他们俩都特能聊,每次遇见或去看他们,都要准备上好几个小时的。

后来,漆身体不好,每次见面,杜就提醒我们,别让他尽兴聊,说两句就可以了。但愿以后身体能够好转,我们再跟您俩聊。听说,现在小师弟们都说力学课大不如前了,所以,还需要您俩在出马去辅佐年轻人呢,希望宝刀不老。(这次整理新加上的)后来没几年,漆生病走了,第二年杜也走了,尽管杜本来身体不差。相互扶持走过一辈子的两人,可能确实分不开。现在,我每次讲力学部分,总要突出力学作为科学导论的地位,以及力学整体逻辑框架的问题。我自己认为,着也能够勉强算作继承两位老师的思想吧。

生命在于传道——梁灿彬

在认识梁老师之前,就对那一头银发有了深刻的印象。那是一种精神抖擞的白,白的锃亮,再加上梁走路也像一阵风,看多了金大侠的书,觉得,俨然一高人呀。偶尔自己头上有一根白头发,总是看一看够不够白,然后不舍得拔下来。要是有人要替我拔去,我就会说,那是我刻苦学习的标志呀,得留着。

初识梁,是在一次讲座上,两个小时,深入浅出的讲座,深深地吸引了我。这玩意儿够劲,我得玩玩这个。于是,下个学期(一下)我就跑去嚷嚷着要选课。梁问我,你知道什么是线性空间吗?矢量我倒知道,这个线性空间,没听说过。那我建议你下学期再来,是不是觉得现在的课不够玩呀?呵呵,他怎么知道的,真厉害。

于是,与梁的缘分,真正开始却是在二下了。一下子过去了一年半。一讲起课,梁就神采飞扬,穿着衬衣,卷起袖子,写着一手巨漂亮的字,画着巨传神的示意图。按梁的说法,那是带我们在爬山,历经一座座山峰,留下一个个脚印和一滴滴汗水,感受着数学和物理学的美。所以,微分几何,是用来改造思维方式,提升认识问题的层次的。不过说起来,脚印倒是有我们的,汗水却大部分属于梁的。梁之于教学,是一种对完美的追求。梁的粉笔是经过特殊的处理而来的。梁把粉笔包在一块布里面,布应该是湿的,但是没有仔细琢磨过,不知道到底含有多少水分。后来,我也试过,不是太湿了写不出字,就是不均匀容易断。所以,仅此技术,不知道要花多少时间才能琢磨出来。难道梁是妙手偶得之,对于一双会魔术的手,倒是也有可能。不过,这只是梁那精心准备的N万分之一。讲义上的,每一句话,不仅仅是逻辑结构,都是经过了梁的精雕细琢的。有时候,为了我们突然冒出来的一个主意,梁会把讲义中相关的部分,做一个天翻地覆的调整,然后,让我们比较。有些时候效果会好一些,往往大多数时候,还是原来的好。但是,梁从来不放过这样的机会,也许还能更好呢,他肯定想。梁现在的书上,切矢量空间,有两种定义方法,抽象算符形式的,和曲线切矢的形式。当时,梁改过三次,最后确定抽象算符更好。但是,既然写在书上的是两种形式,想必,又花费N多心血了。

我不得不说,经过梁的熏陶和没有经过的学生是不一样的。看问题的角度和高度不一样。我想,这也就是梁花费的心血的价值了,一种道的传承。如果问一问,生命和传道,孰高?于梁,这可能是个难题,或者说非常容易。梁有时候会说,他正在与阎罗赛跑。呵呵,玩笑之中透着执著。不管身体好不好,不管刮风下雨,三九三伏,只要站在讲台上,梁就能流风溢彩,仿佛,那三尺讲台就是灵魂之所在了。

梁的书有几个很有特点很有意思的附录,把算符、映射的空间结构用于量子力学,以及用于李代数,乃至量纲分析。似乎,梁希望把所有的核心的物理学,用这样的结构重新表述,似乎,梁希望把自己所有的体会都能传之于后学。是呀,这样的一个宏伟目标,确实需要与阎罗试比高了。而这个做学生的,竟然,随随便便就荒废了这么多光阴,为什么不能要求自己抓紧学习线性空间及时赶上呢。不过,后悔药是没有的了,希望能够吸取教训。每一次,想起梁的一头银发,想起梁的匆匆脚步,心里总是充满力量。

(这次整理加上的)我自己的教学,企图做到精简,做到“教的少,学得多”,通过整理整个学科的框架来选择最有必要的东西来讲,突出对学科的基本问题、基本研究思想和方法的认知,突出学生对这个科学的情感,突出各个部分之间的联系,突出学生的学习方法,应该说很大程度上受梁老师的教学风格的影响。不过,我们两也有很大的不同,我去求全,不求多:要讲就讲透(这个一样),但是不一定把学生可能遇到的问题都讲而是留给学生去碰壁(这个不一样),很多东西我不讲(这个不一样)。

王永成——这个wwwwjs有点烦

其实,王从来没说过这样的话,我想他也没有认为我有点烦(按照惯例,应该,而是很烦),所以这个标题的意思,是我自己觉得,对王来说,呵呵,我把他烦的够可以的了。王的课讲的还可以,就是声音太小,所以,群论的效果比数理方法好,人少呀。不过,不管数理还是群论,都是数学的讲法(于是为什么教这些,就欠缺了点),所以,我倒是很喜欢。

为什么我要说自己烦呢?王把绝大部分的时间都用来讲复变函数,而不是数理方程。而我那时候,竟然不知道天高地厚,真的拿了一本复变函数的书来看,而不是咱们物理专业的数理方法教材上的不伦不类的东西。你知道,这玩艺儿里头的玄妙东西太多了,实变函数就够复杂的了,还要把数域扩大到复数。光一个Cauchy定理就够折腾的了,再加上我这个愣人,呵呵,大家可以想象我有多惨了。于是,不能光让我自己惨呀,我得去折腾老师去,答疑呀。呵呵,这样的学生!其实,去见王之间,我也没底,上着他的课,看着别的书,而且不是他指定的,王自己也可能没看过。反正,不管三七二十一,一股脑儿的把我的一大堆问题扔了过去。呵呵,王是个牛人,不管多少问题,不惊不诧,兵来将挡,水来土淹,堪堪搞定。不过,看着那略带疑问的眼神,我就知道,我应该把底牌亮出来了。我给他看了那本书,然后说,您看,我就做这个作业吧,至于咱课上的作业,咱不交了吧。呵呵,于是,王是大学中第一个明确允许我不交作业的人。

先且重点讲复变函数有什么好处呢?第一,当然,数学的逻辑更清楚,有利于以后发展。第二,就是等到积分变换和数理方程的时候,条件、定理、概念都会清楚的多。再说了,Fourier变换是第一个接触到的Hilbert空间,当然要用数学的方法来揭示结构了。当然,其实我不知道王是不是这么想的,反正正好对我的胃口就是了。

不过,这并不是被我折腾的全部内容。最惨的一次,是我心血来潮,搞了一个二维环形电荷分布的电势计算,竟然从解析函数搞到级数展开,最后还想以此为例证明某一个书上的收敛判据可以更广或更严(忘了)。这下子,把王还有他的助教全折腾起来了。最后结果是什么,我也已经不记得了。只记得一件事,过了一阵之后,又一次答疑,王说,只有一个学生还这么折腾过一次,那时候他教原子物理,那个学生把习题都给做了,连累他也要全做一遍。说的时候,很有点怀念那样的岁月的样子,感觉起来,这个学生简直是王心中的学生典范了。于是,我坦然了(本来就?),对于王这样的老师,你去问他深入的问题,甚至他不得不为此化上很多额外的时间,他绝不会计较的。后来,我每每看见他答疑一个人坐着的时候,总是想找个问题问问,也算有个借口可以聊两句。

说起来,这门课的体系,还有一个可以改进的地方。数理方程的本征值和初值问题,都可以用Green’s Function的方法统一地解决的。而其中的格林函数方法要比物理学中很晚才能学的到用的到的更加普遍一些。当然,这也是我在这里“被迫”给人讲课才知道的。

哦,对了,王说的那个学生,我没记错的话,叫冯世平。

拍肩膀称兄弟——刘大禾

我们好多学生都管他叫大禾。因为,一直觉得,他就比我们大不了多少的样子。牛仔裤,偶尔还戴个帽子,嚼着口香糖,打打windows纸牌游戏,扫扫雷。简直就是新新人类,当然,在我们那个时候,要知道那可是win31年代呀。讲起课来,挑最基本和最简单的讲。其实,本来物理课能够把最基本的东西理解透彻也就够了,物理最大的好处就是,就这么几个重要的原理。

说起来很有意思,从刘那学到的第一个体会,就是,不要把书当书看,当然是有些书。早就知道尽信书不如无书,可是这么多年学下来,早就学会把书当圣旨看了。有时候,有疑问也是顺着书的思路看出来的。原来书也是可以跳着看,选着看的。当然,所谓挑,也是需要眼光的,所以最好是有一个导师,或者先看一本导论性的书。可是说到导论性的书,大家都知道,不用数学,说清楚物理是很难的,所以,这世上也没有几本好的导论书。但是,刘是这样一个大活人,没准,做为一个实验物理学家,他自己就挺怀疑一切的,也不太注意理论的细节,但是,正因为如此,基本框架,问题的方向,倒是挺清楚。所以,可以当成一本很好的导论书来读,呵呵。

刘的开明还体现在非常直接地承认自己的不足,并且帮助你找其他人解决问题上。有一次我在看Feynman的小册子《光和物质的奇异性》,产生了很多问题。这本小册子其实是量子电动力学的通俗版科普版,而且其中的说法都是可以通过计算来验证的。那时候,有了问题,想着既然是光学的,就取找我之前的光学老师好了。刘听了听,直接就说,你看,这个问题我也不太懂,我可以帮你去找找谁谁谁去。如果你特别想听听我的,我是这样想的。坦诚,并且鼓励和帮助学生思考,这就是大禾老师。

所以呢,学生和刘之间,没什么距离。听说很多多年以前的学生,回来都找他喝酒聊天,像当年一样。我想,一个年轻的心态,一个开明的思想,才能让刘能够跟这么多年的学生们都打成一片的。说起保送校外的研究生,是从我们这一届开始的,不知道是谁做的决定,但是刘那开明的思想是肯定发挥了作用的。真希望,所有的老师都开明,所有的中国人都能开明一些。

鼓励思考和批判的张红群、伊月娥和刘涌源

说起来,现在的力学课不如以前,顺便就说一说这门课现在的老师张红群。她是我们热学课的老师。坦白地说,张的课讲的不好,说话发音也不太准,对于我这个南方人无所谓,如果你是北方人,语言就是第一关。但是,她教给了我很多很多东西,远远比热学多的多多的多。我们的张老师由一个特点,不管什么时候,你打断她讲课也好,你路上遇到她也行,无论你问什么,她都耐心倾听,细心解答。而且,最最可贵的是,她永远说,让咱们一起来想一想。这句话给你的感觉,只有你亲身听到才能感受到,你一个刚入门或还没入门的学生,一个老师能够跟你放在一个层次上来考虑问题。一般来说,老师解答你的问题是按照他自己的思路的,能不能解决你的思路和老师的思路之间的协调问题,就看你自己了。大部分时候,你的选择是,搞懂了他的思路,然后,把自己的扔了算了。但是,但是,在我们的张老师身上,她选择了先听明白你的想法。你永远不用放弃你自己的想法,而是,精炼它,更新它,让它成长。想想我自己给别人讲课或答疑,每每都以我为中心的,让学生理解我的思路。不能说两者之间效果的好坏,只是,我修养不够还做不到。珍惜这样的一位老师,好好利用这样的资源吧,师弟们你们很幸运,这将弥补一切讲课的不足。呵呵,当然,我们也相信一个好老师也是从普通老师成长而来的。到那一天,那就是相当于一个漆加一个杜,再加一个张红群。

想起来,我有一个很有意思的小学老师。老师姓伊,本村人,小学相当的文化,没有上过任何师范学校。伊是一个不可思议的老师,没有任何参考书,所有课后习题会前后让我们做五遍左右;没有任何练习试卷,让我们自己相互出题来做,同桌互换;不记任何隔夜的帐,今天没有交作业的,今天惩罚,明天重新开始;讲课过程中经常被我们打断,说老师的方法不如我们,于是我们就上讲台做给大家看。在现在看来,这些都可以看成创造性的革命。好像几乎都不应该这样的。但是,从做了五遍题之后,我们都记住了答案,不做也知道了,所以,我们一边做,一边琢磨题目中的每一句话,到最后,我几乎可以搞清楚没一句话在题目中的地位了。有些是大前提,通常你可以忽略;有些是多余的,是出题人做的陷阱;剩下的给出条件,可以从中信息,或者创设一个情景。从那以后,每每看到应用题,我就比没有受到这样的训练的人多了一份感觉,我读题目的时候甚至可以猜到出题人的意图。自己出试卷更加把我们的这种能力更上了一层楼。而且,从这里,我们知道,当你需要什么的时候,你创造它,而不是先去寻找别人提供替代品。对于不交作业不翻旧账,我尤其欣赏,一直到大学,我都很少交作业的,但是,老师们都相信我做了,可能做的是别的书上的而已。对于伊老师来说,我不做作业也就是站站黑板,被打几下手心,我皮糙肉厚,不在乎的,反正也不会影响老师跟学生的感情。对于最后一条,鼓励我们思考、批判和表现,我想迄今为止,我们有见过表现得比伊好的老师。最后,我们这个老师,还有一条更酷的,对事不对人。我是她的得意弟子了(尽管老捣蛋),但是,基本上每天都被罚在什么什么之前不许回家;然后更郁闷的是,一堆跟我在一起捣蛋的人,由于都交作业,经常比我早回去。搞的我爸经常说我们老师不好,每当这时候,我都跟他急。然后,我爸就妥协,好好,你反正更听你老师的而不是我的。

说起来,浙江的风气确实比较开明的。我初三的语文老师刘涌源经常跟我们一起分析问题,争论的面红耳赤,直到深夜的。记得有一次,他自己没敢肯定我错了,仅仅是我的答案和标准答案不一样了,他就请了语文组的其他两位老师,一起来讨论。我记得我不曾妥协过,另外两位老师也不曾妥协。最后,一抬头,发现,太晚了,我进不去宿舍了。于是,刘就帮我爬墙进的宿舍。

一个老师,对你的影响,绝不仅仅通过一个小时的课堂,但是,前提是,你自身的投入。有张老师、伊老师、刘老师是我的幸运。

算的少,学得多

今天给心儿辅导乘法计算,做了10个计算题,错了4个,而且错在了同一个地方:个位数乘以两位数的乘法中,个位数和个位数乘完之后的进位数字和个位数乘以十位数得到的那个数,之间的加法的计算出了问题。心儿是这样来计算的:先把这两个数的各位相加,然后如果还有进位,则加到更高位上去。但是,这样做,有的时候就会忘了那个等着后面可能的进位的十位数是多少。于是,经常出现如果需要进位,这个进位以后的数字出错。经过和孩子一起分析错误,解决了这个问题,然后再做了20个,就只错了一个。得到两个教训:

  1. 做错的题目是财富——表明了不太明白的地方,一定要仔细分析,回忆什么原因导致的错误。做有针对性的学习才能提高。
  2. 具体乘法计算上,当计算个位数和两位数中的十位数的乘法的时候,把进位直接和得到的个位数和十位数的乘积相加,不要先计算两者的个位相加再进位。

一方面,我本来就不主张需要练习这么多的纯计算。另一方面,从这个练习和找错再学习的过程之中,如果心儿能够学到“通过对错误的分析可以举一反三”,也挺好。这样就能够做到“算的少,学得多”。学习要做有心人。多想想,尤其是犯错误的地方。更一般地说,直面错误,总是一件值得做的事情。

我一直说,从小到大,我都不做太多作业(基本就不做,除了三角函数,复变函数、积分、行列式等我自己拿过习题书来完成基本全本的)。其实,一方面,由于所有同学都问我难题,我基本上把有意思的题都做了一遍。另一方面,每一个我做错的题目,我都深入分析,争取找出原因,然后举一反三。当然,做对了的题目,也需要举一反三。所以,我才能做到“算的少,学得多”,天天不做作业。

机械式和理解型学习

我一直在实践和推广理解型学习和教学。有人让我给一些对比的例子。一方面,有些材料确实很难用理解型学习的。另一方面,所有的能够用好理解型学习的地方都需要对内容有深刻的理解并且在具体讲解的环节需要有创造性才行。今天刚好撞到了一个比较容易讲明白两者的区别并且还能够体现理解型学习的好处的例子。

心儿在学校学过了面积单位之间的关系,1平方米=100平方分米,1平方分米=100平方厘米。当然,两个连起来,就是1平方米=100平方分米=100*100平方厘米。但是,遇到类似这样的问题,1平方千米=100平方米是否正确,就不好办了——课上(应该)没教过。

但是,如果是是通过理解型学习来明白上面的面积单位转换,就会非常清楚1平方千米=100平方米是否正确。为了实现面积转换这个问题上的理解型学习,需要理解和运用好下面几件事情:

  1. 一个1平方什么代表的是一个边长为1什么的正方形的面积(这个内容本身仍然可以做一定程度上的理解型学习,在学习面积这个概念的时候)
  2. 把正方形的每一个1什么的边划分成边长为另一个1什么什么单位,从而得到很多个小格子
  3. 运用第一条,看看小格子的面积
  4. 计算有多少个小格子
  5. 总结这样的大格子分小格子的方式和一般性的联系:1平方什么 = 1什么 × 1 什么

有了这个理解,
\begin{align}
1 \mbox{unit}^2 = 1 \mbox{unit} \times 1 \mbox{unit},
\end{align}
那很多事情就非常简单了。例如,1平方千米 = 1千米 × 1千米 = 1000 米 × 1000 米,那肯定不是100平方米。

因此,在这里,最关键的联系就是平方什么的单位,不是独立定义的,而是通过没有加上平方的那个什么的单位来定义的。这一联系建立以后,当然,给大格子划分小格子也是有意义的,就实现了理解型学习。理解型学习的目的是让学习者明白点什么,更具体来时候,就是把一个新的概念和之前学习过的概念通过其知识内部的关系联系起来,从而能够活学活用,还能够降低记忆的成本。

当然,我所提倡的“以概念地图为基础的精简教育体系”除了这个细节上联系的建立,还有更高的要求——我们需要选择哪些最少量的概念和联系来学来教,为什么。也就是说,不仅仅要在学习和传授概念的具体教和学的环节注意建立联系,还要按照学科思想学科基本问题培养学生对学科的情感和学习方法的角度,先建立整个学科知识之间相互联系的大图,然后通过这个大图来挑选少量的概念和联系,做这些选择了的例子的理解型学习。

以学习方法和思维为目标的集中试点学校

当前,已经有一部分有前瞻性的人在呼吁以“学习方法和思维方式”为目标的教学,而不是以知识为目标的教学。但是,有这个思想的人,在学习方法和思维方式上有方法和经验的人,在具体课程的内容上有深刻理解的人,有执行能力的人,大多数时候不是同一个人。

于是,有人会说,我知道数学不能教成算术,可是教成什么啊,怎么教啊?有人也会说,我知道要教批判性思维,系联性思考,可是,我没有具体课程知识可以教啊。有人还可以说,我觉得挺好,可是忙死了,没时间啊。或者,我想干,可是校长不同意啊。

于是,我意识到,这是一个需要各个方面的人相互合作才能完成的事情。我希望我们这些前人的探索能够给更多的人参考。那么,能不能找到一定数量的思维教学、具体课程教学、教育管理者来一起合力建设一个试点学校呢?一个集中试点学校的示范意义远远大于一个个个体的老师或者一门门个体的课程的尝试啊。就一个这样的学校,就够了,就足以说明问题。

这个学校的大部分老师,都把具体课程和批判性思维系联性思考联系起来,重新梳理教学内容和目标,教的少学得多。关键就是这个变革在试点学校内部是系统性的。学科之间的关系要重新数理,各个课程的内容和目标要重新确定,老师的日常教学要用内容为媒介让学生学会这个学科的典型思考方法,基本研究对象,典型分析计算方式,还要增加对这个学科的情感,而且从中提炼更好的思考问题的方式,和进一步提高学习的效率。

这个试点的有心人们在哪里呢?

概念网络上的高效考试方式

对于一个相互没有联系的集合中每个个体的考试,这里考试指检查每一个是不是好的或者是不是被理解掌握好的,我们除了尝试每一个个体没有更好的办法。

然而,如果个体之间存在关联,我们就可以把考试和推断结合起来,找到比尝试每一个个体更高效的方法。然而,有的时候,这样的关联尽管存在但是很难事先知道。例如,在考某个学生的一堆物理概念的掌握程度的时候,尽管物理概念之间的关联肯定存在,但是到底如何关联,需要通过检测这个学生同时掌握哪一些,才知道。然而,我们正好想避开这样的穷举法检测。因此,这是一个相互依赖的难题。那有没有一些可能具有代表性的关联呢,尽管这样的关联在不同的被试身上不一定表现一致,仅仅表现为某种平均意义上的关联?如果有,这样的关联,能不能不依赖于检测得到呢?得到这样的关联之后,又如何和推断结合起来,帮助实现更高效的考试呢?这个帖子尝试回答这些问题,或者说,给出一个回答这些问题的框架。

我们认为,概念之间的逻辑关系,可以做为关联的客观表现。以汉字为例,汉字之间通过结构关系相互联系,这一点是客观的(尽管繁体字和简体字在汉字之间是如何从结构上联系起来的这一点上不一样。先考虑例如仅仅简体字)。例如:木——林——森,人——从——众,水——冰——淼,(木,一)——本,(人,本)——体。当然,这个客观的结构联系是否就能代表逻辑联系,是有待讨论的。也就是说,在汉字集合上,存在着一个逻辑关系网络,网络的每一条边代表上面举例中的一个字\(i\)成为另一个字\(j\)的一部分这样的结构关系\(A=\left(a^{i}_{j}\right)_{N\times N}\)。这个结构关系上面叠加了一层逻辑关系。这个逻辑关系,我们通过下面的几个权重——已知认识一个字,推断另外一个字也认识的条件概率——来表达。任何一个时候每一个字\(j\)的检测状态记为(\(c_{j}k_{j}=\left\{11, 1-1, 01, 00, 0-1\right\}\))分别代表检测过认识,检测过不认识,没有检测过推断认识,没有检测过推断状态为未知,没有检测过推断不认识,这五个状态。注意,凡是检测过的字的状态就不再用下面的条件概率来更新了。

  1. 认识上层字\(i\),推断下层字认识\(j\)的概率,\(\omega^{i, \left(1\downarrow\right)}_{j} \),和结构矩阵的元素\(a^{j}_{i}\)有关。原则上可以不遵循结构矩阵,来自于其他实证关系。做为一个简化模型,我们可以假设\(\omega^{i, \left(1\downarrow\right)}_{j} =a^{j}_{i}=1\)。
  2. 认识下层字\(i\),推断上层字认识\(j\)的概率,\(\omega^{i, \left(1\uparrow\right)}_{j} \),和结构矩阵的元素\(a^{i}_{j}\)有关。原则上可以不遵循结构矩阵,来自于其他实证关系。做为一个简化模型,我们可以假设\(\omega^{i, \left(1\uparrow\right)}_{j} = 0\)。
  3. 不认识上层字\(i\),推断下层字不认识\(j\)的概率,\(\omega^{i, \left(-1\downarrow\right)}_{j} \),和结构矩阵的元素\(a^{j}_{i}\)有关。原则上可以不遵循结构矩阵,来自于其他实证关系。做为一个简化模型,我们可以假设\(\omega^{i, \left(-1\downarrow\right)}_{j} =0\)。
  4. 不认识下层字\(i\),推断上层字不认识\(j\)的概率,\(\omega^{i, \left(-1\uparrow\right)}_{j} \),和结构矩阵的元素\(a^{i}_{j}\)有关。原则上可以不遵循结构矩阵,来自于其他实证关系。做为一个简化模型,我们可以假设\(\omega^{i, \left(-1\uparrow\right)}_{j} =a^{i}_{j}=1\)。

在这里,简化模型的理念是认识更复杂的意味着认识简单的子结构,不认识更简单的子结构则更复杂的合成字肯定不认识。注意,这个是对原始问题的一个极大的简化。

现在,我们有了一个结构网络\(A\),四个这个网络上的逻辑关系\(\Omega^{\left(1\downarrow\right)}, \Omega^{\left(1\uparrow\right)}, \Omega^{\left(-1\downarrow\right)}, \Omega^{\left(-1\uparrow\right)}\)。每一个顶点有五个状态\(c_{j}k_{j}=\left\{11, 1-1, 01, 00, 0-1\right\}\)。初始时刻,所有顶点的状态都是未检测也无从推断\(p\left(0_{j}0_{j},t\right)=1\)。在检测过程中,对于确定性模型,任意一个顶点的状态也是以上五个状态之一。对于随机模型,我们有顶点处于状态\(c_{j}k_{j}\)的几率为
\[p\left(c_{j}k_{j}, t\right).\]
对于给定的顶点\(j\),这些概率对\(ck\)的取和归一。同时,前面两个状态的取值只能是\(0,1\),也就是,
\[p\left(1_{j}k_{j}, t\right) = 1,0.\]

由于由这些概率的特殊取值,为了更好地描述后面的动力学过程,我们定义一套新的状态变量。定义一个离散变量\(\xi_{j}\)和两个连续变量\(\eta^{\left(1\right)}_{j}, \eta^{\left(-1\right)}_{j}\)更加合适。描述变量采用\(\xi_{j}=\pm 1, 0\), \(\eta^{\left(\pm1\right)}_{j} \in \left[0, \infty\right]\)。\(\xi_{j}=1\)表示\(1_{j}1_{j}\)态,\(\xi_{j}=-1\)表示\(1_{j}-1_{j}\)态,\(\xi_{j}=0\)的时候,看\(\eta^{\left(\pm1\right)}_{j}\)。这个时候推断状态的几率分别是
\begin{align}
q^{\left(01\right)}=p\left(0_{j}1_{j},t\right) = \frac{\eta^{\left(1\right)}_{j} \left(t\right) – \eta^{\left(-1\right)}_{j} \left(t\right)}{\eta^{\left(1\right)}_{j} \left(t\right) + \eta^{\left(-1\right)}_{j} \left(t\right)}\theta\left(\eta^{\left(1\right)}_{j} \left(t\right) – \eta^{\left(-1\right)}_{j} \left(t\right)\right) \notag \\
p\left(0_{j}0_{j},t\right) = 1-\frac{\left|\eta^{\left(1\right)}_{j} \left(t\right) – \eta^{\left(-1\right)}_{j} \left(t\right)\right|}{\eta^{\left(1\right)}_{j} \left(t\right) + \eta^{\left(-1\right)}_{j} \left(t\right)} \notag \\
q^{\left(0-1\right)}=p\left(0_{j}-1_{j},t\right) = \frac{\eta^{\left(-1\right)}_{j} \left(t\right) – \eta^{\left(1\right)}_{j} \left(t\right)}{\eta^{\left(1\right)}_{j} \left(t\right) + \eta^{\left(-1\right)}_{j} \left(t\right)}\theta\left(\eta^{\left(-1\right)}_{j} \left(t\right) – \eta^{\left(1\right)}_{j} \left(t\right)\right)
\end{align}
按照这样的状态标记,我们取每一个顶点的状态变量为:\(\xi_{j}, \eta^{\left(1\right)}_{j}, \eta^{\left(-1\right)}_{j}\)。实际上,我们看到,系统的状态当\(\xi_{j}=\pm 1\)的时候很简单(就是\(1_{j}1_{j},1_{j}-1_{j}\)态)。当\(\xi_{j}=0\)的时候,系统在状态\(c_{j}k_{j}=\left\{01, 00, 0-1\right\}\)子空间上的概率矢量是,
\[\left[q^{\left(01\right)}, 1-q^{\left(01\right)}, 0\right]^{T},\]
或者
\[\left[0, 1-q^{\left(0-1\right)}, q^{\left(0-1\right)}\right]^{T}.\]
也就是说,状态变量\(\xi_{j}\)和\(\eta^{\left(1\right)}_{j}, \eta^{\left(-1\right)}_{j}\)仍然不是反映系统状态的最简单的表达方式(有信息没有被用到)。不过,暂时,我们就以这套状态变量为准:
\[\xi_{j},\eta^{\left(\pm 1\right)}_{j} \Longleftrightarrow p\left(c_{j}k_{j}\right). \]

现在,我们已经清楚了系统状态的描述\(P\)(每一个字都有一个状态分布函数,整体状态构成一个分布函数大矢量。这个矢量的具体写法可以采用直积或者直和,再说,现在用不着)和初始条件\(P\left(0\right)\),我们来构造一个动力学过程\(P\left(t-1\right)\rightarrow P\left(t\right)\)。将来,我们要讨论这样的问题:在给定成本的情况下,如何让系统尽可能地达到某个预期状态,或者达到某个预期状态所需要的最少的成本。

我们先讨论动力学过程。每一步(记为\(t\)时刻),我们选择一个汉字\(i\)来检测是否被试认识。

  1. 如果认识(不认识),则更新这个字的状态为\(\xi_{i}=1\)(\(\xi_{i}=-1\))。
  2. 然后,考察这个字的一级近邻。对于每一个一级近邻\(j\)按照如下方式更新其状态:
    1. 如果\(\xi_{j}=\pm 1\),停止更新\(j\)的状态
    2. 否则(也就是\(\xi_{j}=0\)的时候),取\(\eta^{\left(\pm 1\right)}_{j}\)的当前值\(\eta^{\left(\pm 1\right)}_{j}\left(t-1\right)\),按照\(i\)的状态来更新\(j\)的状态
      1. 如果\(\xi_{i}=1\),则
      2. \begin{align}
        \eta^{\left(1\right)}_{j}\left(t\right) = \eta^{\left(1\right)}_{j}\left(t-1\right) + \omega^{\left(1\uparrow\right),i}_{j}+ \omega^{\left(1\downarrow\right),i}_{j}
        \end{align}

      3. 如果\(\xi_{i}=-1\),则
      4. \begin{align}
        \eta^{\left(-1\right)}_{j}\left(t\right) = \eta^{\left(-1\right)}_{j}\left(t-1\right) + \omega^{\left(-1\uparrow\right),i}_{j}+ \omega^{\left(-1\downarrow\right),i}_{j}
        \end{align}

把以上的过程合起来,也就是

  1. 对字\(i\)做检测以后,如果认识(不认识),则更新这个字的状态为\(\xi_{i}=1\)(\(\xi_{i}=-1\))。
  2. 然后,考察\(i\)这个字的一级近邻。对于每一个一级近邻\(j\)按照如下方式更新其状态:
  3. \begin{align}
    \eta^{\left(\xi_{i}\right)}_{j}\left(t\right) = \eta^{\left(\xi_{i}\right)}_{j}\left(t-1\right) + \left(1+\xi_{j}\right)\left(1-\xi_{j}\right)\left[\left(\omega^{\left(\xi_{i}\uparrow\right),i}_{j}+ \omega^{\left(\xi_{i}\downarrow\right),i}_{j}\right)\right]
    \end{align}

必要的时候可以计算概率\(p\left(c_{j}k_{j},t\right)\) 。这个过程描述了测得一个新的字是否认识以后在整个网络上的传播。上面的过程仅仅考虑传播一步,也就\(i\)的邻居们。一个更加复杂的模型可以考虑多步传播:也就是计算一级近邻的状态概率矢量之后,拿着这个更新了的矢量,再去计算二级近邻的状态矢量。

再来讨论目标。

现在,我们希望得到一个(有顺序的)检测的集合,或者一个按照检测结果实时自适应生成检测顺序的算法。这个算法或者集合要做到以下两个目标中的一个。

  1. 给定检测成本\(C=\sum_{j}c_{j}\)的情况下,最大化以下的目标函数的检测顺序是什么:
    \[K=\sum_{j,c_{j}} \left|p\left(c_{j}1_{j}; C\right) – p\left(c_{j}-1_{j}; C\right)\right|\]
    最后的参数\(C\)表示\(C\)时刻,如果记每一次检测新的汉字算一个时间步的话。
  2. 或者期望达到某个特定的\(K_{aim}\),最小的\(C\)是多少,实现这样的最小\(C\)的检测顺序是什么。

用新的状态记号,目标函数可以写做
\[K=\sum_{j} \left(\frac{\left|\eta^{\left(1\right)}_{j}-\eta^{\left(-1\right)}_{j}\right|}{\eta^{\left(1\right)}_{j}+\eta^{\left(-1\right)}_{j}}\right).\]
注意,当\(\xi_{j}=\pm 1\)的时候,我们强行更新了\(\eta^{\pm 1}_{j}\)来把前者的信息转入到后者之中,于是,这个目标函数的定义看起来简单一些。

在这个语言下,问题成了:给定一个检测顺序,或者一个检测顺序的自适应算法,整个问题就是一个Markov链,然后这个链需要满足上面两个目标之一的话,怎么办?

当然,不用这个整体系统状态的语言,就是问什么样的集合的选择或者顺序的选择,或者生成顺序的算法的选择,能够保证用最少的检测次数,了解最多的汉字是否被认得。

对于简化模型——关系矩阵\(\Omega\)的元素就是\(0,1\)的情况,相当于讨论一个双态的支配集问题:两个状态可以在有向无权网络上传播一步,问某种意义上最小的需要检测出来确定状态的集合是什么。当然,可以预见,这个最小集合会和每一次检测的结果有关系:极端情况,假设每次检测结果都是\(1\)的最小集合,和每次检测结果都是\(-1\)的,肯定是不一样的。因此,这个问题,不是单纯的两个单状态支配集问题的相加。

换一个角度来看,在简化模型的情况下,这个问题是双关系网络(同一套顶点,有两种不同状态——\(\pm 1\)——的可以在各自的网络上传播\(\Omega^{\pm 1}\))上的支配集问题。整体目标把两种状态混合了起来,于是就不再是两个单关系网络的相加了。有了这个检测问题的实际问题的背景,提出并解决这个“双关系网络上的支配集问题”,是有一般意义的。在更加一般的关系矩阵\(\Omega\)取值的条件下,这个问题相当于把双关系网络上的确定性支配集问题,变成了双关系网络上的概率性支配集问题。

简单的算法:暴力搜索,把大量的检测顺序都试一遍,中间可以考虑采用自加强机器学习等人工智能算法(缺陷,计算量大);或者采用贪心算法,每一步尝试检测一个汉字,然后选择对于目标函数提升最大的汉字做为检测对象(缺陷,不一定是好的顺序,忽略了长程连接)。

有更好的算法吗?

两个注:

  1. 可以考虑给每一个顶点增加一个初始信息:在未被检测的时候的可能被认识的概率。初始时刻\(\xi_{j}=0, \omega^{\pm 1}_{j}=0\),或者\(\xi_{j}=0, \omega^{\pm 1}_{j}=\omega^{\pm 1}_{j,0}\)。当然,这个初始权重\(\omega^{\pm 1}_{j,0}\)如何赋值就引入了这个问题的另外一个变量——目标检测人群的典型识字情形。
  2. 直接共认矩阵和总共认矩阵:先从数学上来说,给定一个两个字的直接共认矩阵——也就是结构联系,是否可以以及如何计算出来两个字的最终共认矩阵?然后,问实际上,如果我们来测量的话,得到的共认概率矩阵,是直接呢还是间接呢?这个问题的讨论见新帖:从共现到结构