汉语拼音的系统化可拼读化:只增加一个字母,就能完全拼读,而且规则变少

最近在帮逸儿学习汉语拼音。这个很多时候能够拼读,很多时候又不能够拼读的汉语拼音确实是一个烦人的东西。这样的辅助发音体系还最好有,不能完全扔了。所以,可以考虑做局部的调整。这样的调整,本质上,就是从完全准确的完整的汉字读音列表开始,例如用通用国际音标来标记,然后,选择一些能够合并的音合并起来,使得用比标准国际音标更少的表音符号就能够比较准确地标注汉字的读音。当然,实际上修改起来会遇到各种困难,例如现在已经习惯的人,现在已经做出来的文字系统出版系统等,都会是阻力。所以,这里,仅仅列做来能做的一点点修改,那些仅仅修改一点点地方就能够使得系统化程度更高,可拼读程度更高的地方。

  1. 第一个要改变的就是引入ə,用来区分e的两个音:e和ə。前者是例如在ei,en,er,eng里面的发音,后者例如在ie(iə),üe(üə)里面。
  2. 第二个要改变的就是利用引入的ə,用重新标注uo(uə)和ou(əu)。
  3. 第三个顺便统一uo(uə)和o。这两个音实际上略有区别,但是,为了简单记,不如合起来算了。例如,玻(bo)璃和玻(buo,buə)璃实际上,差不多。这样就相当于取消了字母o的单独发音。
  4. 第四个,那么o怎么办呢,还需要保留吗?需要,而且发音方式是ɔ的发音,仅仅用在ao和ong里面。
  5. 第五个,用ŋ取代ng里面,省的ng(嗯歌,讷歌,都拼不出来ŋ的发音)不可拼读。
  6. 第六个,取消去不去掉ü上两点的规则,以及表声调的位置的规则。例如可以设定这样的规则(能够不变的就不变,能够少一件事,就少一件事):一直保留ü,一直把声调标注在第一个元音字母上。
  7. 第七个,ian改成ien,üan改成üen。例如,线(xian)条是不可拼读的,只有线(xien)条才是,选择是(xüen ze)。
  8. 第八个,允许元音字母出现在第一个,也就是允许没有声母的拼音;同时允许只有声母的拼音。前者,例如ua,iou(顺便让iu回到iou,让ui回到uei)。后者例如sh(诗,建议也修改为符号ð),zh(蜘,建议也找个单个的新符号),ch(吃,建议也找个单个的新符号),z,c,s。这样也就顺便取消了拼音字母y,w。
  9. 第九个,最重要的一个,取消所有的固定拼读韵母,完全通过把发音连起来——拼读起来——来读汉语拼音。

有了上面的修改,韵母a, o, e, i, u, ü成了a, u-ə, e, ə, i, u, ü, o。中间的u-ə不是基础字母,于是,基础字母成了a, e, ə, i, u, ü,o。

另外n,r,ŋ三个字母比较特殊,一定程度上扮演了韵母的角色。不过,按照我们的新的规则,我们不需要区分声母韵母,直接合起来读过去就行了。

从这七(其实是6.01个,最后的o仅仅在两个地方用得到)个字母除法,ai, ei, ao, uo, ou, iu, ui, ie, üe, an, en, in, un, ün, ang, eng, ing, ong,ian, uan, üan, iang, iong, uang, 所有这些固定组合就都不需要了,换成如下能够拼读的: a-i(表示两个字母合起来读就行), e-i, a-o, u-ə, ə-u, i-ə-u, u-e-i, i-ə, ü-ə, a-n, e-n, i-n, u-n, ü-n, a-ŋ, e-ŋ, i-ŋ, o-ŋ,i-e-n, u-a-n, ü-e-n, i-a-ŋ, i-o-ŋ, u-a-ŋ.

声母方面,我们留下来了:b,p,m,f,d,t,n(完全按照英文音标的发音,不再需要它来扮演nu和un两个角色了,都大概读作“en”),l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s。

有了这些,我们就完全能够拼读了:一字一音,没有固定读法,直接通过组合——也就是连读——来发音。例如,线条(x-i-e-n t-i-a-o),绚烂(x-ü-a-n l-a-n),无穷(u q-i-o-ŋ), 无缺(u, q-ü-ə)。

当然,这样的修补工程不能完全实现最大的系统化——也就是用最少的基本发音单位来表达所有的读音并且完全可拼读。如果想完全系统化,还是要通过先用国际音标把所有的发音标准确,然后再合并近似的方法。例如,q,x,j的存在和合理性,以及是不是有更好的方案,就是一个需要从这个根本的系统化角度来讨论的问题。当然,以上的讨论仅仅是原理性的讨论,真的改起来,尽管长期来看肯定是好事,但是,短期来看代价还是太大。有兴趣的学生,尤其是学习我的《系统科学导引》的学生,可以拿这个来练练手,体会一下什么是系统科学。

顺便,这里也体现了把数学和科学的技术和思想,尤其是系统的思想——用最少的单元来足够准确地表示事物,用于问题识别和问题解决。可惜了,当年设计这个汉语拼音的时候,可能数学家、物理学家没有太多的参与。

按道理,赵元任的数学物理都很好的啊。当然,我这个修补也不一定比赵元任的汉语罗马字强,倒是更简单了,并且,显然比目前的汉语拼音强——我这个是完全可拼读的。

工作报告的写作方式

经常需要把ideas、半成品的工作、已经完成的工作整理出来,供后来人使用,就形成了工作报告的一个八股形式。忽然发现,学生没学会,尽管我已经分享过多次这样的报告。所以,整理一下,供学生使用。

  1. 工作报告,首先要交代研究问题。如果有必要也可以对研究问题稍微解释一下,加一点点背景。
  2. 然后,要交代大概研究思路。如果有必要也可以加一点点背景,说一下其他人怎么研究这个问题,做了什么,结论如何。
  3. 接着,在每一个阶段,交代我们做了什么,这个做了的事情能够如何回答一开始的研究问题。
  4. 再接着,要交代下一步做什么,为什么。
  5. 最后,是参考文献和文章草稿。如果有必要也可以附上实验记录和分析程序。

获取sci-hub数据

sci-hub是学术论文检索网站,提供了从文章doi等信息找到文章下载地址(这些地址又被libgen网站收集和保存)的信息。当然,这些文章基本上是有版权的。因此,实际上sci-hub和libgen是法律的边缘:没有直接保存原文(有的文件可能有原文,不清楚),但是提供了原文下载地址的集合。不过,我真的很喜欢这个网站的理念:知识应该属于全人类,应该尽量方便大家的获取。当然,也应该给写作、制作和出版这些知识的载体——也就是文章和书——的人一些利益。所以,我自己的文章和书的处理方式是在网上免费提供没有经过出版社处理的全文,但是经过出版社处理的文档,我不管。

最近纯粹出于好奇和学术研究兴趣,想看看sci-hub和libgen这个网站在促进学术交流上的效果,还想顺便用来匹配一下一堆我们自己有的文章的doi,就去找了找下载获取sci-hub和libgen数据的方法

首先,这个数据分成三个部分:第一、保存下载地址的文件,通常是torrent文件。第二、保存文章题录数据(metadata)的文件,通常是MySQL database dump文件。第三、提供这个网站的服务的源程序。第三部分仅仅在制作镜像的时候需要使用,就不需要下载了。这三部分文件都可以直接从libgen的主页上获取。

其次,获取了文件之后,需要从torrent文件的信息里面来下载和存储相应的文件。

接着,需要把题录数据和下载的文章对应整合起来。

最后,内部使用,也可以把libgen的服务系统建起来,或者自己做一个检索系统。

ProjectQ和IBMQ量子计算机

IBMQ提供了使用量子计算机的接口,ProjectQ用Python语言提供了一套量子计算描述语言,能够用于包含IBMQ真实量子计算机以及量子的经典模拟(通过算符运算)在内的多个后台。

由于教学(让学生做习题并且能够在实际量子计算机上验证)和研究(考虑量子博弈的真人实验)的需要,需要用量子计算机。就学习了一下。发现,非常简单易用,也很有系统性。

首先,在量子计算中,最基本的量子单位是自旋。于是,自旋的状态(二维Hilbert空间矢量)和算符(二维Hilbert空间矢量上的算符,例如Pauli矩阵、Hadamard门、围绕Z轴的旋转、测量等),就是这个ProjectQ的基本单元。当然,一些常用的高级功能例如CNOT门,以及Hadamard门和CNOT合起来的作用——称作纠缠算符等,也在ProjectQ中做了实现。

具体的文档见ProjectQIBMQ上的说明。下面用一个例子来说明一下整体结构,这样以后再一次学习起来简单。

这是我试着编写的程序quantum.py:

  1. 导入后台(模拟器、IBMQ、tex)和算符(H、测量、CNOT)

  2. from projectq import MainEngine
    from projectq.ops import H, Measure, CNOT
    from projectq.backends import CircuitDrawer
    import projectq.setups.ibm
    from projectq.backends import IBMBackend

  3. 这部分接收程序运行参数,在这里就是决定用什么后台。

  4. import sys, getopt

    def main(argv):
    s=1 #indicator of running this program via simulator or not
    tex=0 #indicator of converting this program into tex or not
    IBMQ=0 #indicator of running this program via IBMQ or not
    #take parameters from command-line input
    try:
    opts, args = getopt.getopt(argv, "s:", ["tex=", "IBMQ="])
    except getopt.GetoptError:
    print ("Error: please use the command as quantum.py -s --tex --IBMQ ")
    sys.exit(2)
    for opt, arg in opts:
    if opt == "-h":
    print("quantum.py -r --tex --IBMQ ")
    sys.exit()
    elif opt =="-s":
    s = int(arg) #when s=1, we need to run this program via simulator
    elif opt == "--IBMQ":
    IBMQ = int(arg) # when tex=1, we need to convert this program into a tex file
    s = 0 #when tex=1, we set s=0 (not to run this program in force)
    elif opt == "--tex":
    tex = int(arg) # when tex=1, we need to convert this program into a tex file
    s = 0 #when tex=1, we set s=0 (not to run this program in force)
    IBMQ = 0 #when tex=1, we set IBMQ=0 (not to run this program in force)
    #parameter input ends here

  5. 按照运行参数,开辟一个针对相应后台的环境。在这个环境之上,所有的命令不再需要关心后台的问题。

  6. # create a main compiler engine
    if(tex):
    drawing_engine = CircuitDrawer()
    eng = MainEngine(drawing_engine)
    elif(s):
    eng = MainEngine()
    elif(IBMQ):
    eng = MainEngine(IBMBackend(use_hardware=True, num_runs=1024, verbose=False, device='ibmqx4'))
    # allocate 2 qubit

  7. 在环境里面初始化qubit,并且把需要的算符一个个作用到这些个qubit上。

  8. qunum = eng.allocate_qureg(2)

    # put qubit 1 in superposition
    H | qunum[0]
    # put the two qubit in engtanglement
    CNOT | (qunum[0],qunum[1])
    # measure
    Measure | (qunum[0],qunum[1])

  9. 运行这些初始化状态和算符。

  10. eng.flush()

  11. 输出结果。

  12. if(tex):
    print(drawing_engine.get_latex())
    if(s):
    print("q1={}".format(int(qunum[0])))
    print("q2={}".format(int(qunum[1])))
    if(IBMQ):
    # access the probabilities via the back-end:
    results = eng.backend.get_probabilities(qunum)
    for state in results:
    print("Measured {} with p = {}.".format(state, results[state]))
    # return one (random) measurement outcome.
    return [int(q) for q in qunum]

最后运行python quantum.py就可以在不同的后台运行了。如果需要在IBMQ上运行,需要IBMQ的帐号和密码。

数学和科学、生活

今天这个例子就发生在上一个帖子的作者——一个差不多懂了系联性思考的硕士学生身上。同样非常有借鉴意义。我整理出来,分享在这里。

我用doodle设立了一个投票来确定这个学期的研究小组讨论时间。需要每一个参与讨论的人来参加这个投票,提供对自己来说可以实现的时间,然后,doodle就会做好一张网页表格,把每一个选项放在列上,每一个参与者的选择放在行上。我这个创建投票的人只需要看这张表就可以确定一个对所有人或者大多数人都能够用的时间了。

然后,这个学生选了三个选项。我就很好奇。问:为什么这样选啊?具体选择什么当然我也关心,不过我更好奇为什么这样选,真的只有这三个时间是可行的对这个学生来说?经过一番努力的沟通,发现,这个学生是这样来理解这个投票的。所谓投票就是在一堆选项中选自己最喜欢的,然后,最后,统计每一个选项有多少人喜欢,创建人选择得票最多的就行了。

确实,一般的称为“投票”的东西确实如此。

然后,学生意识到,可能我这么问,则表示这个背后的确定最后的选项的过程可能并不是这样。就说,我觉得可能这个doodle的程序不是这样运作的,得去想想这个程序如何运作。

另两个学生这时候提示,确定讨论时间的运算,实际上是在做集合的交集:把每一个参与者的集合拿过来,计算所有人的交集。

于是,首先,这个程序背后的算法不用去猜的,那就是计算交集,而且这个计算的人,就是我,doodle仅仅提供这张大表而已。

其次,更加根本的问题是,数学描述、数学计算过程或者软件系统背后的算法,都是为了解决某个具体问题的。我们只需要从问题开始思考,而不是从计算过程、软件算法开始思考。如果这个算法或者过程不能解决这个问题,那么,是算法和过程错了,而不是问题错了。

在具体这个问题上,就是你只需要思考确定一群人讨论的时间是什么样一个问题就可以了:由于首先的要求是要找到满足绝大多数人的选项,而不是选择所有人合起来最喜欢的选项,集合的并是最好的数学描述,而不是数票数。当然,如果每一个参与者把自己的喜好完全地揭示出来,则数票数和求集合的并是等价的。但是,一旦参与者用数票数的思路来提供信息——也就是仅仅选择自己最喜欢的选项而不是所有可能的选项(当然,将来还可以做更复杂的赋权),则两者就不等价了。结果上,很有可能这个参与者的最喜欢的选项被完全忽视。

因此,除了没有从问题开始思考,从情景开始思考,而是去猜背后可能的计算过程或者算法,还有另一个层面的问题:套路。当一个学生面对一个叫做“投票”的问题的时候,很可能就会直接套用投票的思路,而不去思考实际问题和情景。套路,真的要不得啊。面对任何具体问题,都要去思考,这个问题中有哪些因素,这些因素决定了我们必须用什么样的计算或者分析,而不是生搬硬套。

后来,我发现,这样来做会议时间投票的人还不少。看来,看不到“数学就是对问题和思考的表达,对问题里面的关系的描述”的人,还是真不少啊。可能大多数人的思考方式,真的是套路——先看看有没有一个自己知道如何应对的相似的,尽管可能仅仅是名以上、名字上相似,而不是关系上相似,问题,然后把这个问题里面的应对方式直接照搬过来。

顺便,关于这个问题,我们正在设计一个实验研究:一个情景A,一个情景B,两者具有一定相似性,但是,如果真的想明白则两者不一样,而且,我们保证实验参与者真的两者都是之前就了解的,甚至教过的学过的,然后我们来让实验参与者做决策。在这里,我们想探讨两个问题,知道(学过的能通过考试的)到能用(能够面对实际情景)的距离,以及基于套路而不是基于理性思考的决策的普遍性。将来我来报高这个研究结果。

用这个例子,来体现什么是数学,以及数学和科学、生活的关系。