转发《议揭改“汉语拼音方案”》

[发现一个有意思的帖子,尽管也没有数学化和系统化的思想,不过好多问题指出来了
原文地址在这里:http://www.yywzw.com/n2267c61.aspx
另外,这两篇文章讨论更深入一点点:邢思《汉语拼音方案》在对外汉语教学中的语音问题与解决,王理嘉:汉语拼音方案与世界汉语语音教学。另外,大牛确实也是注意到系统化科学化的,例如见裘锡圭的《从纯文字学角度看简化字》的最后一段:“我们衷心希望在今后的汉字整理工作中,不要再破坏字形的表意和表音作用,不要再给汉字增加基本结构单位,不要再增加一字多音现象,要再把意义有可能混淆的字合并成一个字。”类似地,在汉语标音的整理中,我们希望一定要遵循一字一音并且完全可拼读,同时让拼出来的读音尽可能地准确,并且所用的字母尽量少。]

议揭改《汉语拼音方案》
[日期:2012-11-13] 作者:吉林长春贾连生

1、 《方案》在制定之初除了用于给汉字注音外,设计者们想把它作为日后汉字拼音化的基础。这样难免在标音上有一些不够准确的地方。

2、 字母的名称音不合普通话的实际读音,既不利于教学,又不利于应用,陷入五十多年推行不开的窘境。

3、 由于《方案》存在字母的借用、增删,在普通话教学中,不得不先给学生讲《方案》几百字的拼写规则。

4、 y、W的使用混淆了实际发音。加上的y、W并不发音,只起隔音符号的作用,而学生往往把它们当作声母来拼读。

5、 对于i、u、ü开头的音节用隔音字母(y、w);对于a、o、e开头的音节用隔音符号(’)。这是思维混乱,浪费资源,制造麻烦。

6、 现行的汉语拼音拼写规则不够细致、实用。《方案》标音模糊,影响了学生的准确发音。

7、 《方案》是以音位来标音的,元音音位确立过宽。

8、 标音方法有两种,一种是严式标音,即音素标音;一种是宽式标音,即音位标音。

9、 音素是从音质角度确定的,只要有细微差别就是不同的音素,用不同的符号表示,因而音素标音准确。

10、音位是从区别意义的角度确定的,只要不是变意,就是同一个音位,用同一个符号表示,音位标音只能反应出音节的大致发音情况。

11、普通话测试要求音节要“读准”,实际上就是要求按音素来读,而《方案》却是以音位注音,这样,拼读就会出现不少缺陷。

12、借用、增删字母导致读音不准 

13、《方案》中ao、iao表示(au、iau)的音,是以o代u,据说是为了避免手写体u和n相混。还有ong、iong也是以o代u. ong本来 是【u]和后鼻音的组合,大多数学生读成[o]和【U】的组合,非常难以纠正,并且大部分小学老师就是这么教的。ü与j、q、X相拼时两点要省略 导致学生误认为是合口呼,听上去有尖音的感觉。

14、iou读作iu,uei读作ui。而学生总是按照字母所代替的音位读,与实际音值还是有一定差距。

15、o在北方绝大部分地区一般读[uo],在唇音后单独作韵腹时实际音值也接近UO,bo读作buo、po读作puo、mo读作 muo、fo读作fuo,O在OU、UO中实际音值也发生了变化,唇形略扁。O只有在表示叹词中才读标准的后半高圆唇元音[O],但《方案》也给O设立一个音位。

16、恢复音节本来面目 

ao、iao、ong还原为au、iau、ung。当初把u改成o主要是为了避免字形混淆和u的过多使用,这种担忧是多余的。原形与变形很难让人把它们当作同一个韵母看待。恢复原形之后,其内部结构的分析与其书写形式能更好地对应起来。 

恢复iu、ui、un三个韵母中省去的韵腹。人们不会因为韵腹的恢复而把它读得明显。中间的韵腹肯定会弱化,这是由音素间的发音特征相互影响决定的。 

废弃y,w的使用。以i、u、ü开头的零声母音节,这三个音分别按音位读,对音节音值不会有什么改变。废弃y、w最大的缺憾是 隔音符号要大量使用,但从学习普通话来讲,还是值得的。汉字是以音节为单位来记录汉语的,如果以音节为单位而不以词(语)为单位给汉字注音,那么我们就可以不用隔音符号。

17、 这个五十年前的方案本身存在的诸多不科学性,已越来越显露出它的缺点和弱点。因此,修改已是十分必要。

18、 没有音节设置是不完整的。音节是方案体现作用、展示价值、实现目的的唯一平台。

19、 “汉语拼音方案” 的名称也不够确切。汉语是汉民族语言,包括普通话和方言。这个方案属普通话语音方案,“汉语”一词太宽泛了。

20、 字母设音不完美。字母表中每个字母都设定了一个读音,声母又有另一套读音。重繁变换,浪费精力,很不理想。

21、 如y、w在字母表里读[iA][uA],在音节里读i、u的音,真苦煞人了。

22、 zh、ch、sh、nɡ不完美。字母间语音上无亲缘关系。h的发音无任何根据和关联,倒是r与卷舌还可靠点边。nɡ中的ɡ也是一样。zh、ch、sh、nɡ的字母组合方式与方案音素化特点不相容。

23、 平翘舌音不必划分。说话人由非翘舌音转向翘舌音要有一定的时间准备。这种现象困厄了语言表达,是语言流畅交际的障碍,这种翘舌音位的设定是一种痛苦的选择。

24、 韵母o、uo划分过细。o与uo语音极为近似。人们对此差别反映极不敏感。o、uo运用互补。它们一般不跟同一声母拼合。o与uo在语言交际领域不会有意义混淆现象。没必要划分。

25、 方案中ü、ẑ、ĉ、ŝ、ŋ、ê、-i(前、后)8个字符是字母表中没有的异形字符。字母表是方案的总纲,是选料的仓库。仓库里都没有的“货”,门市冒了出来,来路不明。

26、 方案闲置v,埋没y、w,借用ü,实在是制造混乱浪费资源。

27、 对ü的去点儿留点儿的规定,增加了理解和记忆的难度。

28、 还有ẑ、ĉ、ŝ、ŋ规定作zh、ch、sh、nɡ的省写字母实属画蛇添足,得不偿失。

29、 字符结构冗长。韵母字符中字母有达4个的,如iɑnɡ、uɑnɡ、uenɡ、ionɡ。还有更长的-i(前)、-i(后),虽然在音节里它们省成i,但单独书面表达时,竟包括5个部件,书写费时,电脑输入速度很慢。

30、 韵母数量过多。齐合撮三呼韵母中20个多字母韵母可不必设定。它们是韵头i、u、ü与开口呼韵母组合而成的,如“雍”是i和onɡ的组合,“翁”是u和enɡ的组合,“冤”是ü和ɑn的组合。这种组合关系比较松散,象音节中的声韵拼合。

31、 整体认读是不伦不类。整体认读破坏了音节呼读规则,增加教学难度。

整体认读音节的设定,又增加了一种呼读方法和16个整体认读音节的学习。它常使学习者产生误解,导致错误。整体认读是掩盖缺陷的伎俩。

32、 加改y、w的音位不伦不类;用“隔音符号”和 y、w分隔音节,是制造混乱。

33、 y、w加改规定实属作茧自缚。在音节中y与i同音,w与u同音,为了区别,就自然产生了大衣小衣,大巫小巫的称呼。

34、 调符规则不完好。电脑录入时,点击5次鼠标,才完成一个字符的录入。

35、 声调标在特定字母上虽意义不大,却增加了思考和操作难度。

36、 要想弥补方案的缺陷,以适应现代社会发展要求,就必须对它进行修改。

37、 批评:一个符号多种读音,加字母不拼,这里改一下,那里改一下,就不科学。

38、 一个 i 三种读音,一个 y 两种读音,i y 又读音相同,…… 更是一塌糊涂。为了这些乱七八糟的东西,我们的幼师、小学教师、幼儿、小学生吃尽了苦头。这还只是众多问题中一、两个例子。对汉语拼音不动大手术,怎么能解决问题 !

39、 反对修订汉语拼音方案的在这论坛是少数,在领导部门中是大多数,明哲保身。

40、 汉改派可能认为保汉派是陈词滥调不值一驳,其实要驳倒相当难。即或自认为驳倒了对方,对方也不会轻易认输。

41、 现行汉语拼音方案在制定之初,基于以下几个目的:

一,给汉字注音;二,为汉字提供一种索检方法;三,作为推广使用普通话的工具;四,为无文字的少数民族提供一种简便文字;五,帮助外国人学习汉语;六,作为“汉语要走世界文字拼音化道路”的实验工具。 这最后一个目的最“要命”!

42、“汉语要走世界文字拼音化道路”本身就很值得商榷,未成定论,我对此是持坚决的反对态度。现行汉语拼音方案为了做到这最后一条,同时为了让学习汉语的外国人使用起来感觉到习惯,更多地借用了外国人拼音文字的、非汉语的东西。

43、现行汉语拼音方案已经不纯粹是一种拼音,而是先天不足的“拼音文字”!

44、标注一个汉字的读音,最长的要用到六个字母之多(如“窗-chuāng”),对于“i、ǖ、u”打头的零声母音节,“i、ǖ、u”还要变写为或加上“y、w”,如果不是考虑到外国人的语言习惯,这纯属画蛇添足。反映在电脑输入法上,以双拼输入时,零声母音节还要额外附加一个不表音的符号,徒增不便。“ǖ”在和除“n、l”相拼时,要简写为“u”,表面上看是追求简单,实际上增加了规则以及使拼写不统一。麻烦更多。

45、其实汉语的读音很简单,就是前声后韵,用声母和韵母(需要的话加上四声符号)两个、甚至一个(零声母音节)拼符就可完整表达出汉语的音节。

46、用几个字母构造出声母、韵母,再去拼写出汉字音节,增加过度环节,把本来是一种优势的、简单的汉语音节,人为地搞复杂化了!

47、 汉语拼音方案把简单的前声后韵的汉语音节,分出声、介音、韵,把韵分出韵首、韵腹及韵尾,这仅仅是研究汉语发音规律的一种方法而已,给汉字注音细化到这一步,是反实用主义的。

48、要求声符不能标在介音上,增加了学习难度。

49、放弃双拼制,是现行汉语拼音方案的第一个错误。

50、现行汉语拼音方案也不是一种细致的注音方案。如“i、ji、qi、xi”和“zhi、chi、shi,zi、ci、si”中的“i”不是同个音位,“zhi、chi、shi”和“zi、ci、si”中的“i”也不是同个音位;“ge、ke、he”和“ie、ǖe”中的“e”也不是同一音位,后者在单独表示时,特别表示为“ê”。

51、现行汉语拼音方案的支持者们说,这只是细枝末节问题。可是研究训诂学,以及汉语方言的人都知道,现行汉语拼音方案是不能准确表达所有汉语音节的,不得不使用国际音标做工具。在给汉字注音上显得繁琐,在训诂、方言研究上又显得过于粗糙,这不能说只是个细枝末节问题了。这是现行汉语拼音方案的一个缺陷。

52、就现代汉语来说,直舌音和卷舌音已经没有区分的必要。

事实上,人们在实际语言应用上已经分不清直舌音和卷舌音了,我们还死抓住这个区别不放,无视汉语的发展变化,只会给人们使用汉语造成困难。相信大多数人都有同感。

53、近代汉语里,还有“iai”这个韵(如“崖”以前就读这个音),现在已经把它屏弃,因为人们在语言使用中,已经把这个韵简化成“ia”了。那么为什么不能把已经没有实际意义,仅在韵味上(如北京人说话)有所别样的直舌音和卷舌音归并呢?

54、再有,在现代汉语中,韵母“e”和“o”仅仅是在口型上略有不同,而且这个不同很大程度上还是因为拼音时受前面的声母影响所造成的,它已经不起别意的作用,那么我们还区分它们干什么呢?如果说是为了使汉语拼音精确化,那么“i、ia”等音中的“i”和“zi、zhi”等音中的“i”、“ie、ǖe”和“e、ei”中的“e”发音差别更大,现行的汉语拼音方案为何又不去区分它们呢?因为完全没有必要嘛!所以,我们是不是也可以将“e”和“o”予以归并?

55、在发音习惯上,近代汉语还有尖音和团音的区别,如“星xīng”读做“sīng”,这和大多数人把“shi”读成“si”没有什么本质上区别。

56、 现行汉语的第二个错误,是无视汉语的发展。我们也不能不注意到,汉语中声母都是自然附带有韵的,例如“b”本身就等于“bo”,“j”本身就等于“ji”,试问,你能发出纯粹的、不带“o”和“i”的“b”和“j”的音来吗?那么对于诸如“bo”“ji”等音节,为何不干脆地就简单用“b”“j”一个字母表达呢?不妨,我们把这类音节称之为“隐韵母”音节。

57、字母名称教学五十年三变,父子异闻,子孙异语,致使今日广播电视中字母播音异读频现,无章可循。

58、但由于方案的规定存在严重缺失,一无使用范围说明,二无适用性,使其无法付诸实施。按这个标准(或呼读音)以下拼写就要这样称说:
GB(国标)读 改掰 (ge bo)
BTV(北京TV)读 掰太歪 (bo TV)
RMB(人民币)读 阿尔 埃母 掰 (ri mo bo)
yi wu (义乌)读 呀衣哇乌 (i i u u)
Bei Jing(北京)读 掰鹅衣皆衣乃改 (bo e i ji i ne ge)

幸亏播音员没有按方案规定的名称音来读,难怪厂家不肯为如此读音的广告付钱!很显然,以拼音拼写的地名、人名、缩写词不可按名称音(或呼读音)称说,外来缩写词更不用说了,像鸟语。

59、事实上在播音中,名称音一次也没有被使用过,这可能是最没有适用性的一个国家标准了。字母读音标准形同于无,播音怎会不乱?

60、这26个字母各国通用,但名称读音并不完全一致,这是因为难免要受母语发音习惯的影响。我们为啥要刻意去追随他们的读音,把自己的读音变得支离破碎?

61、第二学期课本才开始加进y、w的变换用法,最难认记的是y、w的用法,学生要记住23个需要加换的音节,哪几个是加头母,哪几个是换头母,要让一年级小学生既能分辨又能记忆,极不容易。如“乌龟”,第一学期教的是“ū guēi”,第二学期改为“wū guī”,uei中的“e”被省略以后,调号得改标在“i”上。几十个音节都要这样变换,花费很大气力也不易学会,又极易混淆。

62、第三学期继续教一些拼写规定,既繁慢又难教。一两节课就可教会的注音字母,改为教汉语拼音方案拖了三学期还困难重重。如iou、uei、uen的省略变化,j q x和ü相拼ü上省写两点等规则。比如拼写规则有四条,j、q、x和ü相拼省略ü上两点,这一条比较好掌握,iou、uei、uen的省略就复杂了。怎样省略,省略哪个字母,省略后,声调符号怎么标,学生很难弄清。

63、在1963年教育部修订了《小学语文教学大纲》,重新编写了拼音教材,无奈的把y w当作声母教来,死记“in因”的同音字是yin,“ian烟”的同音字是yan等。要教的内容仍比注音字母多很多,费时多效果差。

64、以后,仍然是多次改课本教法而不敢说改汉语拼音方案。

65、如先不教《字母表》,不教隔音符号,不要求拼写音节,韵母iou、uei、uen直接教死记省写式而不提它的来源。这教法前后要四五周,仍比几课时学练的注音字母费时几倍。

66、“汉语拼音用的时间长了,成了习惯,不能推倒重来”的说法是站不住脚的。

女人裹脚的习俗长,旧的社会制度长,汉字反切长,哪一个是守得住的?

67、还是对汉语拼音小修小补,连大修大补都不敢,莫不是要照顾大师们的面子、情绪?还是要照顾一些人的习惯、感觉?用这种不负责任的态度对待文改,是中华民族的悲哀。

68、我们要牢记这样一个宗旨:拼音是为语言服务的,而不是用来规定语言的。

硬课和上大学的目的,让金课从硬课开始

我自己的课都是以“教的更少,学得更多”的理念来设计的。核心理念也就是:学科大图景、理解型学习。主要操作方式就是把一个学科一门课的大图景(典型对象、典型问题、典型思维方式、典型分析方法、和世界以及其他学科的关系)整理出来,然后选择最少的概念和例子,来体现好这个学科大图景。在这个过程中,大部分的内容都是留给学生自学的。学生怎么自学呢,通过布置作业,然后学生做作业的时候重新回忆课程内容、看书、做题。一般来说,有技能性任务(例如计算或者画图)的课程会布置大约五道题每两周。按照中等学生的情况来估计,每道题大约五小时,加上看书和复习时间,以及有必要的情况下找助教、老师、同学讨论的时间,大约每两周需要40小时左右的时间。如果基本上是理念性的课程,则基本上每两周一本书要细读和做读书报告,每周一本书要略读。时间消耗上,也差不多是每周20小时。期末一般来说还要提交一份课程大作业。

这样的课程负担,跟国外学校比起来,是偏少的。我自己在UBC上学的时候,第一学期选了三门课程(量子、场论、电动),主管研究生的系主任就找我谈话,说你确定能够同时学习这三门课,请你在两个星期之后来找我一趟。当然,我的情况特殊,内容都是已经学过一遍的(当然,实际上,通过UBC的研究生课学到的内容深度和加深的对世界的理解,还是远远超过我在师大的研究生阶段学的这几门课的)。但是,就算这样,每一道场论的题基本上还是要花5-10小时,然后,每周3-5道这样的题。电动的题稍微耗时少一点。量子倒是能算的就容易算,不能算的就不会出成作业题。就这样,也是大约合起来每周40小时以上。对于大多数的内容上没学过的学生,要是选这样三门课,还要加上搞懂内容的时间,我怀疑得差不多每周60小时。这样的话,确实,系主任要来关注一下了。

就算有再好的老师,每一门课,也基本上是自己通过“在老师引导下的”自学(看书、做作业、和老师助教同学讨论、运用)来学会的。如果老师能够给你在大图景上的引导,加上合适的学习材料和作业的选择、作业的反馈、参与讨论,那么,这已经是了不起的学习的机会了。我还记得我在师大上本科的时候自己做吉米多维奇和它的关于线性代数的兄弟习题册,以及自己拉队伍做数学模型(队伍的指导老师狄增如也是我们几个人闯进门拉进来的,而且一拉就进了)的岁月,以及在理科一阅览室白老师帮我们选书以及问我们“今天你们考完试了,你还在阅览室带着干什么”的日子。

可是,我回来以后,自己当老师的时候,发现,学生们可基本不是这样想的。他们希望一门课就是老师在黑板上讲讲,他们坐着听一听,最好没有作业,最好考试的东西都是可以在期末的一两周之内记住的。我不知道对大学课程的这样的期望是哪里来的。我也不明白,如果是这样一个期望,那来上大学做什么?这样的讲座或者偶尔一两次课是可以有的,启发你思考人生,认识世界。但是,如果是课程,则还需要下真功夫,因为就算启发了之后,还需要真的下功夫来真的理解世界才行:之前人类文明的积累,不管是知识还是思维方式、分析方法,总要成为你认识世界的基础才行啊。我不知道,如果大学的学习都是符合这样的期望的课程的话,开设大学做什么?

学生把珍贵的时间拿出来,家里还要出钱,如果像国外一样的话还要付高额的学费,然后,就是为了能够舒舒服服地把日子过完,管它能不能学到东西?同学们,你们不觉得这很不划算吗?

学校把学生们的时间花掉,还要雇佣大量的研究者来讲课,还要投资各种软硬件设施,就是为了让学生们把在大学的日子舒舒服服地过完,管他能不能学到东西?大学呀,你不觉得这很不划算吗?

我真的不知道什么时候,大学成了这个样子,大学生成了这个样子。大学呀,那些极少数能够坚持上硬课的老师,能够把学科大图景把握好讲出来,甚至还能够让学生们体会到研究者对这个学科的热爱的老师,是你难得的财富。大学生们,那些极少数能够真的把时间投入到学习(和学习之余的玩乐),企图领会到这个学科是什么,甚至看一看我喜欢哪个学科喜欢做什么的学生,是你们之中难得的想清楚的人。

由于学科的差别,从内容上来衡量一门课是水课还是金课是有难度的(当然,有难度不是就不能做,还得做。例如看内容是不是体现学科大图景之类的),但是,从学生学习工作量的形式上,很容易看出来,并且很容易执行:这门课学生的作业量必须超过某个底线的时间(例如20小时每周)、这课都必须有正课时间之外的学生必须参加的习题课。

当然,一部分的水课也是要存在的。但是,建设金课,或者至少“硬课”就可以从这个形式上的要求开始。

金课孵化器之理解型学习

大学确实非常有必要,尽管中小学更有必要,来建设“金课”消灭“水课”,尽管什么是金课什么是水课还是一个问题。在这里,我提出来一个答案,还有做到这个答案的内涵的一个方法,以及一条道路。看看能不能实践一下。

答案就是:促进对世界的理解的,促进对学科大图景的理解的,促进提升理解世界、理解学科大图景的方法的课程,就是金课(之一种)。学科大图景指的是一个学科的一个学科的典型研究对象、典型研究问题、典型思维方式、典型分析方法、和世界还有其他学科的关系。方法指的是通用的思维方式——例如批判性思维(只有经过自己的理性或者实验验证的东西才是一个学习者能相信并且成为认识世界的基础的东西)、系联性思考(理解任何一个东西都要通过把这个东西联系到之前已经经受过理性或者实验检验的东西上面),以及学习方法——例如理解型学习、WHWM分析性阅读和写作、概念地图。

怎么才能做出来这样的金课?首先,建设者必须是学科的专家,能够把学科大图景明确写下来,并且把这个(子)学科的概念地图——包含哪些核心概念还有这些核心概念之间的联系——做出来,并且阐述清楚概念地图和学科大图景之间的联系,也就是用具体的概念和具体的研究案例把学科大图景的各个方面体现出来。这个需要建设者具有这个(子)学科的比较深入的研究经验。没有用过的东西只能道听途说,用过了就能分享深刻的理解和体会。其次,还得是对于培养下一代有心的人。除了从学科大图景的角度,经常还需要从学习者的角度来思考教什么怎么教的问题。最后,还需要这个建设者能够抽出来一定的时间。尤其是第一轮设计和实验教学阶段,可能消耗的时间会远远比拿着一本书就开始讲要多得多。解决了人的问题,那剩下的就是实践中改进的问题了。

为了让这个建设和实践过程更加顺利,可以组织一个讨论班。讨论班甚至可以用课程的形式每周把时间固定下来。例如每周三个小时,给每一个参与建设的老师相当于三个学分的教学工作量的认定。在讨论班中,除了一开始讲授理念和展示例子,每一位参与者都需要引领大家一起来建设(子)学科的概念地图,明确(子)学科的大图景,确定教什么。然后,选择其中的章节来试讲和进一步调整。如果在讨论班内部基本上实践通过,则在下一年开设教学实验课程。

具体成果形式上,首先是课程设计,也就是课程甚至(子)学科的教学大纲。其次,是课程讲义和教材。接着,如果条件成熟(不能强求,不能求快)还可以拍摄视频课程让更多的人受益。将来,如果能够在更大范围内整合,我们还可能形成整个人类知识的概念地图和学习资源库——知识的学习仅仅受概念之间的逻辑关系的制约,而没有学科专业等人为的制约,而且学习者想学什么,都可以得到最好的学习材料,甚至学习顺序上的指导,以及基于概念之间关系的学习检测和认证。当然,真正的成果是受这样的教育出来的学生,以及这些学生将来建设的学科。

团队维护的网站

cloud.systemsci.org 团队云存储,用的owncloud平台,放在北京师范大学(219.224.31.20反向代理)。

cmap.systemsci.org 概念地图网站,用的CmapServer平台,放在北京师范大学(219.224.31.20反向代理)。

game.systemsci.org 博弈实验平台,用的oTree平台,放在北京师范大学(219.224.31.20反向代理)。

hpc.systemsci.org 计算平台,用的jupyter+SageMath平台,以及lapack, petsc, slepc, MKL等计算包(后面这些需要本地ssh登录——例如ssh hpc.systemsci.org -p 7712 使用),放在北京师范大学(219.224.31.43反向代理)。

www.edutopian.org 概念地图为基础架构的课程系统,建设中,暂时只能内部测试,放在北京师范大学。

www.revdi.org 综述文献点评网,建设中,暂时只能内部测试,放在北京师范大学。

www.systemsci.org 团队成员博客群,已经搬到阿里云上。

www.bigphysics.org 团队研究项目整理网站,已经搬到阿里云上。

www.learnm.org 汉字理解型学习网站,已经搬到阿里云上。

阿里云服务器地址,47.93.254.253。ubuntu虚拟机。

学校识别,GRID和google 自定义搜索(custom search engine) api

由于研究工作需要(城市以及学校之间的学术支撑和利用关系、作者姓名识别),需要对文章的作者单位做一个识别。

目前,已经有Grid.ac(https://www.grid.ac/)做了这样的工作,并且提供编码以后的全数据下载

我们也对Grid给出来的结果做了初步测试,结果很不错。不过大约有10%需要人工干预,或者至少人工确认一下。在这个10%之中,通过wikipedia或者google搜索,可以发现,大约有40%左右还是正确的,剩下的就需要从wikipedia或者google搜索来获取数据了。

其中,https://www.google.com/cse/ 提供了用户自定义搜索(针对某个网站+全网)的API。

对于需要人工确认的学校名称、地址,除了调用wikipedia数据(data dump 或者 api)之外,还可以用这个google 自定义搜索(custom search engine) api来实现。例如,这是一个以wikipedia和系统科学人为特定网站设定的(同时也包含了全网的结果的)自定义搜索:https://cse.google.com/cse?cx=003079937312448303458:6csbgejecua

甚至,google还允许你用JSON API的方式来格式化获取搜索结果,而不仅仅是网页形式。不过,这个JSON API的方式每天的上线是1万次,并且不能全网搜索。