部分转发某语丝帖子一个:对XX作品进行作者身份识别的科学方法   作者 龙哥

为了不参与任何关于某个SB的讨论,删掉部分内容,向原作者致歉。

……

一、作者身份的谜团

  由于种种原因,历史上很多文章或作品的作者身份留下了疑云,比如一直存
疑的莎士比亚的某些作品、《红楼梦》后四十回、《静静的顿河》的作者等。在
缺乏充足历史证据的前提下,文本分析就成为识别作者真实身份的有力工具。

  一个著名的案例是英国的“朱尼厄斯信件”。1769-1771年间,伦敦的报社
陆续收到署名朱尼厄斯的一系列信件,对英国内阁和君王乔治三世进行了激烈的
批评。报纸刊出这些信件后引起了较大的反响,但没有人知道这个朱尼厄斯是谁。
从信件中的信息来看,这个人应该是内阁成员,并且是持不同政见的内阁成员。
文体学家仔细分析后,确定以“朱尼厄斯”经常重复的词和短语作为统计对象,
制作出一个“朱尼厄斯词语表”。然后将持不同政见的内阁成员作为比较对象,
发现菲利普男爵的文体风格与“朱尼厄斯词语表”高度重合,因此菲利普男爵被
认为就是朱尼厄斯。虽然词汇分析的结果并不是直接证据,但得出的结论却显示
出作者身份的最大可能性指向。

  完成于16世纪末期的《The Reign of Edward III》是一部表现骑士精神的
剧作,作者到底为何人是英国戏剧界的谜团之一,并为此争论了几百年。伦敦大
学的Brian Vickers教授使用软件对比了《The Reign of Edward III》和莎士比
亚的其它作品。在《The Reign of Edward III》中检测出了200个能匹配莎士比
亚其它作品的字符串,通常两个不同作者的作品只能找到20个匹配的字符串。结
论显示该作品的真实作者是莎士比亚,是他的早期作品。Vickers教授认为作家
惯于重复使用相同的短语或隐喻,莎剧专家认为,作品所表现出的深刻人性、博
大精神和文辞语言的华丽,无可辩驳地是莎士比亚的文字。

  这种分析方法是基于作品风格的相对一致性、语言特点的统一性,也就是说,
作家在运用词汇、句式、音律、辞格等语言材料时有鲜明的个人色彩,在表达方
法上也存在着一定的个人特征。量化统计会发现明确的数量关系,并通过对比得
出最为接近事实的结果。

  二、留在文字中的作者“指纹”

  每个人都有自己独特行为特征,是一个人的基本属性并往往形成个性化的行
为定势。一个人的行为特征基于个体的客观条件、环境和习惯,具有一定的规律
性。文字表达的规律性属于行为特征的一部分,其客观基础是一个人的知识结构、
生活背景、思维方式、文字能力和表达习惯等,同样具有显著的个性化和定势。
在一个人的文字中,这样的规律性特征就是作者留下的“指纹”。以数理统计方
法进行的文本分析可以识别出这些“指纹”,并揭示作者的文字表达规律,为作
者身份的识别提供量化的有力证据。

  语言和文字是最能体现作者个性的特征,作者在写作时对于词和句的运用、
配置必须进行选择,从而形成自己的风格特征。不同的作者存在着明显的差别,
而作者自己则往往又意识不到。真正的模仿是很难的,除非全面掌握了文本特征
的数量关系。如果文学作品的语言结构的种种数量关系得以精确测定,准确识别
作者身份的概率就相当大。

  根据文体风格识别作者身份是一个应用广泛的研究领域, 关键问题是从作品
中提取出代表文体风格的识别特征。对这些特征进行精确的数量统计,并对比不
同作品之间的风格相似程度。文体特征可以分为词汇特征、语法特征、修辞特征、
虚字特征、标点符号及排版特征等基本单位。

  词汇特征包括词条、单词和短语,在同一个作者的作品中通常表现为规律性
的出现频率。比如词汇丰富性度量、特色词和罕见词的比例等,也包括声调和韵
律分布等。也可以选择更全面的词汇,如形容词、连词、副词、感叹词、成语、
习语、数词、名词、拟声词、介词、量词、代词、助词、动词、语气词等。

  语法特征包括句子长度、被动态使用频率、特征句式的分布等句型特点。例
如修饰语是形容词性的、定语性的、短语性的还是分句性的。

  修辞特征涉及辞格的运用,如隐喻或词序变化、倒装以及其他强调的方式等。

  虚字特征通常与作者造句时的心性吻合, 自然流露出写作个性。如句尾虚字、
白话虚字、文言虚字、转折虚字等。

  标点符号特征主要指标点符号的使用频率。

  排版特征包括段落长度、行首空格等。

  从修辞学角度来说,文学作品所展现的雄壮、婉约等风格正是由于作品中包
含不同概率的特定词汇造成的。其他影响作品风格的语言特点如句式、音律、辞
格等也能够体现出作者写作的风格。

  其中标点符号的使用频率、功能词频数、特色词汇分布和句子长度等特征受
到了广泛的认同。这些特征反映了作者的词汇和句法特点,体现了作者组织句子
的习惯,与文章描述的内容,讨论的主题无关。

  三、识别作者“指纹”的科学方法

  二十世纪的科技革命促使社会科学领域内发生了方法论的变革, 并引发了科
学一体化的趋势,这对于文学研究大有裨益。传统的文学研究仅限于定性分析,
而系统科学为人文学科提供了数学模型和思维程序。借助统计学及定量分析等科
学方法, 文学研究也逐渐显露出精确化与工程化的趋势

  随着数学方法与计算机技术的普遍应用,计算文体学或计算风格学
(Computational Stylistics)应运而生。也即建立文本信息的数量关系统计模
型,从数量关系上把握作者的文体特征。作者的写作风格可以通过其作品的统计
特征上表现出来, 换句话说, 文体风格可以在数量上有所体现, 是可以量化的。
而文体风格是一个作者区别于其他作者的本质特征。

  由于计算机技术的发展,大规模的文学作品精确定量统计分析成为可能。抽
取文本特征并统计后与特定对象进行比对,包括简单模板匹配法、朴素贝叶斯法、
贝叶斯网络法、K最近邻法方法、多层感知器法和序贯最小优化法
等。一个理想
的作品风格识别模型应该能够排除干扰,得出最接近事实的结论。理论上,如果
特征抽取有足够的代表性,两部作品是否为同一作者的结论是非常具有说服力的。

《部分转发某语丝帖子一个:对XX作品进行作者身份识别的科学方法   作者 龙哥》有一个想法

发表评论

电子邮件地址不会被公开。 必填项已用*标注