附录一 从数理语言学看后四十回的作者——与陈炳藻先生商榷
1980年6月,美国威斯康星大学的陈炳藻先生在首届国际《红楼梦》讨论会上发表了《从词汇统计论证红楼梦的作者》一文,他借助电子计算考察《红楼梦》前后用字(词)的相关程度,认为后四十回也出自曹雪芹之笔。[1]
陈先生按章回顺序将《红楼梦》的1—40回、41—80回、81—120回分为A、B、C三组,为了证实统计方法灵敏有效,还配上了D组《儿女英雄传》。各组主体总字数经随机抽样约为8万字,即从《红楼梦》中抽出的字数约占全书的8%。然后再从各组中勾出虚词、副词、形容词、名词、形动词等词类,借助计算机排字统计,最后得到各组合相关表(见下页)。前八十回与后四十回用字的正相关达2次,占78.57%,因此陈先生认为后四十回也出自曹雪芹之笔,而前八十回与《儿女英雄传》用字的正相关只有9次,占32.14%,因而认为此统计方法是有效的(对组合B、D正相率达到42.85%,陈先生未做解释)。
陈先生创造性的工作是值得赞赏的。马克思说过:“一种科学只有在成功地运用数学时,才算达到了真正完善的地步。”[2]作家写作时,某处用这个字(词)或那个字(词),都带有很大的偶然性,而这大量的偶然性中却隐藏着某种客观规律,即该作家在其写作生涯中形成的独特的文体特征。研究大量偶然性事件中客观规律的科学是概率论,数理语言学是它向语言学渗透的结果。因此,数理语言学能用函数刻画作家的文体特征,从而能对作品的真伪做出判断。1960年代,英国文学史上一大悬案的解决,即《朱利叶斯信函》作者的确定,显示了此法的实用价值。因此在用各种方法探讨后四十回作者究竟为何人时,陈先生从数理语言学进行考察不仅是可行的,而且也是必要的。但纵观其工作方法,有些问题似可商榷。
第一是抽样。陈先生从A、B、C三组中各随机抽取出约8%的文字统计分析,以此推断A、B、C这三个主体是否同一。用统计学的术语说,就是以A、B、C三组为三个母体,而以抽取的文字作为子样,从子样的性质来判断母体的性质是否同一;从而判断作者是否同一。这种方法用于一般问题并无差错,但以此研究《红楼梦》前后两部分作者是否同一却欠妥当,因为后四十回情况较为特殊。首先,据程伟元声称,这是曹雪芹的原稿,他与高鹗只不过做了“细加厘剔,截长补短,钞成全部”的编辑工作。该声明的可靠程度目前尚有争议,因此统计分析时必须考虑到可能含有曹雪芹的残稿的因素。其次,即使后四十回均为高鹗续作,但为了能假托曹雪芹之名与前八十回一起刊行,高鹗也可能会着意模仿曹雪芹的某些写作手法。如果只抽取8%的文字,就有可能正好抽到含有较多残稿的文字(如果确含有残稿且数量不多的话)或高鹗模仿得较为成功的部分。这样,即使被抽取的文字的性质与从A、B两组所抽取的性质类似,也难以据此认为后四十回均为曹雪芹所写。为了保证结论的可靠性,显然应该分别以曹雪芹和后四十回作者的写作习惯为母体,而以整部《红楼梦》作为子样,即应对全书进行统计分析。
第二是检验的项目。14次测验对判别《儿女英雄传》的作者不是曹雪芹也许可以,因为文康的创作与曹雪芹毕竟是毫不相干的。但由于后四十回的特殊与复杂,检验的项目就应该多些,还必须包括一些作家自己也意识不到的文体特征,如平均句长。因此,无论14这数字本身或其包含的内容,都使人感到似乎少了一些。
第三是分布。《红楼梦》全书共有729,604字,105,994句[3],作为子样来说,容量十分巨大。由Lindeberg中心极限定理可知,各字、词或一定长短的句子在书中的出现一般服从正态分布,它由两个参数:均值μ(统计时常用频率代替)与方差σ2[4]决定。这是统计的基本常识,犹如红学家知道《红楼梦》的主人公叫宝玉与黛玉。人们容易理解频率而不清楚方差,但决不能因此置方差于不顾,因为这会导致错误。如“的”在前后两部分出现的频率只相差0.003,但它在A、B两组服从同一分布,而在C组却不服从该分布,这表明“的”在前后两部分出现的规律不一样。因此,不考虑方差所得结论的准确性是值得怀疑的。
正由于有以上疑问,笔者对《红楼梦》全书重新进行了统计分析,所依据的是人民文学出版社1982年3月的新版本。该本前八十回以庚辰本为底本,第六十四、六十七回缺文由程甲本补配,后四十回则采用程甲本。统计时,A、B、C三组的分法与陈先生相同。由于第六十四、六十七回采用的是程甲本,因此这两回不包括在B组之内。这样,各组的字、句数如下表。各组字、句数之差与组总字、句数相比显得很小,因此这样分组检验是合理的。