(二)平均句长
为了精确刻画作家用句的长度,英国统计学家尤尔提出了平均句长的概念,并把它作为判断作家文体特征的重要依据。平均句长=总字数/总句数,回平均句长=回字数/回句数。对平均句长检验分布结果如下,它也否定后四十回为曹雪芹所作。
最后,我们同样将后四十回分成前后两部分,观察其平均句长与不同长短句出现的频率,并与前七十八回做比较。下表同样表明,后四十回前半部含有少量的残稿。
本文对词、字、句的88个项目进行了考察,除差别极明显或难以检验分布外,对73个指标分组用CMNPHOB法作了145次分布检验。所有项目在A、B两组的分布均同一,这与前七十八回均为曹雪芹所作的实际情形完全吻合。而否定C组与前七十八回分布同一的有133次,连同分布显然不同的“越性”等词,则有151次。在取定水平α=0.05时已说明,若分布不同一的比例低于5%,还可认为是将分布同一误断为不同一,但现在比例却高达92.64%,因此我们只能否定陈炳藻先生的结论,而认为后四十回并非曹雪芹所作。前面的分析同时又表明,在后四十回的前半部分中含有曹雪芹的少量残稿,但数理语言学只能指出少量残稿存在的区间,至于哪些情节或段落属曹雪芹的残稿,那还有待于专家们的进一步考证。
原载《红楼梦学刊》1987年第1辑
* * *
[1] 1954年,瑞典汉学家高本汉曾做过类似的尝试,他取《红楼梦》中的24个语词来证明后四十回也为曹雪芹所写,但他根据前八十回已被程、高改动过的亚东本统计,因而统计的精确性很值得怀疑。1959年,吴世昌先生在《〈红楼梦〉中的若干问题》一文中,从语言学的观点出发,对高氏的论点作了反驳。
[2] 保尔·拉法格:《忆马克思》,载《忆马克思恩格斯》,生活·读书·新知三联书店1963年版。
[3] 回目录与各回首标题不计在内。
[4] 回目录与各回首标题不计在内。
[5] 己卯本的收藏者陶洙曾用庚辰本校过己卯本。在无法确定是己卯本原有或是陶洙所加时,己卯本影印本保留了“乙”这个符号。
[6] 因A组中第十七、十八回未分回,而B组不含第六十四、六十七回,因此两组各含39与38个单位。为检验方便,现将A组中第十二回(3,511字)与第三回(4,041字)并为一个单位,C组中第九十一回(4,504字)与第百十四回(4,215字)、第百二回(4,184字)与第百五回(4,544字)分别并为一个单位,使三组均各含38个单位。这样处理并不影响分布检验。