(五)应该进行全面的综合性的统计分析
汉语是由字、词、句这三个基本单位组成的,若要研究一个作家的写作风格,就应该对这三个基本单位进行全面的综合性的统计分析,不可偏废。笔者在考察前八十回[9]与后四十回写作风格差异时,首先发现了这两部分的某些专用词。如“越性”与“索性”是同义词,但前者只出现于前八十,后四十回表达同一意思时只用“索性”,从不用“越性”。在这类专用词发现的基础上,提出了前后两部分写作风格不同的假设。而后,对各虚字以及不同长短句子出现规律的检验,证实了这一假设。当时采用的是斯米尔洛夫检验法,检验水平为0.05,即出现规律实际上相同但错误地判为不相同的可能性不超过5%,根据检验结果所下的判断具有95%的可靠性。当时对27个词、47个虚字、12种句长以及平均句长共做了151次检验,后四十回中出现规律异于前八十回的比例高达92.64%,远远超过了水平标准5%,笔者因此认为后四十回写作风格不同于前者。同时,在将后四十回分成两部分考察各字、词与句长出现规律后,又提出了后四十回中很可能含有曹雪芹的少量残稿,它们主要在其前半部分的假设。由于对字、词、句这三个基本单位都做了考察,笔者对自己得出的结论是比较放心的。
但是,李文中没有提及对词的研究,对于不同长短的句子,文中只有极简单的一句话:
作为辅助变量,也用过句子长度,它也提供了若干有用信息,这类图表也有数十张。
大家知道,作家无论想表达什么意思,也无论是用文言还是白话,写出来总要表现为一定长短的句子。有些人的句子短些,有些人则偏爱长句,不同句长的分布同样表示了作家的写作风格。有的同志甚至认为,与虚字相比,句长的规律受文言与白话虚字比例波动的影响要小得多,它可更精确地刻画作家的写作风格。笔者当时根据英国统计学家尤尔关于句长与作家写作风格关系的论述对句长的研究给予了同样的重视。可是,既然从一字句开始的各种长短句子的数据如此齐全,又有那么高级的电子计算机,为什么却要把这类十分重要的指标仅仅当作“辅助变量”看待呢?文中屡屡提及的“英美同行”,他们是这样处理的么?此外,“有用信息”是什么意思?“有用”与无用如何区分?“若干”两字应作何解?读者怎样理解“它也提供了若干有用信息”才算正确呢?
笔者百思而不得其解[10]。