初唐时期有一位著名的诗僧叫做寒山和尚。张继的名作《枫桥夜泊》:月落乌啼霜满天,江枫渔火对愁眠。
姑苏城外寒山寺,夜半钟声到客船。
其中的寒山寺就是因寒山和尚曾在那里住过而得名的。
寒山和尚写过许多诗,有不少诗还是关于社会问题的。不过他的诗不是写在纸上,而是到处题咏,或山岩,或石壁,东一首,西一首,别人根本无法统计,但他自己却心中有数:五言五百篇,七言七十九,三字二十一,都来六百首。
这是一首诗,也是一份统计表。是用统计数字组成的诗,也是用诗来表达的统计表。
大概是善于运用统计的缘故吧,这位处于初唐盛世的寒山和尚,竟然已经注意到了人口问题。他认为,人口的盲目增长是造成资源匮乏,生活贫困的原因。他在一首诗中写道:我见一痴汉,仍居三两妇。
养得八九儿,总是随宜手。
丁户是新差,资财非旧有。
黄蘖作驴鞧,始知苦在后。
(黄蘖是一种皮很苦的植物,驴鞧是栓在驴屁股后面的皮套)。这首诗用通俗浅显的语言指出了三个问题:第一,一个智力低下的人,却娶两三个老婆,生八九个儿女(基本符合统计规律),这不是什么福气,徒使人口增加。第二,人口一多,开支增大,又不会节约,原有的一点家财很快花光,成为穷光蛋。第三,智力低下又家境贫穷,人口众多,往后的日子就苦了。寒山和尚还极力主张少生优育。他写道:“生女畏太多,已生须训诱。”“养子不经师,不及都亭鼠。”认为生男育女切忌太多,既已生了就必须给予良好的教育,养子女不教育还不如一只老鼠。所有这些,没有一点统计学的头脑,恐怕是写不出来的。寒山和尚开了诗歌与统计结缘的先河。
其实,文学作品与统计的关系,远远不止在统计作品的数量,另外还有很深的缘分。每位诗人或作家都有自己的风格,除了作品的内容以外,遣词造句的习惯等语言特征也形成作品风格的重要特征。这种风格在数量上的表现就是人们各自的语言特点在统计上的差异。1964年,谢德洛夫提出了“计算风格学”,它是以计算机为工具,对不同的作者的风格进行统计分析、计算、整理的一门学科。下面的两个例子,将使我们看到文学作品与统计的关系。
(一)抒情诗统计律
一首好的抒情诗,除了在内容上应给人以美的感受外,还应当使读者易于记忆,易于背诵。在中国,为什么五言和七言的旧体诗至今仍为人们所喜闻乐见?在西方,为什么“十四行诗”从文艺复兴时代一直延续到现在?其原因固然是多方面的,但是,它们都易于背诵也是一个原因。什么样的诗才易于记忆,易于背诵呢?实验表明,人们短时间记忆通常只能记住5个组块。组块是信息量的一个单位,是测量人的短时间记忆的最小单位。多大的信息量算一个组块呢?这并不是固定不变的。一个数字、一个公式、一个符号、一句成语都可能成为一个组块。如果一首诗少于5段、一段少于5行,一行少于5顿,一顿少于5字,从记忆规律看,就很容易记住。如果一首诗段数太多,句子太长,大大地超过了5个组块,就会给背诵带来困难。例如旧体诗中的七言绝句是2句、4行、每行4顿。七言律诗是4句,8行,每行4顿。以前面提到的《枫桥夜泊》为例:月落/乌啼/霜/满天,江枫/渔火/对愁/眠。
姑苏/城外/寒山/寺,
夜半/钟声/到/客船。
这首诗的段数,每段句数,每段行数,每行顿数,每顿字数都小于5,所以便于记忆和背诵。
一首抒情诗要使人们易于背诵,应当采用什么形式为好?有人提出了以一首诗的平均组块数为标准的“抒情诗统计律”:S=14(A+B+C+D)≤5
其中的:A——代表一首诗的平均段数;
B——代表每段的平均句数;
C——代表每段的平均行数;
D——代表每句的平均顿数;
E——代表每顿的平均字数;
S——代表一首诗的平均组块数。
由于在大多数情况下,E总是明显地小于5,故可省去。抒情诗统计律认为:满足S≤5的诗比较容易背诵。
有人对一些诗人的作品作了统计,其结果如下:作者唐诗宋词歌德莎士比亚郭沫若艾青样本数250250150150100100S的值545465。
可见,这些诗人的作品比较易于背诵和记忆。
(二)小说作者的考证
苏联著名作家肖洛霍夫的名著《静静的顿河》出版后,早在1928年就有人说这本书是抄袭一位哥萨克作家克留柯夫的。1974年,一位匿名的作者在法国巴黎出版了一本书,断言克留柯夫才是《静静的顿河》的真正作者,肖洛霍夫是一个剽窃者,充其量不过是一个合作者罢了。特别是该书的第一、第二卷更是如此。
为了弄清事实真象,一些学者利用计算风格学的方法来考证《静静的顿河》的真正作者究竟是谁。他们的具体作法是:把《静静的顿河》四卷本同肖洛霍夫与克留科夫两人其它没有疑问的作品用计算机提取各种数据,加以分析比较,以便获得可靠的资料,来澄清存在的各种疑问。统计分析的结果表明,各种数据,《静静的顿河》与肖洛霍夫的作品十分接近,与克留科夫的作品则相距甚远。因而有充分的理由可以断言,《静静的顿河》确系肖洛霍夫的作品。到了1990年5月19日,新华社发自莫斯科的一则电讯说:苏联发现了长篇小说《静静的顿河》的两篇原稿,经专家鉴定,这两篇原稿均出自肖洛霍夫的手笔。与利用计算风格学的方法所得的结论完全一致。至此,这一长达数十年的文坛公案遂告结束。
我国著名的古典小说《红楼梦》后40回的作者是谁?文学史上一直未能定论,一般认为后40回是高鹗所续写,但却缺乏足够的证据。考证《红楼梦》后40回的作者是谁,一直是红学研究中的热点课题。但过去所用的方法都是从旧有的文献中去寻找蛛丝马迹。1976年,在美国威斯康星大学举行了国际红学会议,该大学的学者陈炳藻宣读了一篇论文,他利用计算风格学的方法分析了《红楼梦》前80回与后40回的用词特点,认为两者是一致的。从而作出结论,《红楼梦》前80回与后40回均为曹雪芹一人所作。石破天惊,陈炳藻的论文为红学研究方法揭示了别开生面的一页。但是,后来有人发现,他所用的统计方法还有缺点,因而其结论尚不足为据。谁是谁非,还有待于历史的结论。
正由于计算风格学所用的统计方法比较复杂,统计时侧重点不同,却有可能得出大相径庭的结论。
我们看一个简单的统计问题:某工厂有5个股东,100个工人,工厂股东的利润和工人工资总额为:年度工资总额股东利润2002年10万5万,2001年12.5万7.5万,2002年15万10万。
这里的项目并不多,数据也不算复杂,但由于统计方法的不同,同样是这一组数据,却可以画出三种不同的统计图表。
图a表明:股东总利润与工人工资总额平行增长;图b表明:股东利润增长的比例高于工人工资增长的比例;但相差不大;图c图c表明:股东平均获利远高于工人的平均工资。
老板会说,股东的利润与工人工资平行增长,他们没有得到特殊的利润。工人则会认为,股东的平均利润大大高于工人的平均工资,太不公平。你认为谁是谁非呢?
使用计算风格学时也有可能遇到这类情况,所以不能不十分谨慎。