排列与组合的研究现在被称为组合数学。13世纪后期,加泰隆哲学家及神秘主义者勒尔将组合数学应用于宇宙论及神秘主义。但是,他的著作似乎被许多数学家所忽视。赌博推动了组合数学的发展。但丁的《神曲》论及了冒险游戏。该游戏使用了3个骰子,一个人掷骰子,另一个人猜骰子上点数之和。在13世纪由假冒奥维德所写的一首诗给出了56种不同的骰面组合。这些工作引发了许多关于游戏的数学规则的评论。这一主题的“史前阶段”可能是以卡尔达诺的《骰子游戏》为终止的标志。该书出版于卡尔达诺死后的1663年,但它写于100年前,讨论了在骰子游戏及纸牌游戏中如何合理地下赌注。
帕斯卡与费马于1654年的通信,使概率论进入了一个新的阶段。他们讨论了赌徒的点数问题。这一问题是进行赌博的两人之间在赌博过程中如何下注的问题。这一问题也曾经被许多意大利文艺复兴时期的数学家们研究过。包括帕乔利、卡尔达诺及塔尔塔利亚。但没有一个人给出过完满的结果。费马提出了一个方法,就是列出所有可能结果,然后每次都为完胜者记数。当游戏的局数增加时,这一方法的计算量也快速增加。而帕斯卡提出了预测的方法。帕斯卡在《算术三角形》一书中,他阐明了帕斯卡三角形中的数字与所需要的组合数之间的关系。帕斯卡三角形的每一行给出相应的二项式展开的系数。例如第三行给出了数1,3,3,1,它们是(a+b)3=a3+3a2b+3ab2+b3的系数,第二个数3是指a2b有3种组合,即aab,aba,bba三种情况。因此,利用帕斯卡三角形的适当行,帕斯卡可以快速地决定赌注的分配问题。如果玩家A需要赢两局,而玩家B需要赢三局,那么两个人一定在四局内决出胜负;从帕斯卡三角形中的第四行的数1,4,6,4,1,确定赌注应该以(1+4+6)∶(4+1)即11∶5的比例分配。
这样的问题通常是以比的形式来讨论的,而不是用概率的形式。对取值于0与1之间的概率的最早理论研究,出自伯努利的《猜度术》。该书出版于伯努利死后的1713年。伯努利还指出可以通过观察发生的频率来估计概率,并寻求建立获得高可信度来评估概率所需试验次数的上限。不幸的是,为了满足这样苛刻的条件,需要做大量的试验。例如为了确定盒子里颜色球的比,如果可信度为999%的话,那么需要做25500次实验。计算实验次数的过程被德·莫维热改进,他以二项式展开的极限的形式给出了正态分布,并且给出了用试验值逼近真概率时,所需的更加合理的实验次数的上限。德·莫维热出版了《年金》一书的各种版本。在书中,他把上述发现应用于确定养老金金额及生命保险政策上。将概率方法运用于人口统计的推动力,则是来自不同的方面。在这里我们再次把视线转向星空。
试图寻找精确的行星轨道的天文学家们需要依靠大量的观测,而这每一次观测都容易有误差。因而,每一次测量都会给出行星略有不同的轨道方程,而且不清楚用什么样的方法来确保从给定的数据集合中计算出最精确的行星轨道。开普勒和伽利略两人致力于这一问题的研究。解决这一问题的根本思想,是寻找使总体误差为最小的曲线。1805年,在《确定行星轨道的新方法》
一文中,勒让德阐述了用最小二乘法给出这一曲线的方法。1809年,高斯发表了《天体沿圆锥曲线绕日运行运动理论》一文,在文中他声称从1795年他就开始使用了最小二乘法,从而引发了高斯与勒让德谁是最先发现最小二乘法的争论。高斯似乎在1801年使用了这样一个方法来计算新发现的小行星谷神星的轨道。在计算这一轨道时,他仅仅使用了前几年所得到的不精确的观测数据。他还指出了误差分布是高斯分布,也称正态分布。高斯推广了德·莫维热的早期研究成果。高斯依据的是,高斯分布是使平均观察最可能的分布。拉普拉斯得到了更强的关系:不管个别测量的误差分布是什么样的,它们的平均分布都趋向于正态分布。他还证明了勒让德的最小二乘估计也趋向于正态分布。天文学家们很快就意识到这一方法的有效性。特别是正如人们已知的那样,天文观测中的误差是固有的,它不仅仅是由仪器的局限性引起的,同时也与当星光穿过不稳定的大气圈时所产生的失真有关。1812年,拉普拉斯发表了他的巨著《概率的分析理论》,该书综合了直到当时为止概率论的所有发展成果。在随后的20~30年中,该书是概率论的主要教科书。
在社会环境中,概率论被看成是“理性行为的微积分”。
1814年,拉普拉斯说,概率论是减少计算的灵丹妙药。启蒙运动时期的数学家们认为开明的人采取理性的行为,而概率可以为大众提供一个可定量化的尺度,利用这一尺度,人们至少可以效仿英才们的见识。概率论的目标是为人类行为制定一个普遍的标准。关于博弈的研究仅仅是为了寻找在不确定的环境下作理性判断的工具。例如,拉普拉斯等人将概率运用于确定陪审团人数的问题上。然而,另外一些思想家不完全同意法国大革命的理性主义世界观。约翰·斯图尔特·穆勒认为:判断力应该建立在观察和实验之上,而不应该是建立在纯概率的假设之上。
阿道尔夫·凯特尔是比利时数学家和天文学家。他把从天文学发展起来的统计学和人口普查联系起来。正态分布的思想来自“中等人”的思想。正如对星球的不准确的观测值总是围绕着它的真实值一样,人的特征值也是环绕着中等人的数据分布的。因此,与这一理论上的标准值的偏差被视为一种误差。他认为收集和分析人口数据是政府的职能之一,从而使社会学家可以像物理学家揭示物理规律一样揭示社会规律。他试图证实,虽然出生率、死亡率、犯罪率和结婚率等数值可能因国家不同而异,但是,从整体上看,这些数据年复一年都保持平稳,从而验证了每个社会实体都是稳定的,但又是稍有不同的“社会物理现象”。
从17世纪起,人们开始收集上述关于社会实体的数据。
1662年,约翰·格朗特发表了论文《从自然界和政治方面观察死亡登记表》,该论文基于对伦敦死亡率的统计分析。每周发表伦敦死亡率报表的目的,是预告各种瘟疫的流行趋势,从而适时给人们以警告,逃离城市。1693年,天文学家哈雷发表了基于布莱斯劳的死亡率报告的统计表。这些数据比格朗特更加精确。哈雷还成功地指出,当时的政府过于便宜地出售了人身保险。数理统计可以看成是19世纪末期天文学的统计方法和保险统计员数据采集相结合的产物。
生物统计学的创始人弗朗西斯·高尔顿(FrancisGalton,1822—1911)是达尔文的堂弟,他将统计方法运用于分析人口统计数据和遗传特性。优生学的主要目的,是通过有选择的繁殖来改善人类素质。统计学为进化过程提供了可量化的工具。高尔顿从达尔文根据自然选择的进化论中领悟出,对生物变异需要分析的是生物本身的状态而不是它与某个理想标准之间的偏差。高尔顿把正态分布作为偏差的一种度量,而很少把它作为“误差曲线”。
正是高尔顿引进了有关回归与相关性的概念。回归的统计学概念,来自对豌豆的研究。高尔顿将大量的种子根据种子的大小分成七组。种植后的第二代种子大小有的与其双亲相同,有的则不同。所有种子的平均大小是一个常数,但是每个组的平均值偏离了其双亲的平均值而趋近于总体的平均值。因而,每个组的平均值向总体平均值“回归”。1885年,高尔顿弄清了回归的现象,并于1889年提出了与回归有关的相关性的概念。通过适当放大两个相关的变量并在图上标出它们的值,高尔顿发现了一个可以用来表示两个变量间有关的指标。这一相关系数取值于-1和1之间。1表示绝对正面的相关性,-1表示绝对负面的相关性。相关系数趋近于零时,表示变量间没有关联。相关系数本身并不能表明变量间的因果关系,但是可以通过调整以后的实验来发现变量间的因果关系。
高尔顿研究的是连续变异的遗传性,而孟德尔研究的,则是离散变异的遗传性。两人相互不知道对方的研究。孟德尔是一位数学家和物理学家。在1865年的一篇论文中,孟德尔提出了基因的存在。后来,他的这篇论文在1900年再次成为生物学家们的话题。他的有关基因存在的观点引起了许多的争议。达尔文的进化论的忠实拥护者们强烈反对这一基因的概念。皮尔逊认为基因的思想过于超自然,而且认为离散的个体无法显示出连续的特性。直到1918年费希尔提出了“只要有足够多的基因,孟德尔模型就会产生生物学所研究的相关性”的观点之后,这一问题才得到解决。这与离散的二项式分布相似:随着实验次数增加,它趋向于正态分布。
关于基因的哲学争论不是本书的范畴。但是我们应该强调,统计学并不是作为数学的一个独立的分支而发展起来的。它的发展及相关的分析工具,与社会所关注的问题紧密相关。高尔顿晚年在伦敦大学设置了优生学教授的职位(现在称为人类遗传学)。获得该职位的第一人是皮尔逊(KarlPearson,1857—1936)。第二位获得者是费希尔(RonaldAylmerFisher,1890—1962)。1901年皮尔逊和高尔顿创办了《生物统计学》杂志。该杂志成了当时著名的统计学杂志。该杂志不仅刊登了高尔顿的回归和相关性的理论,也刊登了皮尔逊的在1900年开发出来的x2检验法。这一检验法重新解决了评估理论上的分布与实验数据是否吻合的问题。1908年,在吉尼斯酿酒厂工作的生物学家戈塞特(WSGossett)引入了小样本的t分布。他用笔名“学生”
(Student)发表了这一结果,所以t检验有时被称为“学生检验”。费希尔推广了皮尔逊的许多研究。费希尔引入了方差分析。这是一个在实验中检验数据重要性的有力工具。这一分析方法最初被用于在农业中检验肥料效力等的随机实验中。这一方法的关键是在数学上把效用从偏差中分离出来。如果实验揭示出真实的效用,那么这一方法将显示出效用相对于误差的强度。
从19世纪20年代起,数学家们开始把统计学作为一个正式的研究对象,这使统计学成为更严格、更精确的方法。费希尔的试验设计和方差分析的思想,是他的《试验设计》(1936年)中最杰出的部分,对英国和美国产生了极大的影响。这些思想迅速改变了科学中的试验实践活动,这些活动所处理的,是在实验室重现的条件下不可控制的可变资料。