书城科普读物探索未知-趣说分析化学
8885600000006

第6章 分析数据的统计处理

分析化学测定的全过程都离不开物理量的测量,例如称量,量体积,读取电位、吸光度或峰高等信号值。这些测量技术对于环境温度、湿度、试剂纯度、仪器性能甚至个人的习惯等一系列因素都会在一定程度上产生敏感,从而造成测量数据的波动。实验误差是客观存在的,分析结果必然带有不确定性。为处理这些波动的数据并恰当地定量描述带有不确定度的结果,就要用专门研究起伏波动的统计学工具,后者是建立在概率论基础上的,可以帮助实验者科学地收集、整理和分析数据,从中获得信息,并合理表达数据,以说明研究对象的某些特征。

系统误差它的产生是有一定原因的,系统误差的大小在相同的测定过程中是恒定的,或者遵循一定的规律变化,例如随样品量或试剂用量的大小按比例变化。系统误差又有一定的指向,例如称量一种吸湿性物质,称量误差总是正值。从系统误差的来源看,属于方法和技术问题,知道了产生的原因,便可设法消除或修正,所以也叫可定误差。

随机误差在相同条件下重复多次测定同一物理量时,误差的绝对值和符号的变化或大或小,或正或负,看来毫无规律和纯属偶然,这种误差称为随机误差,也叫偶然误差。它遵循随机变量的统计规律,单个地看是无规性的,但就其总体来说,正是由于单个的无规性,才导致了求它们的总和时有正负相消的机会,而且随着变量个数的增加,误差平均值趋近于零。这种抵偿正是统计规律的表现,所以随机误差是可以用概率统计的方法来处理的。

精密度和准确度误差代表不确定度,即不精密度和不准确度,但习惯上用其倒数来表示精密度和准确度。精密度高的实验结果,其准确度不一定高(除非不存在系统误差);但精密度高却是准确度高的先决条件。

精密度纯属随机误差引起的不确定度部分,它反映一组重复测定的数据相互接近的程度或说明分散的程度。在分析化学中,根据具体情况的不同,可用以下两种方式表示精密度:①重复性,是在完全相同条件(同一操作者、同一仪器、同一实验室和较短的时间间隔)下用相同方法分析相同的样品所得一组重复测定数据的精密度;②再现性,是不同条件(不同分析人员、不同仪器、不同实验室、不同时间)下用相同方法分析相同的样品所得一组测定数据的精密度。

准确度表征测量值与真值的偏离程度,广义的准确度应包含系统误差和随机误差的联合效应。

基础统计学概念统计学中把准备测量的一个满足指定条件的个体的集合叫做总体,其中的每个单位是一个个体,从总体中随机抽出的一组个体叫做一个样本,样本中个体数目即样本的大小或样本容量。对分析化学来说,总体是指在给定条件下经过无限多次重复测定得到的无限多个数据的集合。这只能是理论性概念,因为实际能够得到的是有限的N次重复测定的N个测量值,即样本容量为N的一个样本,通过样本的统计量来估计总体的参数。

统计检验统计检验是建立在小概率事件的实际不可能性原理上的概念。分析一个化学样品和测定某物质的“真实”含量也只能在某种置信水平Pc上用一个置信区间来推断总体均值的所在范围。实际上是承认另外那部分小概率1~Pc已小到足以判断真值不会在置信区间以外。

显著性检验在实际应用中往往不只是估计总体的值,还需要说明总体的某种性质,例如两个样本的差异是否显著到不能代表同一总体。这里包括工艺改变后产品质量有无显著变化,两种分析方法测定结果是否一致等具体问题。

这类统计推断都是先提假设,然后按照某种逻辑在某种概率上判断是否有显著性差异,以决定原假设的成立与否。所以,统计检验方法又叫做显著性检验或假设检验。

显著性水平显著性检验离不开预设的小概率,例如正态分布的测量值落到区间[μ±2σ]以外的概率小于0.05,落到区间[μ±3σ]以外的概率更小于0.01。在N趋近于∞时,概率如此小的事件在有限次测量中理应不出现。如果竟然出现了,就有理由认为它是异常的。这个小概率越小,相应的事件就越显得异常,所以此小概率在统计检验中叫做显著性水平α,可用它来反映显著异常的程度。通常α在0.05以下便认为是显著。

统计检验在分析化学中的应用表现在极值的取舍,在同一组样本值中的最大值xmax和最小值xmin叫极值。对极值容易产生怀疑。它的取舍往往很影响精密度。如果技术上找不到舍弃的原因而又有怀疑时,可借助统计检验工具。