参考资料:生物统计学
在科学研究和生产实践中,需要对所研究的总体进行全面了解,但由于人力、物力和时间的限制,不可能对总体的每个个体都进行观测,而只能抽取其中的一部分个体加以研究,并由样本的结果对总体的情况作出估计和推断,这就是抽样(sampling)
抽样调查(sampling survey)是指从研究总体中,采用一定的方法抽取一个样本,用样本的结果来估计、推断其所属总体的情况。
1、抽样的基本原则
为使抽取的样本能够满足统计分析的需要,达到对总体的情况作出估计和推断的目的,抽样必须遵循以下原则:
①随机性:抽样调查要求样本必须是随机抽取的,以克服主观影响,同时要求样本必须具有代表性,使其能够代表总体的一般情况。
②代表性:抽样调查的过程也是一种试验,需要再抽样前指定科学完善的计划,以保证样本对要抽检的总体最具代表性,且成本低。
③适合的样本容量:样本容量的大小与抽样调查结果的准确性和精确性密切相关,并直接决定了调查工作量。样本容量太小时数据的误差比较大,准确性和精确性较低,样本容量太大时,耗费人力、物力和时间,因此抽样需要确定合适的样本容量。
2、抽样方法和样本容量
抽样方法正确与否直接影响着由样本推断总体的效果。许多产品技术标准中都明确规定了抽样调查使用的方法。基本抽样方法有顺序抽样、典型出样、随机抽样三类,其中以随机抽样符合统计方法中估计随机误差并由误差进行统计推断的原理。
(1)抽样的基本方法
①顺序抽样
顺序抽样也称等距抽样、机械抽样或系统抽样,按照某种既定的顺序抽取一定数量的抽样单位组成样本。例如,按总体各单元编号中逢1或逢5或一定数量间隔依次抽取;按田间行次每隔一定行数抽取一个抽样单位,等等。对角线式、棋盘式、平行线式、“Z”字形式等抽样方法都属顺序抽样,顺序抽样在操作上方便易行。
农作物田间测产的抽样调查,通常采用实收产量的抽样调查或产量因素的抽样调查两种方法,视测产的时间及要求确定。如小麦成熟前的测产,在面积不大的田块上常采用棋盘式五点抽样,每样点1平米(抽样单位为1平米的测框),计数样本点中有效穗数,并从中连续数取20-50个穗的每穗粒数,根据品种常年千粒重计土地利用系数估计单位面积产量。
②典型抽样
典型抽样也称代表性抽样。按调查研究目的从总体内有意识地选取一定数量有代表性的抽样单位,至少要求所有选取的单位能在几个地段上进行调查。在样本容量较小时效果相对较好,但可能因为调查人员的主观片面性而产生偏差
③随机抽样
随机抽样也称等概率抽样。在抽样时,总体内各单位有同等被抽取的机会。随机抽样可以采用抽签法、随机数字法等。还有一系列衍生的随机抽样,如分层抽样、整群抽样、巢式抽样等;复杂的随机抽样需预先确定总体不同部分被抽取的概率。
在一个抽样调查计划中可以综合地应用以上三种方法。例如,从总体内先用典型抽样法选取典型田块或典型单位群,然后再从中进行随机抽样或顺序抽样。
(2)常用抽样方法
①简单随机抽样:每个抽样单位具有相同概率被抽入样本,具体抽样方法依调查对象而定。简单随机抽样通常只计算平均数作为总体的估计值。
②分层抽样:当所调查的总体有明显的系统差异,能够区分不同的层次或段落时,可以采用分层抽样法,即从各个层次或段落分别进行随机抽样或顺序抽样。步骤如下:
第一步:划分区层:将所调查的总体安排变异情况分为相对同质的若干部分,称为区层,各区层大小可以相等,也可以不等。区层数依总体的异质情况决定,同一区层的同质程度越高,抽样调查结果的准确性和精确性越好。
第二步:随机抽样:从每一区层按所定样本容量进行随机抽样。各区层所抽单位数可以相同,也可以不同。区层大小不同时,可以按区层在总体中的比例确定抽样单位数;也可根据各区层的大小、变异程度以及抽取一个单位的费用综合权衡,确定抽样误差小、费用低的配置方案。
第三步:根据所定抽样计划获得数据后,分别计算各区层样本的平均数(或百分数)及标准差。根据各区层的平均数和标准差,采用加权法计算总平均数和总标准误。
③整群抽样:当调查总体可以区分为多个包含若干抽样单位的群时,可采用随机抽取整群的方法即整群抽样,被抽取的整群中各抽样单位都进行调查,按群计算平均数及标准差,并估计其置信区间。整群抽样的“群”相当于扩大了的抽样单位。如果将顺序抽样的五点棋盘式、三点对角线式等看作一个群,而在群间进行随机抽样,则可以克服顺序抽样缺乏合理的误差估计值不能计算置信区间的不足。当然要记住“群”与“点”是不同级别的抽样单位,此处“点”不随机,而“群”随机。
④分级抽样:分级随机抽样也称为嵌套式随机抽样,最简单的是二级随机抽样。例如要了解一个县的棉花结铃数,可以随机抽取几个乡(镇),乡(镇)内随机抽取若干户进行调查,这时,乡(镇)为初级抽样单位,户为次级抽样单位。
3、样本容量的确定
抽样时样本容量是一个非常重要的因素,它与抽样调查结果的准确性、精确性以及人力物力财力消耗有密切关系。估计样本容量时,大样本会造成不必要的浪费,同时也可能引入更多混杂因素,影响研究结果;样本容量偏少又会使检验效能偏低,导致本来存在的差异未能检验出来。
①简单抽样
简单抽样确定样本容量时,首先要对调查对象的标准差作出估计,并提出精度和置信度要求,然后据此确定样本容量。
因为,。当要求的精度为,样本标准差为s时,由于置信度P=95%时,t≈2.0,所以需要调查的样本容量为:
②分层抽样
各区比例为,则当总样本容量为N时,各区层样本容量可按比例进行分配。总样本容量为N的计算方法与简单抽样相同,其中。