简单随机抽样尽管独立运用于抽样不多, 但却是原理性的,
在许多抽样方案的末端抽样中都会用到,请大家一定要熟悉,不仅仅是熟悉怎么抽,更重要的- 是要熟悉原理。
同样,在许多抽样方案的末端抽样中, 也会用到的简单抽样还有系统抽样和整群抽样。
系统抽样和整群抽样也是一次性的抽样方法。
我们现在看系统抽样,系统抽样也是简单抽样方法中的一种。
通常也是用于一次性的抽样,比如对一个班级几十个要素的抽样。
也用于多阶段或者多层抽样的末端抽样。
简单地说,用于总体要素与抽样对象一致条件下。
系统抽样的应用情景与简单随机抽样一样。
通常规模也不大,也是总体、研究总体、抽样总体, 三者合一,要素之间在研究变量上的异质性
或者同质性,也没有大到需要专门处理的程度,不需要 分层。
与简单随机抽样的条件不同的地方在于,
除了不需要分层以外,还要求要素的特征在排列中没有周期性的变化。
举一个例子,假设一个班级有50个人,
男生25位,女生25位,在排列时,每位男生的后面或者前面都是女生。
同样的道理,每一位女生的前面或者后面都是男生,这样男生跟女生之间的排列就是周期性- 的排列。
之所以要求要素的排列不能有周期性的变化, 是因为系统抽样又叫等距抽样。
万一要素的排列的周期,与抽样距吻合了。
抽到的就是一类样本。
这就是选择性偏差由抽样选择带来的误差。
系统抽样的抽样步骤也比较简单,第一也是要界定抽样框。
第二把抽样框的要素按照规则进行编码,在编码中可以运用任何已知的信息。
万一什么信息都没有,那就采用顺序编码。
第三,用要素的总体数除以样本数,得到抽样距。
第四选择任何一个随机起点,依照抽样距或者顺序抽样或者循环抽样。
接着我们有两个图示给大家演示。
还有一点需要注意,如果抽样距有小数点, 那就取整数四舍五入。
我们来看操作方法,抽样前要制备抽样框,以班级
抽样为例。第一步把班内所有的的学生名单按照一定的规则进行排列, 这里我们假设是按照学号在排列。
第二步把排列好的学号,从1开始顺序编号。
第三步假设我们要在16位学生中, 抽出三个样本 ,抽样距为5,样板量3。
第四步假设我们把要素排列成一个循环圈,
选择一个随机起点为编号8,编号8就是第一个样本。
顺时针数第5个也就是编号11,就是第二个样本,以此类推。
在排列要素的时候,我们不仅可以排列成循环圈,也可以排列 为直线。
同样随机起点为编号8,顺序数编号11为第二个样本。
数到16不够测量距了怎么办? 回头接着数到编号2,就是第三个样本。
从这个例子我们看到,系统抽样的框不能太大。
太大了就很费事,仅就要素编号 就比较费事,第二要素的排列特征不能呈现周期性变化。
假设有这样的情形,我们要在一个年级尝试某种教学法对学生学习效果的影响。
再假设一个年级有16个班,班与班之间没有特别的差异。
这个时候,我们知道,总体、研究总体、抽样总体是一个年级所有的学生。
可是就教学法而言,我们不能在一个班中让 某些同学面对A教学法,让某些同学面对B教学法。
在这种条件下的抽样,就是把一个班级所有的学生作为样本 ,整群抽样,
就是把抽中的抽样单位的所有要素,作为样本的抽样。
对整群抽样方法的应用,通常 不作为独立抽样的方法使用,而是用于多阶段、
多层次抽样的末端,把末端抽样单位 包含的所有要素都作为样本
,那么在什么情境下才会用到整群抽样呢? 通常是群内具有异质性,不过群内的
异质性还没有 还没有大到需要专门处理的程度。不仅如此, 群之间的差异,也没有大到需要专门处理的程度。
以刚才的抽样为例,事实上, 我用一个班内部的异质性代表了一个年级总体的异质性。
如果要素之间的关系满足上述条件,那么整群抽样就是节约资源的有效方式。
以CFPS为例,根据抽样原则 每个样本区或者县要抽取100个家庭户作为样本。
那么这100个家庭户怎么抽呢? 是把整个区或者县所有的家庭混在一起抽还是先抽到乡镇
乡镇、街道,把样本乡镇、样本街道的所有家庭户混在一起抽呢? 根据中国的实际情况,在某些偏远的乡村地区 ,
一个县域的府内可能与东部某些省域的范围差不多大 即使是乡镇范围也不小,如果样本家庭户很分散
调查成本将会极其高的,在这样条件下,我们假设乡镇之间具有异质性。
乡镇内部的村庄之间具有相似性,同样村庄内的家庭户之间又有一定的异质性或者相似性。
在现实中,这样的假设是成立的,对吧? 这样CFPS的抽样策略是,在样本县直接抽到村庄。
在村庄样本采用了近似于整群抽样的方法。
从例子中我们知道,分群是保证抽样 满足代表型的重要环节,在自备抽样框的时候,
还是以教学法为例,抽取群单位的时候,在操作上采用了简单随机抽样方法,对吧?
之所以这么抽,是我们假设了班与班之间特征的差异不大,
因此分群就非常重要。分群的基本原则是:
在选择研究变量,或者与研究变量高度相关的辅助变量时,
让它在群间具有相似性,同质性,在群内具有异质性。
与实验分组的条件差不多 ,当然通常很难完全做到。
在自然分组的情况下,只要群间、群内有这样的特征就够了。
如果群内同质群间非常异质,那就不适合用整群抽样了,好了。
分群的方法,在调查实践中其实很简单,尽量利用自然的群。
比如说前面例子中的班级,每个班级同学的学习成绩有一个分布,在班与班之间,具有相似性。
相似的可以用做分群标准的辅助变量,比如说 行政区划、组织、行业、班级、年龄 、性别等等之类。
在分群中有一点需要注意,群的规模不宜过大,否则就有可能出现内部同质性。
影响抽样的效率,操作起来也很麻烦,什么是抽样效率后面会讲。
到这为止,我们讲的都是一次性抽样,简单随机抽样、系统抽样、整群抽样。
系统抽样和整群抽样就讲到这里 ,谢谢大家。