了解了什么是抽样;了解了抽样的基本要素;知道抽样的目的是为了提高效率,
也是为了节省成本;知道如果要抽样,就要先界定研究问题指涉的总体、研究总体、 抽样总体,才可以进行抽样。接下来,
我们要讨论抽样会面临的难题以及解决方案——抽样的逻辑。
先讲概率抽样的逻辑,明白概率抽样的逻辑对非概率抽样就可以举一反三了。
在讨论什么是抽样时就已经讨论过,抽样设计研究问题指涉的 对象群体的同质性与异质性。
现在,我们把这个原理运用到具体的案例中来,看看我们会遇到怎样的难题。
继续我们的课题。入学机会的继续不同等研究,
假设中国有三千所有高中毕业生的学校,其中呢 一千二百所处于经济发展水平较高的地区
一千一百所呢,处于经济发展水平中等的地区,剩下的七百所处于经济发展水平较低的地区
地区内部完全没有差异,这是一个理想的情景,现实中是不大可能的事 我们会有怎样的观察呢
地区之间具有高度的异质性,地区的内部呢,具有高度的同质性。
我们假设了地区内部完全没有差异, 就是指地区内高度的同质。
理论上我们每一类地区,我们任选一所中学就能够代表 各自所在的地区。在这样的条件下,
抽样方法就很简单,就是从每一类地区任选一所学校 就可以比较地区之间的差异了
问题是三类地区中的任何一类,内部不可能没有差异
地区内完全没有差异的假设太理想了,在现实中
地区内部,几乎没有一所学校所处的经济发展水平是相同的,即便是北京市的海淀区
北京大学附中和中国人民大学附中都在海淀区,两所学校相差不到一公里,
外在的环境几乎是一样的,可各自真实的经济状态却有很大差异。
这就是由变异性带来的问题。
研究活动要面对的就是同质性条件下的变异性, 这里的同质性指的是一定测量精度下的特征一致性。
比如说,某些地区的经济发展水平比较相近, 假定,我们用百亿元做测量尺度,相互之间可能就差不多。
变异性指什么呢?指不同的个体之间在同一个 变量属性值上具有差异。
比如说,在具有同质性的地区,每一个经济发展水平的测量值都不相同,
变异性的存在给研究活动带来的影响。
我们不能够同一个地区代笔所有的地区, 也不能用一所中学代表一个地区的所有中学。
我们只能假设,在一个足够大的群体中个体的变异性 表现为某种分布,进而呢,个体之间的差异
也表现为某种分布。这样我们就可以选择一定数量的样本, 来理合总体中个体变异性的分布,进而代表总体。
尽管如此,样本群体理合的分布也不可能完全代表总体真实的分布,
用样本代表总体始终会有偏差。
如果从偏差的角度看抽样,那么抽样的原理就是用数量“小”的样本
反应数量“大”的总体的研究特征,可是我们又不能忽视偏差。
这样抽样的基本逻辑就是,用尽量少的样本, 在可接受的误差范围内,来代表总体的研究特征。
注意,我对代表性的一再强调实际上是沿用了last柯西的思想。
柯西曾去美国国会作证, 他反对在美国实施人口普查,认为每十年一次的人口普查,
耗费太多的资源,实在没有必要。在美国,尽管人口普查
的初始用途是为了划分选区,可柯西依然认为
用抽样调查花费很少,也完全可以获得用普查方式
所得到的数据。在柯西看来,用代表性的样本就可以估计总体的研究特征。
因此呢,抽样的基本原则就是满足样本对总体的代表性, 不过代表性并不是三百六十度的代表,
而是研究特征意义上的代表,要对研究的确认,
又要取决于研究问题,可在实践中,抽样要面对的常常不是一个研究问题的特征,
而是多个研究问题的特征,这就给抽样带来了选择性难题。
譬如,我设计的CFPS的基本理论方案。
CFPS的研究问题特征到底是什么呢?一句话。
用个体和家庭层次的变化来反映社会的变迁。
体现在一个嵌套的关系体系中,个体镶嵌在家庭中。
家庭呢,总是和社区关联在一起, 嵌套在社区中。而社区呢,
总是镶嵌在一个更大的社会之中,这就是CFPS的研究问题特征。
个体与家庭之间又如何反应社会的变迁呢? 我们还得回到个体上来,个体从生到死,都是一个成长的过程。
在这个过程中有一些因素是生赋性的,生来就有的。
而且呢,会影响终生,有一些因素的影响是阶段性的, 可以通过人的努力去改变的。
我们先从左边开始,天赋因素。任何人生下来就携带了天然的禀赋,
受医疗条件、自然环境和家庭环境的影响。
产生的结果就是个体的健康状态、精神健康状态、 身体健康状态,它会影响人的一生。
在青少年时期,天赋、家庭、社区所重要的影响因素,
影响到了人的教育,受教育状态呢作为一个重要的影响因素,被带入人的成年。
在家庭工作的平台上,影响到人的成就,伴随人的整个成年。
作为成年阶段的产出,成就被带入到老年,受家庭福利的影响, 作用于晚年的幸福状态。
这就是CFPS的理论框架,显然这里有多个研究特征的问题。
健康、教育、成就、幸福,至少这四个变量非常重要。
针对这四个变量,什么算是代表性的家伙呢?把这个问题一般化。
就是代表性问题,从例子中我们看到了,代表性指的是
研究特征的代表性,完整的说指的是研究特征变量的代表性。
CFPS要的就是代表性的家庭户, CGSS要的就是代表性的个人,
入学机会的地区不平等课题,要的就是代表性的毕业生。
不管是代表性的家户, 代表性的个人还是代表性的毕业生,问题就在于代表性。
对抽样而言,对代表性的强调也是基于
理论假设的,假设在数量大的条件下,每一个家户、每位个人、每位毕业生 实际上都是一类群体
且不同类型的家户、个人、毕业生
在总体的分布是随机的,这样的话呢,根据随机性原则抽取的样本 就能代表总体,就是代表性样本。
如果总体类研究对象的分布越随机,抽样越随机,那么样本的代表性也就越高。
获得有代表性的样本是抽样努力的方向与目标。
尽管如此,我们还是无法避免误差,样本和总体之间在研究 特征的意义上,有两种可能的关系。
一种呢,前面例子中假设的总体内部完全同质,任何样本与总体之间没有差异。
这种条件下的样本就被称之为“匀值样本”。
可是在研究实践中,样本与总体之间总是有差异的。
即时在随机条件下,尽管每个抽样单位被抽中的概率是相等的。
由样本代表的总体研究特征与总体研究特征之间,总是有差距的。
误差就是样本研究特征与总体研究特征之间的差异。
误差的大小一般而言取决于样本的代表性,在实践中,样本对总体的代表性越好,
误差就越小,否则误差就会越大。
当然跳出抽样活动来看误差,就会发现,有多个影响因素会影响到
样本代表总体的误差,误差的第一个来源是由抽样造成的。
抽样误差就是由抽样环节造成的误差,通常又称之为 “随机误差”。
因为不知道哪个环节会出现误差,即使每一个环节都认真谨慎,
也不知道会在哪出现状况导致误差,随机误差是我们希望尽量避免的误差。
另一类误差具有规律性,主要是由抽样设计造成的,因此又被称之为“系统误差”。
我们举例子,假设希望知道性别与成就之间的关系并严格按照抽样方案
完成的抽样,抽到的样本呢却都是男性的,没有女性。
这就是由抽样方案带来的误差,系统性的误差。
系统误差使我们更希望避免的,
因为一旦出现的系统误差,几乎就没有补救的余地,就像一旦把图纸都弄错了, 盖的房子就极有可能没法再更改。
这就是在抽样中最重要的两个误差来源。
如果依据抽样活动设计的对象来了解误差的来源, 我们会发现第一类容易出现的误差与样本的覆盖性有关,
被称之为“覆盖性误差” ,覆盖性误差就是抽样活动没有正确的覆盖
需要覆盖的总体,要么对总体覆盖过度,要么覆盖不住,过度和不足都会导致误差。
举一个例子,还是我们的课题,假设我们界定的总体为参加高考的高中毕业生,
在抽样中我们把自愿或者是因为其他原因没有参加高考的毕业生
都纳入到了抽样的范围,这就是覆盖过度。
如果我们把复读并参加了高考的学生排除在了抽样的范围, 这就是覆盖不足。第二类误差是选择性偏差,
在设计与执行中,因偏好或者抽样活动 都有可能导致某个特定类型的样本的分布出现问题。
比如说,某一类人群过多或者过少或者缺失。举一个例子, 在CFPS
2011年的抽样中,在浙江省台州市的某个样本县 抽到了一个居委会是样本居委会,在这个样本居委会呢。
有一幢楼是农民工的居住地一共有四层只有一个门。
那么抽样方案, 这就是一个住宅单元,为了弄清楚这撞楼的居住状况,
抽样人员必须进入楼里边一间屋子一间屋子地查看,可是呢楼门只有晚上九点才有人打开。
抽样人员根本没有办法进入。
即使是从窗户外也无法判断楼内的居住格局,拿望远镜都不行,
窗帘拉着呢。在制作抽样框的时候,如果被列入其中的住户 就会出现选择性偏差。
如果这个人群不在抽样框,被选机会就没了。
这就是因抽样导致误差的基本类型。
一类叫覆盖性误差,一类叫选择性误差。
这节的内容还没有结束,我们先休息一会。