哎,你好。咱们紧接上一节的内容接着介绍一些统计学中的基本概念。
资料的类型,资料包括两大类,数值变量和分类变量。
数值变量(numerical variable),
又称为定量资料或计量资料,其变量值是定量的,表现为数值大小,一般有度量衡单位。
比如医学中常用的血压,身高,体重,血脂,都属于数值变量。
第二类叫分类变量(categorical variable),又称为
定性资料,其变量值是定性的,表现为互不相容的类别和属性。
我们举例,性别,很常见,它可以包括男、女,这是定性的,
通常情况下非男即女,是互不相容的。
分类变量又可以细分为无序分类变量和有序分类变量。
我们先介绍无序分类变量(nominal variable),又称为名义变量。
包括变量值取无等级顺序的二项分类或多项分类。
咱们刚才举的例子性别可以分成男、女两类,属于二项分类。
血型,血型也是很常见的一个变量,可以分成A型、
B型、O型、AB型四类。这四类是无等级顺序的,所以它属于多项分类。
有序分类变量(ordinal variable),又称为等级资料,
各类之间有程度的差别,即变量值取有等级顺序的几类。
我们举一个例子,临床疗效可以分为痊愈、显效、好转、无效。
类别是可以分成四类的,但你要注意到它的疗效是
越来越差的,所以这四个类别是有等级顺序的,称为有序分类变量。
对于资料的类型有,我们要注意,不同类型的资料,统计方法是不同的。
在咱们这个课程所讲述的方法里,数值变量
如果服从正态分布的话,常用t检验、方差分析,或者回归与相关。
无序分类变量常用的是卡方检验。
有序分类变量常用秩和检验。
我们要注意到各种类型的资料之间是可以相互转化的。
我们举一个例子,有一个研究者测量某社区成人的血压值,
血压作为原始数据,它的单位是毫米汞柱,可以分为收缩压和舒张压,
它是属于一个数值变量。但如果我们的 研究目的,我们关心每一个人的血压值经过诊断,
判断是否为高血压,分成两类。
高血压和非高血压,那么这个变量是什么呢?无序分类变量,
而且是一个二项分类,这体现了从数值变量到无序变量分类的一个转化。
当然我们还可以细分, 根据血压的高低,分成低血压、正常血压、临界高血压、高血压,
这变成了一个什么资料呢?有序分类变量,这体现了 从无序分类变量到有序分类变量的一个转化。
我们要注意,不同的资料,当它发生了
类型上的变化之后,统计方法也应该发生相应的变化。
这体现了统计分析的一个灵活性。
具体应该用什么样类型的资料,用什么样统计方法呢?主要取决于我们的研究目的。
我们接着介绍一下误差。误差可以分成四类。
第一类是抽样误差,抽样误差是由于抽样所造成的,样本与 总体的差异,这个概念很重要,我们在后面会详细地来讲解。
第二个概念是随机测量误差, 这在物理化学实验中是经常见到的。
它主要指的是有关因素的
微小的随机波动所造成的误差。你比如第一次天平称重,第二次天平称重,
由于自然环境的影响,两次天平称重之间是有误差的,这就是随机测量误差。
注意,这两种误差是不能避免的,是 客观存在的,但统计学是可以处理、
控制这两种误差的。第三种误差是系统误差,
系统误差,在物理、化学实验中也介绍过这个系统误差,
它指的是比如实验、方法 不完善,或者实验仪器不准,
它所造成的误差是系统误差。比如说我们要测血压, 但血压计没有调零,那测出的血压肯定是不准确的。
第四种是过失误差,它主要是由于人为因素所造成的, 比如说因为粗心大意呀,数据记录有错,
或者实验操作有错,所造成的误差叫过失误差。
这两种误差是可以避免的。
注意,统计学是不能够处理这两种误差的。
所以在研究设计阶段以及整个研究过程中, 我们要尽量地去避免这两种误差。
我们再了解一下统计工作的基本步骤。统计工作可以分成四步,
统计设计、搜集资料、 整理资料,还有分析资料。很多人会侧重于分析资料,
认为做统计就是最后的一个阶段, 分析资料。这样的理解是有偏误的,
我们可以看到统计工作它贯穿于整个研究过程,
所以希望大家以后要注意,当你最开始进行研究设计的时候,
就要考虑到统计学的应用。
统计工作的四个步骤贯穿于整个研究过程。
好,这一节课我们就讲这么多,希望大家重点掌握资料的类型,
了解误差,了解统计工作的基本步骤。
下一节课我们继续讲解SPSS软件的数据管理功能,谢谢。