欢迎大家来到第九课, 多组结构模型分析(Multiple-group SEM)
它分两类分析,第一类是多组验证性因子分析(多组CFA模型)
例如男、女生组的因子结构是否相同, 即是它们的负荷和因子分类是否相同
第二类就是比较男、女生组的因子均值是否相同
例如一个性格问卷,比较男、女生的外向性格是否相同、亲和性是否相同
就是比较男、女生组的平均值是否一样; 这跟ANOVA是非常相近
通常我们会先做第一类,再做第二类; 要第一类先通过,再做第二类
就是在第一类内,结构和负荷等都相同, 才比较因子均值
做多组验证性因子分析(multiple-group CFA)的时候
先要检验它们的形态是否相同, 即它们的分类法
例如把题目分为5组, 如1,2,3题属第一个因子
然后检查这些分类方法在男、女生组内是否相同
第二就是检查它们的因子负荷是否相同
第三就是检查它们的独特性(uniqueness, TD/TE)是否相同
第四就是检查它们的因子方差是否相同
最后就是检查它们的因子协方差是否相同
萤幕显示的是一个总表; 首先我们分析M0
M0是男生组跟女生组独立的分析; 我们把模型分别套进两组进行独立分析
若分析结果的吻合指数很差, 就说明模型不能解释男、女生组两组内的关系
所以我们期望模型套入男、女生组后,两组的吻合指数都可以很好
这才可以继续下一步分析
M0,M和M0,F就是男、女生组各自的分析,跟以往的CFA是相同的
它们的自由度是相同的
因为它们共用同一个模型,只是套入2套不同的数据而已
接下来把两组数据合并起来分析; 你看到,M1的自由度相等于两组自由度的总和
在M1当中我们没有强制任何参数内容相等, 只是单纯地把两个模型放在一起
男、女生组都可以各自估计自己的因子负荷
完全没有限制,所以它们的自由度是相同; M1的卡方等于两个组别的卡方的总和
但RMSEA、NNFI、CFI就不是简单两组相关指数的总和
M2则强制男、女生组的因子负荷为相同, 这个模型就变得简单
因为不用估计两套数据,只需估计一套; 所以强制因子负荷相同后
自由度从48上升至54,节省了不少; 因为现在只有一套因子负荷
至于卡方就变差了; 因为强制两组共用一套数据,
限制大了,卡方自然变差
这套数据既不是吻合男生组的最佳数据(参数)
同时亦不是吻合女生组的最佳数据; 而是互相迁就两组得出的最佳数据
因此对两组都不是最吻合(最佳)的数据, 所以卡方会增加一点
要是卡方增加不多, 就下结论说男、女生组的负荷是相同
要是卡方增加很多, 就下结论说男、女生组的(λ)负荷是不相同
同样道理,某两个因子的相关,如第一个与第三个因子的相关
男、女生组可能都不相同, 就可以用M3检查
M3是强制男、女生组的PH 3,1相同, 它的卡方没有明显的增加
代表拟合度没有变差, 节省了一个自由度
但卡方没有明显的增加, 所以下结论说男、女生组的PH 3,1确实相同
同样道理,我们可以检查因子协方差、题目独特性是否相同
M6针对的是intercept,不常用, 相当于y = mx + c内的c
M7是检查因子均值; 我们先固定男生组的均值为0,
再估计女生组的均值
因为均值没有单位, 所以可以随便固定男生组的均值为0
再检查女生组的均值, 再比较两者是否相同
M8是强制两组的均值相同, 然后检查它们的卡方
如果卡方明显增加, 就代表两组的均值不相同
现在探讨编程方式; 先做男女生组各自做的程式
因为编程跟以往一样, 所以在此不重温;
直接探讨M1的编程方式
在DA指令最后加上NG=2,然后在KM后输入男生组的矩阵
这次要用协方差矩阵,所以要在KM后加上SD
MO指令跟CFA的一样,然后同样输入指令FR和VA 1, 这是固定负荷法
LX 1,1 LX 4,1 LX 7,3都是固定的因子负荷
再把它们固定并赋值为1
至于女生组的MO指令, LX = PS, PS代表模式(固定、自由)pattern跟开始starting value一样
意思是它们跟前面男生组的矩阵的模式(pattern, starting value)一样
两组各自估计自己的数据
要是结果显示卡方没有变得太差, 而M1又没有其他限制
就代表这个模型(因子数目及从属关系)套入男、女生组都吻合得很好
这说明这模型的外形皆乎合两组
接下来检查它们的负荷相同: 男生组的编程跟以往相同;
女生组的MO指令写LX=IN (invariance)
输入相关矩阵后,MO指令甚么都不用写, 只需写LX=IN,IN代表LX跟前一组相同
PH和TD就是跟上一组模式相同, 所以女生组的λ被强制跟男生组相同
电脑估计λ时并不是先估计男生组的再套进女生组
电脑会先把男、女生组的λ挂勾,使两者一致, 再估计出一套数据放在两组内
使∑和S (两组有各自的S)的距离的总和是最小的
所以电脑估计λ时, 同时迁就两组数据
切记电脑非先估计第一组的λ再套进第二组, 而是同时估计的
目标是找到一套数据同时乎合两组
第二,要是两组样本数目相差很远, 电脑就会迁就样本数目较多的一组
因为电脑想得出一个距离S最小的Σ, 要是样本数目多,对这相差影响很大
所以电脑会尽量找一套数据, 尽量迁就样本数目大的组别
所以分析时两组样本数目最好不要相差太远
举例,现在想检查男生组的PH 3,1, 跟女生组的PH 3,1是否相同