您好,欢迎来到锐游网。
搜索
您的当前位置:首页SPSS学习系列09. 缺失值处理

SPSS学习系列09. 缺失值处理

来源:锐游网
09.缺失值处理

空缺值(用“.”表示)和输入错误值,都属于缺失值范畴。 输入错误值需要做“数据检验”来发现:

(1)【分析】——【描述统计】——【描述】和【频率】 (2)【图形】——【旧对话框】——【箱图】

观察极小、极大值、频率、异常值等来判断。例如,性别“男=1,女=2”,若极大值出现3,则是输入错误值;箱线图或3σ原则发现的异常值,则要先改成缺失值。

缺失值的处理方法通常有四种。 一、删除有缺失值的个案

删除有缺失值的个案,或在具体统计分析时的【选项】——【缺失值】框选择某种处理方法:

①按列表排除个案——只要任何一个变量含有缺失值,就要剔除出所有因变量或分组变量中有缺失值的观测记录;

②按对排除个案——同时剔除带缺失值的观测量及与缺失值有成对关系的观测量(对照分析);

③使用均值替换——使用该变量的均值替换缺失值。 二、替换缺失值

SPSS提供了5种简单替换缺失值的方法:

(1)序列均值——该变量的有效观察值的平均数;

(2)临近点的均值——该缺失值前后n个观察值的平均数;

(3)临近点的中位数——该缺失值前后n个观察值的中位数; (4)线性插值——该缺失值前后观察值建立插值直线确定【同取n=1的(2)】;

(5)点处的线性趋势——以编号为自变量用线性回归法预测值。 现有数据文件:

1.【转换】——【替换缺失值】,打开“替换缺失值”窗口,将变量“统计成绩”选入【新变量】框;

2.【名称和方法】框,设定新变量名称“统计成绩_1”,方法选“序列均值”

3.点【确定】,得到

注意:若某个案的缺失值较多最好删除该个案,而不是替换其缺失值。

三、缺失值分析

SPSS中更高级的处理缺失值的方法是缺失值分析,它能够 (1)缺失值的描述和快速诊断:

用灵活的诊断报告来评估缺失值问题的严重性,用户可以观察到它们在哪些变量中出现,比例是多少,是否与其它变量取值有关,从而得知这些缺失值出现是否会影响分析结论。

(2)得到更精确的统计量:

提供了多种方法用于估计含缺失值数据的均值、相关矩阵或协方差矩阵,通过这些方法计算出的统计量更加可靠。

(3)用估计值替换缺失值:

使用EM或回归法,用户可以从未缺失数据的分布情况中推算出缺失数据的估计值,从而能有效地使用所有数据进行分析,来提高统计结果的可信度。

【缺失值分析】实例操作,使用SPSS20自带的实例文件:

telco_missing.sav

1.【分析】——【缺失值分析】,打开“缺失值分析”窗口,将变量“婚姻状况、教育程度、退休、性别”选入【分类变量】,将变量“服务月数、年龄、现在住址居住年数、家庭收入、现职位工作年数、家庭人数”选入【定量变量】

注意:最大类别(最大分类数)默认为25,超过该数目的分类变量将不引入分析。

2.点【描述】,打开“描述统计”子窗口,用来设置要显示的缺失值描述统计量。

勾选“单变量统计量”,勾选【指示变量统计量】框的“使用有指示变量形成的分组进行的t检验”和“为分类变量和指示变量生成交叉表”,点【继续】

3.点【模式】,打开“模式”子窗口,用来设置显示输出表格中的缺失数据模式和范围。

勾选“按照缺失值模式分组的表格个案”;

因为“教育程度”、“退休”和“性别”中的缺失模式似乎影响数据,“家庭收入”含有大量缺失值,将这些变量选入【附加信息】;

其它保持默认,点【继续】

4.回到原窗口,勾选【估计】框中的“EM”和“回归”,其它默认设置。点击【EM】或【回归】按钮可以修改其设置

注意:若要保存替换缺失值之后的数据,需要勾选“保存完成数据”:创建新数据集并命名,或写入新数据文件。

另外,默认使用所有变量进行分析,若要选择部分变量,可点【变量】按钮修改。

点【确定】,得到输出结果:

单变量统计 N 均值 标准差 计数 缺失 百分比 32 25 150 179 96 34 115 35 84 42 3.2 2.5 15.0 17.9 9.6 3.4 11.5 3.5 8.4 4.2 低 极值数目a 高 0 0 0 0 0 0 0 0 9 71 15 33 tenure age address income employ reside marital ed retire gender 968 975 850 821 904 966 885 965 916 958 35.56 41.75 11.47 71.1462 11.00 2.32 21.268 12.573 9.965 83.14424 10.113 1.431 a.超出范围(Q1-1.5*IQR,Q3+1.5*IQR)的案例数。 提供了数据的一般特征,给出了所有分析变量缺失数据的频数、百分比,定量变量的均值、标准差、极值数目。

income(家庭收入)有最多具有缺失值(17.9%),也有最多的极值;而age(年龄)有最少缺失值(5%)。

估计均值摘要 所有值 EM 回归 tenure 35.56 36.12 35.77 age 41.75 41.91 41.68 address 11.47 11.58 11.59 估计标准差摘要 income 71.1462 77.3941 74.3174 employ 11.00 11.22 10.99 reside 2.32 2.29 2.32 tenure age address income employ reside 所有值 EM 回归 21.268 21.468 21.188 12.573 12.699 12.534 9.965 10.265 9.935 83.14424 87.860 84.71430 10.113 10.165 10.242 1.431 1.416 1.423 使用EM法和回归法进行缺失值的估计和替换后,总体数据的均值和标准差的变化情况,其中“所有值”为原始数据特征,另两行分别是采用EM法、回归法得到的统计参数。

单个方差t检验a

t df #存在

address

#缺失 均值(存在) 均值(缺失) t df #存在

income

#缺失 均值(存在) 均值(缺失) t df #存在

employ

#缺失 均值(存在) 均值(缺失) t df #存在

marital

#缺失 均值(存在) 均值(缺失) t df #存在

retire

#缺失 均值(存在) 均值(缺失)

tenure

.4 202.2 819 149 35.68 34.91 -5.0 249.5 793 175 33.93 42.97 -1.0 110.5 877 91 35.34 37.70

.0 148.1 856 112 35.56 35.57 -.6 95.4 888 80 35.44 36.

age

.3 192.5 832 143 41.79 41.49 -8.3 222.8 801 174 40.01 49.73 -.4 110.2 881 94 41.69 42.27 1.8 149.5 862 113 42.00 39.85 -.4 94.4 3 82 41.70 42.29 address

. . 850 0 11.47

. -3.9 191.1 693 157 10.67 14.97 -.7 97.6 766 84 11.37 12.32 1.2 138.8 748 102 11.61 10.43 -.4 84.0 777 73 11.42 11.96

income

3.5 313.6 693 128 74.0779 55.2734

. . 821 0

71.1462

. .5 114.9 741 80 71.4953 67.9125

-.8 121.2 728 93 70.3887 77.0753

.3 93.2 751 70 71.3356 69.1143

employ

1.4 191.1 766 138 11.20 9.86 -5.9 203.3 741 163 9.91 15.93

. . 904 0 11.00

. .9 128.3 805 99 11.10 10.17

. . 904 0 11.00

.

reside

1.0 199.5 824 142 2.34 2.21 3.6 315.2 792 174 2.39 2.02 -.3 110.9 874 92 2.31 2.37 -2.2 134.2 857 109 2.28 2.61 .2 99.0 885 81 2.32 2.30

对于每个定量变量,由指示变量(存在,缺失)组成成对的组。 a.不显示少于5%个缺失值的指示变量。

通过单个方差t检验有助于标识缺失值模式可能影响定量变量的变量。按照相应变量是否缺失将全部记录分为两组,再对所有定量变量在这两组间进行t检验。判断数据是否完全随机缺失(表示缺失和变量的取值无关)。

例如,似乎年纪较长的响应者更不可能报告收入水平。当income缺失时,平均age为49.73,与之相比,当income未缺失时为40.01。实际上,income的缺失似乎影响多个定量(刻度)变量的平均值。此指示数据可能并未完全随机缺失。

类别变量相对于指示变量的交叉制表

marital 总计 未婚 已婚 缺失 SysMis 计数 存在 address 缺失 存在 income 缺失 存在 employ 缺失 百分比 %SysMis 计数 存在 retire 缺失 百分比 %SysMis 百分比 %SysMis 计数 百分比 %SysMis 计数 850 85.0 15.0 821 82.1 17.9 904 90.4 9.6 916 91.6 8.4 390 85.5 14.5 380 83.3 16.7 418 91.7 8.3 423 92.8 7.2 358 83.4 16.6 348 81.1 18.9 387 90.2 9.8 392 91.4 8.6 102 88.7 11.3 93 80.9 19.1 99 86.1 13.9 101 87.8 12.2 不显示少于5%个缺失值的指示变量。 观察marital(婚姻状况)表,指示变量的缺失值数量在marital类别之间似乎变化不大。一个人结婚与否似乎并不影响任何定量(刻度)变量的数据缺失情况。

例如,85.5%未婚者报告address(当前地址居住年限),83.4%已婚者报告相同变量。差异很小并且很可能是巧合。

ed 总计 未完成中学学历 中学学历 社区学院 大学学位 研究生学位 缺失 SysMis 计数 存在 address 缺失 存在 income 缺失 存在 employ 缺失 存在 marital 缺失 百分比 %SysMis 计数 存在 retire 缺失 百分比 %SysMis 百分比 %SysMis 计数 百分比 %SysMis 计数 百分比 %SysMis 计数 850 85.0 15.0 821 82.1 17.9 904 90.4 9.6 885 88.5 11.5 916 91.6 8.4 163 83.2 16.8 155 79.1 20.9 178 90.8 9.2 193 98.5 1.5 180 91.8 8.2 240 85.7 14.3 229 81.8 18.2 2 90.7 9.3 278 99.3 .7 259 92.5 7.5 175 88.4 11.6 165 83.3 16.7 178 .9 10.1 148 74.7 25.3 180 90.9 9.1 186 81.9 18.1 193 85.0 15.0 204 .9 10.1 184 81.1 18.9 207 91.2 8.8 56 87.5 12.5 50 78.1 21.9 60 93.8 6.3 52 81.3 18.8 60 93.8 6.3 30 85.7 14.3 29 82.9 17.1 30 85.7 14.3 30 85.7 14.3 30 85.7 14.3 不显示少于5%个缺失值的指示变量。 观察ed(教育程度)的交叉制表。如果对象至少接受过大学教育,婚姻状况响应更可能缺失。未接受大学教育的对象中至少98.5%报告婚姻状况。另一方面,那些拥有大学学位的人中只有81.1%报告婚姻状况。对于那些曾接受大学教育但未获学位者,数量更少。

retire 总计 是 否 缺失 SysMis 计数 存在 address 缺失 存在 income 缺失 employ 存在 百分比 百分比 %SysMis 计数 百分比 %SysMis 计数 850 85.0 15.0 821 82.1 17.9 904 90.4 744 85.0 15.0 732 83.7 16.3 8 98.7 33 80.5 19.5 19 46.3 53.7 40 97.6 73 86.9 13.1 70 83.3 16.7 0 .0 缺失 %SysMis 计数 9.6 885 88.5 11.5 1.3 777 88.8 11.2 2.4 38 92.7 7.3 100.0 70 83.3 16.7 存在 marital 缺失 百分比 %SysMis 不显示少于5%个缺失值的指示变量。 在retire(退休)中可看到更大差异。那些退休者与那些未退休者相比更不可能报告其收入。退休客户中只有46.3%报告收入水平,而那些未退休者报告收入水平的百分比为83.7。

gender 总计 男 女 缺失 SysMis 计数 存在 address 缺失 存在 income 缺失 存在 employ 缺失 存在 marital 缺失 百分比 %SysMis 计数 存在 retire 缺失 百分比 %SysMis 百分比 %SysMis 计数 百分比 %SysMis 计数 百分比 %SysMis 计数 850 85.0 15.0 821 82.1 17.9 904 90.4 9.6 885 88.5 11.5 916 91.6 8.4 363 78.6 21.4 381 82.5 17.5 412 .2 10.8 400 86.6 13.4 420 90.9 9.1 456 91.9 8.1 406 81.9 18.1 457 92.1 7.9 445 .7 10.3 461 92.9 7.1 31 73.8 26.2 34 81.0 19.0 35 83.3 16.7 40 95.2 4.8 35 83.3 16.7 不显示少于5%个缺失值的指示变量。 gender(性别)的另一差异明显。男性与女性相比,地址信息经常缺失。虽然这些差异可能是巧合,其似乎不可能。数据似乎并非随机完全缺失。

制表模式 案例缺失模式a 完整数,incomec edd retired genderd 数 age reside tenure ed gender retire employ marital address income 如果... b未中完学成学社大区学学学研是 否 男 女 究生中历 院 位 学学学历 475 109 16 87 位 X X X X X X X X X X X 76.58475 9158103461201 274 53 9 2584 687 562 68 1 56.00488 00 77.21535 67 47.81491 25 76.23492 53 .11493 11 X 660 520 95 3 . 0 59.452 0 1 4 . 7 . 5 .4327 7 135 9 9 0 1 1 117 1 3 2 195 4 47 62 4 1 1 12 4 12 27 9 24 6 85 2 66 21 13 X 3 2 22 7 0 0 3 1 13 0 4 9 60 24 6 59 1 35 25 16 0 0 16 0 6 10 17 7 3 4 1 17 0 7 10 18 16 37 7 4 0 7 4 0 17 1 8 1 14 2 8 1 0 0 6 10 9 14 5 0 0 15 22 不显示少于1%个(10个或更少)案例的模式。 a.以缺失模式排列变量。 b.完整案例数,如果未使用该模式(用X标记)中缺失的变量。 c.在各个唯一模式处的均值 d.在各个唯一模式处的频率分布 制表模式显示个别个案中多个变量的数据是否往往缺失,有助于判断数据是否联合缺失。

在超过1%的个案中存在三种模式的联合缺失数据。变量employ(当前工作年限)和retire(退休)与其它变量对相比更容易缺失。这

并不奇怪,因为retire和employ记录类似信息。如果您不知道对象是否退休,您很可能也不知道其当前工作年限。

平均income(家庭收入)似乎因缺失值模式的不同变化很大。实际上,在marital(婚姻状况)缺失时,6%个案的平均Income更高。(当tenure(服务月数)缺失时其更高,但此模式只占1.7%个案。)请记住,那些接受更高水平教育者更不可能响应婚姻状况相关问题。您可以在ed(教育程度)频率中看到此倾向。通过假定那些接受更高水平教育者赚更多钱并且更不可能报告婚姻状况,我们可能解释income的增加。

注:下表脚注中的:【Little的MCAR检验】用来检验数据是否完全随机缺失(原假设为:是完全随机缺失)。

EM估计统计量

EM均值a tenure 36.12 age 41.91 address 11.58 income 77.3941 employ 11.22 reside 2.29 a.Little的MCAR检验:卡方=179.836,DF=107,显着性=.000 EM协方差a tenure age address income employ reside tenure 460.3 135.326 111.341 7.182 113.359 -1.107 age address income employ reside 161.261 85.440 451.109 86.871 -4.538 105.372 300.533 48.051 -3.098 76.75710 525.81159 -14.60886 103.326 -1.916 2.006 a.Little的MCAR检验:卡方=179.836,DF=107,显着性=.000 EM相关性a tenure age address income employ tenure 1 .496 .505 .291 .519 age address income employ reside 1 .655 .406 .673 1 .334 .461 1 .591 1 reside -.036 -.252 -.213 -.118 -.133 1 a.Little的MCAR检验:卡方=179.836,DF=107,显着性=.000 回归估计统计量

回归均值 tenure 35.77 age 41.68 address 11.59 income 74.3174 employ 10.99 reside 2.32 aa.将随机正态变量添加到各个估计。 回归协方差a tenure age address income employ reside tenure 448.925 127.960 104.772 521.577 115.751 -1.105 age address income employ reside 157.107 81.387 413.579 86.757 -4.369 98.710 261.781 49.026 -2.782 7176.51298 504.705 -9.63351 104.906 -1.736 2.026 a.将随机正态变量添加到各个估计。 回归相关性a tenure age address income employ reside tenure 1 .482 .498 .291 .533 -.037 age address income employ reside 1 .6 .3 .676 -.245 1 .311 .482 -.197 1 .582 -.080 1 -.119 1 a.将随机正态变量添加到各个估计。 注:另外还有多重插补法,是综合多种插补缺失值的方法,确定插补数据,因此比单一插补方法更准确。操作步骤:

【分析】——【多重归因】——【分析模式】/【归因缺失数据值】

具体步骤(略)。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- ryyc.cn 版权所有 湘ICP备2023022495号-3

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务