您好,欢迎来到锐游网。
搜索
您的当前位置:首页精编生物医学研究的统计方法统计课后题答案

精编生物医学研究的统计方法统计课后题答案

来源:锐游网


第1章 绪论

1. 生物统计学与其他统计学有什么区别和联系?

答:统计学可细分为数理统计学、经济统计学、生物统计学、卫生统计学、医学统计学等,都是关于数据的学问,是从数据中提取信息、知识的一门科学与艺术。而生物统计学是统计学原理与方法应用于生物学、医学的一门科学,与医学统计学和卫生统计学很相似,其不同之处在于医学统计学侧重于介绍医学研究中的统计学原理与方法,而卫生统计学更侧重于介绍社会、人群健康研究中的统计学原理与方法。

2. 某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,并求其平均身高。如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么?

答:不能。因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。即使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。

3. 某地区有10万个7岁发育正常的男孩,为了研究这些7岁发育正常男孩的身高和体重,在该人群中随机抽取200个7岁发育正常的男孩,测量他们的身高和体重,请回答下列问题。

(1) 该研究中的总体是什么?

答:某地区10万个7岁发育正常的男孩。 (2) 该研究中的身高总体均数的意义是什么?

答:身高总体均数的意义是: 10万个7岁发育正常的男孩的平均身高。 (3) 该研究中的体重总体均数的意义是什么?

答:体重总体均数的意义是: 10万个7岁发育正常的男孩的平均体重 (4) 该研究中的总体均数与总体是什么关系? 答:总体均数是反映总体的统计学特征的指标。 (5)该研究中的样本是什么?

答:该研究中的样本是:随机抽取的200个7岁发育正常的男孩。

第2章 统计描述

1. 对定量资料进行统计描述时,如何选择适宜的指标?

答:详见教材表2-18。

教材表2-18 定量资料统计描述常用的统计指标及其适用场合

描述内容 指 标

意 义

适 用 场 合

对称分布

取对数后对称分布

①非对称分布;②半定量资料;③末端开口资料;④分布不明 不拘分布形式,概略分析

平均水平 均 数 个体的平均值

几何均数 平均倍数

中 位 数 位次居中的观察值 众 数 频数最多的观察值

调和均数 基于倒数变换的平均值 正偏峰分布资料

变 异 度 全 距 观察值取值范围 不拘分布形式,概略分析

标 准 差 观察值平均离开均数的

(方 差) 程度 四分位数间距

居中半数观察值的全距

对称分布,特别是正态分布资料 ①非对称分布;②半定量资料;③末端开口资料;④分布不明

①不同量纲的变量间比较;②量纲相同但数量级相差悬殊的变量间比较

变异系数 标准差与均数的相对比

2. 举例说明频率和频率分布的区别和联系。

答:2005年某医院为了调查肺癌患者接受姑息手术治疗1年后的情况,被调查者150人,分别有30人病情稳定,66人处于进展状态,54人死亡。

当研究兴趣只是了解死亡发生的情况,则只需计算死亡率54/150=36%,属于频率指标。当研究者关心患者所有可能的结局时,则可以算出反映3种结局的频率分别为20%、44%、36%,它们共同构成所有可能结局的频率分布,是若干阳性率的组合。

两者均为“阳性率”,都是基于样本信息对总体特征进行估计的指标。不同的是:频率只是一种结局发生的频率,计算公式的分子是某一具体结局的发生数;频率分布则由诸结局发生的频率组合而成,计算公式的分子分别是各种可能结局的发生数,而分母则与频率的计算公式中分母相同,是样本中被观察的单位数之和。 3. 应用相对数时应注意哪些问题?

答:(1)防止概念混淆 相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。

(2)计算相对数时分母不宜过小 样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。

(4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 4. 常用统计图有哪些?分别适用于什么分析目的? 答:详见教材表2-20。

教材表2-20 常用统计图的适用资料及实施方法 图 形 条 图 直 方 图 百分条图 饼 图 线 图 半对数线图 散 点 图 箱 式 图 茎 叶 图

适 用 资 料 组间数量对比 定量资料的分布 构成比 构成比

实 施 方 法

用直条高度表示数量大小

用直条的面积表示各组段的频数或频率

用直条分段的长度表示全体中各部分的构成比 用圆饼的扇形面积表示全体中各部分的构成比

定量资料数值变动 线条位于横、纵坐标均为算术尺度的坐标系

定量资料发展速度 线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 双变量间的关联 点的密集程度和形成的趋势,表示两现象间的相关关系 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 定量资料的分布

用茎表示组段的设置情形,叶片为个体值,叶长为频数

三、计算题

1. 某内科医生调查得到100名40~50岁健康男子总胆固醇(mg/dl),结果如下

227 190 224 259 225 238 180 193 214 195 213 193 209 172 244 199 155 208 203 199 253 181 196 224 210 220 255 257 216 249 235 220 190 203 197 149 175 236 202 209 174 184 174 185 167 235 167 210 171 248 201 266 189 222 199 197 214 199 198 230 246 209 202 186 217 206 200 203 197 161 247 138 186 156 195 163 273 178 190 207 259 186 194 246 172 234 232 189 172 235 207 208 231 234 226 174 199 278 277 181

(1)编制频数表,绘制直方图,讨论其分布特征。

答:频数表见练习表2-1。根据直方图(练习图2-1),可认为资料为基本对称分布,其包络线见练习图2-2。

练习表2-1 某地100名40~50岁健康男子总胆因醇/(mg·dl-1)

Valid Percent

1.0 3.0 11.0 12.0 25.0 15.0 13.0 11.0 5.0 Cumulative Percent

1.0 4.0 15.0 27.0 52.0 67.0 80.0 91.0 96.0 Frequency

Valid 130~

145~ 160~ 175~ 190~ 205~ 220~ 235~ 250~ 1 3 11 12 25 15 13 11 5 Percent

1.0 3.0 11.0 12.0 25.0 15.0 13.0 11.0 5.0

265~280

Total

4 100

4.0 4.0 100.0

100.0 100.0

练习图2-2 包络线图

(2)根据(1)的讨论结果,计算恰当的统计指标描述资料的平均水平和变异度。 答:利用原始数据,求出算术均数X207.4 mg/dl 和标准差S29.8mg/dl。 (3)计算P25,P75和P95。

答:利用原始数据,求出P25=186.8 mg/dl,P75=229.3 mg/dl,P95=259.0 mg/dl。 2. 某地对120名微丝蚴血症患者治疗3个疗程后,用IFA间接荧光抗体试验测得抗体滴度如下,求抗体滴度的平均水平。 抗体滴度 例 数

1:5 5

1:10 16

1:20 27

1:40 34

1:80 22

1:160 13

1:320 3

利用上述频数表,得平均滴度为1:36.3。

3. 某地1975-1980年出血热发病和死亡资料如教材表2-21,设该地人口数在此6年间基本保持不变。

教材表2-21 某地6年间出血热的发病与死亡情况

年 份 1975 1976 1977 1978 1979 1980

试分析:

(1)粗略判断发病率的变化情况怎样。

答:该地人口数在此6年间基本保持不变,发病人数在1979年前逐年上升,1980年略有下降。可以认为发病率大致呈上升趋势,1980年略有下降。

(2)病死率的变化情况怎样?

答: 病死率由各年度病死数除以发病数获得,病死率依次为12.5%、8.9%、7.4%、5.4%、3.0%和1.8%,呈逐年下降趋势。

发病数

32

56 162 241 330 274

病死数

4 5 12 13 10 5

(3)上述分析内容可用什么统计图绘制出来?

答:由于没有给出该地人口数,故不能计算发病率,可用普通线图表示发病数变化情况。病死率的下降情况可以用普通线图表示,下降速度则可以用半对数线图表示。

(4)评述该地区出血热防治工作的效果。

答:随着时间的推移,预防工作做得不好,治疗水平则逐年提高(体现在病死率下降)。

3章 概率分布

思考题

1. 服从二项分布及Poisson分布的条件分别是什么?

简答:二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率很小。 2. 二项分布、Poisson分布分别在何种条件下近似正态分布?

简答: 二项分布的正态近似:当n较大,π不接近0也不接近1时,二项分布B(n,π)近似正态分布N(n,

。 n(1))

Poisson分布的正态近似:Poisson分布(),当相当大时(≥20),其分布近似于正态分布。

计算题

1. 已知某种非传染性疾病常规疗法的有效率为80%,现对10名该疾病患者用常规疗法治疗,问至少有9人治愈的概率是多少?

解:对10名该疾病患者用常规疗法治疗,各人间对药物的反应具有独立性,且每人服药后治愈的概率均可视为0.80,这相当于作10次独立重复试验,即=0.80,n=10的贝努利试验,因而治愈的人数X服从二项分布B(10, 0.80)。至少有9人治愈的概率为:

P(X9)1P(X8)=10.62420.3758=37.58%至少有9人治愈的概率是37.58%。

或者

P(X9)P(X9)P(X10)0.3785

2. 据以往的统计资料,某地新生儿染色体异常率为1%,问100名新生儿中染色体异常不少于2名的概率是多少?

解:

P(X2)1P(X0)P(X1)==10.36790.3679=26.42%

3.得到均数(Mean)为174.766 cm,标准差(Std. Deviation)

为4.150 9 cm。估计当年该市20岁男性青年中,身高在175.0~178.0 cm内的比例为25.956%,身高在175.0~178.0 cm内的约有29人。 估计当年该市95%的20岁男青年身高范围为166.63~182.90 cm,99% 的20岁男青年身高范围为164.06~185.48 cm。 由该市随

机抽查1名20岁男青年,估计其身高超过180 cm的概率约为10%。

第4章 参数估计

二、思考题

1. 简述标准误与标准差的区别。 答: 区别在于:

(1)标准差反映个体值散布的程度,即反映个体值彼此之间的差异;标准误反映精确知道总体参数(如总体均数)的程度。

(2)标准误小于标准差。

(3)样本含量越大,标准误越小,其样本均数更有可能接近于总体均数,但标准差不 随样本含量的改变而有明显方向性改变,随着样本含量的增大,标准差有可能增大,也有可能减小。

2. 什么叫抽样分布的中心极限定理?

答: 样本含量n越大,样本均数所对应的标准差越小,其分布也逐渐逼近正态分布,这种现象统计学上称为中心极限定理(central limit theorem)。

当有足够的样本含量(如n30)时,从任何总体中抽取随机样本的样本均数近似地服从正态分布。样本含量越大,X抽样分布越接近于正态分布。

正态分布的近似程度与总体自身的概率分布和样本含量有关。如果总体原本就是正态分布,那么对于所有n值,抽样分布均为正态分布。如果总体为非正态分布,X仅在n值较大情况下近似服从正态分布。一般说,n30时的X抽样分布近似为正态分布;但是,如果总体分布极度非正态(如双峰分布、极度偏峰分布),即使有足够大的n值,抽样分布也将为非正态。

3. 简述置信区间与医学参考值范围的区别。

答: 置信区问与医学参考值范围的区别见练习表4-1。

练习表4-1 置信区间与医学参考值范围的区别

区别

置信区间

参考值范围

含义 用途 计算公式

总体参数的波动范围,即按事先给定的概率100(1)%所确定的包含未知总体参数的一个波动范围

估计未知总体均数所在范围

个体值的波动范围,即按事先给定的范围100(1)%所确定的“正常人”的解剖、生理、生化指标的波动范围

供判断观察个体某项指标是否“正常”时参考(辅助诊断) 正态分布:XZ/2S 偏峰分布:PX~P100X

未知: Xt/2,S

X已知或未知但n≥30,有

XZ/2SX

XZ/2X或

4. 何谓置信区间准确度与精确度?如何协调两者间的关系。

答:置信区间有准确度(accuracy)与精密度(precision)两个要素。准确度由置信度 (1-) 的大小确定,即由置信区间包含总体参数的可能性大小来反映。从准确度的角度看,置信度愈接近于1愈好,如置信度99%比95%好。精密度是置信区间宽度的一半(即

t2,SX、Z2,Sp),意指置信区间的两端点值离样本统计量(如X、p)的距离。从精

密度的角度看,置信区间宽度愈窄愈好。在抽样误差确定的情况下,两者是相互矛盾的。为了同时兼顾置信区间的准确度与精密度,可适当增加样本含量。

三、计算题

1.随机抽取了100名一年级大学生,测得空腹血糖均数为4.5 mmol/L,标准差为0.61 mmol/L。试估计一年级大学生空腹血糖总体均数及方差的95%置信区间。

答:总体均数95%置信区间为(4.379,4.621),方差的95%置信区间为(0.286 9, 0.502 1)。

2.调查某地蛲虫感染情况,随机抽样调查了260人,感染人数为100。试估计该地蛲虫感染率的95%置信区间。

答:该地蛲虫感染率的95%置信区间为(32.55%,44.38%)。

第5章 假设检验

二、思考题

1.试述假设检验中α与P的联系与区别。

答:值是决策者事先确定的一个小的概率值。

P值是在H0成立的条件下,出现当前检验统计量以及更极端状况的概率。 P≤时,拒绝H0假设。

2. 试述假设检验与置信区间的联系与区别。

答:区间估计与假设检验是由样本数据对总体参数作出统计学推断的两种主要方法。置信区间用于说明量的大小,即推断总体参数的置信范围;而假设检验用于推断质的不同,即

判断两总体参数是否不等。

3. 怎样正确运用单侧检验和双侧检验?

答:选用双侧检验还是单侧检验需要根据数据的特征及专业知识进行确定。若比较甲、乙两种方法有无差异,研究者只要求区分两方法有无不同,无需区分何者为优,则应选用双侧检验。若甲法是从乙法基础上改进而得,已知如此改进可能有效,也可能无效,但不可能改进后反不如以前,则应选用单侧检验。在没有特殊专业知识说明的情况下,一般采用双侧检验即可。

4. 试述两类错误的意义及其关系。

答:Ⅰ类错误(typeⅠerror):如果检验假设H0实际是正确的,由样本数据计算获得的检验统计量得出拒绝H0的结论,此时就犯了错误,统计学上将这种拒绝了正确的零假设H0(弃真)的错误称为Ⅰ类错误。

Ⅱ类错误(type Ⅱ error):假设检验的另一类错误称为Ⅱ类错误(type Ⅱ error),即检验假设H0原本不正确(H1正确),由样本数据计算获得的检验统计量得出不拒绝H0(纳伪)的结论,此时就犯了Ⅱ类错误。Ⅱ类错误的概率用 表示。

在假设检验时,应兼顾犯Ⅰ类错误的概率()和犯Ⅱ类错误的概率()。犯Ⅰ类错误的概率()和犯Ⅱ类错误的概率()成反比。如果把Ⅰ类错误的概率定得很小,势必增加犯Ⅱ类错误的概率,从而降低检验效能;反之,如果把Ⅱ类错误的概率定得很小,势必增加犯Ⅰ类错误的概率,从而降低了置信度。为了同时减小和,只有通过增加样本含量,减少抽样误差大小来实现。 5.试述检验功效的概念和主要影响因素。

答:拒绝不正确的H0的概率,在统计学中称为检验功效(power of test),记为1。检验功效的意义是:当两个总体参数间存在差异时(如备择假设H1:0成立时),所使用的统计检验能够发现这种差异(拒绝零假设H0:0)的概率,一般情况下要求检验功效应在0.8以上。

影响检验功效的四要素为总体参数的差异、总体标准差、检验水准及犯Ⅱ类错误的概率。

6.简述假设检验的基本思想。

答:假设检验是在H0成立的前提下,从样本数据中寻找证据来拒绝H0、接受H1的一种“反证”方法。如果从样本数据中得到的证据不足,则只能不拒绝H0,暂且认为H0成立(因为拒绝的证据不足),即样本与总体间的差异仅仅是由于抽样误差所引起。拒绝H0是根据某个界值,即根据小概率事件确定的。所谓小概率事件是指如果比检验统计量更极端(即绝对值更大)的概率较小,比如小于等于0.05(各种科研杂志习惯上采用这一概率值),则认为零假设的事件在某一次抽样研究中不会发生,此时有充分理由拒绝H0,即有足够证据推断差异具有统计学意义。

三、计算题

1. 一般正常成年男子血红蛋白的平均值为140 g/L,某研究者随机抽取25名高原地区成年男子进行检查,得到血红蛋白均数为155 g/L,标准差25 g/L。问:高原地区成年男子的血红蛋白是否比一般正常成年男子的高? 解:H0:0 H1:X0S/n05 0.0(单侧)

t=3.00

t=3,0.005P0.01,可认为高原地区居民的血红蛋白比一般正常成年男子的高。

2. 一般而言,对某疾病采用常规治疗,其治愈率约为45%。现改用新的治疗方法,并随机抽取180名该疾病患者进行了新疗法的治疗,治愈117人。问新治疗方法与常规疗法的效果是否有差别?

解:H0:=0,H1:0,0.05

p0p0Zp0(10)/n=5.41

Z=5.41,P0.001,可认为新治疗方法与常规疗法的效果不同,新疗法优于常规疗

法。

第6章 两样本定量资料的比较

二、思考题

1.假设检验中,P值和α的含义是什么?两者有什么关系?

答:P是指H0成立时出现目前样本情形的概率最多是多大, α是事先确定的检验水准。但P值的大小和α没有必然关系。

2. 既然假设检验的结论有可能有错,为什么还要进行假设检验?

答:假设检验中,无论拒绝不拒绝H0,都可能会犯错误,表现为拒绝H0时,会犯Ⅰ类错误,不拒绝H0时,会犯Ⅱ类错误,但这并不能否认假设检验的作用。只要涉及到抽样,就会有抽样误差的存在,因此就需要进行假设检验。只是要注意,假设检验的结论只是个概率性的结论,它的理论基础是“小概率事件不可能原理”。

3. 配对设计资料能否用完全随机设计资料的统计检验方法?为什么?

答:不能。采用完全随机设计资料的t检验会使检验效能降低,从而可能会使应有的差别检验不出来。

4. 对于完全随机设计两样本定量资料的比较,如何选择统计方法?

答:完全随机设计两样本定量资料比较统计方法的选择最关键的是看是否满足正态性(样本量较大时不必进行正态性检验)和方差齐性。如果资料来自正态总体且总体方差齐,采用t 检验;如果满足正态性但总体方差不齐,采用t′检验;当两者都不满足时,才考虑选用秩和检验。当然,我们也可采用变量变换的方法使其满足t或t′检验的条件。 5. 为什么在秩和检验编秩次时不同组间出现相同数据要给予“平均秩次”,而同一组的相同数据不必计算“平均秩次”?

答:秩和检验编秩次时不同组间出现相同数据要给予“平均秩次”,而同一组的相同数据不必计算“平均秩次”,是因为取不取“平均秩次”对该组的总的秩和没有影响。

三、计算题

1. 某单位研究饲料中维生素E缺乏对肝中维生素A含量的影响,将同种属、同年龄、同性别、同体重的大白鼠配成8对,并将每对动物随机分配到正常饲料组和缺乏维生素E的饲料组,定期将大白鼠杀死,测定其肝中维生素A的含量(教材表6-12),问饲料中维生素E缺乏对肝中维生素A的平均含量有无影响?

教材表6-12 正常饲料组与维生素E缺乏组大白鼠肝中维生素A含量/

(U·mg-1)

大白鼠对别 正常饲料组

1 3.55

2 2.60

3 3.00

4 3.95

5 3.80

6 3.75

7 3.45

8 3.05

维生素E缺乏组 2.45 2.40 1.80 3.20 3.25 2.70 2.40 1.75

解:此题是个配对设计的资料,差值的正态性检验结果表明:差值来自正态总体(W检验:P=0.268),所以采用配对t检验。结果为:t=6.837,=7,P<0.001,拒绝H0,可以认为维生素E缺乏对肝中维生素A含量有影响。

2. 某实验室观察局部温热治疗小鼠移植性肿瘤的疗效,以生存日数作为观察指标。实验结果如下,请比较两组的平均生存日数有无差别。

实验组 对照组

10 2

12 3

14 6

15 7

15 8

17 9

18 10

20 12

26 12

80 13

30

解:此题是个完全随机设计的资料。两组资料的正态性检验结果表明,差值来自正态总体(W检验:P1<0.001,P2=0.011),所以采用两样本比较的秩和检验。结果为:T1=150.5, T2=80.5,本例中n1=10,n2-n1=1,对应双侧0.05的界值为81~139,故在α=0.05的水平上拒绝H0,认为两组小鼠生存日数不同。

第7章 多组定量资料的比较

二、思考题

1. 方差分析的基本思想和应用条件是什么?

答:方差分析的基本思想是,对于不同设计的方差分析,其思想都一样,即均将处理间平均变异与误差平均变异比较。不同之处在于变异分解的项目因设计不同而异。具体来讲, 根据试验设计的类型和研究目的,将全部观测值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用加以解释,通过比较不同变异来源的均方,借助F分布作出统计推断,从而推论各种研究因素对试验结果有无影响。

其应用条件是,① 各样本是相互独立的随机样本,均服从正态分布;② 各样本的总体方差相等,即方差齐性。

2. 多组定量资料比较时,统计处理的基本流程是什么?

答:多组定量资料比较时首先应考虑用方差分析,对其应用条件进行检验,即方差齐性及各样本的正态性检验。若方差齐性,且各样本均服从正态分布,选单因素方差分析。若方差不齐,或某样本不服从正态分布,选Kruskal-Wallis秩和检验,或通过某种形式的数据变换使其满足方差分析的条件。若方差分析或秩和检验结果有统计学意义,则需选择合适的方

法(如Bonferonni、LSD法等)进行两两比较。

三、计算题:

1. 根据教材表7-11资料,大白鼠感染脊髓灰质炎病毒后,再作伤寒或百日咳接种是否影响生存日数?若结论为“有影响”,请作多重比较(与对照组比)。

教材表7-11 各组大鼠接种后生存日数/天 伤寒 5 7 8 9 9 10 10 11 11 12

百日咳 6 6 7 8 8 9 9 10 10 11

对照 8 9 10 10 10 11 12 12 14 16

解:本题资料可考虑用完全随机设计的单因素方差分析进行统计处理。 (1)建立检验假设,确定检验水准。

H0:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数相等。 :大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相

H1等,=0.05。

(2)方差分析应用前提条件的检验 首先进行正态性及方差齐性检验,三组均服从正态分布(P1=0.684,P2=0.591,P3=0.507),三个总体的方差齐(P=0.715),符合单因素方差分析的条件,可行方差分析。

(3)各组可分别采用均数和标准差描述其集中趋势和离散趋势,各组的统计描述及总体均数的置信区间如下:

表1三组大鼠接种后生存日数的描述性统计量/天

95%置信区间

N

均数

标准差

下限

上限

伤寒 百日咳 对照 合计

10 10 10 30

9.20 8.40 11.2 9.60

2.10 1.71 2.39 2.34

7.70 7.17 9.49 8.73

10.70 9.63 12.91 10.47

(4)资料的方差分析见方差分析表 方差分析结果F4.776,P0.017,即大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相等。

表2三组大鼠接种后生存日数差别有无统计学意义的方差分析表 变异来源 组间 组内 合计

SS 41.6 117.6 159.2

df 2 27 29

MS 20.800 4.356

F 4.776

P 0.017

进一步行多重比较(LSD检验),结果两实验组均与对照组有统计学差异。认为大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗对生存日数有影响,生存日数减少。

表3三组大鼠接种后生存日数两两比较的结果

对比组

XAXB

SXAXB

P 均数差值的95%置信区间 下限

上限 -0.09 -0.89

伤寒组与对照组 百日咳组与对照组

2.0 2.8

0.9333 0.9333

0.041 0.006

-3.92 -4.72

2. 将18名乙脑患者随机分为三组,分别用单克隆抗体、胸腺肽和利巴韦林三种药物治疗,观察指标为治疗后的退热时间,结果见教材表7-12。问三组治疗结果的差异是否具有统计学意义?

教材表7-12 三组乙脑患者的退热时间/天

治疗分组

退热时间

单克隆抗体组 胸腺肽组 利巴韦林组

0 32 0

2 13 11

0 6 15

0 7 11

5 10 3

9 2 1

解:从专业上考虑,退热时间一般不服从正态分布,可采用Kraskal-Wallis检验分析三组乙脑患者的退热时间差异有无统计学意义。

(1) 各组可分别采用四份位数描述其集中趋势和离散趋势,各组的统计描述如下:

表1三组乙脑患者退热时间的描述性统计量/天

组别

单克隆抗体组 胸腺肽组 利巴韦林组

N 6 6 6

P25 0.00 5.00 0.75

P50 1.00 8.50 7.00

P75 6.00 17.75 12.00

(2)建立检验假设,确定检验水准。

H0:三组乙脑患者的退热时间相等,

H1:三组乙脑患者的退热时间不等或不全相等,

=0.05。

(3)Kraskal-Wallis检验结果,=4.799,=2,P=0.091>0.05。结论为,在α=0.05的水平上尚不能认为三组治疗结果的差异具有统计学意义.

2第8章 定性资料的比较

二、思考题

1. 简述检验适用的数据类型。

答:提示:卡方检验是应用较广的一种定性资料的假设检验方法,常用于检验两个或多个样本率(或构成比)之间有无差别。

2. 两组二分类资料的设计类型有几类?其相应的检验方法是什么?

答:提示:两组二分类资料的设计类型主要有2类,即完全随机设计和配对设计。完全随机设计和配对设计资料在假设检验方法上均采用卡方检验。完全随机设计资料应用公式(8-1)或(8-4),配对设计资料应用公式(8-7)或(8-8)。 3. 什么资料适合用秩和检验进行检验?简述秩和检验步骤。

答:提示:进行有序资料的比较时宜采用秩和检验。秩和检验步骤为:① 建立假设

2

并确定检验水准;② 根据不同的设计类型对资料进行编秩并计算秩和;③ 根H0和H1,

据计算的秩和直接查表或计算相应的统计量再查表,确定P值下结论。进行有序资料的比较时宜采用秩和检验

三、计算题

1. 某医院观测了28例肝硬化患者和14例再生障碍性贫血患者血清中抗血小板抗体, 结果是:肝硬化患者中有2例阳性,再生障碍性贫血患者中有5例阳性。问:两类患者血清抗血小板抗体阳性率有无差别?

解:将资料进行整理列表(练习表8-1)。

练习表8-1 两类患者血清抗血小板抗体检测结果 患者类型 肝硬化患者

再生障碍性贫血患者

阳性 阴性 合计 2 26 28 5 9 14

资料属于独立的两组二分类资料比较。理论频数分别为4.67、23.33、2.33、11.67,应选用校正公式计算。假设H0:两种疾病患者血清抗血小板抗体检测阳性率相同,=0.05。计算统计量校正卡方=3.621 4,自由度=1,P=0.057 0, 无统计学意义,尚不能认为两种疾病患者血清抗血小板抗体检测阳性率不同。

2. 对100名钩端螺旋体病患者同时用间接免疫抗体试验和显微镜凝集试验进行血清学诊断,结果见教材表8-18。试比较用两种方法检验的阳性率有无差别?

教材表8-18 两种方法的检验结果比较(例数) 间接免疫 荧光 + - 合计

+ 66 6 72

显微镜凝集

合计

- 11 17 28

77 23 100

解: 答案提示,本资料属于配对的两组二分类资料比较,b+c=11+6=17<40,应选用

校正配对卡方公式计算。假设H0:两种方法检测的阳性率相同,计算统计量χ2 =0.05。0.9412,df=1,P=0.332,无统计学意义,尚不能认为两种方法检测的阳性率不同。 3. 研究两种不同的治疗训练方案对肥胖症患者的减肥效果情况,结果见教材表8-19。问这两种治疗训练方案对肥胖症患者的减肥效果是否相同?

教材表8-19 两种治疗训练方案对肥胖症患者的减肥效果(例数) 治疗方案

甲 乙 合计

效果较好

16 28 44

效果一般

22 17 39

效果较差 8 5 13

合计 46 50 96

解:该资料属于结果变量为有序变量的定性资料,应选用秩和检验。假设H0:两种治疗方案对肥胖症患者的减肥效果相同,=0.05。按照治疗效果由差到好编秩,计算秩和

T甲 1974,统计量U=-2.064,P=0.039,有统计学意义,可以认为两种治疗方案的减

肥效果不同,由两组平均秩和看,甲组为1 974÷46=42.91,乙组为2 682÷50=53.64,因为编秩是由差到好,因此可认为乙治疗方案的效果好于甲治疗方案。

4. 比较三种中药方剂对骨质疏松症的治疗效果,结果见教材表8-20。三种方剂的治疗效果是否有差异?

教材表8-20 三种中药方剂对骨质疏松症的治疗效果(例数) 分组 A方剂 B方剂 C方剂 合计

有效 18 12 11 41

无效 6 14 15 35

合计 24 26 26 76

解:本题属于独立的多组二分类资料比较。假设H0:三种方剂对骨质疏松症的治疗效

果相同,=0.05。计算统计量χ26.3350,df=2,P=0.042,差别有统计学意义,

拒绝H0,接受H1,尚不能认为这三种方剂的治疗效果不相同。

第9章 关联性分析

二、思考题

1. 1988年某地抽查0~7岁儿童营养不良患病情况如教材表9-10,某医师要想了解年龄与营养不良患病率是否有关,你认为应选用什么统计方法?为什么?

教材表9-10 1988年某地抽查0~7岁儿童营养不良患病情况 年龄/岁 患病人数 患病率/%

0~ 98 15.7

1~ 278 11.7

2~ 86 12.9

3~ 29 7.4

4~ 59 8.9

5~ 82 7.3

6~7 34 5.1

解:提示,用秩相关分析年龄与患病率的关系,因患病率资料一般不服从正态分布。 2. 请查找最近三年主题为相关分析或关联分析的已发表国内医学文献,至少认真阅读其中3篇(建议分别选取Pearson、Spearman相关分析和关联分析各1篇),找出其中不妥之处。 3. 在讲散点图时,我们曾提到分层应慎重,有可能出现分层分析与总体情况大相径庭的结果。请举一两个实例说明这种现象。 三、计算分析题

1. 某学校随机抽取18名学生,测定其智商(IQ)值,连同当年数学和语文两科总成绩如表教材9-11。试计算数学成绩与智商、语文成绩与智商以及数学与语文成绩的相关系数,并检验总体相关系数是否为零。能否认为数学好的原因是语文好,或者语文好的原因是数学好?

教材表9-11 18名学生的智商、数学成绩和语文成绩

编号 1 数学成绩X 语文成绩Y 智商得分Z

78 83 95

2 84 76 100 11 48 53 61

3 61 70 100 12 45 43 60

4 52 58 75 13 67 70 88

5 93 82 105 14 75 78 96

6 89 78 97 15 95 97 125

7 98 89 110 16 88 92 113

8 98 95 120 17 99 92 126

9 65 61 76 18 81 88 102

编号 10 数学成绩X 语文成绩Y 智商得分Z

73 75 92

解:提示,数学与智商的相关系数(Pearson)为0.918,语文与智商的相关系数为0.958,数学与语文的相关系数为0.932。各总体相关系数均不为0。

数学好或者语文好与智商有关系。不能认为数学好的原因是语文好,或者语文好的原因是数学好,两者之间不存在因果关系。

2. 将10份研究生院的入学申请书让两位老师排序,结果见教材表9-12。请问两人的排序是否相关?

教材表9-12 两位老师对10份入学申请书的排序

申请书编号

A老师的排序 B老师的排序

1 6 7

2 10 8

3 5 5

4 1 4

5 7 6

6 2 3

7 8 9

8 9 10

9 3 1

10 4 2

解:提示,Spearman相关系数为0.842,总体相关系数不为0(P=0.002),可以认为两人的排序相关。

3. 关于丈夫和妻子关节炎的患病率分析中,100对中年夫妇的患病情况见教材表9-13,试分析丈夫和妻子关节炎的患病有无关系。

教材表9-13 100对中年夫妇的患病情况

妻子患病情况

有病

无病 合计

丈夫患病情况 有病 16 24 40

无病 24 36 60

2合计 40 60 100

解:提示,运用交叉分类2×2列联表的关联分析,2=0.00,χ0.05=3.84>0.00,在α=0.05的水平下,不拒绝H0,尚不能认为中年夫妇中丈夫患关节炎和妻子患关节炎有关联。

第10章 简单线性回归分析

二、思考题

1.简述简单线性回归分析的基本步骤。

答:① 绘制散点图,考察是否有线性趋势及可疑的异常点;② 估计回归系数;③ 对总体回归系数或回归方程进行假设检验;④ 列出回归方程,绘制回归直线;⑤ 统计应用。 2.简述线性回归分析与线性相关的区别与联系。

答:区别:

(1)资料要求上,进行直线回归分析的两变量,若X为可精确测量和严格控制的变量,则对应于每个X的Y值要求服从正态分布;若X、Y都是随机变量,则要求X、Y服从双变量正态分布。直线相关分析只适用于双变量正态分布资料。

(2)应用上,说明两变量线性依存的数量关系用回归(定量分析),说明两变量的相关关系用相关(定性分析)。

(3)两个系数的意义不同。r说明具有直线关系的两变量间相互关系的方向与密切程

度,b表示X每变化一个单位所导致Y的平均变化量。

(4)两个系数的取值范围不同:-1≤r≤1,b。 (5)两个系数的单位不同:r没有单位,b有单位。 联系:

(1)对同一双变量资料,回归系数b与相关系数r的正负号一致。b>0时,r>0,均表示两变量X、Y同向变化;b<0时,r<0,均表示两变量X、Y反向变化。

(2)回归系数b与相关系数r的假设检验等价,即对同一双变量资料,tbtr。由于相关系数r的假设检验较回归系数b的假设检验简单,故在实际应用中常以r的假设检验代替b的假设检验。

(3)用回归解释相关:由于决定系数R2=SS回 /SS总 ,当总平方和固定时,回归平方和的大小决定了相关的密切程度。回归平方和越接近总平方和,则R2越接近1,说明引入相关的效果越好。例如当r=0.20,n=100时,可按检验水准0.05拒绝H0,接受H1,认为两变量有相关关系。但R2=(0.20)2=0.04,表示回归平方和在总平方和中仅占4%,说明两变量间的相关关系实际意义不大。

3. 决定系数与相关系数的意义相同吗?如果不一样,两者关系如何?

答:现将相关系数、决定系数与Y的总变异的关系阐释如下:假如在一回归分析中,回归系数的变异数SS回归=9,而Y的总变异数SS总=13,则

决定系数R2 =SS回归 / SS总=9/14=0.642 9/1,相关系数R=0.801 8

即将决定系数表示为一比值关系,当SS总= l时,则SS回归= 0.642 9,我们可以采用直角三角形的“勾股定理”图示决定系数与相关系数的关系,如练习图10-1所示。

SS回归 面积=9 边长=3 SS残差 面积=4 边长=2 SS回归 面积=0.642 9 边长=0.801 8 SS残差 SS回归 SS残差 =9 =4 SS总=13 SS回归 SS残差  =0.642 9 =0.357 1 SS总=1

练习图10-1 相关系数、决定系数与总变异的关系

三、计算题

1. 以例10-1中空气一氧化氮(NO)为因变量,风速(X4)为自变量,采用统计软件完成如下分析:

(1)试用简单线性回归方程来描述空气中NO浓度与风速之间的关系。 (2)对回归方程和回归系数分别进行假设检验。 (3)绘制回归直线图。

(4)根据以上的计算结果,进一步求其总体回归系数的95%置信区间。

(5)风速为1.50 m/s时,分别计算个体Y值的95%容许区间和Y的总体均数的95%置信区间,并说明两者的意义。

解:运用SPSS进行处理,主要分析结果如下:

(1)简单线性回归方程、假设检验结果及总体回归系数的95%置信区间如下: Coefficients(a) Unstandardized Standardized

Coefficients Coefficients B Std. Error Beta

Constant

0.159 0.019 风速 -0.053 0.012

(2)方差分析结果: ANOVA(b)

Regression Residual Total

Sum of Squares

0.038 0.044 0.081

df 1 22 23

Mean Square

0.038 0.002

F 18.878

Sig. 0.000(a)

-0.680

t Sig.

95% Confidence Interval for B Lower Bound

Upper Bound

0.198 -0.028

0.000

8.422

-4.345 0.000

0.120 -0.078

ˆ2. 教材表10-8为本章例10-1回归分析的部分结果,依次为X、Y、Y的估计值(Y)与残ˆ、ˆ与X、ˆ、Y与YY与YY差(e),请以相关分析考察四者之间的关系,以回归分析考察Yˆ与X之间的关系,并予以解释。 YY教材表10-8 案例分析中回归分析的部分结果

X Y ˆY ˆ YYX Y ˆY ˆYY X Y ˆY ˆYY 1.30 0.07 1.44 0.08 0.070 7 -0.004 7 1.20 0.10 0.093 5 -0.017 5 1.48 0.13 0.011 8 1.82 0.14 0.043 5 1.44 0.10 0.013 1 0.95 0.01 0.054 8 0.098 6 0.045 2 1.12 0.04 0.041 5 -0.002 5 0.030 4 1.66 0.06 0.127 1 -0.068 1 0.79 0.00 -0.010 8 1.65 0.17 1.76 0.16 1.75 0.12 1.20 0.04 0.126 5 0.142 9 0.153 1 -0.018 1 1.54 0.09 0.108 1 -0.021 1 0.092 2 0.006 8 0.96 0.04 0.016 8 0.022 2 0.014 9 -0.009 9 1.78 0.22 0.147 4 0.074 6 0.092 9 -0.081 9 1.50 0.15 0.101 7 0.043 3 0.036 5 -0.033 5 1.06 0.03 0.032 7 -0.003 7 0.142 6 -0.022 6 1.44 0.01 0.054 8 -0.014 8 1.08 0.00

1.50 0.12 0.102 4 0.017 6 1.84 0.14 0.156 9 -0.016 9 1.44 0.10 0.092 2 0.006 8 解:主要分析结果: (1)四者之间的相关系数 Correlations

X Y Yhat YYhat

X Y Yhat YYhat

1 0.809 1.000 0.000

0.809 1 0.809 0.586

1.000 0.809

1 0.000

0.000 0.586 0.000 1

** Correlation is significant at the 0.01 level (2-tailed).

(2)四个变量间的回归系数 因变量

ˆ YY Y

自变量 X

ˆ Y截距 -0.136 1.005 0.088

回归系数 0.159 0.001 0.999

t 456.016 6.457 3.394 0.000

P

0.000 0.000 0.003 1.000

ˆ YYX

ˆ YY0.000 014 7 0.000 010 5

ˆ与X呈完全正相关关系,回归系数t 检验结果P =0.000,表明Yˆ的变异可由X 完Y全解释。

ˆ的相关系数与Y与X 的相关系数相同,表明正是由于X 的影响引起Y的变Y与Yˆ关系即体现了Y与X的变化关系。 异,Y与Yˆ体现了扣除X的影响后,Y与残差仍呈正相关关系。 Y与YYˆ与X呈零相关关系,表明扣除了X的影响,回归方程的残差与X不再有相关或YY回归关系。

第12章 实验设计

二、思考题

2. 如果某项实验研究中需要考察3个实验因素,各因素均取4个水平,拟用析因设计来安排此项实验,问至少要进行多少次实验才便于考察各级交互作用对观测结果的影响?请说出计算的依据。

答:至少要进行128次实验。计算方法为4442=128。因为析因设计中不同的实验条件数为全部因素的水平数相乘,各实验条件下至少要作2次独立重复实验。

3. 欲探讨用微型角膜刀行角膜深板层内皮移植术的适应证、临床疗效及并发症的预防及处理,用微型角膜刀对6例患者6只患有大疱性角膜病变眼行深板层角膜内皮移植术。术后随访6~9个月。结果表明,5例患者视力明显提高,患者术后平均角膜内皮细胞密度为(2 481±212) 个/ mm,角膜中央厚度平均为(549±61) μm ,散光为(2 104±1 119)D,未发生严

重并发症。得如下结论:用微型角膜刀行角膜深板层内皮移植术是治疗大疱性角膜病变的可选术式。与传统的穿透性角膜移植相比,该术式有望成为角膜内皮移植的技术平台,但远期疗效尚需继续随访。请问该研究是否遵循了实验设计的基本原则?应如何设计该实验?

答:该实验仅凭选取了6例患者6只患有大疱性角膜病变眼行深板层角膜内皮移植术后5例患者视力明显提高,就得出“该方法是治疗大疱性角膜病变的可选术式”的结论,与传统的穿透性角膜移植相比,该术式有望成为角膜内皮移植的技术平台。首先该研究违反了对照的原则。没有设立对照组,仅凭6例中5例术后视力明显提高,但没有与传统的穿透性角膜移植相比,不具有说服力。正确的做法是:首先选取一定数量的患有大疱性角膜病变眼的患者,将患有大疱性角膜病变眼随机分成两组,接受两种手术方法的治疗。若病情、病程等非处理因素对预后有影响,则应尽量保证两组之间在重要的非处理因素上均衡。然后再对两种手术方法术后的治疗效果进行比较。

第16章 随机区组设计和析因设计资料的分析

二、思考题

1.随机区组设计与完全随机设计资料在设计和分析方面有何不同?

答:在设计上,与后者比,前者在设计阶段按照一定条件将受试对象配成区组,平衡了某些因素效应对处理因素效应的影响,更好地控制了其他因素对处理因素效应的影响,设计效率较高。

在分析上,随机区组设计资料的方差分析将总变异分解为3部分,将由区组因素导致的变异分离出来,使得误差更接近“随机误差”,假设检验的结果更敏感。 2. 随机区组设计的Friedman检验,H0如何写?请解释之。

答:各种处理的总体分布相同。Friedman检验的前提为在各区组内部变量值的秩次是随机的,因此由这些秩次算得各种处理总体的秩次值之和相等。

3.① 某研究者欲比较A、B、C和 D四种饲料对小鼠体重的影响。选择10窝小鼠(每窝4只),应采用何种实验设计方法?如何分析?② 若研究者欲研究四种饲料中脂肪和蛋白质两种成分对小鼠体重的影响,两种成分各有高、低两种含量,应选用何种设计方法?请简述分析方法。

答:① 应用随机区组设计。分析方法:首先应考虑如果满足方差分析的要求,应用随机区组设计的方差分析;若不满足方差分析的条件,可尝试经变量变换后用随机区组设计的方差分析;若仍不满足方差分析的条件,可用Frideman法秩和检验。② 用析因设计,可分析两因素间的交互作用。分析方法:用析因设计资料的方差分析。

4.对于两因素的析因设计资料和随机区组设计资料,假定两个因素分别用A和B表示,可否先单独分析A因素,再单独分析B因素?为什么?

答:不可以。如果分别应用单因素的方法(方差分析方法、t检验或秩和检验等)分析A、B两因素,就会出现以下结果:① 没有按照实验设计的方法选择分析资料,达不到设计时的目的,信息利用率低。② 不能同时分析两个因素,即控制一个因素影响后分析另一个因素的实验效应。③ 对于析因设计资料,无法分析因素间的交互效应。

三、计算题

1.将36只大白鼠按体重相近的原则配为12个单位组,并将各单位组的3只大白鼠随机地分配到三个饲料组,一个月后观察尿中氨基氮的排出量(mg)。经初步计算,SS总162,

SS单位8,SS饲料110。试列出该实验数据的方差分析表。

解:方差分析表见练习表16-1。

练习表16-1 方差分析表

 SS MS

162

110 8 44

35 2 11 22

55.000 0.727 2.000

变异来源 总变异 处理间 区组间 误差

F

27.500 0.364

P

<0.01

2.将18名原发性血小板减少症患者按病情和年龄都相近的原则配为6个单位组,每个单位组中的3名患者随机分配到A、B、C三个治疗组中,治疗后患者的血小板升高,结果见教材表16-16,问3种治疗方法的疗效有无差别?

教材表16-16 不同人用鹿茸草后血小板的升高值/(×1012〃L-1) 年龄组 1 2 3 4 5 6

A 3.8 4.6 7.6 8.6 6.4 6.2

B 6.3 6.3 10.2 9.2 8.1 6.9

C

8.0

11.9 14.1 14.7 13.0 13.4

解:该资料为随机区组设计,应用随机区组设计资料的方差分析,结果见练习表16-2,可进一步作多重比较(略)。

练习表16-2 方差分析表

 SS MS

187.265

129.003 3 50.131 7

8.13

17 2 5 10

64.501 7 10.026 3 0.813

变异来源 总变异 处理间 区组间 误差

F

79.337 8 12.332 5

P

0.000 0 0.000 5

3. 为研究克拉霉素的抑菌效果,对28个短小芽孢杆菌平板依据菌株的不同来源分成了7个区组,每组4个平板,用随机的方式分配给标准药物高剂量组(SH)、标准药物低剂量组(SL)以及克拉霉素高剂量组(TH)、克拉霉素低剂量组(TL)。给予不同的处理后,观察抑菌圈的直径,结果见教材表16-17,请对该资料进行分析。

教材表16-17 28个平板给予不同处理后的抑菌圈直径/mm

区组 1 2 3 4 5 6 7

SL 18.02 18.12 18.09 18.30 18.26 18.02 18.23

SH 19.41 20.20 19.56 19.41 19.59 20.12 19.94

TL 18.00 18.91 18.21 18.24 18.11 18.13 18.06

TH 19.46 20.38 19.64 19.50 19.56 19.60 19.54

解:该资料为随机区组设计,应用随机区组设计资料的方差分析,结果见练习表16- 3,可进一步作多重比较(略)。

变异来源 总变异 处理间 区组间 误差

练习表 16-3 方差分析表

 F SS MS

18.043 9 16.115 6 1.100 2 0.828 0

27 3 6 18

5.371 9 0.183 4 0.046 0

116.775 3.986 1

P

0.000 0 0.010 3

4.某研究人员以0.3 ml/kg剂量纯苯给大鼠皮下注射染毒,每周3次,经45天后,使实验动物白细胞总数下降至染毒前的50%左右,同时设置未染毒组。两组大鼠均按照是否给予升高白细胞药物分为给药组和不给药组,实验结果见教材表16-18,试作统计分析。

教材表16-18 实验效应指标(吞噬指数)数据

未染毒组

不给药

3.80 3.90 4.06 3.85 3.84

给药

3.88 3.84 3.96 3.92 3.80

染毒组

不给药

1.85 2.01 2.10 1.92 2.04

给药

1.94 2.25 2.03 2.10 2.08

解:此为析因设计,应用方差分析的方法分析之,结果见练习表16-4。

变异来源 总变异 染毒与否 给药与否

练习表 16-4 方差分析表

 F SS MS

17.339 3 17.168 0 0.009 2

19 1 1

17.168 0 0.009 2

1857.008 7 1.000 0

P

0.000 0 0.332 2

交互作用 误差

0.014 0 0.147 9

1 16

0.014 0 0.009 2

1.519 2

0.235 5

5.外源性NO供体硝普钠(SNP)对培养心肌细胞DNA有损伤作用,某研究者欲实验超氧化物歧化酶(SOD)和过氧化氢酶(CAT)对心肌细胞的保护作用,实验材料用Wistar大鼠心肌细胞。将相同条件的20个盛有细胞悬液培养皿随机分为4组,每组5个培养皿。四组培养皿均加入40 mol/L SNP。另外,第二组培养皿中加入50 U/ml SOD,第三组培养皿中加入50 U/ml CAT,第四组培养皿中加入50 U/ml SOD和50 U/ml CAT。5小时避光培养后电泳分析,结果如教材表16-19(迁移改变50个细胞位置)。请分析实验结果。

教材表16-19 四组培养皿DNA迁移度(50个细胞)

第1组 50 60 34 68 46

第2组 37 48 54 31 28

第3组 47 63 32 27 28

第4组 19 24 36 27 18

解:该研究为析因设计,其方差分析的结果见练习表 16-5。

练习表-16-5 方差分析表

变异来源 总变异 SOD CAT 交互作用 误差 SS 4144.55 884.45 911.25 8.45 2340.40 

19 1 1 1 16 MS 884.450 911.250 8.450 146.275 F 6.05 6.23 0.06 P 0.025 7 0.023 9 0.813 1

第19章 生存分析

二、思考题

1. 生存分析的主要用途及其统计学方法有哪些?

答:生存分析在生物医学领域主要解决如下问题。

估计:即根据一组生存数据估计它们所来自的总体的生存率及其他一些有关指标。如根据白血病化疗后的缓解时间资料,估计不同时间的缓解率、缓解率曲线以及半数生存期。估计生存率常用寿命表法和Kaplan-Meier(K-M)法。

比较:即比较不同受试对象生存数据的相应指标是否有差别。最常见的是比较各组的生存率是否有差别,如比较不同方案治疗白血病的缓解率曲线,以了解哪种治疗方案较优。生存曲线比较常用log-rank检验和Breslow检验。

影响因素分析:其目的是为了研究影响生存时间长短的因素,或在排除一些因素影响的情况下,研究某个或某些因素对生存率的影响。例如,为改善白血病患者的预后,应了解影响患者预后的主要因素,包括患者的年龄、病程、白细胞数、化疗方案等。影响因素分析常用Cox回归。

生存预测:具有不同因素水平的个体生存预测估计,如根据白血病患者的年龄、病程、白细胞数等预测该患者k年(月)生存率。生存预测常用Cox回归。 2. 生存率估计的K-M法和寿命表法是如何利用删失数据的?

答:常见的右删失数据表示真实的生存时间未知,只知道比观察到的删失时间要长。因此,生存率估计的K-M法和寿命表法计算期初例数时,都利用了删失数据提供的这部分信息。

3. Cox回归与logistic回归都可作临床研究中的预后分析,两者的主要区别何在?

答:Logistic回归模型可以作多因素预后分析,控制混杂因素效应,并可进行相对危险度估计,但不能处理随访中常见的删失数据。另外,logistic回归模型仅考虑随访结局(生存或死亡、有效或无效),而未考虑出现该结局的时间长短。Cox比例风险回归模型的效应变量是生存结局和生存时间,它不仅可以从事件结局的好坏,而且可以从发生事件的时间长短进行分析比较,因而Cox回归具有logistic回归模型的所有优点,并可以处理删失数据,能够更全面地作预后分析。但当数据失访较少或结局事件发生数较少时,宜用logistic回归分析。

4. Cox回归中的RR表示什么?如何解释RR的大小?

答:Cox回归中的RR表示相对危险度(relative risk)或风险比(risk ratio),其含义是在其他协变量不变条件下,变量Xj每增加一个单位所引起的终点事件发生风险增加到的倍数。

三、计算题

1. 手术治疗100例食管癌患者,术后1、2、3年的死亡数分别为10、20、30,若无删失数据,试求各年生存概率及逐年生存率。

解:各年生存概率p10.9000,p20.7778,p30.5714

ˆ(3)0.40 ˆ(2)0.70,3年生存率Sˆ(1)0.90,2年生存率 S1年生存率 S2. 42例经药物诱导达部分缓解或完全缓解的儿童急性白血病临床试验,两组患者分别用安

慰剂和6-MP治疗后的缓解时间见教材表19-19。试估计两组患者生存率(实为缓解率)并比较两组生存率有无差别。

教材表19-19 安慰剂和6-MP治疗儿童急性白血病的缓解时间/月

安慰剂组: 1 1 2 2 3 4 4 5 5 8 8 8 8 11 11 12 12 15 17 22 23 6-MP组: 6 6 6 6+ 7 9+ 10 10+ 11+ 13 16 17+ 19+ 20+ 22 23 25+ 32+ 32+ 34+ 35+

解:两组患者缓解率计算见练习表19-1和练习表19-2。

练习表19-1 安慰剂组缓解率计算表

时间/月 ti时刻死亡数 期初例数 生存概率 生存率(缓解率) 生存率标准误

ˆ(t)] ˆ(t) SE[S ti di ni pi(nidi)/ni Sii1 2 21 19/21=0.904 8 0.904 8 0.064 1

2 2 19 17/19=0.894 7 0.904 8×0.894 7=0.809 5 0.085 7 3 1 17 16/17=0.941 2 0.809 5×0.941 2=0.761 9 0.092 9 4 2 16 14/16=0.875 0 0.761 9×0.875 0=0.666 7 0.102 9 5 2 14 12/14=0.857 1 0.666 7×0.857 1=0.571 4 0.107 9 8 4 12 8/12=0.666 7 0.571 4×0.666 7=0.381 0 0.106 0 11 2 8 6/8=0.750 0 0.381 0×0.750 0=0.285 7 0.098 6 12 2 6 4/6=0.666 7 0.285 7×0.666 7=0.190 5 0.085 7 15 1 4 3/4=0.750 0 0.190 5×0.750 0=0.142 9 0.076 4 17 1 3 2/3=0.666 7 0.142 9×0.666 7=0.095 2 0.064 1 22 1 2 1/2=0.500 0 0.095 2×0.500 0=0.047 6 0.046 6 23 1 1 0/1=0.000 0 0.047 6×0.000 0=0.000 0 —

练习表19-2 6-MP组缓解率计算表

时间/月 ti时刻死亡数 删失例数 期初例数 生存概率 生存率(缓解率) 生存率标准误 ˆ(t) SE[Sˆ(t)] ti di ci ni pi(nidi)/ni Sii6 3 1 21 18/21=0.857 1 0.857 1 0.076 3

7 1 1 17 16/17=0.941 2 0.857 1×0.941 2=0.806 7 0.086 9 10 1 2 15 14/15=0.933 3 0.806 7×0.933 3=0.752 9 0.096 3 13 1 0 12 11/12=0.916 7 0.752 9×0.916 7=0.690 2 0.106 8 16 1 3 11 10/11=0.909 1 0.690 2×0.909 1=0.627 5 0.114 1 22 1 0 7 6/7=0.857 1 0.627 5×0.857 1=0.537 8 0.128 2 23 1 5 6 5/6=0.833 3 0.537 8×0.833 3=0.448 1 0.134 5

两组缓解率比较:

Log-rank检验近似法215.23,1,P0.005 Log-rank检验精确法216.79,1,P0.0001 安慰剂组与6-MP组缓解率曲线见练习图19-1。

Survival Functions1.21.0.8.6.4GROUP6-MP组6-MP组-censoredCum Survival.20.0安慰剂组-.2010203040安慰剂组-censoredSurvival time 练习图19-1 安慰剂组与6-MP组缓解率曲线

3. 教材表19-20是对949名卵巢癌患者的随访结果,时间区间均为5年。试估计生存率。

教材表19-20 949名卵巢癌患者的随访结果

诊断后年数 0~ 5~ 10~ 15~

解:见练习表19-3。

练习表19-3 949名卵巢癌患者寿命表法估计生存率计算表

诊断后 期内 期内 期初 期初 生存 生存率 生存率 年数 死亡数 删失数 病例数 有效例数 概率 标准误 ˆ(t) SE[Sˆ(t)] ti di ci ni ni pi Sii期内死亡数 731 52 14 10

期内删失数 18 16 75 33

0~ 731 18 949 940 0.222 3 0.222 3 0.013 6

5~ 52 16 200 192 0.729 2 0.162 1 0.012 2 10~ 14 75 132 94.5 0.851 9 0.138 1 0.012 0 15~ 10 33 43 26.5 0.622 6 0.086 0 0.015 0

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- ryyc.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务