中国卫生统计2017年2月第34卷第1期 ・学术讨论・ 解析美国统计学会关于统计学检验和尸值的声明 山西医科大学卫生统计教研 ̄(030001) 余红梅 2014年2月,一位美国数学和统计学教授在世界 标记该结论,P值理论由此得名signiifcance test。实际 上最大的统计专业学会——美国统计学会(American Statistical Association,ASA)论坛上抛出关于P值的议 题:“为什么大学和研究生院在教P=0.05,答案是因 为科学界和杂志社编辑在使用;为什么人们一直在使 用P=0.05,答案是因为大学和研究生院在教”。为了 澄清对统计学检验和P值的误解和误用,ASA理事会 决定组成工作组起草一份声明,声明的对象是研究者、 实际工作者和杂志社编辑等非统计专业人员。2015 年10月专家工作组讨论两天后初步达成共识,随后的 三个月,经过专家、ASA理事会以及目标受众的审议, 2016年1月29日ASA执行委员会通过了该声明,随 后在The American Statistician在线发布¨ ,在业界引 起很大反响。国内知名统计学家中山大学方积乾教授 亲自笔译了该声明及其背景 J。本文通过回顾P值 相关理论,进一步解读ASA声明的内容,旨在使非统 计专业人员避免对P值的误解和误用。 P值相关理论 1.P值的定义 ASA声明中对P值的解释:“Informally,a p-value is the probability under a specified statistical model that a statistical summary of hte data(for example,the sample mean difference between two compared groups)would be equal to or more extreme than its observed value ̄].”国 内医学统计学教科书中的描述:“P的含义是指从H。 规定的总体中随机抽样,抽得等于及大于或(和)等于 及小于现有样本获得的检验统计量(如t、u)值的概 率’’ 。 2.Fisher的P值理论:signiifcance test P值理论归功于现代统计学之父、英国统计学家 Ronald A.Fisher,Fisher基于1908年Student的t分布 理论,于1925年首次给出不同情形下P值的计算方 法 。P值提供的是度量实际数据与无效假设(null hypothesis)不相容的证据,P值越小,越有理由拒绝无 效假设。Fisher认为这是建立科学事实的唯一实验依 据 ,并提出使用后来饱受诟病的“signiifcant”一词来 △通信作者:余红梅,E—mail:yu@sxmu.edu.cn 上Fisher当时使用该词的初衷来自于该词的本意 “something wo ̄hy of notice”,提示研究者应尽可能重 复实验,如果重复实验仍然得到较小的P值,则可以 推论观察到的效应不大可能单纯由于偶然造成。所以 “signiifcant”本意是值得研究者关注或进行重复实验, 一次实验本身并不能证明。另外Fisher当时还建议阈 值除了0.05外,也可以使用其他比如0.02或 0.0I【6J,同时也强调下结论时应结合P值和研究的背 景信息 。 3.Neyman—Pearson的假设检验理论:hypothesis test 假设检验(hypothesis test)理论归功于波兰数学 家Jerzy Neyman和英国统计学家Egon Pearson(Karl Pearson之子)。1933年,在Fisher提出P值理论8年 后,Neyman和Pearson提出假设检验理论,他们认为 考虑一个无效假设的前提是先构想至少一个合理的备 择假设(alternative hypothesis) 。 Neyman—Pearson理论巧妙避开了Bayes定理,文 献中提到“基于概率论的检验本身都不能提供关于假 设真伪的任何有价值的证据,但是我们可以从另一个 角度看检验的目的。不用期望知道每个假设的真伪, 我们或许可以寻求并遵循一些规则来规范我们的行 为,以确保从经验的结果看,我们不会经常犯错(With— out hoping to know whether each separate hypothesis is true or false,we may search for rules to govern our be— havior with regard to them,in following which we insure that,in the long run of experience,we shall not be too often wrong.)” …。与Fisher理论不同,Neyman- Pearson理论中包含I型错误和Ⅱ型错误(或检验效 能),两型错误的概念及可能原因见表1。尽管他们当 时没有设定5%水平为I型错误的标准阈值,科学界 普遍认同该阈值。对Ⅱ型错误B,通常取0.1或0.2, 对应检验效能(即1.B)分别为90%和80%。 Fisher的P值理论和Neyman—Pearson假设检验 理论的区别见表2和图1 l1 “j。按照Fisher的P值 理论,P值为0.052和0.047在做出推断结论时的权 重几乎相等,而按照Neyman—Pearson的假设检验理 论,则结论完全相反,这也正成为Fisher反对Neyman— Pearson假设检验理论的主要原因。 Chinese Journa1 of Health Statistics.Feb.2017,Vo1.34,No.1 表1 Neyman—Pearson理论的两型错误及可能原因 统计推断 实际情况 H0成立 拒绝H0 I型错误 (假阳性)gt太大 不拒绝H0 真阴性(1. )n足够 4.现行的假设检验理论 现行的假设检验是Fisher的P值理论和Neyman— Pearson假设检验理论的结合,称为null hypothesis sig— H0不成立 真阳性(1-t3)n足够 Ⅱ型错误口(假阴性)n太小 niifcance testing(NHST)。事先指定I型错误率(通常 是5%)和检验效能(通常至少80%),然后计算P值, 如果P值小于事先指定的I型错误率,则拒绝无效假 表2 Fisher的P值理论和Neyman—Pearson假设检验理论的区别 区别点Fisher的P值理论 名称 signiifcance test 。“的假设检验 Nyman—Pear。e理论hypothesis test 设。统计学教科书从20世纪50年始融合两种理 论,60年始被科学界和研究者广泛接受。其推论 依据是:若A成立,则 不大可能出现;若出现日,则不 支持A。其特点是既有逻辑推理又有概率解释,而且 只能证伪。 原理P值度量与无效假设不 相容的程度; 从实际观察到的数据 计算尸值 建立两个假设H0和H1; 和 为两型错误的概率; 事先限定d和 的水平; P< 则拒绝H0。 銎 适用于任何一个观察/实验 适用于重复观察/实验 推断 特点 主观决策; 客观推断; 证据性,即基于观察到的证据;非证据性,即基于推断的规则 局部性,结论是针对某一次特全局性,结论是针对一系列观 定的观察/实验 察/实验 根据假设检验理论,推断结论不是二分类式的对 错。拒绝无效假设,不意味着实验结果可以证明任何 备择假设的真实性;反之,不拒绝无效假设,也不意味 着实验结果可以确认观察到的样本差别单纯由于偶然 引起。因此,假设检验可能出现有统计学意义但只有 微弱甚至没有实际意义,或者有很重要的实际意义但 没有统计学意义。特别地,当P>0.05时,结论宜表述 慧 A 嚣瑟 为“两治疗组间差别的方向没有定论(P=0.07)”或“两 变量间相关的方向没有定论(P=0.06)”,而不是“两治 4 —3 -2 —1 B n0 1 2 3 4 5 6 7 疗组间没有差别(P=0.07)”或“两变量间没有相关关 系(P=0.06)”。这种表述避免了接受无效假设的结 艟验统计量 ull hypothesis alternative hyp。thesis 嚣堑 论,而且提示需要更多的数据以得到确定性的结论¨引。 “因此诸多统计学家建议假设检验结论中“signiifcant”或 nonsigniifcant”前务必使用“statistically”。 备择假设成立前提下,P值是总体效应值和样本 4 一j -2 —1 U l 2 3 4 5 6 , t检验统计量 图1A:基于Fisher的P值理论,实验1不拒绝Hn,实验2 和3拒绝Hn的证据相当。图1B:基于Neyman—Pearson假设检 验理论,按照 =0.05,卢=0.10,实验1和2不拒绝 ,实验3 拒绝H。。 图1 Fisher的P值理论和Neyman—Pearson 含量的函数,二者之一越大,则相应的P值越小。以 相关系数为例,如果样本含量小(n=10),一个比较大 的r值(r=0.60)会导致无统计学意义的结果;反之, 一个很小的值(r=0.088),只要样本含量足够大(n= 500),也会导致有统计学意义的结果,见表3 。模 拟研究表明,给定检验效能(或样本含量和效应值)情 假设检验理论的区别(来自文献[10]) 表3给定样本含量拒绝无效假设的相关系数r界值( =0.05) 况下,重复实验双侧检验P值的分布呈极度偏态(除 非效应值等于0),且P值的变异度很大;若效应值未 知,假定一次实验得到的双侧检验P值为0.05,则重 的误解和误用 。期刊((Research in the Schools))曾 组稿专门出版一期特刊(Special Issue),讨论关于统计 学假设检验的问题 。 ASA声明中关于P值的6条原则及解读 1.“P—values can indicate how incompatible the data re with a specifaied statistical model”. 复实验双侧检验P值第10和第90百分位数分别为 0.00008和0.44,P区间范围很宽;只有在一次实验得 到的P值非常小的情况下,重复实验P区间范围才较 窄¨ 。应该正是P值的上述自身缺陷导致了近90年 的实践中对P值越来越多的争议,如蚊子(比喻烦人 又不可能赶走)或皇帝的新衣(比喻存在明显的问题 但被所有人忽视)[15一 ;甚至有文献明确反对研究 者、杂志社和读者使用假设检验 卜 J。目前统计软件 的普遍可及性也在某种程度上导致了研究者对P值 原则1强调P值表明数据与既定统计模型不相 容的程度,P值越小,数据与既定统计模型对应的无效 假设不相容的程度越大,前提是满足计算P值的假定 条件。原则1实质上强调Fisher的signiifcance test理 论中关于P值的意义。 中国卫生统计2017年2月第34卷第1期 2.“P。values do not measure the probability that the studied hypothesis is true,or the probability that the data were produced by random chance alone”. 原则2强调P值不表示无效假设成立的概率,也 不表示样本数据单纯由于偶然产生的概率。注意,我 们得到的是无效假设Hn成立条件下,获得现有样本 或更极端样本的概率,而不是获得现有样本条件下无 效假设H。成立的概率。从这个角度看,假设检验是 演绎而不是归纳u8l2 。两个概率的关系由Bayes定理 解释:Posterior odds(H0,after obtaining the data)=Pri— or odds(H0,before obtaining the data) Prob(Data,un- der H0)/Prob(Data,under H1)。Trafimow和Rice蒙 特卡洛模拟研究结果表明,按照传统的0.05检验水 准,二者的相关性仅为0.289;如果检验水准更严格如 0.01或0.001,则相关性更低,因此由前者的大小直接 推断后者绝非安全_2 。 3.“Scientific conclusions and business or policy decisions should not be based only on whether a P—value passes a specific threshold”. 原则3强调科学结论或决策不应仅依靠P值是 否超过给定阈值即检验水准,还要结合研究设计、数据 质量、研究现象的外部证据以及数据分析的前提条件 等。正是广泛使用将P小于0.05即“有统计学意义” 作为科学发现的依据,才导致对该科学推论过程的曲 解。 4.“Proper inference requires full reporting and transparency”. 原则4强调研究者应当报告研究的所有假设、数 据收集、统计学分析及其P值,而不应选择性地报告P 值和相应的统计分析,要严格避免所谓“cherry—pick- ing”或者“p-hacking”行为。有研究表明,有统计学意 义的结果可能更容易被引用 ,这一不科学行为也可 能导致“p-hacking”行为的恶性循环。 5.“A p-value,or statistical significance,does not measure the size of an effect or the importance of a re— suit”. 原则5强调P值不等价于效应的大小或研究结 果的重要性,P值越小并不表示效应越大或结果越重 要,反之,P值越大也不表示效应越小或结果越不重 要。只要样本含量足够大或测量精度足够高,任何小 的效应都能产生小的P值,反之,大的效应由于样本 含量小或测量精度低会导致大的P值;另外,相同的 估计效应由于不同的估计精度会导致不同的P值。 6.“By itself,a p-value does not provide a good measure of evidence regarding a model or hypothesis”. 原则6强调没有研究背景或其他证据的P值只 能提供有限的信息。例如,接近0.05的P值只能提供 关于无效假设的微弱证据,而一个相对大的P值也不 构成支持无效假设的证据,因此,数据分析不应以计算 出尸值而告终,研究者还可以提供其他证据,包括置 信区间、预测区间、Bayes方法、似然比或Bayes因子、 决策理论模型等。 结 语 ASA声明指出:作为规范的科学实践的一个必要 部分,规范的统计实践强调研究设计的原则和实施、研 究假设的理解、研究结果的解释及表达等。声明的执 笔人、ASA理事会执行Wasserstein教授也强调从 未指望单一的一个方法比如P值可以取代科学推断, ASA声明或许会引导科学研究到一个所谓“后P< 0.05时代” 。 就像大家熟知的平均数的误用一样,假设检验本 身没有错,可能犯错误的是使用者,因此一直以来假设 检验遭受的是不公正的批评 。报告确切的P值可 以让读者或研究者判断结果提示的意义,而不是仅仅 依据检验水准做出拒绝或不拒绝假设的非此即彼的推 断。另外,建议研究者综合使用假设检验、效应值、置 信区间、Bayes统计、meta分析等,从不同角度阐释研 究现象,而不是将假设检验作为统计推断唯一依据。 参考文献 l 1]Wasserstein RL,Lazar NA.The ASA S statement on P‘values:con text,process,and purpose.The American Statisticina,2016,DOI:10. 1080 31305.2016.1154108. [2]方积乾(译).ASA关于P-值的声明:背景、过程和目的.中国卫生 统计,2016,33(3):548-549. [3]方积乾(译).ASA关于统计意义和p-值的声明.中国卫生统计, 2016,33(3):549・552. [4]孙振球主编.医学统计学.第3版.北京:人民卫生出版社,2010. [5]Fisher RA.Statistical methods for research workers.Edinburgh,UK: Oliver and Boyd,1925. [6]Fisher RA.The arrnagement of ifeld experiments.J Ministry of Agri— culture Great Britian,1926,33:503-513. 『7]Fisher RA.Sta廿stical methods and scientiifc inference.3rd ed.New York:Macmillan,1973. f 8]Goodman SN.Toward evidence.based medical statisties.1:the P val・ ue fallacy.Ann Intern Med,1999,130:995・1004. [9]Neyman J,Pearson E.On the problem of the most efifcient tests of statistical hypotheses.Philosophical Transactions of hte Royal Society ofLondon.Series A,1933,231:289-337. [10]Biau DJ,Jolles BM,Porcher R.P value and the hteory of hypothesis testing.Clin Orthop Relat Res,2010,468:885—892. [1 1]Lew MJ.Bad statisitcal practice in pharmacology(and other basic bi。 omedical disciplines):you probably don’t know P.British Journal of Pharmacology,2012,166:1559-1567. [12]Wainer H,Robinson DH.Shaping up the practice of null hypothesis signiifcance testing.Educational Researcher,1990:22-30. [13]Larry GD.Statistical Significance Testing:A historical overview of ・176・ misuse and misinterpretation with implications for the editorial policies Chinese Journa1 of Healh Stattistics.Feb.2017.Vo1.34.No.1 [19]Goodman SN.A dirty dozen:Twelve P-value misconceptions.Semin Hematol,2008,45:135—140. of educational journals.Research in the Schools,1998,5(2):23—32. [14]Cumming G.Replication and P intervals:P values predict the future only vaguely,but confidence intervals do much better.Perspectives on Psychological Science,2008,3:286-300. [20]Special Issue:Statistical signiifcance testing.Research in the Schools, 1998,5(2):5—65. [21]Krueger J.Null hypothesis significance testing:On the survival of a lawed metfhod.American Psychologist,2001,56:16—26. [15]Nuzzo R.Statistical errors:P values,the‘gold standard’of statistical validity,are not as reliable as many scientists assume.Nature,2014, 506:150—152. [22]Trafimow D,Rice S.A test of he tnull hypothesis signiifcance testing procedure correlation argument.The Journal of General Psychology, 2009,136:261—269. [16]Lambdin C.Signiifcance tests as sorcery:Science is empirical-signiif- cance tests are not.Theory Psychol,2012,22:67-90. [23]Nieminena P,Ruckera G,Miettunen J.Statistically signiifcant papers in psychiaty were cirted more often than others.Journal of Clinical Epidemiology,2007,60:939-946. [17]Arms ̄ong JS.Signiifcance tests harm progress in forecasting.Inter- national Journal of Forecasting,2007,23(2):321—327. [18]Azar B.APA task force urges a harder look at data.APA Monitor, 1997,28(3):26. (责任编辑:郭海强) 1j(上接第172页) BUGS for hierarchical Poisson modeling in disease mapping.Spatial OpenBUGS软件在克服WinBUGS缺点的基础 上,对模型的代码和操作菜单做了相关优化和调整,使 运行更加平稳,操作更为简单 』。与其他贝叶斯分析 软件(如BACC/BMA)相比,OpenBUGS软件的亮点 就在于其具有很强的灵活性,能够使贝叶斯分析中复 nd Spataio-temporal Epidemiology,2015,14(15):5I54. Lyle W,Konigsberg,Frankenberg.Bayes in Biological Anthropology. American Journal of Physical Anthropology,2013,152(57):153— 184. Eitzel M,Battles J,York R,et a1.Estimating tree growth from tom— plex forest monitoring data Ecological Applications,2013,23(6): 1288.1296. OpenBUGS 3.2.3 user manua1. 杂的数值计算简单化。但其在网状关系图、森林图等 图形的绘制方面仍存在着不足 J,并且在代码建模过 程中容易出现错误而不易被发现。目前,OpenBUGS 还在更新和维护当中,其强大的数据分析能力,在不久 的将来,会成为贝叶斯统计分析的主流软件。 参考文献 孟海英,刘桂芬,罗天娥.Winbugs软件应用.中国卫生统计,2006, 23(4):375・377. 郑晓鸳.MCMC方法在跳扩散Shibor模型参数模拟中的应用,时 代金融,2014,562(8):31—33. 孙振球,徐勇勇,主编.医学统计学.第4版.北京:人民卫生出版 社,2014,244-261. 沈可,王芬,张超,等.应用OpenBUGS软件实现网状Meta分析.湖 北医药学报,2013,32(6):476479. oll R,Lawson AB,Faes C,et a1.Comparing INLA and Open— [2] Carr曾平,王婷,何鹏.非标准分布贝叶斯分析的WinBUGS软件实现. 中国卫生统计,2012,29(4):614 ̄17. (责任编辑:郭海强)