解析美国统计学会关于统计学检验和P值的声明

来源：锐游网

中国卫生统计２０１７年２月第３４卷第１期　・学术讨论・　解析美国统计学会关于统计学检验和尸值的声明　山西医科大学卫生统计教研￣（０３０００１）　余红梅　２０１４年２月，一位美国数学和统计学教授在世界　标记该结论，Ｐ值理论由此得名ｓｉｇｎｉｉｆｃａｎｃｅ　ｔｅｓｔ。实际　上最大的统计专业学会——美国统计学会（Ａｍｅｒｉｃａｎ　Ｓｔａｔｉｓｔｉｃａｌ　Ａｓｓｏｃｉａｔｉｏｎ，ＡＳＡ）论坛上抛出关于Ｐ值的议　题：“为什么大学和研究生院在教Ｐ＝０．０５，答案是因　为科学界和杂志社编辑在使用；为什么人们一直在使　用Ｐ＝０．０５，答案是因为大学和研究生院在教”。为了　澄清对统计学检验和Ｐ值的误解和误用，ＡＳＡ理事会　决定组成工作组起草一份声明，声明的对象是研究者、　实际工作者和杂志社编辑等非统计专业人员。２０１５　年１０月专家工作组讨论两天后初步达成共识，随后的　三个月，经过专家、ＡＳＡ理事会以及目标受众的审议，　２０１６年１月２９日ＡＳＡ执行委员会通过了该声明，随　后在Ｔｈｅ　Ａｍｅｒｉｃａｎ　Ｓｔａｔｉｓｔｉｃｉａｎ在线发布¨　，在业界引　起很大反响。国内知名统计学家中山大学方积乾教授　亲自笔译了该声明及其背景　Ｊ。本文通过回顾Ｐ值　相关理论，进一步解读ＡＳＡ声明的内容，旨在使非统　计专业人员避免对Ｐ值的误解和误用。　Ｐ值相关理论　１．Ｐ值的定义　ＡＳＡ声明中对Ｐ值的解释：“Ｉｎｆｏｒｍａｌｌｙ，ａ　ｐ－ｖａｌｕｅ　ｉｓ　ｔｈｅ　ｐｒｏｂａｂｉｌｉｔｙ　ｕｎｄｅｒ　ａ　ｓｐｅｃｉｆｉｅｄ　ｓｔａｔｉｓｔｉｃａｌ　ｍｏｄｅｌ　ｔｈａｔ　ａ　ｓｔａｔｉｓｔｉｃａｌ　ｓｕｍｍａｒｙ　ｏｆ　ｈｔｅ　ｄａｔａ（ｆｏｒ　ｅｘａｍｐｌｅ，ｔｈｅ　ｓａｍｐｌｅ　ｍｅａｎ　ｄｉｆｆｅｒｅｎｃｅ　ｂｅｔｗｅｅｎ　ｔｗｏ　ｃｏｍｐａｒｅｄ　ｇｒｏｕｐｓ）ｗｏｕｌｄ　ｂｅ　ｅｑｕａｌ　ｔｏ　ｏｒ　ｍｏｒｅ　ｅｘｔｒｅｍｅ　ｔｈａｎ　ｉｔｓ　ｏｂｓｅｒｖｅｄ　ｖａｌｕｅ￣］．”国　内医学统计学教科书中的描述：“Ｐ的含义是指从Ｈ。　规定的总体中随机抽样，抽得等于及大于或（和）等于　及小于现有样本获得的检验统计量（如ｔ、ｕ）值的概　率’’　。　２．Ｆｉｓｈｅｒ的Ｐ值理论：ｓｉｇｎｉｉｆｃａｎｃｅ　ｔｅｓｔ　Ｐ值理论归功于现代统计学之父、英国统计学家　Ｒｏｎａｌｄ　Ａ．Ｆｉｓｈｅｒ，Ｆｉｓｈｅｒ基于１９０８年Ｓｔｕｄｅｎｔ的ｔ分布　理论，于１９２５年首次给出不同情形下Ｐ值的计算方　法　。Ｐ值提供的是度量实际数据与无效假设（ｎｕｌｌ　ｈｙｐｏｔｈｅｓｉｓ）不相容的证据，Ｐ值越小，越有理由拒绝无　效假设。Ｆｉｓｈｅｒ认为这是建立科学事实的唯一实验依　据　，并提出使用后来饱受诟病的“ｓｉｇｎｉｉｆｃａｎｔ”一词来　△通信作者：余红梅，Ｅ—ｍａｉｌ：ｙｕ＠ｓｘｍｕ．ｅｄｕ．ｃｎ　上Ｆｉｓｈｅｒ当时使用该词的初衷来自于该词的本意　“ｓｏｍｅｔｈｉｎｇ　ｗｏ￣ｈｙ　ｏｆ　ｎｏｔｉｃｅ”，提示研究者应尽可能重　复实验，如果重复实验仍然得到较小的Ｐ值，则可以　推论观察到的效应不大可能单纯由于偶然造成。所以　“ｓｉｇｎｉｉｆｃａｎｔ”本意是值得研究者关注或进行重复实验，　一次实验本身并不能证明。另外Ｆｉｓｈｅｒ当时还建议阈　值除了０．０５外，也可以使用其他比如０．０２或　０．０Ｉ【６Ｊ，同时也强调下结论时应结合Ｐ值和研究的背　景信息　。　３．Ｎｅｙｍａｎ—Ｐｅａｒｓｏｎ的假设检验理论：ｈｙｐｏｔｈｅｓｉｓ　ｔｅｓｔ　假设检验（ｈｙｐｏｔｈｅｓｉｓ　ｔｅｓｔ）理论归功于波兰数学　家Ｊｅｒｚｙ　Ｎｅｙｍａｎ和英国统计学家Ｅｇｏｎ　Ｐｅａｒｓｏｎ（Ｋａｒｌ　Ｐｅａｒｓｏｎ之子）。１９３３年，在Ｆｉｓｈｅｒ提出Ｐ值理论８年　后，Ｎｅｙｍａｎ和Ｐｅａｒｓｏｎ提出假设检验理论，他们认为　考虑一个无效假设的前提是先构想至少一个合理的备　择假设（ａｌｔｅｒｎａｔｉｖｅ　ｈｙｐｏｔｈｅｓｉｓ）　。　Ｎｅｙｍａｎ—Ｐｅａｒｓｏｎ理论巧妙避开了Ｂａｙｅｓ定理，文　献中提到“基于概率论的检验本身都不能提供关于假　设真伪的任何有价值的证据，但是我们可以从另一个　角度看检验的目的。不用期望知道每个假设的真伪，　我们或许可以寻求并遵循一些规则来规范我们的行　为，以确保从经验的结果看，我们不会经常犯错（Ｗｉｔｈ—　ｏｕｔ　ｈｏｐｉｎｇ　ｔｏ　ｋｎｏｗ　ｗｈｅｔｈｅｒ　ｅａｃｈ　ｓｅｐａｒａｔｅ　ｈｙｐｏｔｈｅｓｉｓ　ｉｓ　ｔｒｕｅ　ｏｒ　ｆａｌｓｅ，ｗｅ　ｍａｙ　ｓｅａｒｃｈ　ｆｏｒ　ｒｕｌｅｓ　ｔｏ　ｇｏｖｅｒｎ　ｏｕｒ　ｂｅ—　ｈａｖｉｏｒ　ｗｉｔｈ　ｒｅｇａｒｄ　ｔｏ　ｔｈｅｍ，ｉｎ　ｆｏｌｌｏｗｉｎｇ　ｗｈｉｃｈ　ｗｅ　ｉｎｓｕｒｅ　ｔｈａｔ，ｉｎ　ｔｈｅ　ｌｏｎｇ　ｒｕｎ　ｏｆ　ｅｘｐｅｒｉｅｎｃｅ，ｗｅ　ｓｈａｌｌ　ｎｏｔ　ｂｅ　ｔｏｏ　ｏｆｔｅｎ　ｗｒｏｎｇ．）”　…。与Ｆｉｓｈｅｒ理论不同，Ｎｅｙｍａｎ－　Ｐｅａｒｓｏｎ理论中包含Ｉ型错误和Ⅱ型错误（或检验效　能），两型错误的概念及可能原因见表１。尽管他们当　时没有设定５％水平为Ｉ型错误的标准阈值，科学界　普遍认同该阈值。对Ⅱ型错误Ｂ，通常取０．１或０．２，　对应检验效能（即１．Ｂ）分别为９０％和８０％。　Ｆｉｓｈｅｒ的Ｐ值理论和Ｎｅｙｍａｎ—Ｐｅａｒｓｏｎ假设检验　理论的区别见表２和图１　ｌ１　“ｊ。按照Ｆｉｓｈｅｒ的Ｐ值　理论，Ｐ值为０．０５２和０．０４７在做出推断结论时的权　重几乎相等，而按照Ｎｅｙｍａｎ—Ｐｅａｒｓｏｎ的假设检验理　论，则结论完全相反，这也正成为Ｆｉｓｈｅｒ反对Ｎｅｙｍａｎ—　Ｐｅａｒｓｏｎ假设检验理论的主要原因。　Ｃｈｉｎｅｓｅ　Ｊｏｕｒｎａ１　ｏｆ　Ｈｅａｌｔｈ　Ｓｔａｔｉｓｔｉｃｓ．Ｆｅｂ．２０１７，Ｖｏ１．３４，Ｎｏ．１　表１　Ｎｅｙｍａｎ—Ｐｅａｒｓｏｎ理论的两型错误及可能原因　统计推断　实际情况　Ｈ０成立　拒绝Ｈ０　Ｉ型错误　（假阳性）ｇｔ太大　不拒绝Ｈ０　真阴性（１．　）ｎ足够　４．现行的假设检验理论　现行的假设检验是Ｆｉｓｈｅｒ的Ｐ值理论和Ｎｅｙｍａｎ—　Ｐｅａｒｓｏｎ假设检验理论的结合，称为ｎｕｌｌ　ｈｙｐｏｔｈｅｓｉｓ　ｓｉｇ—　Ｈ０不成立　真阳性（１－ｔ３）ｎ足够　Ⅱ型错误口（假阴性）ｎ太小　ｎｉｉｆｃａｎｃｅ　ｔｅｓｔｉｎｇ（ＮＨＳＴ）。事先指定Ｉ型错误率（通常　是５％）和检验效能（通常至少８０％），然后计算Ｐ值，　如果Ｐ值小于事先指定的Ｉ型错误率，则拒绝无效假　表２　Ｆｉｓｈｅｒ的Ｐ值理论和Ｎｅｙｍａｎ—Ｐｅａｒｓｏｎ假设检验理论的区别　区别点Ｆｉｓｈｅｒ的Ｐ值理论　名称　ｓｉｇｎｉｉｆｃａｎｃｅ　ｔｅｓｔ　。“的假设检验　Ｎｙｍａｎ—Ｐｅａｒ。ｅ理论ｈｙｐｏｔｈｅｓｉｓ　ｔｅｓｔ　设。统计学教科书从２０世纪５０年始融合两种理　论，６０年始被科学界和研究者广泛接受。其推论　依据是：若Ａ成立，则　不大可能出现；若出现日，则不　支持Ａ。其特点是既有逻辑推理又有概率解释，而且　只能证伪。　原理Ｐ值度量与无效假设不　相容的程度；　从实际观察到的数据　计算尸值　建立两个假设Ｈ０和Ｈ１；　和　为两型错误的概率；　事先限定ｄ和　的水平；　Ｐ＜　则拒绝Ｈ０。　銎　适用于任何一个观察／实验　适用于重复观察／实验　推断　特点　主观决策；　客观推断；　证据性，即基于观察到的证据；非证据性，即基于推断的规则　局部性，结论是针对某一次特全局性，结论是针对一系列观　定的观察／实验　察／实验　根据假设检验理论，推断结论不是二分类式的对　错。拒绝无效假设，不意味着实验结果可以证明任何　备择假设的真实性；反之，不拒绝无效假设，也不意味　着实验结果可以确认观察到的样本差别单纯由于偶然　引起。因此，假设检验可能出现有统计学意义但只有　微弱甚至没有实际意义，或者有很重要的实际意义但　没有统计学意义。特别地，当Ｐ＞０．０５时，结论宜表述　慧　Ａ　嚣瑟　为“两治疗组间差别的方向没有定论（Ｐ＝０．０７）”或“两　变量间相关的方向没有定论（Ｐ＝０．０６）”，而不是“两治　４　—３　－２　—１　Ｂ　ｎ０　１　２　３　４　５　６　７　疗组间没有差别（Ｐ＝０．０７）”或“两变量间没有相关关　系（Ｐ＝０．０６）”。这种表述避免了接受无效假设的结　艟验统计量　ｕｌｌ　ｈｙｐｏｔｈｅｓｉｓ　ａｌｔｅｒｎａｔｉｖｅ　ｈｙｐ。ｔｈｅｓｉｓ　嚣堑　论，而且提示需要更多的数据以得到确定性的结论¨引。　“因此诸多统计学家建议假设检验结论中“ｓｉｇｎｉｉｆｃａｎｔ”或　ｎｏｎｓｉｇｎｉｉｆｃａｎｔ”前务必使用“ｓｔａｔｉｓｔｉｃａｌｌｙ”。　备择假设成立前提下，Ｐ值是总体效应值和样本　４　一ｊ　－２　—１　Ｕ　ｌ　２　３　４　５　６　，　ｔ检验统计量　图１Ａ：基于Ｆｉｓｈｅｒ的Ｐ值理论，实验１不拒绝Ｈｎ，实验２　和３拒绝Ｈｎ的证据相当。图１Ｂ：基于Ｎｅｙｍａｎ—Ｐｅａｒｓｏｎ假设检　验理论，按照　＝０．０５，卢＝０．１０，实验１和２不拒绝　，实验３　拒绝Ｈ。。　图１　Ｆｉｓｈｅｒ的Ｐ值理论和Ｎｅｙｍａｎ—Ｐｅａｒｓｏｎ　含量的函数，二者之一越大，则相应的Ｐ值越小。以　相关系数为例，如果样本含量小（ｎ＝１０），一个比较大　的ｒ值（ｒ＝０．６０）会导致无统计学意义的结果；反之，　一个很小的值（ｒ＝０．０８８），只要样本含量足够大（ｎ＝　５００），也会导致有统计学意义的结果，见表３　。模　拟研究表明，给定检验效能（或样本含量和效应值）情　假设检验理论的区别（来自文献［１０］）　表３给定样本含量拒绝无效假设的相关系数ｒ界值（　＝０．０５）　况下，重复实验双侧检验Ｐ值的分布呈极度偏态（除　非效应值等于０），且Ｐ值的变异度很大；若效应值未　知，假定一次实验得到的双侧检验Ｐ值为０．０５，则重　的误解和误用　。期刊（（Ｒｅｓｅａｒｃｈ　ｉｎ　ｔｈｅ　Ｓｃｈｏｏｌｓ））曾　组稿专门出版一期特刊（Ｓｐｅｃｉａｌ　Ｉｓｓｕｅ），讨论关于统计　学假设检验的问题　。　ＡＳＡ声明中关于Ｐ值的６条原则及解读　１．“Ｐ—ｖａｌｕｅｓ　ｃａｎ　ｉｎｄｉｃａｔｅ　ｈｏｗ　ｉｎｃｏｍｐａｔｉｂｌｅ　ｔｈｅ　ｄａｔａ　ｒｅ　ｗｉｔｈ　ａ　ｓｐｅｃｉｆａｉｅｄ　ｓｔａｔｉｓｔｉｃａｌ　ｍｏｄｅｌ”．　复实验双侧检验Ｐ值第１０和第９０百分位数分别为　０．００００８和０．４４，Ｐ区间范围很宽；只有在一次实验得　到的Ｐ值非常小的情况下，重复实验Ｐ区间范围才较　窄¨　。应该正是Ｐ值的上述自身缺陷导致了近９０年　的实践中对Ｐ值越来越多的争议，如蚊子（比喻烦人　又不可能赶走）或皇帝的新衣（比喻存在明显的问题　但被所有人忽视）［１５一　；甚至有文献明确反对研究　者、杂志社和读者使用假设检验　卜　Ｊ。目前统计软件　的普遍可及性也在某种程度上导致了研究者对Ｐ值　原则１强调Ｐ值表明数据与既定统计模型不相　容的程度，Ｐ值越小，数据与既定统计模型对应的无效　假设不相容的程度越大，前提是满足计算Ｐ值的假定　条件。原则１实质上强调Ｆｉｓｈｅｒ的ｓｉｇｎｉｉｆｃａｎｃｅ　ｔｅｓｔ理　论中关于Ｐ值的意义。　中国卫生统计２０１７年２月第３４卷第１期　２．“Ｐ。ｖａｌｕｅｓ　ｄｏ　ｎｏｔ　ｍｅａｓｕｒｅ　ｔｈｅ　ｐｒｏｂａｂｉｌｉｔｙ　ｔｈａｔ　ｔｈｅ　ｓｔｕｄｉｅｄ　ｈｙｐｏｔｈｅｓｉｓ　ｉｓ　ｔｒｕｅ，ｏｒ　ｔｈｅ　ｐｒｏｂａｂｉｌｉｔｙ　ｔｈａｔ　ｔｈｅ　ｄａｔａ　ｗｅｒｅ　ｐｒｏｄｕｃｅｄ　ｂｙ　ｒａｎｄｏｍ　ｃｈａｎｃｅ　ａｌｏｎｅ”．　原则２强调Ｐ值不表示无效假设成立的概率，也　不表示样本数据单纯由于偶然产生的概率。注意，我　们得到的是无效假设Ｈｎ成立条件下，获得现有样本　或更极端样本的概率，而不是获得现有样本条件下无　效假设Ｈ。成立的概率。从这个角度看，假设检验是　演绎而不是归纳ｕ８ｌ２　。两个概率的关系由Ｂａｙｅｓ定理　解释：Ｐｏｓｔｅｒｉｏｒ　ｏｄｄｓ（Ｈ０，ａｆｔｅｒ　ｏｂｔａｉｎｉｎｇ　ｔｈｅ　ｄａｔａ）＝Ｐｒｉ—　ｏｒ　ｏｄｄｓ（Ｈ０，ｂｅｆｏｒｅ　ｏｂｔａｉｎｉｎｇ　ｔｈｅ　ｄａｔａ）　Ｐｒｏｂ（Ｄａｔａ，ｕｎ－　ｄｅｒ　Ｈ０）／Ｐｒｏｂ（Ｄａｔａ，ｕｎｄｅｒ　Ｈ１）。Ｔｒａｆｉｍｏｗ和Ｒｉｃｅ蒙　特卡洛模拟研究结果表明，按照传统的０．０５检验水　准，二者的相关性仅为０．２８９；如果检验水准更严格如　０．０１或０．００１，则相关性更低，因此由前者的大小直接　推断后者绝非安全＿２　。　３．“Ｓｃｉｅｎｔｉｆｉｃ　ｃｏｎｃｌｕｓｉｏｎｓ　ａｎｄ　ｂｕｓｉｎｅｓｓ　ｏｒ　ｐｏｌｉｃｙ　ｄｅｃｉｓｉｏｎｓ　ｓｈｏｕｌｄ　ｎｏｔ　ｂｅ　ｂａｓｅｄ　ｏｎｌｙ　ｏｎ　ｗｈｅｔｈｅｒ　ａ　Ｐ—ｖａｌｕｅ　ｐａｓｓｅｓ　ａ　ｓｐｅｃｉｆｉｃ　ｔｈｒｅｓｈｏｌｄ”．　原则３强调科学结论或决策不应仅依靠Ｐ值是　否超过给定阈值即检验水准，还要结合研究设计、数据　质量、研究现象的外部证据以及数据分析的前提条件　等。正是广泛使用将Ｐ小于０．０５即“有统计学意义”　作为科学发现的依据，才导致对该科学推论过程的曲　解。　４．“Ｐｒｏｐｅｒ　ｉｎｆｅｒｅｎｃｅ　ｒｅｑｕｉｒｅｓ　ｆｕｌｌ　ｒｅｐｏｒｔｉｎｇ　ａｎｄ　ｔｒａｎｓｐａｒｅｎｃｙ”．　原则４强调研究者应当报告研究的所有假设、数　据收集、统计学分析及其Ｐ值，而不应选择性地报告Ｐ　值和相应的统计分析，要严格避免所谓“ｃｈｅｒｒｙ—ｐｉｃｋ－　ｉｎｇ”或者“ｐ－ｈａｃｋｉｎｇ”行为。有研究表明，有统计学意　义的结果可能更容易被引用　，这一不科学行为也可　能导致“ｐ－ｈａｃｋｉｎｇ”行为的恶性循环。　５．“Ａ　ｐ－ｖａｌｕｅ，ｏｒ　ｓｔａｔｉｓｔｉｃａｌ　ｓｉｇｎｉｆｉｃａｎｃｅ，ｄｏｅｓ　ｎｏｔ　ｍｅａｓｕｒｅ　ｔｈｅ　ｓｉｚｅ　ｏｆ　ａｎ　ｅｆｆｅｃｔ　ｏｒ　ｔｈｅ　ｉｍｐｏｒｔａｎｃｅ　ｏｆ　ａ　ｒｅ—　ｓｕｉｔ”．　原则５强调Ｐ值不等价于效应的大小或研究结　果的重要性，Ｐ值越小并不表示效应越大或结果越重　要，反之，Ｐ值越大也不表示效应越小或结果越不重　要。只要样本含量足够大或测量精度足够高，任何小　的效应都能产生小的Ｐ值，反之，大的效应由于样本　含量小或测量精度低会导致大的Ｐ值；另外，相同的　估计效应由于不同的估计精度会导致不同的Ｐ值。　６．“Ｂｙ　ｉｔｓｅｌｆ，ａ　ｐ－ｖａｌｕｅ　ｄｏｅｓ　ｎｏｔ　ｐｒｏｖｉｄｅ　ａ　ｇｏｏｄ　ｍｅａｓｕｒｅ　ｏｆ　ｅｖｉｄｅｎｃｅ　ｒｅｇａｒｄｉｎｇ　ａ　ｍｏｄｅｌ　ｏｒ　ｈｙｐｏｔｈｅｓｉｓ”．　原则６强调没有研究背景或其他证据的Ｐ值只　能提供有限的信息。例如，接近０．０５的Ｐ值只能提供　关于无效假设的微弱证据，而一个相对大的Ｐ值也不　构成支持无效假设的证据，因此，数据分析不应以计算　出尸值而告终，研究者还可以提供其他证据，包括置　信区间、预测区间、Ｂａｙｅｓ方法、似然比或Ｂａｙｅｓ因子、　决策理论模型等。　结　语　ＡＳＡ声明指出：作为规范的科学实践的一个必要　部分，规范的统计实践强调研究设计的原则和实施、研　究假设的理解、研究结果的解释及表达等。声明的执　笔人、ＡＳＡ理事会执行Ｗａｓｓｅｒｓｔｅｉｎ教授也强调从　未指望单一的一个方法比如Ｐ值可以取代科学推断，　ＡＳＡ声明或许会引导科学研究到一个所谓“后Ｐ＜　０．０５时代”　。　就像大家熟知的平均数的误用一样，假设检验本　身没有错，可能犯错误的是使用者，因此一直以来假设　检验遭受的是不公正的批评　。报告确切的Ｐ值可　以让读者或研究者判断结果提示的意义，而不是仅仅　依据检验水准做出拒绝或不拒绝假设的非此即彼的推　断。另外，建议研究者综合使用假设检验、效应值、置　信区间、Ｂａｙｅｓ统计、ｍｅｔａ分析等，从不同角度阐释研　究现象，而不是将假设检验作为统计推断唯一依据。　参考文献　ｌ　１］Ｗａｓｓｅｒｓｔｅｉｎ　ＲＬ，Ｌａｚａｒ　ＮＡ．Ｔｈｅ　ＡＳＡ　Ｓ　ｓｔａｔｅｍｅｎｔ　ｏｎ　Ｐ‘ｖａｌｕｅｓ：ｃｏｎ　ｔｅｘｔ，ｐｒｏｃｅｓｓ，ａｎｄ　ｐｕｒｐｏｓｅ．Ｔｈｅ　Ａｍｅｒｉｃａｎ　Ｓｔａｔｉｓｔｉｃｉｎａ，２０１６，ＤＯＩ：１０．　１０８０　３１３０５．２０１６．１１５４１０８．　［２］方积乾（译）．ＡＳＡ关于Ｐ－值的声明：背景、过程和目的．中国卫生　统计，２０１６，３３（３）：５４８－５４９．　［３］方积乾（译）．ＡＳＡ关于统计意义和ｐ－值的声明．中国卫生统计，　２０１６，３３（３）：５４９・５５２．　［４］孙振球主编．医学统计学．第３版．北京：人民卫生出版社，２０１０．　［５］Ｆｉｓｈｅｒ　ＲＡ．Ｓｔａｔｉｓｔｉｃａｌ　ｍｅｔｈｏｄｓ　ｆｏｒ　ｒｅｓｅａｒｃｈ　ｗｏｒｋｅｒｓ．Ｅｄｉｎｂｕｒｇｈ，ＵＫ：　Ｏｌｉｖｅｒ　ａｎｄ　Ｂｏｙｄ，１９２５．　［６］Ｆｉｓｈｅｒ　ＲＡ．Ｔｈｅ　ａｒｒｎａｇｅｍｅｎｔ　ｏｆ　ｉｆｅｌｄ　ｅｘｐｅｒｉｍｅｎｔｓ．Ｊ　Ｍｉｎｉｓｔｒｙ　ｏｆ　Ａｇｒｉ—　ｃｕｌｔｕｒｅ　Ｇｒｅａｔ　Ｂｒｉｔｉａｎ，１９２６，３３：５０３－５１３．　『７］Ｆｉｓｈｅｒ　ＲＡ．Ｓｔａ廿ｓｔｉｃａｌ　ｍｅｔｈｏｄｓ　ａｎｄ　ｓｃｉｅｎｔｉｉｆｃ　ｉｎｆｅｒｅｎｃｅ．３ｒｄ　ｅｄ．Ｎｅｗ　Ｙｏｒｋ：Ｍａｃｍｉｌｌａｎ，１９７３．　ｆ　８］Ｇｏｏｄｍａｎ　ＳＮ．Ｔｏｗａｒｄ　ｅｖｉｄｅｎｃｅ．ｂａｓｅｄ　ｍｅｄｉｃａｌ　ｓｔａｔｉｓｔｉｅｓ．１：ｔｈｅ　Ｐ　ｖａｌ・　ｕｅ　ｆａｌｌａｃｙ．Ａｎｎ　Ｉｎｔｅｒｎ　Ｍｅｄ，１９９９，１３０：９９５・１００４．　［９］Ｎｅｙｍａｎ　Ｊ，Ｐｅａｒｓｏｎ　Ｅ．Ｏｎ　ｔｈｅ　ｐｒｏｂｌｅｍ　ｏｆ　ｔｈｅ　ｍｏｓｔ　ｅｆｉｆｃｉｅｎｔ　ｔｅｓｔｓ　ｏｆ　ｓｔａｔｉｓｔｉｃａｌ　ｈｙｐｏｔｈｅｓｅｓ．Ｐｈｉｌｏｓｏｐｈｉｃａｌ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｆ　ｈｔｅ　Ｒｏｙａｌ　Ｓｏｃｉｅｔｙ　ｏｆＬｏｎｄｏｎ．Ｓｅｒｉｅｓ　Ａ，１９３３，２３１：２８９－３３７．　［１０］Ｂｉａｕ　ＤＪ，Ｊｏｌｌｅｓ　ＢＭ，Ｐｏｒｃｈｅｒ　Ｒ．Ｐ　ｖａｌｕｅ　ａｎｄ　ｔｈｅ　ｈｔｅｏｒｙ　ｏｆ　ｈｙｐｏｔｈｅｓｉｓ　ｔｅｓｔｉｎｇ．Ｃｌｉｎ　Ｏｒｔｈｏｐ　Ｒｅｌａｔ　Ｒｅｓ，２０１０，４６８：８８５—８９２．　［１　１］Ｌｅｗ　ＭＪ．Ｂａｄ　ｓｔａｔｉｓｉｔｃａｌ　ｐｒａｃｔｉｃｅ　ｉｎ　ｐｈａｒｍａｃｏｌｏｇｙ（ａｎｄ　ｏｔｈｅｒ　ｂａｓｉｃ　ｂｉ。　ｏｍｅｄｉｃａｌ　ｄｉｓｃｉｐｌｉｎｅｓ）：ｙｏｕ　ｐｒｏｂａｂｌｙ　ｄｏｎ’ｔ　ｋｎｏｗ　Ｐ．Ｂｒｉｔｉｓｈ　Ｊｏｕｒｎａｌ　ｏｆ　Ｐｈａｒｍａｃｏｌｏｇｙ，２０１２，１６６：１５５９－１５６７．　［１２］Ｗａｉｎｅｒ　Ｈ，Ｒｏｂｉｎｓｏｎ　ＤＨ．Ｓｈａｐｉｎｇ　ｕｐ　ｔｈｅ　ｐｒａｃｔｉｃｅ　ｏｆ　ｎｕｌｌ　ｈｙｐｏｔｈｅｓｉｓ　ｓｉｇｎｉｉｆｃａｎｃｅ　ｔｅｓｔｉｎｇ．Ｅｄｕｃａｔｉｏｎａｌ　Ｒｅｓｅａｒｃｈｅｒ，１９９０：２２－３０．　［１３］Ｌａｒｒｙ　ＧＤ．Ｓｔａｔｉｓｔｉｃａｌ　Ｓｉｇｎｉｆｉｃａｎｃｅ　Ｔｅｓｔｉｎｇ：Ａ　ｈｉｓｔｏｒｉｃａｌ　ｏｖｅｒｖｉｅｗ　ｏｆ　・１７６・　ｍｉｓｕｓｅ　ａｎｄ　ｍｉｓｉｎｔｅｒｐｒｅｔａｔｉｏｎ　ｗｉｔｈ　ｉｍｐｌｉｃａｔｉｏｎｓ　ｆｏｒ　ｔｈｅ　ｅｄｉｔｏｒｉａｌ　ｐｏｌｉｃｉｅｓ　Ｃｈｉｎｅｓｅ　Ｊｏｕｒｎａ１　ｏｆ　Ｈｅａｌｈ　Ｓｔａｔｔｉｓｔｉｃｓ．Ｆｅｂ．２０１７．Ｖｏ１．３４．Ｎｏ．１　［１９］Ｇｏｏｄｍａｎ　ＳＮ．Ａ　ｄｉｒｔｙ　ｄｏｚｅｎ：Ｔｗｅｌｖｅ　Ｐ－ｖａｌｕｅ　ｍｉｓｃｏｎｃｅｐｔｉｏｎｓ．Ｓｅｍｉｎ　Ｈｅｍａｔｏｌ，２００８，４５：１３５—１４０．　ｏｆ　ｅｄｕｃａｔｉｏｎａｌ　ｊｏｕｒｎａｌｓ．Ｒｅｓｅａｒｃｈ　ｉｎ　ｔｈｅ　Ｓｃｈｏｏｌｓ，１９９８，５（２）：２３—３２．　［１４］Ｃｕｍｍｉｎｇ　Ｇ．Ｒｅｐｌｉｃａｔｉｏｎ　ａｎｄ　Ｐ　ｉｎｔｅｒｖａｌｓ：Ｐ　ｖａｌｕｅｓ　ｐｒｅｄｉｃｔ　ｔｈｅ　ｆｕｔｕｒｅ　ｏｎｌｙ　ｖａｇｕｅｌｙ，ｂｕｔ　ｃｏｎｆｉｄｅｎｃｅ　ｉｎｔｅｒｖａｌｓ　ｄｏ　ｍｕｃｈ　ｂｅｔｔｅｒ．Ｐｅｒｓｐｅｃｔｉｖｅｓ　ｏｎ　Ｐｓｙｃｈｏｌｏｇｉｃａｌ　Ｓｃｉｅｎｃｅ，２００８，３：２８６－３００．　［２０］Ｓｐｅｃｉａｌ　Ｉｓｓｕｅ：Ｓｔａｔｉｓｔｉｃａｌ　ｓｉｇｎｉｉｆｃａｎｃｅ　ｔｅｓｔｉｎｇ．Ｒｅｓｅａｒｃｈ　ｉｎ　ｔｈｅ　Ｓｃｈｏｏｌｓ，　１９９８，５（２）：５—６５．　［２１］Ｋｒｕｅｇｅｒ　Ｊ．Ｎｕｌｌ　ｈｙｐｏｔｈｅｓｉｓ　ｓｉｇｎｉｆｉｃａｎｃｅ　ｔｅｓｔｉｎｇ：Ｏｎ　ｔｈｅ　ｓｕｒｖｉｖａｌ　ｏｆ　ａ　ｌａｗｅｄ　ｍｅｔｆｈｏｄ．Ａｍｅｒｉｃａｎ　Ｐｓｙｃｈｏｌｏｇｉｓｔ，２００１，５６：１６—２６．　［１５］Ｎｕｚｚｏ　Ｒ．Ｓｔａｔｉｓｔｉｃａｌ　ｅｒｒｏｒｓ：Ｐ　ｖａｌｕｅｓ，ｔｈｅ‘ｇｏｌｄ　ｓｔａｎｄａｒｄ’ｏｆ　ｓｔａｔｉｓｔｉｃａｌ　ｖａｌｉｄｉｔｙ，ａｒｅ　ｎｏｔ　ａｓ　ｒｅｌｉａｂｌｅ　ａｓ　ｍａｎｙ　ｓｃｉｅｎｔｉｓｔｓ　ａｓｓｕｍｅ．Ｎａｔｕｒｅ，２０１４，　５０６：１５０—１５２．　［２２］Ｔｒａｆｉｍｏｗ　Ｄ，Ｒｉｃｅ　Ｓ．Ａ　ｔｅｓｔ　ｏｆ　ｈｅ　ｔｎｕｌｌ　ｈｙｐｏｔｈｅｓｉｓ　ｓｉｇｎｉｉｆｃａｎｃｅ　ｔｅｓｔｉｎｇ　ｐｒｏｃｅｄｕｒｅ　ｃｏｒｒｅｌａｔｉｏｎ　ａｒｇｕｍｅｎｔ．Ｔｈｅ　Ｊｏｕｒｎａｌ　ｏｆ　Ｇｅｎｅｒａｌ　Ｐｓｙｃｈｏｌｏｇｙ，　２００９，１３６：２６１—２６９．　［１６］Ｌａｍｂｄｉｎ　Ｃ．Ｓｉｇｎｉｉｆｃａｎｃｅ　ｔｅｓｔｓ　ａｓ　ｓｏｒｃｅｒｙ：Ｓｃｉｅｎｃｅ　ｉｓ　ｅｍｐｉｒｉｃａｌ－ｓｉｇｎｉｉｆ－　ｃａｎｃｅ　ｔｅｓｔｓ　ａｒｅ　ｎｏｔ．Ｔｈｅｏｒｙ　Ｐｓｙｃｈｏｌ，２０１２，２２：６７－９０．　［２３］Ｎｉｅｍｉｎｅｎａ　Ｐ，Ｒｕｃｋｅｒａ　Ｇ，Ｍｉｅｔｔｕｎｅｎ　Ｊ．Ｓｔａｔｉｓｔｉｃａｌｌｙ　ｓｉｇｎｉｉｆｃａｎｔ　ｐａｐｅｒｓ　ｉｎ　ｐｓｙｃｈｉａｔｙ　ｗｅｒｅ　ｃｉｒｔｅｄ　ｍｏｒｅ　ｏｆｔｅｎ　ｔｈａｎ　ｏｔｈｅｒｓ．Ｊｏｕｒｎａｌ　ｏｆ　Ｃｌｉｎｉｃａｌ　Ｅｐｉｄｅｍｉｏｌｏｇｙ，２００７，６０：９３９－９４６．　［１７］Ａｒｍｓ￣ｏｎｇ　ＪＳ．Ｓｉｇｎｉｉｆｃａｎｃｅ　ｔｅｓｔｓ　ｈａｒｍ　ｐｒｏｇｒｅｓｓ　ｉｎ　ｆｏｒｅｃａｓｔｉｎｇ．Ｉｎｔｅｒ－　ｎａｔｉｏｎａｌ　Ｊｏｕｒｎａｌ　ｏｆ　Ｆｏｒｅｃａｓｔｉｎｇ，２００７，２３（２）：３２１—３２７．　［１８］Ａｚａｒ　Ｂ．ＡＰＡ　ｔａｓｋ　ｆｏｒｃｅ　ｕｒｇｅｓ　ａ　ｈａｒｄｅｒ　ｌｏｏｋ　ａｔ　ｄａｔａ．ＡＰＡ　Ｍｏｎｉｔｏｒ，　１９９７，２８（３）：２６．　（责任编辑：郭海强）　１ｊ（上接第１７２页）　ＢＵＧＳ　ｆｏｒ　ｈｉｅｒａｒｃｈｉｃａｌ　Ｐｏｉｓｓｏｎ　ｍｏｄｅｌｉｎｇ　ｉｎ　ｄｉｓｅａｓｅ　ｍａｐｐｉｎｇ．Ｓｐａｔｉａｌ　ＯｐｅｎＢＵＧＳ软件在克服ＷｉｎＢＵＧＳ缺点的基础　上，对模型的代码和操作菜单做了相关优化和调整，使　运行更加平稳，操作更为简单　』。与其他贝叶斯分析　软件（如ＢＡＣＣ／ＢＭＡ）相比，ＯｐｅｎＢＵＧＳ软件的亮点　就在于其具有很强的灵活性，能够使贝叶斯分析中复　ｎｄ　Ｓｐａｔａｉｏ－ｔｅｍｐｏｒａｌ　Ｅｐｉｄｅｍｉｏｌｏｇｙ，２０１５，１４（１５）：５Ｉ５４．　Ｌｙｌｅ　Ｗ，Ｋｏｎｉｇｓｂｅｒｇ，Ｆｒａｎｋｅｎｂｅｒｇ．Ｂａｙｅｓ　ｉｎ　Ｂｉｏｌｏｇｉｃａｌ　Ａｎｔｈｒｏｐｏｌｏｇｙ．　Ａｍｅｒｉｃａｎ　Ｊｏｕｒｎａｌ　ｏｆ　Ｐｈｙｓｉｃａｌ　Ａｎｔｈｒｏｐｏｌｏｇｙ，２０１３，１５２（５７）：１５３—　１８４．　Ｅｉｔｚｅｌ　Ｍ，Ｂａｔｔｌｅｓ　Ｊ，Ｙｏｒｋ　Ｒ，ｅｔ　ａ１．Ｅｓｔｉｍａｔｉｎｇ　ｔｒｅｅ　ｇｒｏｗｔｈ　ｆｒｏｍ　ｔｏｍ—　ｐｌｅｘ　ｆｏｒｅｓｔ　ｍｏｎｉｔｏｒｉｎｇ　ｄａｔａ　Ｅｃｏｌｏｇｉｃａｌ　Ａｐｐｌｉｃａｔｉｏｎｓ，２０１３，２３（６）：　１２８８．１２９６．　ＯｐｅｎＢＵＧＳ　３．２．３　ｕｓｅｒ　ｍａｎｕａ１．　杂的数值计算简单化。但其在网状关系图、森林图等　图形的绘制方面仍存在着不足　Ｊ，并且在代码建模过　程中容易出现错误而不易被发现。目前，ＯｐｅｎＢＵＧＳ　还在更新和维护当中，其强大的数据分析能力，在不久　的将来，会成为贝叶斯统计分析的主流软件。　参考文献　孟海英，刘桂芬，罗天娥．Ｗｉｎｂｕｇｓ软件应用．中国卫生统计，２００６，　２３（４）：３７５・３７７．　郑晓鸳．ＭＣＭＣ方法在跳扩散Ｓｈｉｂｏｒ模型参数模拟中的应用，时　代金融，２０１４，５６２（８）：３１—３３．　孙振球，徐勇勇，主编．医学统计学．第４版．北京：人民卫生出版　社，２０１４，２４４－２６１．　沈可，王芬，张超，等．应用ＯｐｅｎＢＵＧＳ软件实现网状Ｍｅｔａ分析．湖　北医药学报，２０１３，３２（６）：４７６４７９．　ｏｌｌ　Ｒ，Ｌａｗｓｏｎ　ＡＢ，Ｆａｅｓ　Ｃ，ｅｔ　ａ１．Ｃｏｍｐａｒｉｎｇ　ＩＮＬＡ　ａｎｄ　Ｏｐｅｎ—　［２］　Ｃａｒｒ曾平，王婷，何鹏．非标准分布贝叶斯分析的ＷｉｎＢＵＧＳ软件实现．　中国卫生统计，２０１２，２９（４）：６１４￣１７．　（责任编辑：郭海强）　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文