近100年來,幾乎所有科學(xué)家在分析實(shí)驗(yàn)數(shù)據(jù)時(shí),都會用到p值這個(gè)工具:只有p小于0.05,才意味著實(shí)驗(yàn)結(jié)果具有統(tǒng)計(jì)顯著性,才能在學(xué)術(shù)期刊上正式發(fā)表。但是,統(tǒng)計(jì)顯著性的概念以及支撐它的p值具有相當(dāng)大的局限性。而正是這樣的缺陷,讓整個(gè)科學(xué)界都處于危機(jī)中。
這篇選自《環(huán)球科學(xué)》11月新刊的文章,為我們講述了P值危機(jī)。

1925 年,英國遺傳學(xué)家兼統(tǒng)計(jì)學(xué)家羅納德·菲舍爾(Ronald Fisher)出版了《研究者的統(tǒng)計(jì)方法》(Statistical Methods for Research Workers)一書。這本書的書名在當(dāng)時(shí)看起來并不會“暢銷”,但實(shí)際上這本書卻取得了巨大的成功,而且還使菲舍爾成為現(xiàn)代統(tǒng)計(jì)學(xué)之父。在這本書中,他著眼于研究人員如何將統(tǒng)計(jì)檢驗(yàn)理論應(yīng)用于實(shí)際數(shù)據(jù),以便基于數(shù)據(jù)得出他們所發(fā)現(xiàn)的結(jié)論。當(dāng)使用某個(gè)統(tǒng)計(jì)假設(shè)來做檢驗(yàn)時(shí),該檢驗(yàn)?zāi)軌蚋攀鰯?shù)據(jù)與其假設(shè)的模型之間的兼容性,并生成一個(gè)p值。
菲舍爾建議,作為一個(gè)方便的指南,研究人員可以考慮將p值設(shè)為0.05。對于這一點(diǎn),他專門論述道:“在判斷某個(gè)偏差是否應(yīng)該被認(rèn)為是顯著的時(shí)候,將這一閾值作為判斷標(biāo)準(zhǔn)是很方便的。”他還建議,p值低于該閾值的結(jié)論是可靠的,因此不要把時(shí)間花在大于該閾值的統(tǒng)計(jì)結(jié)論上。因此,菲舍爾的這一建議誕生了p小于0.05等價(jià)于所謂的統(tǒng)計(jì)顯著性,這成了“顯著”的數(shù)學(xué)定義。
菲舍爾的遺憾
近一個(gè)世紀(jì)之后,在科學(xué)研究的許多領(lǐng)域,p值小于0.05被認(rèn)為是確定實(shí)驗(yàn)數(shù)據(jù)可靠性的金標(biāo)準(zhǔn)。這個(gè)標(biāo)準(zhǔn)支持了大多數(shù)已發(fā)表的科學(xué)結(jié)論,違反這一標(biāo)準(zhǔn)的論文很難發(fā)表,而且也很難得到學(xué)術(shù)機(jī)構(gòu)的資助。然而,即使是菲舍爾也明白,統(tǒng)計(jì)顯著性的概念以及支撐它的p值具有相當(dāng)大的局限性。
P值經(jīng)常被曲解,統(tǒng)計(jì)的顯著性不等于實(shí)際的顯著性。此外,為了讓數(shù)據(jù)更漂亮,很多研究人員有意無意地將p值向上或向下調(diào)整。美國加利福尼亞大學(xué)洛杉磯分校的名譽(yù)教授、統(tǒng)計(jì)學(xué)家和流行病學(xué)家桑德·格林蘭德(Sander Greenland)說:“你可以用統(tǒng)計(jì)學(xué)方法來證明任何事情。”他是呼吁統(tǒng)計(jì)學(xué)改革的科學(xué)家之一。只依靠達(dá)到統(tǒng)計(jì)顯著性的研究經(jīng)常會得出不準(zhǔn)確的科學(xué)結(jié)論,這種判斷標(biāo)準(zhǔn)可以把真的事情判斷為假的,也可以把假的事情判斷成真的。在菲舍爾退休,移居澳大利亞后,有人問他,在漫長的職業(yè)生涯中他是否有任何遺憾,他明確回答道:“當(dāng)初不該提出0.05。”

統(tǒng)計(jì)學(xué)家羅納德·菲舍爾。圖片來源:維基百科
在過去十年里,關(guān)于統(tǒng)計(jì)重要性的爭論以不尋常的強(qiáng)度爆發(fā)。援引兩篇論文的觀點(diǎn):一篇文章稱統(tǒng)計(jì)分析的薄弱基礎(chǔ)導(dǎo)致了“科學(xué)最骯臟的秘密”;另一篇?jiǎng)t提到,在檢驗(yàn)?zāi)承┘僭O(shè)時(shí),存在“許多深層次的缺陷”。在爭議聲中,實(shí)驗(yàn)經(jīng)濟(jì)學(xué)、生物醫(yī)學(xué)研究,特別是心理學(xué)被卷入了一場科學(xué)實(shí)驗(yàn)可重復(fù)性的危機(jī)之中。在這場危機(jī)中,科學(xué)家發(fā)現(xiàn)相當(dāng)一部分研究是不可重復(fù)的。
一個(gè)臭名昭著的例子是“姿態(tài)能量”的概念,某篇論文聲稱,自信的肢體語言不僅會改變你的態(tài)度,還會改變你的激素分泌,后來這篇文章還被作者自我否定了。美國哥倫比亞大學(xué)的統(tǒng)計(jì)學(xué)家安德魯·格爾曼(Andrew Gelman)在他博客寫道:“一篇可疑的關(guān)于氣候經(jīng)濟(jì)學(xué)影響力的論文,多年之后發(fā)表了勘誤聲明,最終被修正的錯(cuò)誤結(jié)論幾乎與原論文的數(shù)據(jù)點(diǎn)一樣多,這可不是開玩笑!但勘誤聲明中這些更正都不足以讓作者改變結(jié)論。” 格爾曼還說道:“嘿,只做理論上的工作就可以了,但不需要用數(shù)據(jù)分散我們的注意力。”
統(tǒng)計(jì)顯著性的概念雖然不是引起問題的唯一因素,但很明顯,它是引起問題的一個(gè)關(guān)鍵要素。在過去的三年里,數(shù)以百計(jì)的研究人員呼吁統(tǒng)計(jì)學(xué)改革,他們在著名期刊上發(fā)表文章,重新定義統(tǒng)計(jì)顯著性,或干脆放棄統(tǒng)計(jì)顯著這個(gè)概念。美國統(tǒng)計(jì)協(xié)會(ASA)在2016年就這一問題發(fā)表了一份強(qiáng)有力且不同尋常的聲明,主張“進(jìn)入一個(gè)沒有p<0.05的世界”。美國統(tǒng)計(jì)協(xié)會執(zhí)行董事羅納德·瓦瑟斯坦(Ronald Wasserstein)這樣說:“科學(xué)家總是說,我有小于0.05的p值,這很好。但這種粗糙的判斷方法,使得科學(xué)因此停止了。”

問題是,事態(tài)會不會有什么變化。美國南加利福尼亞大學(xué)的行為經(jīng)濟(jì)學(xué)家丹尼爾·本杰明(Daniel Benjamin)表示:“這已經(jīng)不是新鮮事了。我們需要清醒地認(rèn)識到,這一次將與以往一樣,大家說要變革統(tǒng)計(jì)學(xué),最終卻不了了之。”很多人在變革統(tǒng)計(jì)學(xué)的具體措施上有分歧,正如美國經(jīng)濟(jì)學(xué)家斯蒂芬·齊利亞克(Stephen Ziliak)所寫的那樣:“令人吃驚的是,還有不少研究者堅(jiān)持使用統(tǒng)計(jì)顯著性檢驗(yàn)、統(tǒng)計(jì)結(jié)論解釋和統(tǒng)計(jì)分析報(bào)告這三個(gè)例行公事的傳統(tǒng)套路。”
可重復(fù)性危機(jī)
科學(xué)的目的是描述自然界中的真實(shí)情況??茖W(xué)家使用統(tǒng)計(jì)模型來推斷真相,比如確定一種治療方法是否比另一種更有效。每個(gè)統(tǒng)計(jì)模型的分析結(jié)果,取決于科學(xué)家如何收集數(shù)據(jù),如何分析數(shù)據(jù),以及研究人員如何有選擇性地展示他們的結(jié)果。
以統(tǒng)計(jì)方法為中心,實(shí)驗(yàn)結(jié)果的檢驗(yàn)被稱為零假設(shè)顯著性檢驗(yàn),這個(gè)過程會產(chǎn)生一個(gè)p值。P值只是對事情有一個(gè)模糊的描述。“當(dāng)我們進(jìn)行實(shí)驗(yàn)時(shí),我們想知道的是——我們的假設(shè)是真的嗎?”本杰明說,“但是,顯著性檢驗(yàn)回答了一個(gè)令人費(fèi)解的替代問題,那就是,如果我的假設(shè)是錯(cuò)誤的,我的數(shù)據(jù)有多大的概率導(dǎo)致錯(cuò)誤的結(jié)論?”
當(dāng)然了,p值也有奏效的時(shí)候。一個(gè)極端但有用的例子是尋找希格斯玻色子(Higgs boson)。希格斯玻色子是物理學(xué)家于20世紀(jì)60年代首次在理論上提出的粒子。零假設(shè)是希格斯玻色子不存在;對立假設(shè)是它必須存在。歐洲核子研究中心的物理學(xué)家用大型強(qiáng)子對撞機(jī)進(jìn)行了多次實(shí)驗(yàn),得到了極其小的p值,以至于如果假設(shè)不存在希格斯玻色子的話,其結(jié)果發(fā)生的可能性就只有350萬分之一。這么小的p值意味著,沒有希格斯玻色子的粒子物理標(biāo)準(zhǔn)模型幾乎不可能是正確的。
但是,物理學(xué)的這種精確度在其他學(xué)科是無法達(dá)到的。當(dāng)做人的心理學(xué)實(shí)驗(yàn)的時(shí)候,p值永遠(yuǎn)不會達(dá)到300萬分之一。P值為0.05時(shí),在許多重復(fù)實(shí)驗(yàn)中,每20次實(shí)驗(yàn)中就有1次實(shí)驗(yàn)錯(cuò)誤地否認(rèn)了正確的假設(shè)。這就是為什么統(tǒng)計(jì)學(xué)家很早以前就增加了“置信區(qū)間”這個(gè)概念,作為一種讓科學(xué)家估計(jì)誤差或不確定性的方法。置信區(qū)間在數(shù)學(xué)上與p值息息相關(guān)。P值在0到1之間變動(dòng)。如果把1減去0.05,得到的0.95就是95%的首選置信區(qū)間。但是,但是,置信區(qū)間只是一個(gè)比較好地概括實(shí)驗(yàn)結(jié)果的方法,可以體現(xiàn)多種效應(yīng)量(effect size,做了實(shí)驗(yàn)處理的平均結(jié)果與不做實(shí)驗(yàn)處理的平均結(jié)果之間的差異)。格林蘭德說:“置信區(qū)間也沒有任何東西能激發(fā)人們的信心。”隨著時(shí)間的推移,置信區(qū)間和p值一樣,給人們提供了一種確定性的錯(cuò)覺。
P值本身不一定是問題的本質(zhì)所在。期刊編輯、科研資助機(jī)構(gòu)和監(jiān)管機(jī)構(gòu)宣稱,p值的分析在論文中是一個(gè)非常有用的工具。因此,令人擔(dān)憂的情況正在發(fā)生,統(tǒng)計(jì)顯著性的重要性被夸大或過分強(qiáng)調(diào)了。2015年,可重復(fù)性危機(jī)項(xiàng)目(現(xiàn)為開放科學(xué)中心)開展了一項(xiàng)實(shí)驗(yàn),對100篇重要的社會心理學(xué)論文進(jìn)行了重復(fù)性檢驗(yàn),結(jié)果發(fā)現(xiàn)只有36.1%的論文的結(jié)論可以被重復(fù)出來。2018年,社會科學(xué)可重復(fù)性項(xiàng)目評估了《自然》與《科學(xué)》在2010年至2015年間發(fā)表的21項(xiàng)社會科學(xué)實(shí)驗(yàn)研究的可重復(fù)性。他們發(fā)現(xiàn),與原研究相比,其中只有13項(xiàng)研究中(約占總研究的62%)的重復(fù)實(shí)驗(yàn)產(chǎn)生了顯著結(jié)果。

圖片來源:slate
從0.05到0.005
很多學(xué)科的科學(xué)家已經(jīng)達(dá)成了共識:對p值的誤解,以及過分強(qiáng)調(diào)統(tǒng)計(jì)顯著性,才是真正的問題,盡管有些人對濫用p值的嚴(yán)重性持較溫和的態(tài)度。美國康涅狄格大學(xué)的社會心理學(xué)家布萊爾·約翰遜(Blair T。 Johnson)說:“從長遠(yuǎn)來看,科學(xué)界經(jīng)常是這樣子的,鐘擺會在兩個(gè)極端之間搖擺,你必須接受這一點(diǎn)。”他說,這一輪p值危機(jī)的好處是,可以提醒科學(xué)家謹(jǐn)慎對待實(shí)驗(yàn)結(jié)果。
但是,要想真正取得進(jìn)展,科學(xué)家必須就解決方案達(dá)成共識,這是很困難的。盡管如此,有用的建議還是很多的。這些建議包括改變統(tǒng)計(jì)方法,或者改變統(tǒng)計(jì)分析的使用方式等。最突出的觀點(diǎn)已經(jīng)在一系列論文中提出,這些論文始于2016年的美國統(tǒng)計(jì)協(xié)會聲明,其中20多位統(tǒng)計(jì)學(xué)家就改革的若干原則達(dá)成了一致意見。隨后,該協(xié)會所屬的一本期刊還專門制作了特刊,就這一事件發(fā)表了一系列文章。
2018年,由72位科學(xué)家組成的小組在《自然·人類行為》上發(fā)表了一篇名為《重新定義統(tǒng)計(jì)意義》的評論文章,贊同將統(tǒng)計(jì)顯著性的閾值從0.05調(diào)整到0.005。這篇文章的主要作者本杰明認(rèn)為:“這是一個(gè)不完美的短期解決方案,但可以立即實(shí)施。我擔(dān)心的是,如果我們不立即做這事,我們將失去變革的動(dòng)力,而我們最終將花費(fèi)所有的時(shí)間爭論理想化的解決方案。”
另一些人則認(rèn)為,重新定義統(tǒng)計(jì)顯著性沒有好處,因?yàn)檎嬲膯栴}是閾值始終存在。今年3月份,瑞士巴塞爾大學(xué)的流行病學(xué)家、動(dòng)物學(xué)家瓦倫丁·阿姆萊因(Valentin Amrhein)與美國西北大學(xué)的統(tǒng)計(jì)學(xué)家、市場營銷專家布萊克利·麥克沙恩(Blakeley McShane)在《自然》雜志上發(fā)表了一篇評論文章,主張放棄統(tǒng)計(jì)學(xué)顯著性的概念。他們建議將p值作為一個(gè)連續(xù)變量,并將置信區(qū)間(confidence intervals)重命名為“相容性區(qū)間”(compatibility intervals),以反映它們彰顯的實(shí)際意義:評估數(shù)據(jù)的相容性,而不是置信度。
顯然,有更好的(至少是更直接的)統(tǒng)計(jì)方法可以用。格爾曼經(jīng)常批評其他人的統(tǒng)計(jì)方法,他在工作中根本沒有使用零假設(shè)顯著性檢驗(yàn)。他更喜歡貝葉斯方法,這是一種基于初始信念的、更為直接的統(tǒng)計(jì)方法,在這種方法中,研究人員接受最初的信念,添加新的證據(jù)并更新信念。格林蘭德正在推廣使用一種叫做稀奇程度(surprisal)的新數(shù)學(xué)量,可以調(diào)整p值以產(chǎn)生信息位(如計(jì)算機(jī)比特位)。為了檢驗(yàn)原假設(shè),0.05的p值僅有4.3比特的信息熵(假設(shè)有一枚均勻的硬幣,拋硬幣出現(xiàn)正面設(shè)為0、出現(xiàn)反面設(shè)為1,則拋一個(gè)硬幣事件的信息熵就是1個(gè)比特。獨(dú)立地拋256次硬幣的信息熵就是256個(gè)比特。那么求解方程0.5x=0.05,解得0.05的概率約為拋擲x=-log20.05=4.3次,于是0.05的p值約為空值的4.3比特的信息熵。
所謂信息熵就是某個(gè)概率分布所包含的信息量的多少,這是信息論的基礎(chǔ)知識。在信息論中,如果你對一件事情的發(fā)生百分之百確定,那么這件事情對你來說的信息熵等于0比特。反過來說,如果你對一件事情是不確定的,那么這件事情對你來說是包含信息熵的。格林蘭德認(rèn)為,如果研究人員不得不在每一個(gè)p值旁邊加上一個(gè)稀奇程度,那么他們將被置于更高的標(biāo)準(zhǔn)之下。強(qiáng)調(diào)效應(yīng)量(effect size),即發(fā)現(xiàn)差異的大小,也將有所幫助。

圖片來源:pixabay
擁抱不確定性
統(tǒng)計(jì)顯著性滿足了研究人員對確定性的需求。格爾曼說:“這里的原罪是研究人員在得不到確定性的時(shí)候卻想要確定性。” 或許,現(xiàn)在是時(shí)候讓我們接受不確定性了。
科學(xué)界正在發(fā)生微小的變化。《新英格蘭醫(yī)學(xué)雜志》的發(fā)言人詹妮弗·蔡斯(Jennifer Zeis)說:“我們同意,p值有時(shí)被過度使用或被曲解了。對于治療來說,如果我們認(rèn)定p<0.05,治療的結(jié)果是有效的;如果p>0.05,治療是無效的。那么這就是醫(yī)學(xué)的簡化主義,它并不總能反映客觀事實(shí)。”蔡斯同時(shí)強(qiáng)調(diào),《新英格蘭醫(yī)學(xué)雜志》的研究報(bào)告現(xiàn)在已經(jīng)很少使用p值了,更多是采用置信區(qū)間而不是使用p值這個(gè)概念。
根據(jù)美國食品及藥品管理局(FDA)的生物統(tǒng)計(jì)學(xué)部門的負(fù)責(zé)人約翰·斯科特(John Scott)的說法,關(guān)于p值的應(yīng)用,臨床試驗(yàn)的要求還沒有發(fā)生任何變化。
麥克沙恩說:“最關(guān)鍵的是,p值不應(yīng)成為看門人。我們應(yīng)該采取更全面、更細(xì)化和更容易評價(jià)的指標(biāo)。”其實(shí),這個(gè)觀點(diǎn)在歷史上就有人贊同,甚至在與菲舍爾同時(shí)代的人中,也有人支持這一觀點(diǎn)。比如在1928年,另外兩位統(tǒng)計(jì)學(xué)大師杰爾茲·內(nèi)曼(Jerzy Neyman)和艾根·佩爾松(Egon Pearson)在撰寫統(tǒng)計(jì)分析報(bào)告時(shí)寫到:“統(tǒng)計(jì)檢驗(yàn)本身并沒有給出最終的結(jié)論,而只是作為一個(gè)參考工具幫助人們做出最終的決策。”
撰文:莉迪婭 · 登沃斯(Lydia Denworth)
翻譯:張慧銘
參考鏈接:
Evaluating the Replicability of Social Science Experiments in Nature and Science between 2010 and 2015。 ColinF。 Camerer etal。 in Nature Human Behaviour, Vol。2, pages 637–644; September2018。
Moving to a World beyond “p< 0.05。” RonaldL。 Wasserstein, AllenL。 Schirm and NicoleA。 Lazar in American Statistician, Vol。73, Supplement1, pages 1–19;2019。
關(guān)鍵詞: 環(huán)球科學(xué)
“禪城一日游”攻略來啦,聽說你很需要?|播資訊 心心念念的五一小長假終于要到了!現(xiàn)在小編奉上出游攻略讓熱愛生活的你不負(fù)時(shí)光!今天帶來的是【禪城一日精
“五一”假期會下雨嗎?最新天氣預(yù)報(bào)來了! 世界短訊 “五一”天氣如何?佛山氣象臺預(yù)計(jì)29日佛山有中雷雨、局部大雨。佛山:29日或有雷雨大風(fēng)、暴雨預(yù)警4月28日
她說“想親眼看看新疆”,卻被污蔑為“假人”?_環(huán)球快資訊 “一些人熱衷于制造涉華謊言誤導(dǎo)公眾,怕我的研究會打破他們的‘新疆?dāng)⑹隆?rdquo;在推特上,莫琳·休伯爾遭到
天天視點(diǎn)!“不能讓核污染水污染大?!?/a> 日本東京電力公司4月25日宣布,已完成為福島第一核電站核污染水排海而修建的海底隧道挖掘工作,將繼續(xù)推進(jìn)
環(huán)球最新:“中國為世界知識產(chǎn)權(quán)事業(yè)發(fā)展作出重要貢獻(xiàn)” “在不確定的世界中,各國堅(jiān)持團(tuán)結(jié)合作、開放包容尤為重要。”世界知識產(chǎn)權(quán)組織副總干事王彬穎日前在接受本
一季度三水進(jìn)出口總額增長10.3% 每日短訊 佛山新聞網(wǎng)訊佛山日報(bào)記者鐘玲玉通訊員三宣報(bào)道:4月27日,三水區(qū)召開2023年第一季度經(jīng)濟(jì)形勢研判會。一季
同比增長5.1%!一季度禪城經(jīng)濟(jì)穩(wěn)中向好 佛山新聞網(wǎng)訊記者鐘修程通訊員禪宣報(bào)道:今年以來,在面對整個(gè)外圍環(huán)境的異常復(fù)雜和全球經(jīng)濟(jì)、金融市場的負(fù)
三水區(qū)“小哥之家”揭牌成立|環(huán)球觀天下 佛山新聞網(wǎng)訊佛山日報(bào)記者何艷純報(bào)道:4月27日,三水區(qū)“小哥之家”揭牌成立,將打造成為外賣、快遞小哥的
天天實(shí)時(shí):全國各地旅游市場“春風(fēng)正勁” 佛山市“五一”國內(nèi)長線游訂單火爆 佛山新聞網(wǎng)訊佛山日報(bào)記者盧麗華報(bào)道:從網(wǎng)紅大熊貓“花花”吸引數(shù)以萬計(jì)的游客奔赴成都圍觀、熱播劇《去有
佛山舉行戰(zhàn)略性產(chǎn)業(yè)集群產(chǎn)業(yè)鏈供應(yīng)鏈對接活動(dòng) 提升高端裝備制造產(chǎn)業(yè)配套能力 全... 佛山新聞網(wǎng)訊佛山日報(bào)記者霍泳欣攝影報(bào)道:4月27日下午,2023“大手拉小手”暨戰(zhàn)略性產(chǎn)業(yè)集群產(chǎn)業(yè)鏈供應(yīng)鏈
“禪城一日游”攻略來啦,聽說你很需要?|播資訊 心心念念的五一小長假終于要到了!...
“五一”假期會下雨嗎?最新天氣預(yù)報(bào)來了! 世界短訊 “五一”天氣如何?佛山氣象臺預(yù)計(jì)...
她說“想親眼看看新疆”,卻被污蔑為“假人”?_環(huán)球快資訊 “一些人熱衷于制造涉華謊言誤導(dǎo)公...
天天視點(diǎn)!“不能讓核污染水污染大?!? 日本東京電力公司4月25日宣布,已...
會不會開翻?切爾西只差降級區(qū)10分,剩6戰(zhàn)將對槍魔城紐卡... 英超已經(jīng)來到本賽季的最后沖刺階段...
【獨(dú)家】2023年慶祝“五一”國際勞動(dòng)節(jié)大會在京舉行 這是4月27日拍攝的大會現(xiàn)場。當(dāng)日...
音樂類院校國際排名 世界著名音樂學(xué)院最新權(quán)威排名 今天,大學(xué)路小編為大家?guī)砹艘魳?..
柳永_雨鈴霖柳永 1、柳永·《雨霖鈴》寒蟬凄切①,...