显著性差异: 統計學名詞

統計學的假說檢定中,顯著性差異(或统计学意义,英語:statistical significance)是對數據差異性的評價,當某次實驗的结果在虛無假說下不大可能发生时,就認為該結果具有顯著性差異。更準確而言,譬如某項研究設定了一個數值α(顯著水準),表示虛無假說本來正確但卻被拒絕的出錯概率(並非虛無假設為真的機率、對立假設為假的機率、實驗再現失敗率),然後用p值表示虛無假說条件为真時得到某結果或更極端结果的概率。當p ⩽ α時,就可以認為結果具有統計學意義,或數據之間具有了顯著性差異。顯著水準應當在開始數據收集前就設定,通常習慣設定為5%或更低,因研究的具體學科領域而異。

显著性差异: 歷史, 顯著水準, 局限性
双尾检验英语one- and two-tailed tests中,显著性水平α = 0.05下的拒绝域分处在抽样分布两端的尾部,共占曲线下方面积的5%。

在任何涉及到从总体抽取样本实验观察性研究中,观察到的结果都有可能只不过是由英语sampling error产生的。但是,如果一个观察结果的p值小于(或等于)显著性水平α,研究者就可以得出“该结果能反映总体的特征”的结论,并拒绝零假设。

顯著性差異的原因可能是:

  • 參與比對的數據是來自不同實驗對象,如比-西一般能力測驗中,大學學歷被試組的成績與小學學歷被試組之間,會存在顯著性差異;
  • 也可能是因為實驗處理對實驗對象造成了改變,因而前測、後測的數據會有顯著性差異。例如,記憶術研究發現,被試者學習某記憶法前的成績,和學習記憶法後的記憶成績會有顯著性差異,則這一差異很可能來自於這種記憶法對被試記憶能力的改變。

歷史

顯著性差異的提出可追溯到18世纪,约翰·阿巴思诺特英语John Arbuthnot皮埃尔-西蒙·拉普拉斯作出了男女出生概率均等的零假设,然后计算了人类出生时性别比p值

1925年,羅納德·費雪在《研究工作者的统计方法英语Statistical Methods for Research Workers》一书中提出了统计假设检验的思想,称之为“显著性检验”(tests of significance)。費雪建議将1/20(=0.05)的概率作为拒绝虛無假說的一个截断值。在1933年的一篇论文中,耶日·内曼埃贡·皮尔逊把这个截断值称为“显著性水平”,並賦予它符號α。他们建议,α值應當在收集任何数据收集之前提前设定。

費雪最初將显著性水平定為0.05,但他并不打算将这一截断值定死。在他1956年出版的《统计方法与科学推断》一书中,他建议根据具体情况确定显著性水平。

相關概念

显著性水平αp值的阈值,當pα時就拒絕零假设(即使零假设仍有可能是正确的)。这意味着α也是在零假设正确的情况下错误地将其否定的概率,称为伪阳性型一錯誤、棄真錯誤、α錯誤。

而有些研究者偏好使用置信水平γ = 1 − α。它是零假设成立时不拒绝零假设的概率。置信水平和置信区间是Neyman于1937年提出的。

顯著水準

顯著水準significance level,符號:α)常用于假设检验中检验假设和实验结果是否一致,它代表在虛無假說(記作显著性差异: 歷史, 顯著水準, 局限性 )為真時,錯誤地拒絕显著性差异: 歷史, 顯著水準, 局限性 的機率,即發生型一錯誤(棄真錯誤、α錯誤)的機率。

比如,我們從兩個母體中分別抽取了兩組樣本數據A和B,這兩組數據在顯著水準α = 0.05下具備顯著性差異。這是說,兩組數據所代表的母體具備顯著性差異的可能性為95%;但它們代表的母體仍有5%的可能性是沒有顯著性差異的,這5%是由於英语sampling error造成的。也可表述为:

  • 如果拒绝“两组数据一致(二者不具备显著性差异)”的零假设(接受“两组数据不一致”的备择假设),此时有5%的可能性犯第一类错误
  • 如果A=两组数据不具备显著差异;B=实际数据具有显著差异,則P(A|B) = 0.05,即統計100次,預期是B情況,但可能出現5次的A情況。

假說檢定所測得之數據之間具有顯著性差異,實驗的虛無假說就可被推翻,也就是拒絕显著性差异: 歷史, 顯著水準, 局限性 ,接受對立假說(alternative hypothesis,記作显著性差异: 歷史, 顯著水準, 局限性 显著性差异: 歷史, 顯著水準, 局限性 );反之,若數據之間不具備顯著性差異,則拒絕對立假說,不拒絕虛無假說。通常情況下,實驗結果需要證明達到顯著水準α = 0.050.01,才可以說數據之間具備了顯著性差異,否則就如上所述,容易作出錯誤的推論。在作結論時,應確實描述方向性(例如顯著大於或顯著小於)。

数学表述为:引入p值作为检验样本(test statistic)观察值的最低顯著水準。在α = 0.01α = 0.05的条件下,若零假设成立的概率p)小于α,则表示零假设成立的情况下得到这种观测结果的概率,比1%或5%還低,在该显著性水平下,我们可拒绝该零假设。

  • P(X=x)<α=0.05为“显著(significant)”,统计分析软件SPSS中以*标记;
  • P(X=x)<α=0.01为“极显著(extremely significant)”,通常以**标记。

局限性

研究人员常常只关注他们的结果是否具有统计学意义,但其报告的结果可能并没有实质性,或者研究结果无法重現英语Reproducibility。统计学意义与实际意义之间也不能等同,有统计学意义的研究未必就有实际意义。

效应值

效应值是衡量一项研究的实际意义。统计上显著的结果可能效应量很低。为了衡量结果的研究意义,研究人员最好同时给出效应值和p值。效应量量化了效应的强度,例如以标准差为单位的两个平均值之间的距离(Cohen's d)、两个变量之间的相关系数其平方,以及其他度量。

再现性

统计上显著的结果未必能够轻易重現英语Reproducibility。特别是一些有显著性差异的结果实际上是假阳性。重现结果每失败一次,都意味着研究结果实际上为假阳性的可能性增加。

参见

参考文献

Tags:

显著性差异 歷史显著性差异 顯著水準显著性差异 局限性显著性差异 参见显著性差异 参考文献显著性差异P值假說檢定型一錯誤與型二錯誤統計學虛無假說

🔥 Trending searches on Wiki 中文:

假面的女王做工的人 (電視劇)異形:聖約太平天国想見你 (電影)朝鲜民主主义人民共和国芈月传連詩雅龍與地下城:盜賊榮耀侯友宜中国共产党機智醫生生活地獄樂文俊輝杨紫琼NMIXX反對動態清零政策運動譚松韻臺南縣戀慕 (電視劇)張韶涵全智賢你的名字。朱玄英自慰龍婷朱令铊中毒事件機智校園生活INFJ極度俏郎君郑星一以家人之名李碩珉橋本環奈元素周期表EU超時任務第58屆百想藝術大獎悲情城市浪漫醫生金師傅林書豪Dream (電影)臺北市李一桐林重威马德里公开赛鬼玩人:復活谯国夫人 (电视剧)越南战争ITZY深圳地铁肖戰八村壘玩命關頭9杨洋安孝燮伊丽莎白二世文相敏黃健瑋山中森林關於我轉生變成史萊姆這檔事角色列表斛珠夫人炎亞綸妥瑞症壞媽媽 (電視劇)六道的惡女們纸之月 (韩国电视剧)长空之王媽祖史蒂文·連王心凌崩坏:星穹铁道角色列表陳姸霏Instagram朴恩斌曾敬驊媽的多重宇宙梅艷芳🡆 More