假設檢驗 P 值小於 0 05 的結果就一定好嗎？

1樓：qzqz

假設檢驗的意義主要是確認結論（在統計學意義下的）正確性。0.05這個閾值只是乙個慣例，物理學中就要求5 sigma (p-value=0.

00006％)才能被認可，臨床醫學／新藥開發中也都要求p值很小。

如果想要得到更容易解釋的結果，置信區間可能是乙個更好的選擇。以題目中的例子，使用A方法提高的分數的97.5%置信區間為(1,3), 使用B方法提高分數的97.

5%置信區間為(-1, 0.5), 那麼我們可以在5%的置信水平上認為A比B好；如果B方法的置信區間是(-1, 11)，那麼我們無法確定哪種方法更好。也許B方法更好，但我們並沒有足夠的樣本來驗證，也可能是B方法只適用於部分學生，方差較大。

2樓：

1.關於第乙個問題（是不是一定是A方法好）。

問題並沒有說明原假設和備擇假設分別是什麼，P值=0.02，只是說有差異存在（但是也有可能是A方法使得成績變差了）。如果按著單側檢驗來看，那麼是A方法好，當然前提是抽樣方法和隨機的操作是正確的，同時樣本量和power也在可以接受的範圍內。

2.第二個問題。

又如果，這是兩項同類研究，使用 A 方法的樣本量是100，使用 B 方法的樣本量是25，與學生原始成績比較，A 的平均提高值是 4分，B 的是 10分，還是 A 方法好嗎做個Z檢驗分析就知道結果了。

3.醫學統計中，比如非劣效檢驗的結果判斷，並不是看P值，而是看置信區間的與非劣效界值的關係。P值只是判斷的一項，有時候也要看effect size的。

3樓：chaos

在你第乙個例子中，p=0.02代表拒絕接受「A方法不能提高學習成績」這個說法有98%的可能是正確的；p=0.2代表拒絕接受「B方法不能提高學習成績」這個說法有80%的可能是正確的。

這種時候，我們更有理由相信A方法能夠改變學習成績。

4樓：艾華豐

上面的回答很精彩

結果的差異，主要來自兩方面，1是抽樣誤差，2是方法的改善如果你選擇

A方法選取100個樣本

B方法選取50個樣本

那麼你增加了抽樣誤差的可能性。

5樓：

手機簡答。

1，p 值的參考量是 alpha，與具體某個數無關，只是通常大家見到的是 alpha = 5%。

2，alpha 的意義：錯誤拒絕 H_0 的概率。比如，若 alpha = 5%，則 H_0 被錯誤拒絕的概率是 5%。

所以，乙個小的 p 值僅代表這個錯誤發生的概率小，而不具備解釋任何其他統計意義的功能。

3，至於你最後的舉例：可以選擇乙個你認為有意義的引數（可以是某門或幾門課的平均值、中位數，或者某個 quantil，等等，這取決於你資料的具體情況）然後做乙個兩組引數差與零的單向差異檢測（是大於零還是小於零）。

6樓：

比如用方法A和方法B分別嘗試提高學生數學成績，實施後，A方法P值0.02，B方法P值0.20，那麼就一定是A方法好嗎？

如果我再提供，A的樣本量是100，B的樣本量是25，A的平均提高值是4分，B的是10分，還是A方法好嗎？

——大錯特錯，沒有這樣比的。兩種方法的效果只能比效應量。樣本量和p值，這些是研究設計的問題，和研究課題本身沒有直接關係。

補充：那麼 p 值有什麼用呢？用來判斷它對應的那個效應量是不是隨機出現的。

如果效應量是隨機的（也就是不能拒絕虛無假設），那麼這個效應量就不能用；如果效應量不是隨機的（也就是拒絕虛無假設），那麼這個效應量就可以用。如果兩個效應量都不是隨機的，那麼就可以比較兩個效應量了。也就是說 p 值只能用於和先驗決定的 \alpha 比較大小，不能再用於其它用途。

兩個不同效應量一般用 Cohen's D 來比較。

7樓：

提問者應該是在醫學統計學的背景下考慮這個問題的吧？不是所有假設檢驗的檢驗水準都應該設定在0.05，有很多天生樣本量就極大的研究中，檢驗水準需要設定在很小的水平，比如GWAS研究，我記得需要P<1*10^-9才能算作有統計學意義，因為樣本量實在是太大了，設定為0.

05的話，微不足道的差異都能產生統計學意義來。

對於二分類的事件來說，除了P，OR/RR值和可信區間（confidence interval, CI）也很重要，需要以1為界，看這個因素到底屬於保護因素還是危險因素，還要看CI的上界下界有沒有跨過1這個無效線，如果跨了，還不能斷然這個結果就是有意義的。

除了統計學意義，還需要有臨床意義。一點點差異可能從統計學來講是有意義的，但對臨床來講可能是無意義的。比如你做出乙個結果，表明A佇列的人的平均舒張壓80，B佇列的人的平均舒張壓是82，由於樣本量非常大，P<0.

001，但這兩個值都在正常範圍內且差異很小，而且分析找不到這點差異跟任何其他結局有關，那麼這個統計學意義就沒有帶來任何臨床意義，僅僅是樣本量大而已。同理，可信區間的上界/下界也是需要同時小於/超出過人為設定的「臨床有效」線才證明臨床意義的，而不僅僅是同時小於/超過1。

效應量很大的話，即便P值不是很小，也能增強我們對估計的信心（confidence in estimate）。一般如果OR/RR/HR大於5或者小於0.2（也可以有其他設定），我們說它效應量很大，那麼即便P剛剛剛滿足檢驗水準要求那也應該視為乙個很有臨床意義的結果，即便其研究設計型別只是觀察性研究，我們都要認為這個研究的提供的證據價值很大。

8樓：

假設檢驗本身就是一種合理評價研究結果的方式

原因在於，統計模型和其他所有建模過程一樣是對於實際情況的描述，基於引數和函式；而今天衡量事物的結果需要乙個定量的標準，顯然用的是【事物發生的概率】，而不是【事物是否有可能發生】，因為今天丟一萬次骰子均值為6的概念也是存在的

假設檢驗P值小於0.05這句話，只說明了按照原假設出現實際統計值（就是你用樣本弄出來的）的概率小於0.05這麼個事情，其他啥也不能說明，但是他對於分析來說足夠了；因為如果你覺得按照原假設情況出現這麼個概率小於0.

05的蛋疼事件是不能忍受的（意味著你設定的顯著性水平為0.05），你就可以拋棄原假設了，你就可以認為這麼蛋疼大概不是抽樣誤差導致而是假設出現了錯誤

也就是說這個0.05是相對於顯著性水平來說的根據聶曼-皮爾遜原則，在做出假設後，有兩類錯誤：一類是棄真的錯誤，就是本來原假設是真的，但是統計值卻落在了拒絕域；另一類是取偽的錯誤，就是本來原假設是錯的，但是統計值卻沒有落在拒絕域之所以搞這個東西就是因為兩類錯誤的【嚴重性】不一樣，比如說原假設是「被告無罪」，顯然按英美法系第一類錯誤嚴重很多。

到這裡，顯著性水平的意思就是第一類錯誤的概率，這是你自己定的，而P值，是樣本統計值在原假設分布下算出的概率。

至於【只要樣本足夠大...】，這是由大數定律得出的，意思是當樣本數（或試驗次數）趨於無窮時，樣本均值與總體均值差異趨於零；然後，在樣本數有限的時候，實際上還可以搞出差距的概率，還是挺合理的- -

假設檢驗 P 值小於 0 05 的結果就一定好嗎？

統計學假設檢驗中為什麼P值越小，拒絕原假設的理由就越充分？

統計學假設檢驗中 p 值的含義具體是什麼？

假設檢驗的邏輯是是什麼？

其他用戶還看了：