在分類資料統(tǒng)計分析中我們常會遇到這樣的資料,如兩組大白鼠在不同致癌劑作用下的發(fā)癌率如下表,問兩組發(fā)癌率有無差別?
處理 | 發(fā)癌數(shù) | 未發(fā)癌數(shù) | 合計 | 發(fā)癌率% |
甲組 | 52 | 19 | 71 | 73.24 |
乙組 | 39 | 3 | 42 | 92.86 |
合計 | 91 | 22 | 113 | 80.33 |
52 19
39 3
是表中最基本的數(shù)據(jù),因此上表資料又被稱之為四格表資料??ǚ綑z驗的統(tǒng)計量是卡方值,它是每個格子實際頻數(shù)A與理論頻數(shù)T差值平方與理論頻數(shù)之比的累計和。每個格子中的理論頻數(shù)T是在假定兩組的發(fā)癌率相等(均等于兩組合計的發(fā)癌率)的情況下計算出來的,如第一行第一列的理論頻數(shù)為71*91/113=57.18,故卡方值越大,說明實際頻數(shù)與理論頻數(shù)的差別越明顯,兩組發(fā)癌率不同的可能性越大。
利用統(tǒng)計學(xué)軟件分析結(jié)果如下:
data kafang;
input row column number @@;
cards;
1 1 52
1 2 19
2 1 39
2 2 3
;
run;
proc freq;
tables row*column/chisq;
weight number;
run;
統(tǒng)計量 | 自由度 | 值 | 概率 |
卡方 | 1 | 6.4777 | 0.0109(有統(tǒng)計學(xué)意義) |
似然比卡方 | 1 | 7.3101 | 0.0069 |
連續(xù)校正卡方 | 1 | 5.2868 | 0.0215 |
Mantel-Haenszel 卡方 | 1 | 6.4203 | 0.0113 |
Phi 系數(shù) | -0.2394 | ||
列聯(lián)系數(shù) | 0.2328 | ||
Cramer 的 V | -0.2394 |
假設(shè)有兩個分類變量X和Y,它們的值域分另為{x1, x2}和{y1, y2},其樣本頻數(shù)列聯(lián)表為:
y1 | y2 | 總計 | |
x1 | a | b | a+b |
x2 | c | d | c+d |
總計 | a+c | b+d | a+b+c+d |
若要推斷的論述為H1:“X與Y有關(guān)系”,可以利用獨(dú)立性檢驗來考察兩個變量是否有關(guān)系,并且能較精確地給出這種判斷的可靠程度。具體的做法是,由表中的數(shù)據(jù)算出隨機(jī)變量K^2的值(即K的平方)
K^2 = n (ad - bc) ^ 2 / [(a+b)(c+d)(a+c)(b+d)] 其中n=a+b+c+d為樣本容量
K^2的值越大,說明“X與Y有關(guān)系”成立的可能性越大。
當(dāng)表中數(shù)據(jù)a,b,c,d都不小于5時,可以查閱下表來確定結(jié)論“X與Y有關(guān)系”的可信程度:
P(K^2≥k) | 0.50 | 0.40 | 0.25 | 0.15 | 0.10 |
k | 0.455 | 0.708 | 1.323 | 2.072 | 2.706 |
P(K^2≥k) | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 |
k | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
例如,當(dāng)“X與Y有關(guān)系”的K^2變量的值為6.109,根據(jù)表格,因為5.024≤6.109<6.635,所以“X與Y有關(guān)系”成立的概率為1-0.025=0.975,即97.5%。