test CHi-kwadrat, Metody Analizy Danych

[ Pobierz całość w formacie PDF ]
Testychi-kwadrat
1
plikchi.tex16maja2005
4RozkÃladchi-kwadrat(
Â
2
)itestychi-kwadrat
4.1De¯nicjarozkÃladuchi-kwadratisposbywyznaczaniapraw-
dopodobie¶nstwwtymrozkÃladzie
Okre¶slmyzmienn
,
alosow
,
a
X
f
jakosum
,
ekwadrat¶ow
f
niezale_znychzmiennychlosowych
orozkÃladzienormalnym:
X
f
=
Z
2
1
+
:::
+
Z
2
f
;
gdzie
Z
i
»N
(0
;
1)
;i
=1
;:::f:
(4.1)
De¯nicja.
RozkÃladprawdopodobie¶nstwazmiennejlosowej
X
f
{utworzonejwg.wzoru4.1
{nazywasi
,
erozkÃlademchi-kwadrat(
Â
2
).
RozkÃlad
Â
2
charakteryzujesi
,
ejednymparametrem
f
nazywanymliczb
,
astopniswo-
body.Parametrtenoznaczaliczb
,
eniezale_znychskÃladnik¶owwewzorzede¯nicyjnym4.1.
Funkcjag
,
esto¶scirozkÃladu
g
(
x
;
f
)zmiennejlosowej
X
okre¶slonejwzorem4.1wyra_zasi
,
e
wzorem:
8
>
>
<
0 dla

0
;
1
g
(
x
;
f
)=
2
e
¡x=
2
dla
x>
0
:
(4.2)
2
f=
2
¡(
f=
2)
x

2
>
>
:
PrzykÃladowewykresyfunkcjig
,
esto¶scirozkÃladuchi-kwadratdlaparametr¶ow
f
=1
;
2
;
3
i
f
=15
;
30s
,
apodanenarysunku4.1.
Rozklad chi−kwadrat dla f = 1, 2, 3
Rozklad chi−kwadrat dla f = 15 i f= 30
1
0.08
0.9
f=15
0.07
f=1
0.8
0.06
0.7
0.05
0.6
0.5
0.04
f=30
0.4
0.03
f=2
0.3
0.02
0.2
0.01
f=3
0.1
0
0
0
10
20
30
40
50
60
0
2
4
6
8
10
12
14
16
18
20
x = obserwowana wartosc zmiennej X
f
x = obserwowana wartosc zmiennej X
f
Rysunek4.1:
WykresyrozkÃladuchi-kwadratzliczb
,
astopniswobodyf
=1
;
2
;
3
{lewy
rysunek,orazf
=15
;
30
{prawyrysunek.Naosi'x'podanowarto¶sci,jakiemog
,
aby¶c
przyjmowaneprzezzmienn
,
alosow
,
aX
f
,anaosi'y'przedstawionoodpowiedni
,
ag
,
esto¶s¶c
prawdopodobie¶nstwag
(
x;f
)
f
plikichi123.eps,chi1530.epsg
Analizuj
,
acprzebiegkrzywychg
,
esto¶scimo_znazauwa_zy¶c,_zeprzywzrastaj
,
acychwarto¶sciach
liczbystopniswobody
f
{rozkÃladyg
,
esto¶sciprzesuwaj
,
asi
,
enaprawoistaj
,
asiecorazbar-
dziejpodobnedorozkÃladunormalnego.Pocz
,
awszyodf=3g
,
esto¶s¶crozkÃladu
g
(
x
;
f
)posiada
jednomaksimumwpunkcie
x
=

2.
Testychi-kwadrat
2
Mo_znawykaza¶c,_ze
E
(
X
f
)=
f; Var
(
X
f
)=2
f:
(4.3)
Warto¶sciprawdopodobie¶nstwwrozkÃladziechi-kwadratodczytujemyzespecjalnychta-
blicsporz
,
adzonychdlar¶o_znychstopniswobody
f
.Tablicetes
,
asporz
,
adzonenaog¶oÃldla
warto¶sci

50.Dla
f>
50(aczasemnawetju_zdla
f>
30)posÃlugujemysi
,
eprzy-
bli_zeniemzapomocurozkÃladunormalnego.Korzystamywtedyztwierdzeni
am¶o
wi
,
acego,
_zegdyliczbastopniswobodyro¶snienieograniczenie,tozmiennalosowa
q
2
X
f
d
,
a_zydo
rozkÃladu
N
(
p
2

1
;
1):
q
q
gdy
f!1;
to
2
X
f
¡!Z;
gdzie
Z»N
(
2

1
;
1)
:
WybranekwantylezrozkÃladu
Â
2
f
{liczbastopniswobody,
®
{poziomistotno¶sci
L.st.sw.

=0
:
05
®
=0
:
01
12 21.03 26.22
14 23.69 29.14
16 26.30 32.00
20 31.41 37.57
24 36.42 42.98
25 37.65 44.31
26 38.89 45.64
30 43.77 50.89
40 55.76 63.69
50 67.50 76.15
Dla
n>
50korzystamyzrozkÃladuasymptotycznego
L.st.sw.

=0
:
05
®
=0
:
01
1 3.841 6.635
2 5.991 9.210
3 7.815 11.340
4 9.488 13.28
5 11.070 15.09
6 12.590 16.81
7 14.07 18.48
8 15.51 20.09
9 16.92 21.67
10 18.31 23.21
q
2
X
f
»N
(
p
2

1
;
1)
4.2Testchi-kwadratjakokryteriumjednorodno¶scirozkÃladu
Rozpatrzymyterazsytuacj
,
e,gdycaÃledanes
,
apodzielonenajednakowolicznepodgrupy
(klasy){jestich
K
.Dlaka_zdegoosobnika(ka_zdegowektoradanych)obserwowanejest
pewnezjawisko,kt¶orejestkodowanebinarnie:1,gdyzjawiskowyst
,
apiÃlo,oraz0,gdy
zjawiskoniewyst
,
apiÃlo.
Wwynikupodsumowaniadanychotrzymano,_zedlapodgrup
k
=1
;:::;K
liczebno¶sci
wyst
,
apieniazjawiskawkolejnychpodgrupachwynosz
,
aodpowiednio
n
1
;n
2
;:::;n
K
.W
sumie,dlawszystkichdanych,zaobserwowano
n
1
+
n
2
+
:::
+
n
K
=
n
¤
zjawisk.
Pytamysi
,
e,czyprawdopodobie¶nstwowyst
,
apieniaobserwowanegozjawiskajesttakie
samowewszystkichpodgrupach.
PodziaÃlnapodgrupydanychmo_zeby¶cdokonanynapodstawiepewnejcechyjako¶sciowej,
czyliatrybutuwyst
,
epuj
,
acegowkilkukategoriach.PrzykÃladowo,atrybutemmo_zeby¶cdzie¶n
roboczytygodnia,okre¶slonyw
K
=5kategoriach:Po,Wt,

Sr,Cz,Pt.Innymatrybutem
mo_zeby¶cnp.
Kontroler
,akategoriamitegoatrybutus
,
aidenty¯katorykontroler¶ow.
Takwi
,
ecrozwa_zamydane,kt¶oremo_znaprzedstawi¶cwg.nast
,
epuj
,
acegoschematu:
 Testychi-kwadrat
3
Atrybut Jegokategorie(podgrupy)Badanezjawisko
Dzie¶ntygodniaPo,Wt,

Sr,Cz,Pt,So,NiLiczbakradzie_zy
Dzie¶ntygodniaPo,Wt,

Sr,Cz,Pt Liczbawypadk¶ow
Nridkasjerki#1,#2,#3,#4,#5 Liczbareklamacjidoposzczeg¶olnychkasjerek
Miesi
,
acroku I,II,....XI,XII Liczbawykupionychpolis
Pozebraniuodpowiednichdanychsprz
,
adzamytablic
,
erozdzielcz
,
a,pokazuj
,
ac
,
ailerazy
zanotowanowyst
,
apieniedanegozjawiskawposzczeg¶olnychkategoriachstanowi
,
acychpod-
grupy(klasy)danych.
PrzykÃladowo,wsytuacji:
atrybut=dzie¶ntygodnia
,
zjawisko=pasa_zerbezbiletu
mo-
gliby¶smyotrzyma¶cnast
,
epuj
,
ac
,
atabelk
,
e:
Tablica4.1:
Liczbapasa_zer¶owbezbiletuwdniachroboczychtygodnia
NrkolejnyDzientygodniaLiczbapasa_zer¶owbezbiletu
1 PoniedziaÃlek 8
2 Wtorek 12
3

Sroda 9
4 Czwartek 12
5 Pi
,
atek
19
Razem 60
ÃLatwozauwa_zy¶c,_zepasa_zer¶owbezbiletubyÃlonajwi
,
ecejwpi
,
atek.Czyzaobserowana
liczba
'19'
jeststatystycznieistotna?Czyrzeczywi¶sciewpi
,
atkije¶zdziwi
,
ecejpasa_zer¶ow
bezbiletu?
Abytostwierdzi¶c,nale_zywykona¶codpowiedniteststatystyczny.
Teststatystycznywery¯kujejak
,
a¶shipotez
,
estatystyczn
,
a.Wnaszymprzypadkub
,
edzie
tohipotezaojednostajno¶sci(czylir¶ownomierno¶sci)rozkÃladuzmiennejlosowejoznaczaj
,
acej
liczb
,
epasa_zer¶owbezbiletuwdanymdniuroboczymtygodnia.
Teststatystycznyprzebiegaw3krokach:
Krok1.SformuÃlowaniehipotezyzerowej
H
0
iwyb¶orstatystykitestowej.Przytestach
przedstawianychwtymrozdzialestatystyk
,
etestow
,
ab
,
edziemyoznacza¶csymbolem
chi
.Ostatystycetejwiadomo,_ze
²
je¶sliliczebno¶scipodklass
,
adostateczniedu_ze
(warto¶scioczekiwanewpodklasachwynosz
,
aconajmniej5)orazje¶sli
²
przyj
,
etahi-
potezazerowaoniezale_zno¶scizmiennychskategoryzowanychjestprawdziwa,tosta-
tystykatamarozkÃladchi-kwadratz
f
stopniamiswobody
1
.
Krok2.Obliczeniewarto¶sciprzyj
,
etejstatystykitestowej
chi
napodstawieanalizowanych
danych{przyzaÃlo_zeniuprawdziwo¶scizaÃlo_zonejhipotezyzerowej
H
0
.Otrzymujemy
wtedytzw.
chi
obl
.
Krok3.Ocenaistotno¶sciobliczonejwarto¶sci
chi
obl
{czylizbadanie,czytakawarto¶s¶c,
jak
,
aotrzymali¶smyzoblicze¶nnanaszychdanych,mogÃlasi
,
ezdarzy¶cprzyprawdziwo¶sci
zaÃlo_zonejhipotezyzerowej.Robimyto,badaj
,
acrozkÃladstatystykitestowej
chi
przy
prawdziwo¶sci
H
0
.
1
liczbastopniswobody
f
zale_zyodrozmiar¶owtablicywielodzielczejiwyspecy¯kowanejhipotezyzerowej
Testychi-kwadrat
4
Dlarozwa_zanegowtympodrozdzialetestujednorodno¶sci,statystyka
chi
marozkÃlad
Â
2
(chi{kwadrat)zliczb
,
astopniswobody
f
=

1,gdzie
K
oznaczaliczb
,
e
rozwa_zanychklas(kategorii,stanowi
,
acychpodgrupy).
2
DlaomawianegoprzykÃladu
Liczbapasa_zer¶owbezbiletu
proceduratestuj
,
acajestnast
,
epuj
,
aca:
Krok1.FormuÃlujemyhipotez
,
ezerow
,
apostaci:
H
0
:
p
1
=
p
2
=
p
3
=
p
4
=
p
5
=1
=
5.Hipotezataorzeka,_zeprawdopodobie¶nstwo
wyst
,
apieniazjawiskajesttakiesamowka_zdejklasie,czyliniezale_zyodnumeruklasy.
Jakostatystyk
,
etestow
,
aprzyjmujemywyra_zenie
5
X
[
n
i
¡E
(
n
i
)]
2
=E
(
n
i
)
;
chi
=
(4.4)
i
=1
gdzie
n
i
oznaczaliczb
,
ezjawiskzaobserwowanych,
a
E
(
n
i
){liczb
,
ezjawiskoczekiwanychw
i
-tejklasie,gdyhipoteza
H
0
jestprawdziwa.
Je¶slitakjest,towarto¶s¶coczekiwana
E
(
n
i
)wyznaczasi
,
ewedÃlugwzoru:
E
(
n
i
)=
n
¤
£p
i
; i
=1
;:::;K:
Krok2.Obliczamywarto¶scistatystykitestowej
chi
napodstawieanalizowanychdanych
{posÃluguj
,
acsi
,
ewzorem4.4.Otrzymujemywtenspos¶obwarto¶s¶c
chi
obl
=6
:
11.
Obliczenias
,
aprzedstawionewtabelceponi_zej.
Tabelkaoblicze¶ndladanych:Liczbapasa_zer¶owbezbiletu
NriDzien
n
i
E
(
n
i
)
n
i
¡E
(
n
i
)[
n
i
¡E
(
n
i
)]
2
[
n
i
¡E
(
n
i
)]
2
=E
(
n
i
)]
1 Po 8 12 -4 16 1.33
2Wt 12 12 0 - -
3

Sr 9 12 -3 9 0.75
4 Cz 12 12 0 - -
5 Pi
19
12 7 49 4.08
Suma60 60 0
6.11
Takwi
,
ecobliczonawarto¶s¶cstatystykitestowejwynosi
chi
obl
=6
:
11.
Krok3.Ocenaistotno¶sciobliczonejwarto¶scistatystykitestowej.
Je_zeliwszystkieoczekiwaneliczebno¶scis
,
aniemniejszeni_z5,torozkÃladobliczonej
statystyki
chi
mo_znaoblicza¶czrozkÃladu
Â
2
z
f
=

1stopniamiswobody.
DlanaszegoprzykÃladunale_zyobliczy¶cprawdopodobienstwo,_zewyznaczonaprzez
naswarto¶s¶cstatystykichi-kwadratprzekroczywarto¶s¶c
chi
obl
=6
:
11.Gdy
f
=4,to
prawdopodobie¶nstwotowynosi:
P
=
Prfchi¸chi
obl
jH
0
g
=0
:
19
:
Obliczoneprawdopodobie¶nstwojestdo¶s¶cumiarkowane(niejestbardzomaÃle),awi
,
ec
takiwynik,jakotrzymali¶smy,jestmo_zliwyprzyzaÃlo_zonejhipoteziezerowej.Tym
samymniemapowodudoodrzuceniazalo_zonejhipotezyzerowej.
2
wdalszymci
,
agu,przyocenieistotno¶sciotrzymanegowyniku,potrzebnyjestwarunek,abywarto¶sci
oczekiwane
E
i
lub
E
ij
wposzczeg¶olnychklasachwynosiÃlyconajmniej5
Testychi-kwadrat
5
4.3Tablicedwudzielcze{testistotno¶sciasocjacjimi
,
edzyce-
chamiskategoryzowanymi
PrzykÃlad1
Dlan=3209par
<
Ojciec,Syn
>
policzonoliczb
,
epar
<n
ij
>
takich,_ze
StatusOjca=i,StatusSyna=j, i,j=1,...,5
.
Warto¶sci
n
ij
podanowTablicy4.2
3
.
Tablica4.2:
BritishSocialMobilityData,tablicadwudzielcza
Son'sStatus
Father'sStatus A B C D E Sum ^
p

A 50 45 8 18 8 1290.0402
B 28 174 84 154 55 4950.1543
C 11 78 110 223 96 5180.1614
D 14 150 185 714 447 15100.4706
E 0 42 72 32 411 5570.1736
Sum: 103 489 459 1141 1017 32091.0000
^
p
¤j
0.03210.15240.14300.35560.31691.0000
DanezTabelki4.2mo_zemyformalniezapisa¶cwpostaciTabelki4.3.Liczbno¶scipo-
szczeg¶olnychparmaj
,
atamformalnieposta¶c
n
ij
;i;j
=1
:::
5.Pierwszywska¶znikoznacza
numerwiersza,drugi{numerkolumny.Wprowadzamyog¶olneoznaczenia:
w
{liczbawierszytabelki,
k
{liczbakolumntabelki.
WtedydowolnyelementTabelki4.2mo_znaformalnieoznaczy¶c
n
ij
; i
=1
;:::;w;j
=1
;:::;k:
Wprzypadkudanych'BritishSocialMobilityData'mamy:
w
=5
;k
=5.
Tablica4.3:
BritishSocialMobilityData,zapissymboliczny
Son'sStatus
Father'sStatus1 23 4 5 Sum
1
n
11
n
12
n
13
n
14
n
15
n
1
¤
2
n
21
n
22
n
23
n
24
n
25
n
2
¤
3
n
31
n
32
n
33
n
34
n
35
n
3
¤
4
n
41
n
42
n
43
n
44
n
45
n
4
¤
5
n
51
n
52
n
53
n
54
n
55
n
5
¤
Sum:
n
¤
1
n
¤
2
n
¤
3
n
¤
4
n
¤
5
n
¤¤
3

Zr¶odÃlo:[Glass],ksi
,
a_zkaBishop,Fienberg,Holland,DiscreteMultivariateAnalysis,TheoryandPrac-
tice,MITCambridge1975,str.206.
[ Pobierz całość w formacie PDF ]

  • zanotowane.pl
  • doc.pisz.pl
  • pdf.pisz.pl
  • shinnobi.opx.pl