OLS ir chi kvadrato testo palyginimas. Klasikiniai statistikos metodai: chi kvadrato testas

Šioje pastaboje χ 2 skirstinys naudojamas duomenų rinkinio su fiksuotu tikimybių skirstiniu nuoseklumui patikrinti. Susitarimo kriterijus dažnai O Jūs, priklausantis tam tikrai kategorijai, lyginamas su dažniais, kurių teoriškai būtų galima tikėtis, jei duomenys iš tikrųjų turėtų nurodytą pasiskirstymą.

Testavimas, naudojant χ 2 tinkamumo kriterijų, atliekamas keliais etapais. Pirmiausia nustatomas konkretus tikimybių skirstinys ir lyginamas su pirminiais duomenimis. Antra, iškeliama hipotezė apie pasirinkto tikimybių skirstinio parametrus (pavyzdžiui, jo matematinį lūkestį) arba atliekamas jų įvertinimas. Trečia, remiantis teoriniu skirstiniu, nustatoma teorinė tikimybė, atitinkanti kiekvieną kategoriją. Galiausiai χ2 testo statistika naudojama duomenų nuoseklumui ir paskirstymui patikrinti:

Kur f 0- stebimas dažnis, f e- teorinis arba numatomas dažnis, k- po sujungimo likusių kategorijų skaičius, R- įvertintinų parametrų skaičius.

Atsisiųskite pastabą formatu arba formatu, pavyzdžius formatu

Naudojant χ 2 tinkamumo testą Puasono skirstiniui

Norint apskaičiuoti naudojant šią formulę programoje Excel, patogu naudoti =SUMPRODUCT() funkciją (1 pav.).

Norėdami įvertinti parametrą λ galite naudoti sąmatą . Teorinis dažnis X sėkmės (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 ir daugiau), atitinkančios parametrą λ = 2,9 galima nustatyti naudojant funkciją =POISSON.DIST(X;;FALSE). Padauginus Puasono tikimybę iš imties dydžio n, gauname teorinį dažnį f e(2 pav.).

Ryžiai. 2. Faktiniai ir teoriniai atvykimo rodikliai per minutę

Kaip matyti iš fig. 2, teorinis devynių ar daugiau atvykimų dažnis neviršija 1,0. Siekiant užtikrinti, kad kiekvienos kategorijos dažnis būtų 1,0 ar didesnis, kategorija „9 ar daugiau“ turėtų būti derinama su kategorija „8“. Tai reiškia, kad liko devynios kategorijos (0, 1, 2, 3, 4, 5, 6, 7, 8 ir daugiau). Kadangi Puasono skirstinio matematinis lūkestis nustatomas remiantis imties duomenimis, laisvės laipsnių skaičius lygus k – p – 1 = 9 – 1 – 1 = 7. Naudodami 0,05 reikšmingumo lygį, randame χ 2 statistikos kritinė reikšmė, kuri pagal formulę =CHI2.OBR(1-0.05;7) = 14.067 turi 7 laisvės laipsnius. Sprendimo taisyklė formuluojama taip: hipotezė H 0 atmetamas, jei χ 2 > 14,067, kitu atveju hipotezė H 0 nenukrypsta.

Norėdami apskaičiuoti χ 2, naudojame formulę (1) (3 pav.).

Ryžiai. 3. Puasono skirstinio χ 2 tinkamumo kriterijaus apskaičiavimas

Kadangi χ 2 = 2,277< 14,067, следует, что гипотезу H 0 negali būti atmestas. Kitaip tariant, neturime pagrindo teigti, kad klientų atėjimas į banką nepaklūsta Puasono paskirstymui.

χ 2 -tinkamumo testo taikymas normaliajam pasiskirstymui

Ankstesnėse pastabose, tikrindami hipotezes apie skaitinius kintamuosius, manėme, kad tiriama populiacija buvo normaliai pasiskirstyta. Norėdami patikrinti šią prielaidą, galite naudoti grafinius įrankius, pavyzdžiui, langelio diagramą arba normalaus pasiskirstymo grafiką (daugiau informacijos žr.). Didelės imties dydžių atveju šioms prielaidoms patikrinti galima naudoti normaliojo skirstinio χ 2 tinkamumo testą.

Kaip pavyzdį panagrinėkime 158 investicinių fondų 5 metų grąžos duomenis (4 pav.). Tarkime, kad norite patikėti, ar duomenys paskirstyti įprastai. Nulinės ir alternatyvios hipotezės formuluojamos taip: H 0: 5 metų derlius yra normalus, H 1: 5 metų derlius nesilaiko normalaus pasiskirstymo. Normalusis skirstinys turi du parametrus – matematinį lūkestį μ ir standartinį nuokrypį σ, kurį galima įvertinti remiantis imties duomenimis. Tokiu atveju = 10,149 ir S = 4,773.

Ryžiai. 4. Sutvarkytas masyvas, kuriame yra duomenys apie 158 fondų penkerių metų vidutinę metinę grąžą

Duomenys apie fondų grąžą gali būti grupuojami, pavyzdžiui, į klases (intervalus), kurių plotis yra 5% (5 pav.).

Ryžiai. 5. 158 fondų penkerių metų vidutinės metinės grąžos dažnumo pasiskirstymas

Kadangi normalusis pasiskirstymas yra ištisinis, būtina nustatyti figūrų plotą, kurį riboja normaliojo pasiskirstymo kreivė, ir kiekvieno intervalo ribas. Be to, kadangi normalusis pasiskirstymas teoriškai svyruoja nuo –∞ iki +∞, būtina atsižvelgti į formų, kurios nepatenka į klasės ribas, plotą. Taigi plotas po normaliąja kreive į kairę nuo taško –10 yra lygus figūros, esančios po standartizuota normaliąja kreive į kairę nuo Z reikšmės, plotui.

Z = (–10 – 10,149) / 4,773 = –4,22

Figūros plotas, esantis po standartizuota normaliosios kreivės kairėje nuo reikšmės Z = –4,22, nustatomas pagal formulę =NORM.DIST(-10;10,149;4,773;TRUE) ir yra maždaug lygus 0,00001. Norint apskaičiuoti figūros, esančios po normaliąja kreive tarp taškų –10 ir –5, plotą, pirmiausia reikia apskaičiuoti figūros, esančios į kairę nuo –5, plotą: =NORM.DIST( -5,10.149,4.773,TRUE) = 0,00075 . Taigi figūros, esančios po normaliąja kreive tarp taškų –10 ir –5, plotas yra 0,00075 – 0,00001 = 0,00074. Panašiai galite apskaičiuoti figūros plotą, kurį riboja kiekvienos klasės ribos (6 pav.).

Ryžiai. 6. Sritys ir numatomi dažniai kiekvienai 5 metų grąžos klasei

Matyti, kad teoriniai dažniai keturiose kraštutinėse klasėse (dvi minimalios ir dvi didžiausios) yra mažesni už 1, todėl klases sujungsime, kaip parodyta 7 pav.

Ryžiai. 7. Skaičiavimai, susiję su χ 2 tinkamumo testu normaliajam pasiskirstymui

χ 2 kriterijų naudojame duomenims suderinti su normaliuoju skirstiniu, naudodami (1) formulę. Mūsų pavyzdyje po sujungimo lieka šešios klasės. Kadangi numatoma vertė ir standartinis nuokrypis apskaičiuojami pagal imties duomenis, laisvės laipsnių skaičius yra kp – 1 = 6 – 2 – 1 = 3. Naudodami 0,05 reikšmingumo lygį, nustatome, kad kritinė χ 2 statistikos reikšmė, kuri turi tris laisvės laipsnius = CI2.OBR(1-0,05;F3) = 7,815. Skaičiavimai, susiję su χ 2 tinkamumo kriterijaus naudojimu, parodyti Fig. 7.

Matyti, kad χ 2 -statistika = 3,964< χ U 2 7,815, следовательно гипотезу H 0 negali būti atmestas. Kitaip tariant, neturime pagrindo teigti, kad į didelį augimą orientuotų investicinių fondų 5 metų grąža nėra normaliai paskirstoma.

Keliuose naujausiuose pranešimuose buvo nagrinėjami skirtingi kategoriškų duomenų analizės metodai. Aprašomi hipotezių apie kategoriškus duomenis, gautus analizuojant dvi ar daugiau nepriklausomų imčių, tikrinimo metodai. Be chi kvadrato testų, atsižvelgiama į neparametrines procedūras. Aprašytas Wilcoxon rango testas, kuris naudojamas situacijose, kai netenkinamos taikymo sąlygos t-hipotezės apie dviejų nepriklausomų grupių matematinių lūkesčių lygybę tikrinimo kriterijus, taip pat Kruskal-Wallis testą, kuris yra alternatyva vienfaktorinei dispersijos analizei (8 pav.).

Ryžiai. 8. Hipotezių apie kategoriškus duomenis tikrinimo metodų blokinė diagrama

Naudojama medžiaga iš knygos Levin et al. Statistics for Managers. – M.: Williams, 2004. – p. 763–769

​ Pearsono χ 2 testas yra neparametrinis metodas, leidžiantis įvertinti skirtumų tarp faktinio (atskleisto) rezultatų skaičiaus arba kiekvienos kategorijos imties kokybinių charakteristikų ir teorinio skaičiaus, kurio galima tikėtis tiriamajame. grupės, jei nulinė hipotezė yra teisinga. Paprasčiau tariant, metodas leidžia įvertinti dviejų ar daugiau santykinių rodiklių (dažnių, proporcijų) skirtumų statistinį reikšmingumą.

1. χ 2 kriterijaus raidos istorija

Chi kvadrato testą, skirtą nenumatytų atvejų lentelėms analizuoti, sukūrė ir 1900 m. pasiūlė anglų matematikas, statistikas, biologas ir filosofas, matematinės statistikos pradininkas ir vienas iš biometrinių duomenų įkūrėjų. Karlas Pearsonas(1857-1936).

2. Kodėl naudojamas Pirsono χ 2 testas?

Analizuojant galima naudoti chi kvadrato testą nenumatytų atvejų lentelės informacija apie pasekmių dažnumą priklausomai nuo rizikos veiksnio buvimo. Pavyzdžiui, keturių laukų nenumatytų atvejų lentelė taip:

Yra rezultatas (1) Nėra rezultato (0) Iš viso
Yra rizikos veiksnys (1) A B A+B
Nėra rizikos faktoriaus (0) C D C+D
Iš viso A+C B+D A+B+C+D

Kaip užpildyti tokią nenumatytų atvejų lentelę? Pažvelkime į nedidelį pavyzdį.

Atliekamas tyrimas dėl rūkymo įtakos rizikai susirgti arterine hipertenzija. Tam buvo atrinktos dvi tiriamųjų grupės – į pirmąją buvo įtraukta 70 žmonių, kasdien surūkančių bent 1 pakelį cigarečių, į antrąją – 80 tokio pat amžiaus nerūkančiųjų. Pirmoje grupėje 40 žmonių turėjo aukštą kraujospūdį. Antruoju metu arterinė hipertenzija buvo pastebėta 32 žmonėms. Atitinkamai normalus kraujospūdis rūkančiųjų grupėje buvo 30 žmonių (70 - 40 = 30), o nerūkančiųjų - 48 (80 - 32 = 48).

Keturių laukų nenumatytų atvejų lentelę užpildome pradiniais duomenimis:

Gautoje nenumatytų atvejų lentelėje kiekviena eilutė atitinka konkrečią dalykų grupę. Stulpeliuose rodomas žmonių, sergančių arterine hipertenzija arba normaliu kraujospūdžiu, skaičius.

Mokslininkui keliamas uždavinys: ar yra statistiškai reikšmingų skirtumų tarp sergančiųjų kraujospūdžiu dažnumo tarp rūkančiųjų ir nerūkančiųjų? Į šį klausimą galima atsakyti apskaičiavus Pirsono chi kvadrato testą ir palyginus gautą reikšmę su kritine.

3. Pirsono chi kvadrato testo taikymo sąlygos ir apribojimai

  1. Turi būti matuojami palyginami rodikliai vardinė skalė(pavyzdžiui, paciento lytis yra vyras arba moteris) arba in eilinis(pavyzdžiui, arterinės hipertenzijos laipsnis, imant reikšmes nuo 0 iki 3).
  2. Šis metodas leidžia analizuoti ne tik keturių laukų lenteles, kai ir veiksnys, ir rezultatas yra dvejetainiai kintamieji, tai yra, jie turi tik dvi galimas reikšmes (pavyzdžiui, vyriška arba moteriška lytis, ar yra arba nėra). tam tikra liga anamnezėje...). Pirsono chi kvadrato testas taip pat gali būti naudojamas analizuojant kelių laukų lenteles, kai veiksnys ir (arba) rezultatas turi tris ar daugiau reikšmių.
  3. Lyginamos grupės turi būti nepriklausomos, ty chi kvadrato testas neturėtų būti naudojamas lyginant stebėjimus prieš ir po. McNemaro testas(lyginant dvi susijusias populiacijas) arba apskaičiuotas Cochrano Q testas(jei lyginamos trys ar daugiau grupių).
  4. Analizuojant keturių laukų lenteles numatomos vertės kiekvienoje ląstelėje turi būti ne mažiau kaip 10. Jei bent vienoje langelyje laukiamas reiškinys įgyja reikšmę nuo 5 iki 9, reikia apskaičiuoti chi kvadrato testą su Yateso pataisa. Jei bent vienoje ląstelėje numatomas reiškinys yra mažesnis nei 5, tuomet reikia naudoti analizę Tikslus Fisherio testas.
  5. Analizuojant kelių laukų lenteles, numatomas stebėjimų skaičius neturėtų būti mažesnis nei 5 daugiau nei 20 % langelių.

4. Kaip apskaičiuoti Pirsono chi kvadrato testą?

Norėdami apskaičiuoti chi kvadrato testą, jums reikia:

Šis algoritmas taikomas tiek keturių laukų, tiek kelių laukų lentelėms.

5. Kaip interpretuoti Pirsono chi kvadrato testo reikšmę?

Jei gauta χ 2 kriterijaus reikšmė yra didesnė už kritinę reikšmę, darome išvadą, kad yra statistinis ryšys tarp tiriamo rizikos veiksnio ir rezultato atitinkamu reikšmingumo lygiu.

6. Pirsono chi kvadrato testo apskaičiavimo pavyzdys

Rūkymo faktoriaus įtakos arterine hipertenzija sergamumui statistinę reikšmę nustatykime pagal aukščiau aptartą lentelę:

  1. Apskaičiuojame numatomas kiekvieno langelio vertes:
  2. Raskite Pirsono chi kvadrato testo vertę:

    χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. Laisvės laipsnių skaičius f = (2-1)*(2-1) = 1. Pasinaudoję lentele randame Pirsono chi kvadrato testo kritinę reikšmę, kuri prie reikšmingumo lygio p=0,05 ir skaičius 1 laisvės laipsnių yra 3,841.
  4. Gautą chi kvadrato testo reikšmę lyginame su kritine: 4,396 > 3,841, todėl sergamumo arterine hipertenzija priklausomybė nuo rūkymo yra statistiškai reikšminga. Šio ryšio reikšmingumo lygis atitinka p<0.05.
χ 2 kriterijaus paskirtis – Pirsono kriterijus χ 2 kriterijus naudojamas dviem tikslais: 1) palyginti empirinį charakteristikos pasiskirstymą su teoriniu – vienodu, normaliu ar kokiu nors kitu; 2) palyginti du, tris ar daugiau tos pačios charakteristikos empirinių skirstinių. Kriterijaus aprašymas χ 2 kriterijus atsako į klausimą, ar skirtingos charakteristikos reikšmės atsiranda vienodai dažnai empiriniuose ir teoriniuose skirstiniuose, ar dviejuose ar daugiau empirinių skirstinių. Metodo privalumas yra tas, kad jis leidžia palyginti bet kokio masto požymių pasiskirstymą, pradedant nuo pavadinimų skalės. Paprasčiausiu alternatyvaus pasiskirstymo atveju „taip - ne“, „leido defektą - neleido defektuoti“, „išsprendė problemą - neišsprendė problemos“ ir pan., jau galime taikyti χ 2 kriterijų. Kuo didesnis neatitikimas tarp dviejų lyginamų skirstinių, tuo didesnė χ 2 empirinė reikšmė. Automatinis χ 2 – Pirsono kriterijaus apskaičiavimas Norėdami atlikti automatinį χ 2 – Pirsono kriterijaus skaičiavimą, turite atlikti du veiksmus: 1 žingsnis. Nurodykite empirinių skirstinių skaičių (nuo 1 iki 10); 2 žingsnis. Įveskite empirinius dažnius į lentelę; 3 veiksmas. Gaukite atsakymą.

Pirsono kriterijaus pranašumas yra jo universalumas: juo galima patikrinti hipotezes apie įvairius pasiskirstymo dėsnius.

1. Normaliojo skirstinio hipotezės tikrinimas.

Tegul gaunamas pakankamai didelis mėginys P su daugybe skirtingų reikšmių variantu. Apdorojimo patogumui intervalą nuo mažiausios iki didžiausios pasirinkimo reikšmės padalijame į s lygiomis dalimis ir darysime prielaidą, kad parinkčių, patenkančių į kiekvieną intervalą, reikšmės yra maždaug lygios skaičiui, kuris nurodo intervalo vidurį. Suskaičiavę parinkčių, patenkančių į kiekvieną intervalą, skaičių, sukursime taip vadinamą sugrupuotą pavyzdį:

galimybės……….. X 1 X 2 … x s

dažniai…………. P 1 P 2 … n s ,

Kur x i yra intervalų vidurio taškų reikšmės ir n i– įtrauktų variantų skaičius i-intervalas (empiriniai dažniai).



Iš gautų duomenų galite apskaičiuoti imties vidurkį ir imties standartinį nuokrypį σ B. Patikrinkime prielaidą, kad populiacija pasiskirsto pagal normalų dėsnį su parametrais M(X) = , D(X) = . Tada iš imties dydžio galite rasti skaičių skaičių P, kuris turėtų atsirasti kiekviename intervale pagal šią prielaidą (ty teorinius dažnius). Norėdami tai padaryti, naudodamiesi Laplaso funkcijos verčių lentele, randame tikimybę patekti i intervalas:

,

Kur ir aš Ir b i- ribos i– intervalas. Gautas tikimybes padauginę iš imties dydžio n, gauname teorinius dažnius: p i =n·p i Mūsų tikslas yra palyginti empirinius ir teorinius dažnius, kurie, žinoma, skiriasi vienas nuo kito ir išsiaiškinti, ar šie skirtumai yra nereikšmingi ir nepaneigia hipotezės apie normalų tiriamojo atsitiktinio dydžio pasiskirstymą, ar jie yra tokie dideli, kad jie prieštarauja šiai hipotezei. Šiuo tikslu naudojamas atsitiktinio dydžio kriterijus

. (20.1)

Jo reikšmė akivaizdi: sumuojamos dalys, kurias sudaro empirinių dažnių nuokrypių nuo teorinių kvadratai iš atitinkamų teorinių dažnių. Galima įrodyti, kad, nepaisant realaus visumos pasiskirstymo dėsnio, atsitiktinio dydžio (20.1) pasiskirstymo dėsnis krypsta į pasiskirstymo dėsnį (žr. 12 paskaitą) su laisvės laipsnių skaičiumi. k = s – 1 – r, Kur r– numatomo skirstinio parametrų skaičius, įvertintas pagal imties duomenis. Todėl normalusis skirstinys apibūdinamas dviem parametrais k = s – 3. Pasirinktam kriterijui sukonstruojama dešinioji kritinė sritis, nustatoma pagal sąlygą

(20.2)

Kur α - reikšmingumo lygis. Vadinasi, kritinę sritį suteikia nelygybė o hipotezės priėmimo sritis yra .

Taigi, norėdami patikrinti nulinę hipotezę N 0: populiacija pasiskirsto normaliai – iš imties reikia apskaičiuoti pastebėtą kriterijaus reikšmę:

, (20.1`)

ir naudodamiesi skirstinio χ 2 kritinių taškų lentele, raskite kritinį tašką naudodami žinomas α ir k = s – 3. Jei - nulinė hipotezė priimta, jei atmetama.

2. Tolygaus pasiskirstymo hipotezės tikrinimas.

Naudojant Pearsono testą hipotezei patikrinti, kad populiacija pasiskirsto tolygiai su apskaičiuotu tikimybės tankiu

Būtina, apskaičiavus reikšmę iš turimos imties, įvertinti parametrus A Ir b pagal formules:

Kur A* Ir b*- vertinimai A Ir b. Iš tiesų, vienodam paskirstymui M(X) = , , kur galite gauti nustatymo sistemą A* Ir b*: , kurios sprendimas yra išraiškos (20.3).

Tada, darant prielaidą, kad , galite rasti teorinius dažnius naudodami formules

Čia s– intervalų, į kuriuos padalyta imtis, skaičius.

Pastebėta Pirsono kriterijaus reikšmė apskaičiuojama pagal formulę (20,1`), o kritinė vertė apskaičiuojama pagal lentelę, atsižvelgiant į tai, kad laisvės laipsnių skaičius k = s – 3. Po to kritinės srities ribos nustatomos taip pat, kaip ir tikrinant normaliojo skirstinio hipotezę.

3. Hipotezės apie eksponentinį skirstinį tikrinimas.

Šiuo atveju, padaliję esamą imtį į vienodo ilgio intervalus, atsižvelgiame į parinkčių seką, vienodai nutolusias viena nuo kitos (manome, kad visi variantai patenka į i- asis intervalas, paimkite reikšmę, sutampančią su jos viduriu), ir atitinkamus jų dažnius n i(įtrauktų pavyzdžių skaičius i– intervalas). Apskaičiuokime pagal šiuos duomenis ir įvertinkime parametrą λ dydis. Tada pagal formulę apskaičiuojami teoriniai dažniai

Tada palyginama pastebėta ir kritinė Pearsono kriterijaus reikšmė, atsižvelgiant į tai, kad laisvės laipsnių skaičius k = s – 2.

Biologinių tyrimų praktikoje dažnai tenka patikrinti vieną ar kitą hipotezę, tai yra išsiaiškinti, kiek eksperimentuotojo gauta faktinė medžiaga patvirtina teorinę prielaidą, o kiek analizuojami duomenys sutampa su teoriškai numatomais. vieni. Iškyla užduotis statistiškai įvertinti skirtumą tarp faktinių duomenų ir teorinio lūkesčio, nustatyti, kokiais atvejais ir su kokiu tikimybės laipsniu šis skirtumas gali būti laikomas patikimu ir, atvirkščiai, kada jį laikyti nereikšmingu, nereikšmingu, atsitiktinumo ribose. Pastaruoju atveju išlaikoma hipotezė, kuria remiantis apskaičiuojami teoriškai tikėtini duomenys ar rodikliai. Tokia variacinė-statistinė hipotezės tikrinimo metodika yra metodas chi kvadratas (χ 2). Šis matas dažnai vadinamas „tinkamumo kriterijumi“ arba „Pirsono tinkamumo testu“. Su jo pagalba su skirtinga tikimybe galima spręsti apie empiriškai gautų duomenų atitikimo laipsnį teoriškai laukiamiems.

Formaliu požiūriu lyginamos dvi variacijų eilutės, dvi populiacijos: viena yra empirinis skirstinys, kita – imtis su tais pačiais parametrais ( n, M, S ir tt) yra toks pat kaip ir empirinis, tačiau jo dažninis skirstinys sudarytas griežtai laikantis pasirinkto teorinio dėsnio (normalusis, Puasono, binominis ir kt.), kuriam, kaip manoma, turi paklūsti tiriamojo atsitiktinio dydžio elgsena. .

Apskritai atitikties kriterijaus formulę galima parašyti taip:

Kur a – faktinis stebėjimų dažnis,

A – teoriškai numatomas tam tikros klasės dažnis.

Nulinėje hipotezėje daroma prielaida, kad tarp palyginamų skirstinių nėra reikšmingų skirtumų. Norėdami įvertinti šių skirtumų svarbą, turėtumėte vadovautis specialia kritinių chi kvadrato verčių lentele (9 lentelė P) ir lyginant apskaičiuotą vertę χ 2 su lentele nuspręskite, ar empirinis skirstinys patikimai ar nepatikimai nukrypsta nuo teorinio. Taigi hipotezė apie šių skirtumų nebuvimą bus arba paneigta, arba palikta galioti. Jei apskaičiuota vertė χ 2 yra lygus arba viršija lentelę χ ² ( α , df), nuspręskite, kad empirinis skirstinys labai skiriasi nuo teorinio. Taigi hipotezė apie šių skirtumų nebuvimą bus paneigta. Jeigu χ ² < χ ² ( α , df), nulinė hipotezė lieka galioti. Visuotinai pripažįstama, kad reikšmingumo lygis yra priimtinas α = 0,05, nes šiuo atveju yra tik 5% tikimybė, kad nulinė hipotezė yra teisinga, todėl yra pakankamai priežasčių (95%) ją atmesti.


Tam tikra problema yra teisingas laisvės laipsnių skaičiaus nustatymas ( df), kurių kriterijų reikšmės paimtos iš lentelės. Nustatyti laisvės laipsnių skaičių iš bendro klasių skaičiaus k reikia atimti apribojimų skaičių (t. y. parametrų, naudojamų teoriniams dažniams apskaičiuoti, skaičių).

Priklausomai nuo tiriamos charakteristikos pasiskirstymo tipo, pasikeis laisvės laipsnių skaičiaus apskaičiavimo formulė. Dėl alternatyva paskirstymai ( k= 2) skaičiavimuose dalyvauja tik vienas parametras (imties dydis), todėl laisvės laipsnių skaičius yra df= k−1=2−1=1. Dėl daugianario Paskirstymo formulė yra panaši: df= k−1. Patikrinti variacijų serijų atitiktį paskirstymui nuodai jau naudojami du parametrai – imties dydis ir vidutinė vertė (skaitmeniškai sutampanti su dispersija); laisvės laipsnių skaičius df= k−2. Tikrinant empirinio skirstinio nuoseklumą, parinktis normalus arba dvinario Pagal įstatymą laisvės laipsnių skaičius laikomas faktinių klasių skaičiumi, atėmus tris serijų sudarymo sąlygas – imties dydį, vidurkį ir dispersiją, df= k−3. Iš karto verta paminėti, kad χ² kriterijus veikia tik pavyzdžiams ne mažiau kaip 25 variantų apimtis, o atskirų klasių dažniai turėtų būti ne mažesnis kaip 4.

Pirmiausia iliustruojame chi kvadrato testo naudojimą, naudodami analizės pavyzdį alternatyvus kintamumas. Vieno eksperimento, tiriančio pomidorų paveldimumą, metu buvo rasti 3629 raudoni ir 1176 geltoni vaisiai. Teorinis simbolių padalijimo dažnių santykis antroje hibridinėje kartoje turėtų būti 3:1 (nuo 75% iki 25%). Ar jis įgyvendinamas? Kitaip tariant, ar šis mėginys paimtas iš populiacijos, kurioje dažnio santykis yra 3:1 arba 0,75:0,25?

Sukurkime lentelę (4 lentelė), užpildydami empirinių dažnių reikšmes ir teorinių dažnių skaičiavimo rezultatus pagal formulę:

A = n∙p,

Kur p– teoriniai dažniai (šio tipo varianto trupmenos),

n – imties dydis.

Pavyzdžiui, A 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.

23. Chi kvadrato ir Studento skirstinio samprata ir grafinis vaizdas

1) Skirstinys (chi kvadratas), turintis n laisvės laipsnių, yra n nepriklausomų standartinių normaliųjų atsitiktinių dydžių kvadratų sumos skirstinys.

Pasiskirstymas (chi kvadratas)– atsitiktinio dydžio pasiskirstymas (ir kiekvieno iš jų matematinis lūkestis lygus 0, o standartinis nuokrypis – 1)

kur yra atsitiktiniai dydžiai nepriklausomi ir turi tą patį pasiskirstymą. Šiuo atveju terminų skaičius, t.y., vadinamas chi kvadrato skirstinio „laisvės laipsnių skaičiumi“. Chi kvadrato skaičius nustatomas pagal vieną parametrą – laisvės laipsnių skaičių. Didėjant laisvės laipsnių skaičiui, pasiskirstymas pamažu artėja prie normalaus.

Tada jų kvadratų suma

yra atsitiktinis dydis, paskirstytas pagal vadinamąjį chi kvadrato dėsnį su k = n laisvės laipsnių; jei terminai yra susiję kokiu nors ryšiu (pavyzdžiui, ), tai laisvės laipsnių skaičius k = n – 1.

Šio skirstinio tankis

Čia - gama funkcija; konkrečiai, Г(n + 1) = n! .

Todėl chi kvadrato skirstinį lemia vienas parametras – laisvės laipsnių skaičius k.

Pastaba 1. Didėjant laisvės laipsnių skaičiui, chi kvadrato skirstinys palaipsniui artėja prie normalaus.

Pastaba 2. Naudojant chi kvadrato skirstinį, nustatoma daug kitų praktikoje sutinkamų skirstinių, pavyzdžiui, atsitiktinio dydžio skirstinys - atsitiktinio vektoriaus ilgis (X1, X2,..., Xn), koordinatės kurios yra nepriklausomos ir paskirstytos pagal įprastą dėsnį.

Pirmieji χ2 pasiskirstymą nagrinėjo R. Helmertas (1876) ir K. Pearsonas (1900).

Matematika.tiktis.=n; D = 2n

2) Studentų paskirstymas

Apsvarstykite du nepriklausomus atsitiktinius dydžius: Z, kuris turi normalųjį pasiskirstymą ir yra normalizuotas (ty M(Z) = 0, σ(Z) = 1), ir V, kuris yra paskirstytas pagal chi kvadrato dėsnį su k laisvės laipsniai. Tada vertė

turi skirstinį, vadinamą t skirstiniu arba Stjudento skirstiniu su k laisvės laipsniais. Šiuo atveju k vadinamas Studento skirstinio „laisvės laipsnių skaičiumi“.

Didėjant laisvės laipsnių skaičiui, Studento pasiskirstymas greitai artėja prie normalaus.

Šį platinimą 1908 metais įvedė anglų statistas W. Gossetas, dirbęs alaus fabrike. Šioje gamykloje ekonominiams ir techniniams sprendimams priimti buvo taikomi tikimybiniai ir statistiniai metodai, todėl jos vadovybė uždraudė V. Gossetui savo vardu publikuoti mokslinius straipsnius. Tokiu būdu buvo apsaugotos komercinės paslaptys ir „know-how“ V. Gosseto sukurtais tikimybiniais ir statistiniais metodais. Tačiau jis turėjo galimybę publikuotis slapyvardžiu „Studentas“. Gosset-Student istorija rodo, kad net prieš šimtą metų JK vadovai žinojo apie didesnį tikimybinių ir statistinių sprendimų priėmimo metodų ekonominį efektyvumą.