Sveiki kritiški. Kaip interpretuoti Pirsono chi kvadrato testo vertę

Atliekant chi kvadrato testą, patikrinama dviejų nenumatytų atvejų lentelės kintamųjų tarpusavio nepriklausomybė ir dėl to netiesiogiai nustatoma abiejų kintamųjų priklausomybė. Du kintamieji laikomi vienas nuo kito nepriklausomais, jei stebimi dažniai (f 0) ląstelėse sutampa su numatomais dažniais (f e).

Norėdami atlikti chi kvadrato testą naudodami SPSS, atlikite šiuos veiksmus:

  • Meniu pasirinkite komandas Analizuokite(Analizė) > Aprašomoji statistika(Aprašomoji statistika) › Kryžminiai taškai…(Nenumatytų atvejų lentelės)
  • Mygtukas Nustatyti iš naujo(Atstatyti) išvalykite galimus nustatymus.
  • Perkelkite kintamąjį lytį į eilučių sąrašą, o kintamąjį psichiką - į stulpelių sąrašą.
  • Spustelėkite mygtuką Ląstelės...(Ląstelės). Dialogo lange pažymėkite šalia numatytojo žymės langelio Pastebėjus, daugiau žymimųjų laukelių Tikimasi Ir Standartizuotas. Pasirinkimą patvirtinkite mygtuku Tęsti.
  • Spustelėkite mygtuką Statistika…(Statistika).

Atsidarys aukščiau aprašytas dialogo langas. Kryžminiai taškai: statistika.

  • Pažymėkite langelį Chi kvadratas(Chi kvadratas). Spustelėkite mygtuką Tęsti, o pagrindiniame dialogo lange – į Gerai.

Gausite šią nenumatytų atvejų lentelę.

Lytis * Psichinė būsena. Nenumatytų atvejų lentelė.

Psichinė būklė Iš viso
Itin nestabilus Nestabilus Tvarus Labai stabilus
Grindys Moteris Suskaičiuoti 16 18 9 1 44
Numatomas skaičius 7.9 16.6 17.0 2.5 44.0
Std. Likutis 2.9 0.3 -1.9 -0.9
Patinas Suskaičiuoti 3 22 32 5 62
Numatomas skaičius 11.1 23.4 24.0 3.5 62.0
Std. Likutis -2.4 -0.3 1.6 0.8
Iš viso Suskaičiuoti 19 40 41 6 106
Numatomas skaičius 19.0 40.0 41.0 6.0 106.0

Be to, peržiūros lange bus rodomi chi kvadrato testo rezultatai:

Chi kvadrato testai

  • A. 2 langelių (25,0 %) numatomas skaičius yra mažesnis nei 5. Mažiausias numatomas skaičius yra 2,49 (2 langelių (25 %) numatomas dažnis yra mažesnis nei 5. Mažiausias numatomas dažnis yra 2,49.)

Chi kvadrato testui apskaičiuoti naudojami trys skirtingi metodai: Pirsono formulė, tikimybės korekcija ir Mantel-Haenszel testas. Jei nenumatytų atvejų lentelėje yra keturi laukai ir numatoma tikimybė yra mažesnė nei 5, papildomai atliekamas Fišerio tikslus testas.

Pirsono chi kvadrato testas

Paprastai chi kvadrato testui apskaičiuoti naudojama Pearsono formulė:

Čia apskaičiuojama visų nenumatytų atvejų lentelės laukų standartizuotų likučių kvadratų suma. Todėl laukai su didesniu standartizuotu likučiu reikšmingiau prisideda prie chi kvadrato testo skaitinės vertės ir todėl reikšmingo rezultato. Pagal 8.7.2 skirsnyje pateiktą taisyklę standartizuotas likutis 2 ar daugiau rodo reikšmingą skirtumą tarp stebimo ir numatomo dažnio.

Mūsų nagrinėjamame pavyzdyje Pearsono formulė suteikia didžiausią reikšmingą chi kvadrato testo reikšmę (p<0.001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная psyche имеет значение "крайне неустойчивое". У женщин это значение сильно повышено, а у мужчин - понижено.

Chi kvadrato testo teisingumą lemia dvi sąlygos: pirma, numatomi dažniai< 5 должны встречаться не более чем в 20% полей таблицы; во-вторых, суммы по строкам и столбцам всегда должны быть больше нуля.

Tačiau nagrinėjamame pavyzdyje ši sąlyga nėra visiškai įvykdyta. Kaip nurodyta pastaboje po chi kvadrato bandymo lentelės, 25 % laukų numatomas dažnis yra mažesnis nei 5. Tačiau kadangi priimtina 20 % riba4 viršijama tik šiek tiek, o šie laukai dėl labai mažo standartizuoto likučio , prisideda prie chi kvadrato vertės labai mažos dalies, šis pažeidimas gali būti laikomas nereikšmingu.

Tikimybe pakoreguotas chi kvadrato testas

Alternatyva Pearsono formulei chi kvadrato testui apskaičiuoti yra tikimybės korekcija:

Esant dideliam imties dydžiui, Pearsono formulė ir pakoreguota formulė duoda labai panašius rezultatus. Mūsų pavyzdyje tikimybe pataisytas chi kvadrato testas yra 23,688.

Mantel-Haenszel testas

Be to, nenumatytų atvejų lentelėje po pavadinimu tiesinis po linijinio("tiesinis po linijinio") rodoma Mantel-Haenszel testo reikšmė (20.391). Ši Mantel-Haenszel pakoreguoto chi kvadrato testo forma yra dar vienas linijinio ryšio tarp nenumatytų atvejų lentelės eilučių ir stulpelių matas. Jis apibrėžiamas kaip Pirsono koreliacijos koeficiento ir stebėjimų skaičiaus, sumažinto vienu, sandauga:

Tokiu būdu gautas kriterijus turi vieną laisvės laipsnį. Mantel-Haenszel metodas visada naudojamas dialogo lange Kryžminiai taškai: statistika pažymėtas žymimasis laukelis Chi kvadratas. Tačiau su vardine skale susijusiems duomenims šis kriterijus netaikomas.

). Konkreti tikrinamos hipotezės formuluotė kiekvienu atveju skirsis.

Šiame įraše aprašysiu, kaip veikia \(\chi^2\) kriterijus, naudodamas (hipotetinį) pavyzdį iš imunologijos. Įsivaizduokime, kad atlikome eksperimentą, siekdami nustatyti mikrobinės ligos vystymosi slopinimo efektyvumą, kai į organizmą patenka atitinkami antikūnai. Iš viso eksperimente dalyvavo 111 pelių, kurias suskirstėme į dvi grupes, įskaitant atitinkamai 57 ir 54 gyvūnus. Pirmajai pelių grupei buvo sušvirkštos patogeninės bakterijos, o po to buvo įvestas kraujo serumas, kuriame yra antikūnų prieš šias bakterijas. Antrosios grupės gyvūnai buvo kontroliniai – jie gavo tik bakterijų injekcijas. Po kurio laiko inkubacijos paaiškėjo, kad 38 pelės mirė ir 73 išgyveno. Iš mirusiųjų 13 priklausė pirmajai grupei, 25 – antrajai (kontrolinei). Nulinė hipotezė, patikrinta šiame eksperimente, gali būti suformuluota taip: serumo su antikūnais skyrimas neturi įtakos pelių išgyvenimui. Kitaip tariant, mes teigiame, kad pastebėti pelių išgyvenamumo skirtumai (77,2 % pirmoje grupėje ir 53,7 % antroje grupėje) yra visiškai atsitiktiniai ir nesusiję su antikūnų poveikiu.

Eksperimento metu gautus duomenis galima pateikti lentelės pavidalu:

Iš viso

Bakterijos + serumas

Tik bakterijos

Iš viso

Tokios lentelės, kaip parodyta, vadinamos nenumatytų atvejų lentelėmis. Nagrinėjamame pavyzdyje lentelės matmuo yra 2x2: yra dvi objektų klasės („Bakterijos + serumas“ ir „Tik bakterijos“), kurios tiriamos pagal du kriterijus („Negyvas“ ir „Išgyvenęs“). Tai paprasčiausias nenumatytų atvejų lentelės atvejis: žinoma, tiek tiriamų klasių, tiek savybių skaičius gali būti didesnis.

Norėdami patikrinti pirmiau nurodytą nulinę hipotezę, turime žinoti, kokia būtų situacija, jei antikūnai iš tikrųjų neturėtų jokios įtakos pelių išgyvenimui. Kitaip tariant, reikia skaičiuoti numatomi dažniai atitinkamiems nenumatytų atvejų lentelės langeliams. Kaip tai padaryti? Eksperimente iš viso nugaišo 38 pelės, o tai sudaro 34,2% viso dalyvaujančių gyvūnų skaičiaus. Jei antikūnų skyrimas neturi įtakos pelių išgyvenimui, abiejose eksperimentinėse grupėse turėtų būti stebimas vienodas mirtingumo procentas, ty 34,2%. Apskaičiavę, kiek yra 34,2% iš 57 ir 54, gauname 19,5 ir 18,5. Tai yra tikėtini mirtingumo rodikliai mūsų eksperimentinėse grupėse. Tikėtini išgyvenamumo rodikliai apskaičiuojami panašiai: kadangi iš viso išgyveno 73 pelės arba 65,8% viso skaičiaus, numatomi išgyvenamumo rodikliai bus 37,5 ir 35,5. Sukurkime naują nenumatytų atvejų lentelę su numatomais dažniais:

Negyvas

Išgyvenusieji

Iš viso

Bakterijos + serumas

Tik bakterijos

Iš viso

Kaip matome, numatomi dažniai gerokai skiriasi nuo stebimųjų, t.y. atrodo, kad antikūnų skyrimas turi įtakos patogenu užkrėstų pelių išgyvenimui. Šį įspūdį galime kiekybiškai įvertinti naudodami Pearsono tinkamumo testą \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


kur \(f_o\) ir \(f_e\) yra atitinkamai stebimi ir laukiami dažniai. Sumavimas atliekamas visuose lentelės langeliuose. Taigi, pateikiame nagrinėjamą pavyzdį

\[\chi^2 = (13–19,5)^2/19,5 + (44–37,5)^2/37,5 + (25–18,5)^2/18,5 + (29–35,5)^2/35,5 = \]

Ar gauta \(\chi^2\) reikšmė yra pakankamai didelė, kad būtų atmesta nulinė hipotezė? Norint atsakyti į šį klausimą, būtina rasti atitinkamą kriterijaus reikšmę. \(\chi^2\) laisvės laipsnių skaičius apskaičiuojamas kaip \(df = (R - 1)(C - 1)\), kur \(R\) ir \(C\) yra skaičius lentelės konjugacijos eilučių ir stulpelių. Mūsų atveju \(df = (2 -1)(2 - 1) = 1\). Žinodami laisvės laipsnių skaičių, dabar galime lengvai sužinoti kritinę reikšmę \(\chi^2\) naudodami standartinę R funkciją qchisq() :


Taigi, esant vienam laisvės laipsniui, tik 5% atvejų kriterijaus \(\chi^2\) reikšmė viršija 3,841. Mūsų gauta vertė 6,79 žymiai viršija šią kritinę vertę, o tai suteikia mums teisę atmesti nulinę hipotezę, kad nėra ryšio tarp antikūnų skyrimo ir užkrėstų pelių išgyvenimo. Atmesdami šią hipotezę rizikuojame klysti su mažesne nei 5% tikimybe.

Reikėtų pažymėti, kad aukščiau pateikta kriterijaus \(\chi^2\) formulė suteikia šiek tiek padidintas vertes dirbant su 2x2 dydžio nenumatytų atvejų lentelėmis. Priežastis ta, kad paties kriterijaus \(\chi^2\) pasiskirstymas yra tęstinis, o dvejetainių savybių ("mirusių" / "išgyveno") dažniai pagal apibrėžimą yra diskretūs. Šiuo atžvilgiu, skaičiuojant kriterijų, įprasta įvesti vadinamąjį tęstinumo korekcija, arba Yates pataisa :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

„s Chi kvadrato testas su Yates“ tęstinumo korekcijos duomenys: pelių X kvadratas = 5,7923, df = 1, p reikšmė = 0,0161


Kaip matome, R automatiškai taiko Yates tęstinumo pataisą ( Pirsono chi kvadrato testas su Yates“ tęstinumo korekcija). Programos apskaičiuota \(\chi^2\) reikšmė buvo 5,79213. Galime atmesti nulinę hipotezę, kad nėra antikūnų poveikio, rizikuodami klysti su tikimybe, kuri yra šiek tiek didesnė nei 1% (p vertė = 0,0161).

Iki XIX amžiaus pabaigos normalusis skirstinys buvo laikomas visuotiniu duomenų kitimo dėsniu. Tačiau K. Pearsonas pažymėjo, kad empiriniai dažniai gali labai skirtis nuo normalaus skirstinio. Iškilo klausimas, kaip tai įrodyti. Reikėjo ne tik grafinio palyginimo, kuris yra subjektyvus, bet ir griežto kiekybinio pagrindimo.

Taip buvo sugalvotas kriterijus χ 2(chi kvadratas), kuris tikrina skirtumo tarp empirinių (stebimų) ir teorinių (tikėtinų) dažnių reikšmingumą. Tai atsitiko dar 1900 m., tačiau šis kriterijus taikomas ir šiandien. Be to, jis buvo pritaikytas spręsti daugybę problemų. Pirmiausia tai yra vardinių duomenų analizė, t.y. tie, kurie išreiškiami ne kiekybe, o priklausymu kokiai nors kategorijai. Pavyzdžiui, automobilio klasė, eksperimento dalyvio lytis, augalo rūšis ir kt. Tokiems duomenims negali būti taikomos matematinės operacijos, tokios kaip sudėjimas ir daugyba, gali būti apskaičiuotos tik jiems.

Mes žymime stebimus dažnius Apie (stebėta), tikimasi – E (tikimasi). Kaip pavyzdį paimkime kauliuko metimo 60 kartų rezultatą. Jei jis yra simetriškas ir vienodas, tikimybė gauti bet kurią pusę yra 1/6, todėl numatomas kiekvienos pusės gavimo skaičius yra 10 (1/6∙60). Stebėtus ir numatomus dažnius įrašome į lentelę ir nubraižome histogramą.

Nulinė hipotezė yra ta, kad dažniai yra nuoseklūs, tai yra, faktiniai duomenys neprieštarauja tikėtiniems duomenims. Alternatyvi hipotezė yra ta, kad dažnių nuokrypiai viršija atsitiktinius svyravimus, tai yra, neatitikimai yra statistiškai reikšmingi. Norėdami padaryti griežtą išvadą, turime.

  1. Apibendrinamas stebimo ir numatomo dažnio neatitikimo matas.
  2. Šio mato pasiskirstymas, jei hipotezė, kad skirtumų nėra, yra teisinga.

Pradėkime nuo atstumo tarp dažnių. Jei tik priimsite skirtumą O-E, tada toks matas priklausys nuo duomenų (dažnių) masto. Pavyzdžiui, 20 - 5 = 15 ir 1020 - 1005 = 15. Abiem atvejais skirtumas yra 15. Tačiau pirmuoju atveju tikėtini dažniai yra 3 kartus mažesni už stebimus, o antruoju atveju - tik 1,5 %. Mums reikia santykinio mato, kuris nepriklauso nuo masto.

Atkreipkime dėmesį į šiuos faktus. Apskritai, gradacijų, kuriose matuojami dažniai, skaičius gali būti daug didesnis, todėl tikimybė, kad vienas stebėjimas pateks į vieną ar kitą kategoriją, yra gana maža. Jei taip, tada tokio atsitiktinio dydžio pasiskirstymas atitiks retų įvykių dėsnį, žinomą kaip Puasono dėsnis. Puasono dėsnyje, kaip žinoma, matematinės lūkesčių ir dispersijos reikšmės sutampa (parametras λ ). Tai reiškia, kad numatomas dažnis tam tikrai nominalaus kintamojo kategorijai E i bus vienu metu ir jo sklaida. Be to, Puasono dėsnis yra įprastas, kai atliekama daug stebėjimų. Sujungus šiuos du faktus, gauname, kad jei hipotezė apie stebimo ir numatomo dažnio atitiktį yra teisinga, tada su daugybe stebėjimų, išraiška

Turėsiu.

Svarbu atsiminti, kad normalumas atsiras tik esant pakankamai aukštiems dažniams. Statistikoje visuotinai pripažįstama, kad bendras stebėjimų skaičius (dažnių suma) turi būti ne mažesnis kaip 50, o numatomas dažnis kiekvienoje gradacijoje turi būti ne mažesnis kaip 5. Tik šiuo atveju aukščiau nurodyta vertė turės standartinį normalųjį. paskirstymas. Tarkime, kad ši sąlyga yra įvykdyta.

Standartinis normalusis pasiskirstymas turi beveik visas vertes ±3 ribose (trijų sigmų taisyklė). Taigi, mes gavome santykinį dažnių skirtumą vienai gradacijai. Mums reikia apibendrinamos priemonės. Negalite tiesiog sudėti visų nuokrypių – gauname 0 (atspėk kodėl). Pearsonas pasiūlė pridėti šių nuokrypių kvadratus.

Tai yra ženklas kriterijus χ 2 Pearsonas. Jei dažniai tikrai atitinka tikėtinus, tada kriterijaus reikšmė bus santykinai maža (nes dauguma nuokrypių yra apie nulį). Bet jei kriterijus pasirodo didelis, tai rodo didelius dažnių skirtumus.

Kriterijus tampa „didelis“, kai tokios ar dar didesnės reikšmės atsiradimas tampa mažai tikėtinas. O norint apskaičiuoti tokią tikimybę, reikia žinoti kriterijaus pasiskirstymą, kai eksperimentas kartojamas daug kartų, kai teisinga dažnio sutapimo hipotezė.

Kaip nesunku suprasti, chi kvadrato reikšmė taip pat priklauso nuo terminų skaičiaus. Kuo jų daugiau, tuo didesnę reikšmę turėtų turėti kriterijus, nes kiekvienas terminas prisidės prie bendros sumos. Todėl kiekvienam kiekiui nepriklausomas terminais, bus savas platinimas. Paaiškėjo, kad χ 2 yra visa platinimų šeima.

Ir štai priėjome vieną subtilų momentą. Kas yra skaičius nepriklausomas terminai? Atrodo, kad bet koks terminas (ty nuokrypis) yra nepriklausomas. Taip manė ir K. Pearsonas, tačiau pasirodė, kad jis klydo. Tiesą sakant, nepriklausomų terminų skaičius bus vienu mažesnis nei vardinio kintamojo gradacijų skaičius n. Kodėl? Nes jei turime imtį, kuriai jau apskaičiuota dažnių suma, tai vieną iš dažnių visada galima nustatyti kaip skirtumą tarp bendro skaičiaus ir visų kitų sumos. Taigi svyravimai bus šiek tiek mažesni. Ronaldas Fisheris pastebėjo šį faktą praėjus 20 metų po to, kai Pearsonas sukūrė savo kriterijų. Net lenteles teko perdaryti.

Šia proga Fisheris statistikoje pristatė naują koncepciją - laisvės laipsnį(laisvės laipsniai), o tai reiškia nepriklausomų terminų skaičių sumoje. Laisvės laipsnių sąvoka turi matematinį paaiškinimą ir atsiranda tik skirstiniuose, susijusiuose su normaliu (Student's, Fisher-Snedecor ir pats chi kvadratas).

Norėdami geriau suvokti laisvės laipsnių reikšmę, pereikime prie fizinio analogo. Įsivaizduokime tašką, laisvai judantį erdvėje. Jis turi 3 laisvės laipsnius, nes trimatėje erdvėje gali judėti bet kuria kryptimi. Jei taškas juda išilgai bet kurio paviršiaus, tada jis jau turi du laisvės laipsnius (pirmyn ir atgal, kairėn ir dešinėn), nors ir toliau yra trimatėje erdvėje. Taškas, judantis išilgai spyruoklės, vėl yra trimatėje erdvėje, bet turi tik vieną laisvės laipsnį, nes gali judėti pirmyn arba atgal. Kaip matote, erdvė, kurioje yra objektas, ne visada atitinka tikrą judėjimo laisvę.

Maždaug taip pat statistinio kriterijaus pasiskirstymas gali priklausyti nuo mažesnio elementų skaičiaus nei jam apskaičiuoti reikalingi terminai. Apskritai laisvės laipsnių skaičius yra mažesnis už stebėjimų skaičių esamų priklausomybių skaičiumi. Tai gryna matematika, jokios magijos.

Taigi paskirstymas χ 2 yra skirstinių šeima, kurių kiekvienas priklauso nuo laisvės laipsnių parametro. O formalus chi kvadrato testo apibrėžimas yra toks. Paskirstymas χ 2(chi kvadratas) s k laisvės laipsniai yra kvadratų sumos pasiskirstymas k nepriklausomi standartiniai normalieji atsitiktiniai dydžiai.

Toliau galėtume pereiti prie pačios formulės, pagal kurią apskaičiuojama chi kvadrato skirstinio funkcija, bet, laimei, jau seniai viskas mums buvo apskaičiuota. Norėdami gauti susidomėjimo tikimybę, galite naudoti atitinkamą statistinę lentelę arba paruoštą funkciją specializuotoje programinėje įrangoje, kurią galima rasti net Excel.

Įdomu pamatyti, kaip chi kvadrato skirstinio forma keičiasi priklausomai nuo laisvės laipsnių skaičiaus.

Didėjant laisvės laipsniams, chi kvadrato pasiskirstymas yra normalus. Tai paaiškinama centrinės ribos teoremos veikimu, pagal kurią daugybės nepriklausomų atsitiktinių dydžių suma turi normalųjį skirstinį. Tai nieko nesako apie kvadratus)).

Hipotezės tikrinimas naudojant chi kvadrato testą

Dabar pereiname prie hipotezių tikrinimo chi kvadrato metodu. Apskritai technologija išlieka. Nulinė hipotezė yra ta, kad stebimi dažniai atitinka tikėtinus (t. y. tarp jų nėra skirtumo, nes jie paimti iš tos pačios populiacijos). Jei taip yra, tada sklaida bus palyginti maža, atsitiktinių svyravimų ribose. Sklaidos matas nustatomas naudojant chi kvadrato testą. Toliau arba pats kriterijus lyginamas su kritine reikšme (atitinkamam reikšmingumo lygiui ir laisvės laipsniams), arba, kas teisingiau, apskaičiuojamas stebimas p lygis, t.y. tikimybė gauti tokią pat ar net didesnę kriterijaus reikšmę, jei nulinė hipotezė yra teisinga.

Nes mus domina dažnių sutapimas, tada hipotezė bus atmesta, kai kriterijus bus didesnis už kritinį lygį. Tie. kriterijus yra vienpusis. Tačiau kartais (kartais) reikia patikrinti kairiosios pusės hipotezę. Pavyzdžiui, kai empiriniai duomenys labai panašūs į teorinius. Tada kriterijus gali patekti į mažai tikėtiną sritį, bet kairėje. Faktas yra tas, kad natūraliomis sąlygomis mažai tikėtina, kad bus gauti dažniai, kurie praktiškai sutampa su teoriniais. Visada yra atsitiktinumas, kuris sukelia klaidą. Bet jei tokios klaidos nėra, galbūt duomenys buvo suklastoti. Tačiau vis tiek dešinės pusės hipotezė dažniausiai tikrinama.

Grįžkime prie problemos su kauliukais. Apskaičiuokime chi kvadrato testo vertę naudodami turimus duomenis.

Dabar suraskime kriterijaus lentelę esant 5 laisvės laipsniams ( k) ir reikšmingumo lygis 0,05 ( α ).

Tai yra χ 2 0,05; 5 = 11,1.

Palyginkime faktines ir lentelėje pateiktas vertes. 3,4 ( χ 2) < 11,1 (χ 2 0,05; 5). Apskaičiuotas kriterijus pasirodė mažesnis, o tai reiškia, kad dažnių lygybės (susitarimo) hipotezė neatmetama. Paveiksle situacija atrodo taip.

Jei apskaičiuota vertė patenka į kritinę sritį, nulinė hipotezė būtų atmesta.

Teisingiau būtų apskaičiuoti ir p lygį. Norėdami tai padaryti, lentelėje turite rasti artimiausią tam tikro laisvės laipsnių skaičiaus vertę ir pažvelgti į atitinkamą reikšmingumo lygį. Bet tai jau praeitas šimtmetis. Naudosime asmeninį kompiuterį, ypač MS Excel. „Excel“ turi keletą su chi kvadratu susijusių funkcijų.

Žemiau pateikiamas trumpas jų aprašymas.

CH2.OBR– kriterijaus kriterijaus reikšmė tam tikrai tikimybei kairėje (kaip statistinėse lentelėse)

CH2.OBR.PH– kriterijaus kriterijaus vertė tam tikrai tikimybei dešinėje. Funkcija iš esmės dubliuoja ankstesnę. Bet čia galite iš karto nurodyti lygį α , o ne atimant jį iš 1. Taip patogiau, nes daugeliu atvejų reikia dešinės paskirstymo uodegos.

CH2.DIST– p lygis kairėje (tankį galima apskaičiuoti).

CH2.DIST.PH– p lygis dešinėje.

CHI2.TESTAS– nedelsiant atlieka chi kvadrato testą dviem duotiesiems dažnių diapazonams. Laisvės laipsnių skaičius laikomas vienu mažesniu už dažnių skaičių stulpelyje (kaip ir turėtų būti), grąžinant p lygio reikšmę.

Apskaičiuokime mūsų eksperimento kritinę (lentelės) reikšmę 5 laisvės laipsnių ir alfa 0,05. „Excel“ formulė atrodys taip:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Rezultatas bus toks pat – 11.0705. Tai yra vertė, kurią matome lentelėje (suapvalinta iki 1 skaitmens po kablelio).

Galiausiai apskaičiuokime 5 laisvės laipsnių kriterijaus p-lygį χ 2= 3.4. Mums reikia tikimybės dešinėje, todėl imame funkciją pridedant HH (dešinė uodega)

CH2.DISK.PH(3.4;5) = 0.63857

Tai reiškia, kad esant 5 laisvės laipsniams, tikimybė gauti kriterijaus reikšmę yra χ 2= 3,4 ir daugiau lygu beveik 64%. Natūralu, kad hipotezė neatmetama (p lygis didesnis nei 5%), dažniai labai gerai sutampa.

Dabar patikrinkime hipotezę apie dažnio susitarimą naudodami funkciją CHI2.TEST.

Jokių lentelių, jokių sudėtingų skaičiavimų. Nurodę stulpelius su stebimais ir numatomais dažniais kaip funkcijos argumentus, iš karto gauname p lygį. Grožis.

Dabar įsivaizduokite, kad žaidžiate kauliukais su įtartinu vaikinu. Taškų pasiskirstymas nuo 1 iki 5 išlieka toks pat, tačiau jis meta 26 šešetus (bendras metimų skaičius tampa 78).

P lygis šiuo atveju yra 0,003, tai yra daug mažiau nei 0,05. Yra rimtų priežasčių abejoti kauliuko pagrįstumu. Štai kaip ši tikimybė atrodo chi kvadrato pasiskirstymo diagramoje.

Pats chi kvadrato kriterijus čia pasirodo esąs 17,8, o tai, žinoma, yra didesnis nei lentelėje pateiktas (11,1).

Tikiuosi, galėjau paaiškinti, koks yra susitarimo kriterijus χ 2(Pirson chi kvadratas) ir kaip jis gali būti naudojamas statistinėms hipotezėms patikrinti.

Galiausiai dar kartą apie svarbią sąlygą! Chi kvadrato testas tinkamai veikia tik tada, kai visų dažnių skaičius viršija 50, o minimali numatoma kiekvienos gradacijos vertė yra ne mažesnė kaip 5. Jei kurioje nors kategorijoje numatomas dažnis yra mažesnis nei 5, bet visų dažnių suma viršija 50, tada tokia kategorija derinama su artimiausia, kad bendras jų dažnis viršytų 5. Jeigu tai neįmanoma arba dažnių suma mažesnė nei 50, tuomet reikėtų naudoti tikslesnius hipotezių tikrinimo metodus. Apie juos pakalbėsime kitą kartą.

Toliau pateikiamas vaizdo įrašas, kaip patikrinti hipotezę programoje „Excel“, naudojant chi kvadrato testą.

Rusijos Federacijos švietimo ir mokslo ministerija

Irkutsko miesto federalinė švietimo agentūra

Baikalo valstybinis ekonomikos ir teisės universitetas

Informatikos ir kibernetikos katedra

Chi kvadrato skirstinys ir jo taikymas

Kolmykova Anna Andreevna

2 kurso studentas

grupė IS-09-1

Irkutskas 2010 m

Įvadas

1. Chi kvadrato skirstinys

Taikymas

Išvada

Bibliografija

Įvadas

Kaip mūsų gyvenime naudojami tikimybių teorijos požiūriai, idėjos ir rezultatai?

Pagrindas – tikimybinis realaus reiškinio ar proceso modelis, t.y. matematinis modelis, kuriame objektyvūs santykiai išreiškiami tikimybių teorija. Tikimybės pirmiausia naudojamos apibūdinti neapibrėžtumams, į kuriuos reikia atsižvelgti priimant sprendimus. Tai reiškia ir nepageidaujamas galimybes (rizika), ir patrauklias ("laimingas šansas"). Kartais atsitiktinumas yra sąmoningai įvedamas į situaciją, pavyzdžiui, traukiant burtus, atsitiktinai pasirenkant vienetus kontrolei, organizuojant loterijas ar vartotojų apklausas.

Tikimybių teorija leidžia apskaičiuoti kitas tyrėją dominančias tikimybes.

Tikimybinis reiškinio ar proceso modelis yra matematinės statistikos pagrindas. Naudojamos dvi lygiagrečios sąvokų serijos – susijusios su teorija (tikimybinis modelis) ir susijusios su praktika (stebėjimo rezultatų atranka). Pavyzdžiui, teorinė tikimybė atitinka dažnį, rastą iš imties. Matematinis lūkestis (teorinė eilutė) atitinka imties aritmetinį vidurkį (praktinę eilutę). Paprastai imties charakteristikos yra teorinės įverčiai. Tuo pačiu metu dydžiai, susiję su teorine serija „tyrėjų galvose“, yra susiję su idėjų pasauliu (anot senovės graikų filosofo Platono) ir nėra prieinami tiesioginiam matavimui. Tyrėjai turi tik pavyzdinius duomenis, kuriais jie bando nustatyti juos dominančias teorinio tikimybinio modelio savybes.

Kodėl mums reikia tikimybinio modelio? Faktas yra tas, kad tik su jo pagalba konkretaus mėginio analizės nustatytas savybes galima perkelti į kitus mėginius, taip pat į visą vadinamąją bendrą populiaciją. Sąvoka „populiacija“ vartojama kalbant apie didelę, bet baigtinę tiriamų vienetų kolekciją. Pavyzdžiui, apie visų Rusijos gyventojų visumą arba visų Maskvos tirpios kavos vartotojų visumą. Rinkodaros ar sociologinių tyrimų tikslas yra perkelti teiginius, gautus iš šimtų ar tūkstančių žmonių imties, kelių milijonų žmonių populiacijoms. Kontroliuojant kokybę, produktų partija veikia kaip bendra visuma.

Norint perkelti imties išvadas į didesnę populiaciją, reikia tam tikrų prielaidų apie imties charakteristikų ryšį su šios didesnės populiacijos savybėmis. Šios prielaidos yra pagrįstos atitinkamu tikimybiniu modeliu.

Žinoma, galima apdoroti imties duomenis ir nenaudojant vieno ar kito tikimybinio modelio. Pavyzdžiui, galite apskaičiuoti imties aritmetinį vidurkį, suskaičiuoti tam tikrų sąlygų įvykdymo dažnumą ir pan. Tačiau skaičiavimo rezultatai bus susiję tik su konkrečia imtimi, jų pagalba gautų išvadų perkėlimas į bet kurią kitą populiaciją yra neteisingas. Ši veikla kartais vadinama „duomenų analize“. Palyginti su tikimybiniais-statistiniais metodais, duomenų analizė turi ribotą edukacinę vertę.

Taigi tikimybinių modelių, pagrįstų hipotezių įvertinimu ir tikrinimu, naudojant imties charakteristikas, naudojimas yra tikimybinių-statistinių sprendimų priėmimo metodų esmė.

Chi kvadrato skirstinys

Naudojant normalųjį skirstinį, apibrėžiami trys skirstiniai, kurie dabar dažnai naudojami apdorojant statistinius duomenis. Tai yra Pearsono („chi kvadratas“), Studento ir Fisher skirstiniai.

Daugiausia dėmesio skirsime platinimui

(„chi – kvadratas“). Pirmą kartą šį pasiskirstymą ištyrė astronomas F. Helmertas 1876 m. Ryšium su Gauso klaidų teorija, jis ištyrė n nepriklausomų standartiškai normaliai paskirstytų atsitiktinių dydžių kvadratų sumas. Vėliau Karlas Pearsonas pavadino šią paskirstymo funkciją „chi kvadratu“. Ir dabar platinimas turi jo vardą.

Dėl glaudaus ryšio su normaliuoju skirstiniu χ2 skirstinys vaidina svarbų vaidmenį tikimybių teorijoje ir matematinėje statistikoje. χ2 skirstinys ir daugelis kitų skirstinių, kuriuos apibrėžia χ2 skirstinys (pavyzdžiui, Stjudento skirstinys), apibūdina įvairių funkcijų imčių skirstinius iš normaliai paskirstytų stebėjimo rezultatų ir yra naudojami pasikliautiniesiems intervalams ir statistiniams testams sudaryti.

Pearsono paskirstymas

(chi - kvadratas) – atsitiktinio dydžio skirstinys, kur X1, X2,..., Xn yra normalūs nepriklausomi atsitiktiniai dydžiai, o kiekvieno iš jų matematinis lūkestis lygus nuliui, o standartinis nuokrypis – vienas.

Kvadratų suma


paskirstytas pagal įstatymus

(„chi – kvadratas“).

Šiuo atveju terminų skaičius, t.y. n vadinamas chi kvadrato skirstinio „laisvės laipsnių skaičiumi“. Didėjant laisvės laipsnių skaičiui, pasiskirstymas pamažu artėja prie normalaus.

Šio skirstinio tankis


Taigi χ2 skirstinys priklauso nuo vieno parametro n – laisvės laipsnių skaičiaus.

Paskirstymo funkcija χ2 turi tokią formą:


jei χ2≥0. (2.7.)

1 paveiksle parodytas skirtingų laisvės laipsnių tikimybės tankio ir χ2 pasiskirstymo funkcijos grafikas.

1 paveikslas Tikimybių tankio φ (x) priklausomybė skirstinyje χ2 (chi – kvadratas) skirtingiems laisvės laipsnių skaičiams.

Chi kvadrato pasiskirstymo momentai:

Chi kvadrato skirstinys naudojamas vertinant dispersiją (naudojant pasikliautinąjį intervalą), tikrinant sutapimo, homogeniškumo, nepriklausomumo hipotezes, pirmiausia kokybiniams (kategorizuotiems) kintamiesiems, kurie turi baigtinį skaičių reikšmių, ir atliekant daugelį kitų statistinių duomenų analizės užduočių. .

2. "Chi kvadratas" statistinių duomenų analizės uždaviniuose

Statistiniai duomenų analizės metodai taikomi beveik visose žmogaus veiklos srityse. Jie naudojami, kai reikia gauti ir pagrįsti bet kokius sprendimus dėl grupės (objektų ar subjektų), turinčios tam tikrą vidinį nevienalytiškumą.

Šiuolaikinį statistinių metodų raidos etapą galima skaičiuoti nuo 1900 m., kai anglas K. Pearsonas įkūrė žurnalą „Biometrika“. Pirmasis XX amžiaus trečdalis. praėjo po parametrinės statistikos ženklu. Metodai buvo tiriami remiantis Pirsonų šeimos kreivėmis aprašytų parametrinių skirstinių šeimų duomenų analize. Populiariausias buvo normalus paskirstymas. Hipotezėms patikrinti buvo naudojami Pearsono, Studento ir Fisherio testai. Pasiūlytas maksimalios tikimybės metodas ir dispersinė analizė, suformuluotos pagrindinės eksperimento planavimo idėjos.

Chi kvadrato skirstinys yra vienas plačiausiai naudojamų statistikoje statistinėms hipotezėms tikrinti. Remiantis chi kvadrato pasiskirstymu, sukonstruotas vienas galingiausių tinkamumo testų – Pearsono chi kvadrato testas.

Sutapimo kriterijus yra hipotezės apie tariamą nežinomo skirstinio dėsnį tikrinimo kriterijus.

Įvairių skirstinių hipotezėms patikrinti naudojamas χ2 (chi kvadrato) testas. Tai jo orumas.

Kriterijaus skaičiavimo formulė lygi

kur m ir m’ yra atitinkamai empiriniai ir teoriniai dažniai

aptariamas platinimas;

n yra laisvės laipsnių skaičius.

Norėdami patikrinti, turime palyginti empirinius (stebėtus) ir teorinius (apskaičiuotus pagal normalaus skirstinio prielaidą) dažnius.

Jei empiriniai dažniai visiškai sutampa su apskaičiuotais arba numatomais dažniais, S (E – T) = 0 ir χ2 kriterijus taip pat bus lygus nuliui. Jei S (E – T) nėra lygus nuliui, tai parodys neatitikimą tarp apskaičiuotų dažnių ir empirinių serijų dažnių. Tokiais atvejais būtina įvertinti χ2 kriterijaus, kuris teoriškai gali svyruoti nuo nulio iki begalybės, reikšmę. Tai daroma lyginant faktiškai gautą χ2ф reikšmę su jos kritine verte (χ2st). Nulinė hipotezė, t. y. prielaida, kad neatitikimas tarp empirinio ir teorinio arba numatomo dažnio yra atsitiktinis, paneigiamas, jei χ2ф yra didesnis arba lygus. χ2st priimtam reikšmingumo lygiui (a) ir laisvės laipsnių skaičiui (n).

Šiame straipsnyje mes kalbėsime apie priklausomybės tarp ženklų tyrimą arba, kaip jums labiau patinka - atsitiktinių reikšmių, kintamųjų. Visų pirma, mes apžvelgsime, kaip įvesti charakteristikų priklausomybės matą naudojant Chi kvadrato testą ir palyginti jį su koreliacijos koeficientu.

Kodėl to gali prireikti? Pavyzdžiui, norint suprasti, kurios savybės labiau priklauso nuo tikslinio kintamojo skaičiuojant kredito balą – nustatant kliento įsipareigojimų nevykdymo tikimybę. Arba, kaip mano atveju, suprasti, kokiais rodikliais reikia programuoti prekybos robotą.

Atskirai pažymiu, kad duomenų analizei naudoju C# kalbą. Galbūt visa tai jau buvo įdiegta R ar Python, bet naudojant C# man leidžia suprasti temą detaliau, be to, tai yra mano mėgstamiausia programavimo kalba.

Pradėkime nuo labai paprasto pavyzdžio: sukurkite keturis stulpelius programoje Excel naudodami atsitiktinių skaičių generatorių:
X=RANDBTARP (-100 100)
Y =X*10+20
Z =X*X
T=RANDBTARP (-100 100)

Kaip matote, kintamasis Y tiesiškai priklausomas nuo X; kintamasis Z kvadratiškai priklauso nuo X; kintamieji X Ir T nepriklausomas. Šį pasirinkimą padariau tyčia, nes palyginsime savo priklausomybės matą su koreliacijos koeficientu. Kaip žinoma, tarp dviejų atsitiktinių dydžių modulis yra lygus 1, jei „sunkiausia“ priklausomybė tarp jų yra tiesinė. Tarp dviejų nepriklausomų atsitiktinių dydžių koreliacija yra nulinė, bet koreliacijos koeficiento lygybė nuliui nereiškia nepriklausomybės. Toliau tai pamatysime naudodami kintamųjų pavyzdį X Ir Z.

Išsaugokite failą kaip data.csv ir pradėkite pirmuosius įvertinimus. Pirmiausia apskaičiuokime koreliacijos koeficientą tarp reikšmių. Aš neįdėjau kodo į straipsnį, jis yra mano „github“. Gauname visų galimų porų koreliaciją:

Matyti, kad tiesiškai priklauso X Ir Y koreliacijos koeficientas yra 1. Bet X Ir Z jis lygus 0,01, nors priklausomybę nustatome aiškiai Z=X*X. Aišku, mums reikia priemonės, kuri „jaučia“ priklausomybę geriau. Tačiau prieš pereidami prie Chi kvadrato testo, pažiūrėkime, kas yra nenumatytų atvejų matrica.

Norėdami sukurti nenumatytų atvejų matricą, kintamųjų reikšmių diapazoną padalijame į intervalus (arba suskirstome į kategorijas). Yra daug būdų tai padaryti, tačiau universalaus būdo nėra. Kai kurie iš jų yra suskirstyti į intervalus taip, kad juose būtų tiek pat kintamųjų, kiti suskirstyti į vienodo ilgio intervalus. Man asmeniškai patinka derinti šiuos metodus. Nusprendžiau naudoti šį metodą: iš kintamojo atėmiau mat balą. lūkesčius, tada padalykite rezultatą iš standartinio nuokrypio įverčio. Kitaip tariant, aš centruoju ir normalizuoju atsitiktinį kintamąjį. Gauta reikšmė padauginama iš koeficiento (šiame pavyzdyje jis yra 1), po kurio viskas suapvalinama iki artimiausio sveikojo skaičiaus. Išvestis yra int tipo kintamasis, kuris yra klasės identifikatorius.

Taigi paimkime savo ženklus X Ir Z, skirstome į kategorijas aukščiau aprašytu būdu, po to apskaičiuojame kiekvienos klasės atsiradimo skaičių ir tikimybes bei požymių porų atsiradimo tikimybes:

Tai matrica pagal kiekį. Čia eilutėse - kintamųjų klasių pasikartojimų skaičius X, stulpeliuose - kintamojo klasių pasikartojimų skaičius Z, ląstelėse – klasių porų pasirodymų vienu metu skaičius. Pavyzdžiui, 0 klasė kintamajam pasitaikė 865 kartus X, 823 kartus kintamajam Z ir niekada nebuvo poros (0,0). Pereikime prie tikimybių, visas reikšmes padalydami iš 3000 (bendras stebėjimų skaičius):

Gavome nenumatytų atvejų matricą, gautą suskirstę požymius į kategorijas. Dabar pats laikas pagalvoti apie kriterijų. Pagal apibrėžimą atsitiktiniai dydžiai yra nepriklausomi, jei šių atsitiktinių dydžių generuojamos sigmos algebros yra nepriklausomos. Sigmos algebrų nepriklausomumas reiškia porinį įvykių nepriklausomumą nuo jų. Du įvykiai vadinami nepriklausomais, jei jų bendro atsiradimo tikimybė yra lygi šių įvykių tikimybių sandaugai: Pij = Pi*Pj. Būtent šią formulę naudosime sudarydami kriterijų.

Nulinė hipotezė: suskirstyti ženklai X Ir Z nepriklausomas. Lygiavertis jai: nenumatytų atvejų matricos pasiskirstymas nurodomas tik pagal kintamųjų klasių (eilučių ir stulpelių) atsiradimo tikimybes. Arba taip: matricos langeliai randami pagal atitinkamų eilučių ir stulpelių tikimybių sandaugą. Mes naudosime šią nulinės hipotezės formuluotę, kad sukurtume sprendimo taisyklę: reikšmingas neatitikimas tarp Pij Ir Pi*Pj bus pagrindas atmesti nulinę hipotezę.

Tegul yra tikimybė, kad 0 klasė pasirodys kintamajame X. Mūsų bendra n klases X Ir m klases Z. Pasirodo, kad norėdami nurodyti matricos skirstymą, turime tai žinoti n Ir m tikimybės. Bet iš tikrųjų, jei žinome n-1 tikimybė už X, tada pastarasis randamas iš 1 atėmus kitų sumą. Taigi, norėdami rasti nenumatytų atvejų matricos pasiskirstymą, turime žinoti l=(n-1)+(m-1) vertybes. Arba turime l-dimensinė parametrinė erdvė, kurios vektorius suteikia mums norimą skirstinį. Chi kvadrato statistika atrodys taip:

ir pagal Fišerio teoremą turi Chi kvadrato skirstinį su n*m-l-1=(n-1)(m-1) laisvės laipsniai.

Nustatykime reikšmingumo lygį 0,95 (arba I tipo klaidos tikimybė yra 0,05). Iš pavyzdžio suraskime Chi kvadrato skirstinio kvantilį tam tikram reikšmingumo lygiui ir laisvės laipsniams (n-1) (m-1) = 4 * 3 = 12: 21.02606982. Pati Chi kvadrato statistika kintamiesiems X Ir Z lygus 4088.006631. Akivaizdu, kad nepriklausomybės hipotezė nepriimama. Patogu atsižvelgti į Chi kvadrato statistikos ir slenkstinės reikšmės santykį – šiuo atveju jis lygus Chi2Coeff=194,4256186. Jei šis santykis yra mažesnis už 1, tada nepriklausomumo hipotezė yra priimta, jei ji yra didesnė, tai nėra. Raskime šį santykį visoms funkcijų poroms:

Čia 1 veiksnys Ir 2 veiksnys- funkcijų pavadinimai
src_cnt1 Ir src_cnt2- unikalių pradinių savybių verčių skaičius
mod_cnt1 Ir mod_cnt2- unikalių savybių verčių skaičius po suskirstymo į kategorijas
chi2- Chi kvadrato statistika
chi2max- Chi kvadrato statistikos slenkstinė reikšmė, kai reikšmingumo lygis yra 0,95
chi2Coeff- Chi kvadrato statistikos ir slenkstinės reikšmės santykis
korr- koreliacijos koeficientas

Galima pastebėti, kad jie yra nepriklausomi (chi2coeff<1) получились следующие пары признаков - (X, T), (Y, T) Ir ( Z, T), o tai yra logiška, nes kintamasis T generuojamas atsitiktinai. Kintamieji X Ir Z priklausomas, bet mažiau nei tiesiškai priklausomas X Ir Y o tai irgi logiška.

Programos, kuri skaičiuoja šiuos rodiklius, kodą paskelbiau github, kur yra ir data.csv failas. Programa naudoja csv failą kaip įvestį ir apskaičiuoja priklausomybes tarp visų stulpelių porų: PtProject.Dependency.exe data.csv