Ahoj kritické. Jak interpretovat hodnotu Pearsonova chí-kvadrát testu

Při provádění chí-kvadrát testu se kontroluje vzájemná nezávislost dvou proměnných v kontingenční tabulce a díky tomu je nepřímo určena závislost obou proměnných. Dvě proměnné jsou považovány za vzájemně nezávislé, pokud se pozorované frekvence (f 0) v buňkách shodují s očekávanými frekvencemi (f e).

Chcete-li provést test chí-kvadrát pomocí SPSS, postupujte takto:

  • Vyberte příkazy z nabídky Analyzovat(Analýza) > Deskriptivní statistika(Deskriptivní statistika) > Křížové tabulky…(kontingenční tabulky)
  • Knoflík Resetovat(Reset) vymazat možná nastavení.
  • Přesuňte proměnnou pohlaví do seznamu řádků a proměnnou psychika do seznamu sloupců.
  • Klepněte na tlačítko Buňky...(Buňky). V dialogovém okně zaškrtněte vedle výchozího zaškrtávacího políčka Pozorováno, více zaškrtávacích políček Očekávaný A Standardizované. Svůj výběr potvrďte tlačítkem Pokračovat.
  • Klepněte na tlačítko Statistika…(Statistika).

Otevře se výše popsané dialogové okno. Křížové tabulky: Statistiky.

  • Zaškrtněte políčko Chí-kvadrát(Chí-kvadrát). Klepněte na tlačítko Pokračovat a v hlavním dialogovém okně - do OK.

Obdržíte následující kontingenční tabulku.

Pohlaví * Psychický stav. Kontingenční tabulka.

Psychický stav Celkový
Extrémně nestabilní Nestabilní Udržitelného Velmi stabilní
Podlaha ženský Počet 16 18 9 1 44
Očekávaný počet 7.9 16.6 17.0 2.5 44.0
Std. Reziduální 2.9 0.3 -1.9 -0.9
mužský Počet 3 22 32 5 62
Očekávaný počet 11.1 23.4 24.0 3.5 62.0
Std. Reziduální -2.4 -0.3 1.6 0.8
Celkový Počet 19 40 41 6 106
Očekávaný počet 19.0 40.0 41.0 6.0 106.0

Kromě toho se v okně náhledu zobrazí výsledky testu chí-kvadrát:

Chí-kvadrát testy

  • A. 2 buňky (25,0 %) mají očekávaný počet nižší než 5. Minimální očekávaný počet je 2,49 (2 buňky (25 %) mají očekávanou frekvenci nižší než 5. Minimální očekávaná frekvence je 2,49.)

K výpočtu chí-kvadrát testu se používají tři různé přístupy: Pearsonův vzorec, korekce pravděpodobnosti a Mantel-Haenszelův test. Pokud má kontingenční tabulka čtyři pole a očekávaná pravděpodobnost je menší než 5, je dodatečně proveden Fisherův přesný test.

Pearsonův chí-kvadrát test

K výpočtu chí-kvadrát testu se obvykle používá Pearsonův vzorec:

Zde se vypočítá součet čtverců standardizovaných reziduí pro všechna pole kontingenční tabulky. Pole s vyšším standardizovaným reziduem proto výrazněji přispívají k numerické hodnotě chí-kvadrát testu, a tedy k významnému výsledku. Podle pravidla uvedeného v části 8.7.2 standardizovaný zbytek 2 nebo více indikuje významný rozdíl mezi pozorovanými a očekávanými frekvencemi.

V příkladu, který zvažujeme, poskytuje Pearsonův vzorec maximální významnou hodnotu pro test chí-kvadrát (p<0.001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная psyche имеет значение "крайне неустойчивое". У женщин это значение сильно повышено, а у мужчин - понижено.

Správnost testu chí-kvadrát je určena dvěma podmínkami: zaprvé očekávanými frekvencemi< 5 должны встречаться не более чем в 20% полей таблицы; во-вторых, суммы по строкам и столбцам всегда должны быть больше нуля.

V uvažovaném příkladu však tato podmínka není plně splněna. Jak ukazuje poznámka za tabulkou chí-kvadrát testu, 25 % polí má očekávanou frekvenci nižší než 5. Protože je však přijatelný limit4 ve výši 20 % překročen jen mírně, a tato pole kvůli jejich velmi malému standardizovanému zbytkovému , přispívají velmi malou částí k hodnotě chí-kvadrát testu, lze toto porušení považovat za nevýznamné.

Test chí-kvadrát upravený na pravděpodobnost

Alternativou k Pearsonově vzorci pro výpočet chí-kvadrát testu je korekce pravděpodobnosti:

Při velké velikosti vzorku poskytují Pearsonův vzorec a upravený vzorec velmi podobné výsledky. V našem příkladu je pravděpodobnostně opravený chí-kvadrát test 23,688.

Mantel-Haenszelův test

Dodatečně v kontingenční tabulce pod označením lineárně po lineární("linear-by-linear") se zobrazí hodnota Mantel-Haenszelova testu (20,391). Tato forma Mantel-Haenszelova upraveného chí-kvadrát testu je dalším měřítkem lineárního vztahu mezi řádky a sloupci kontingenční tabulky. Je definován jako součin Pearsonova korelačního koeficientu a počtu pozorování sníženého o jedno:

Takto získané kritérium má jeden stupeň volnosti. V dialogovém okně se vždy používá Mantel-Haenszelova metoda Křížové tabulky: Statistiky zaškrtávací políčko zaškrtnuto Chí-kvadrát. Pro údaje týkající se jmenovitého rozsahu však toto kritérium neplatí.

). Konkrétní formulace testované hypotézy se bude případ od případu lišit.

V tomto příspěvku popíšu, jak funguje kritérium \(\chi^2\) na (hypotetickém) příkladu z imunologie. Představme si, že jsme provedli experiment, abychom určili účinnost potlačení rozvoje mikrobiálního onemocnění, když jsou do těla zavedeny vhodné protilátky. Do experimentu bylo zapojeno celkem 111 myší, které jsme rozdělili do dvou skupin, včetně 57 a 54 zvířat. První skupině myší byly aplikovány injekce patogenních bakterií, po kterých následovalo zavedení krevního séra obsahujícího protilátky proti těmto bakteriím. Zvířata z druhé skupiny sloužila jako kontrola – dostávala pouze bakteriální injekce. Po nějaké době inkubace se ukázalo, že 38 myší zemřelo a 73 přežilo. Z mrtvých patřilo 13 do první skupiny a 25 do druhé (kontrolní). Nulová hypotéza testovaná v tomto experimentu může být formulována následovně: podání séra s protilátkami nemá žádný vliv na přežití myší. Jinými slovy, tvrdíme, že pozorované rozdíly v přežití myší (77,2 % v první skupině versus 53,7 % ve druhé skupině) jsou zcela náhodné a nesouvisí s účinkem protilátek.

Údaje získané v experimentu lze prezentovat ve formě tabulky:

Celkový

Bakterie + sérum

Pouze bakterie

Celkový

Tabulky, jako je ta na obrázku, se nazývají kontingenční tabulky. V uvažovaném příkladu má tabulka rozměr 2x2: existují dvě třídy objektů („Bakterie + sérum“ a „Pouze bakterie“), které jsou zkoumány podle dvou kritérií („Mrtví“ a „Přeživí“). Toto je nejjednodušší případ kontingenční tabulky: samozřejmě jak počet studovaných tříd, tak počet funkcí může být větší.

Abychom mohli otestovat výše uvedenou nulovou hypotézu, potřebujeme vědět, jaká by byla situace, kdyby protilátky ve skutečnosti neměly žádný vliv na přežití myší. Jinými slovy, musíte počítat očekávané frekvence pro odpovídající buňky kontingenční tabulky. Jak to udělat? V experimentu uhynulo celkem 38 myší, což je 34,2 % z celkového počtu zapojených zvířat. Pokud podání protilátek neovlivní přežití myší, mělo by být v obou experimentálních skupinách pozorováno stejné procento mortality, a to 34,2 %. Výpočtem, kolik je 34,2 % z 57 a 54, dostaneme 19,5 a 18,5. Toto jsou očekávané míry úmrtnosti v našich experimentálních skupinách. Očekávaná míra přežití se vypočítává podobným způsobem: protože přežilo celkem 73 myší, neboli 65,8 % z celkového počtu, bude očekávaná míra přežití 37,5 a 35,5. Vytvořme novou kontingenční tabulku, nyní s očekávanými frekvencemi:

Mrtví

Přeživší

Celkový

Bakterie + sérum

Pouze bakterie

Celkový

Jak vidíme, očekávané frekvence jsou značně odlišné od pozorovaných, tzn. Zdá se, že podávání protilátek má vliv na přežití myší infikovaných patogenem. Tento dojem můžeme kvantifikovat pomocí Pearsonova testu dobré shody \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


kde \(f_o\) a \(f_e\) jsou pozorované a očekávané frekvence. Sčítání se provádí přes všechny buňky tabulky. Takže pro zvažovaný příklad máme

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

Je výsledná hodnota \(\chi^2\) dostatečně velká na to, aby byla zamítnuta nulová hypotéza? K zodpovězení této otázky je nutné najít odpovídající kritickou hodnotu kritéria. Počet stupňů volnosti pro \(\chi^2\) se vypočítá jako \(df = (R - 1)(C - 1)\), kde \(R\) a \(C\) jsou číslo řádků a sloupců v konjugaci tabulky. V našem případě \(df = (2 -1)(2 - 1) = 1\). Když známe počet stupňů volnosti, můžeme nyní snadno zjistit kritickou hodnotu \(\chi^2\) pomocí standardní R funkce qchisq() :


Při jednom stupni volnosti tedy pouze v 5 % případů hodnota kritéria \(\chi^2\) překročí 3,841. Námi získaná hodnota 6,79 tuto kritickou hodnotu výrazně převyšuje, což nám dává právo zamítnout nulovou hypotézu, že neexistuje žádná souvislost mezi podáním protilátek a přežitím infikovaných myší. Odmítnutím této hypotézy riskujeme, že se mýlíme s pravděpodobností menší než 5 %.

Je třeba poznamenat, že výše uvedený vzorec pro kritérium \(\chi^2\) dává při práci s kontingenčními tabulkami o velikosti 2x2 mírně nafouknuté hodnoty. Důvodem je, že distribuce samotného kritéria \(\chi^2\) je spojitá, zatímco frekvence binárních jevů (“zemřel” / “přežil”) jsou z definice diskrétní. V tomto ohledu je při výpočtu kritéria zvykem zavádět tzv korekce kontinuity nebo Yatesův pozměňovací návrh :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

Korekční data kontinuity "s Chí-kvadrát test s Yatesem": myši X-kvadrát = 5,7923, df = 1, p-hodnota = 0,0161


Jak vidíme, R automaticky aplikuje Yatesovu korekci kontinuity ( Pearsonův test chí-kvadrát s Yatesovou korekcí kontinuity). Hodnota \(\chi^2\) vypočítaná programem byla 5,79213. Můžeme zamítnout nulovou hypotézu o žádném účinku protilátek s rizikem, že se mýlime s pravděpodobností těsně nad 1 % (p-hodnota = 0,0161).

Až do konce 19. století bylo normální rozdělení považováno za univerzální zákon proměnlivosti dat. K. Pearson však poznamenal, že empirické frekvence se mohou značně lišit od normálního rozdělení. Vyvstala otázka, jak to dokázat. Bylo vyžadováno nejen grafické srovnání, které je subjektivní, ale také striktní kvantitativní zdůvodnění.

Tak bylo vymyšleno kritérium χ 2(chí-kvadrát), která testuje významnost rozdílu mezi empirickými (pozorovanými) a teoretickými (očekávanými) četnostmi. Stalo se to již v roce 1900, ale toto kritérium se používá dodnes. Navíc byl přizpůsoben k řešení široké škály problémů. V prvé řadě se jedná o rozbor nominálních dat, tzn. ty, které se nevyjadřují kvantitou, ale příslušností k nějaké kategorii. Například třída auta, pohlaví účastníka experimentu, druh rostliny atd. Matematické operace jako sčítání a násobení nelze na taková data použít;

Pozorované frekvence značíme O (pozorováno), očekáváno – E (očekávané). Jako příklad si vezměme výsledek 60x hodu kostkou. Pokud je symetrická a stejnoměrná, pravděpodobnost získání kterékoli strany je 1/6, a proto očekávaný počet získání každé strany je 10 (1/6∙60). Pozorované a očekávané četnosti zapíšeme do tabulky a nakreslíme histogram.

Nulová hypotéza je, že frekvence jsou konzistentní, to znamená, že skutečná data nejsou v rozporu s očekávanými daty. Alternativní hypotézou je, že odchylky ve frekvencích přesahují náhodné fluktuace, to znamená, že odchylky jsou statisticky významné. Abychom vyvodili rigorózní závěr, potřebujeme.

  1. Souhrnná míra nesouladu mezi pozorovanými a očekávanými frekvencemi.
  2. Rozdělení této míry, pokud je pravdivá hypotéza, že neexistují žádné rozdíly.

Začněme vzdáleností mezi frekvencemi. Když vezmeš ten rozdíl O - E, pak bude takové měření záviset na měřítku dat (četnosti). Například 20 - 5 = 15 a 1020 - 1005 = 15. V obou případech je rozdíl 15. Ale v prvním případě jsou očekávané frekvence 3krát menší než ty pozorované a ve druhém případě - pouze 1,5 %. Potřebujeme relativní míru, která nezávisí na měřítku.

Věnujme pozornost následujícím skutečnostem. Obecně platí, že počet gradací, ve kterých se frekvence měří, může být mnohem větší, takže pravděpodobnost, že jedno pozorování bude spadat do té či oné kategorie, je poměrně malá. Pokud ano, pak se rozdělení takové náhodné veličiny bude řídit zákonem vzácných událostí, známým jako Poissonův zákon. V Poissonově zákoně, jak je známo, se hodnota matematického očekávání a rozptylu shodují (parametr λ ). To znamená, že očekávaná frekvence pro některou kategorii jmenovité veličiny E i bude simultánní a jeho rozptyl. Dále, Poissonův zákon inklinuje k normálu s velkým počtem pozorování. Kombinací těchto dvou faktů získáme, že pokud je hypotéza o shodě mezi pozorovanými a očekávanými frekvencemi správná, pak s velkým množstvím pozorování, výraz

Budu mít.

Je důležité si uvědomit, že normalita se objeví pouze na dostatečně vysokých frekvencích. Ve statistice se obecně uznává, že celkový počet pozorování (součet četností) musí být alespoň 50 a očekávaná četnost v každé gradaci musí být alespoň 5. Pouze v tomto případě bude mít výše uvedená hodnota standardní normál rozdělení. Předpokládejme, že tato podmínka je splněna.

Standardní normální rozdělení má téměř všechny hodnoty v rozmezí ±3 (pravidlo tří sigma). Tak jsme získali relativní rozdíl ve frekvencích pro jednu gradaci. Potřebujeme zobecňující opatření. Nemůžete jen sečíst všechny odchylky - dostaneme 0 (hádejte proč). Pearson navrhl sečíst druhé mocniny těchto odchylek.

Toto je znamení kritérium χ 2 Pearson. Pokud frekvence skutečně odpovídají očekávaným, pak bude hodnota kritéria relativně malá (protože většina odchylek se pohybuje kolem nuly). Pokud se však kritérium ukáže jako velké, znamená to významné rozdíly mezi frekvencemi.

Kritérium se stává „velkým“, když se výskyt takové nebo ještě větší hodnoty stane nepravděpodobným. A pro výpočet takové pravděpodobnosti je nutné znát rozložení kritéria při mnohonásobném opakování experimentu, kdy je hypotéza frekvenční shody správná.

Jak je snadné vidět, hodnota chí-kvadrát také závisí na počtu členů. Čím více jich je, tím větší hodnotu by kritérium mělo mít, protože každý výraz přispěje k celkovému výsledku. Tedy pro každé množství nezávislý termínech bude vlastní distribuce. Ukázalo se, že χ 2 je celá rodina distribucí.

A tady se dostáváme k jedné choulostivé chvíli. Co je to číslo nezávislý podmínky? Zdá se, že jakýkoli termín (tj. odchylka) je nezávislý. Myslel si to i K. Pearson, ale ukázalo se, že se mýlil. Ve skutečnosti bude počet nezávislých členů o jeden menší než počet gradací nominální proměnné n. Proč? Protože pokud máme vzorek, pro který už byl spočítán součet četností, pak lze vždy jednu z četností určit jako rozdíl mezi celkovým počtem a součtem všech ostatních. Proto bude variace o něco menší. Ronald Fisher si této skutečnosti všiml 20 let poté, co Pearson vyvinul své kritérium. Dokonce se musely předělat i stoly.

Při této příležitosti Fisher zavedl do statistiky nový koncept - stupeň svobody(stupně volnosti), což představuje počet nezávislých členů v součtu. Pojem stupňů volnosti má matematické vysvětlení a objevuje se pouze v rozděleních spojených s normálním (Studentovo, Fisher-Snedecor a samotná chí-kvadrát).

Abychom lépe pochopili význam stupňů volnosti, přejděme k fyzikální analogii. Představme si bod pohybující se volně v prostoru. Má 3 stupně volnosti, protože se může pohybovat libovolným směrem v trojrozměrném prostoru. Pokud se bod pohybuje po jakémkoli povrchu, pak má již dva stupně volnosti (tam a zpět, vlevo a vpravo), i když je nadále v trojrozměrném prostoru. Bod pohybující se po pružině je opět v trojrozměrném prostoru, ale má pouze jeden stupeň volnosti, protože se může pohybovat dopředu nebo dozadu. Jak je vidět, ne vždy prostor, kde se objekt nachází, odpovídá skutečné svobodě pohybu.

Přibližně stejným způsobem může rozložení statistického kritéria záviset na menším počtu prvků, než jsou podmínky potřebné k jeho výpočtu. Obecně je počet stupňů volnosti menší než počet pozorování o počet existujících závislostí. To je čistá matematika, žádná magie.

Takže distribuce χ 2 je rodina rozdělení, z nichž každé závisí na parametru stupňů volnosti. A formální definice testu chí-kvadrát je následující. Rozdělení χ 2(chí-kvadrát) s k stupně volnosti je rozdělení součtu čtverců k nezávislé standardní normální náhodné veličiny.

Dále bychom mohli přejít k samotnému vzorci, podle kterého se počítá distribuční funkce chí-kvadrát, ale naštěstí je vše již dávno spočítáno za nás. K získání pravděpodobnosti zájmu lze použít buď odpovídající statistickou tabulku, nebo hotovou funkci ve specializovaném softwaru, která je dostupná i v Excelu.

Je zajímavé sledovat, jak se tvar rozdělení chí-kvadrát mění v závislosti na počtu stupňů volnosti.

S rostoucími stupni volnosti bývá rozdělení chí-kvadrát normální. Vysvětluje se to působením centrální limitní věty, podle níž má součet velkého počtu nezávislých náhodných veličin normální rozdělení. Neříká nic o čtvercích)).

Testování hypotéz pomocí chí-kvadrát testu

Nyní se dostáváme k testování hypotéz pomocí metody chí-kvadrát. Obecně platí, že technologie zůstává. Nulová hypotéza je, že pozorované frekvence odpovídají očekávaným (tj. není mezi nimi žádný rozdíl, protože jsou převzaty ze stejné populace). Pokud tomu tak je, pak bude rozptyl relativně malý, v mezích náhodných fluktuací. Míra disperze se stanoví pomocí chí-kvadrát testu. Dále se buď porovnává samotné kritérium s kritickou hodnotou (pro odpovídající hladinu významnosti a stupně volnosti), nebo, co je správnější, se vypočítá pozorovaná p-hladina, tzn. pravděpodobnost získání stejné nebo dokonce vyšší hodnoty kritéria, pokud je nulová hypotéza pravdivá.

Protože zajímáme se o shodu frekvencí, pak bude hypotéza zamítnuta, když je kritérium větší než kritická úroveň. Tito. kritérium je jednostranné. Někdy (někdy) je však nutné otestovat hypotézu levé ruky. Například když empirická data jsou velmi podobná teoretickým datům. Potom může kritérium spadat do nepravděpodobné oblasti, ale doleva. Faktem je, že za přirozených podmínek je nepravděpodobné získat frekvence, které se prakticky shodují s teoretickými. Vždy existuje nějaká náhoda, která způsobí chybu. Ale pokud tam žádná taková chyba není, pak možná byla data zfalšována. Ale přesto se obvykle testuje pravostranná hypotéza.

Vraťme se k problému s kostkami. Vypočítejme hodnotu chí-kvadrát testu pomocí dostupných dat.

Nyní najdeme tabulkovou hodnotu kritéria při 5 stupních volnosti ( k) a hladina významnosti 0,05 ( α ).

To znamená x2 0,05; 5 = 11,1.

Porovnejme skutečné a tabulkové hodnoty. 3,4 ( χ 2) < 11,1 (x2 0,05; 5). Vypočtené kritérium se ukázalo jako menší, což znamená, že hypotéza o rovnosti (shodě) frekvencí není zamítnuta. Na obrázku vypadá situace takto.

Pokud by vypočítaná hodnota spadala do kritické oblasti, byla by nulová hypotéza zamítnuta.

Správnější by bylo vypočítat také p-úroveň. K tomu je potřeba najít v tabulce nejbližší hodnotu pro daný počet stupňů volnosti a podívat se na odpovídající hladinu významnosti. Ale tohle je minulé století. Budeme používat osobní počítač, zejména MS Excel. Excel má několik funkcí souvisejících s chí-kvadrát.

Níže je jejich stručný popis.

CH2.OBR– kritická hodnota kritéria při dané pravděpodobnosti vlevo (jako ve statistických tabulkách)

CH2.OBR.PH– kritická hodnota kritéria pro danou pravděpodobnost vpravo. Funkce v podstatě duplikuje předchozí. Zde ale můžete rovnou uvést úroveň α , spíše než odečítání od 1. To je pohodlnější, protože ve většině případů je potřeba pravý konec distribuce.

CH2.DIST– hladina p vlevo (lze vypočítat hustotu).

CH2.DIST.PH– p-úroveň vpravo.

CHI2.TEST– okamžitě provede chí-kvadrát test pro dva dané frekvenční rozsahy. Počet stupňů volnosti je považován za jeden menší než počet frekvencí ve sloupci (jak by měl být), čímž se vrátí hodnota p-úrovně.

Vypočítejme pro náš experiment kritickou (tabulkovou) hodnotu pro 5 stupňů volnosti a alfa 0,05. Vzorec Excelu bude vypadat takto:

CH2.OBR(0,95;5)

CH2.OBR.PH(0,05;5)

Výsledek bude stejný – 11.0705. Toto je hodnota, kterou vidíme v tabulce (zaokrouhlená na 1 desetinné místo).

Vypočítejme konečně p-úroveň pro kritérium 5 stupňů volnosti χ 2= 3,4. Potřebujeme pravděpodobnost napravo, takže vezmeme funkci s přidáním HH (pravý konec)

CH2.DIST.PH(3,4;5) = 0,63857

To znamená, že s 5 stupni volnosti je pravděpodobnost získání hodnoty kritéria χ 2= 3,4 a více se rovná téměř 64 %. Hypotéza samozřejmě není zamítnuta (hladina p je větší než 5 %), frekvence jsou ve velmi dobré shodě.

Nyní ověříme hypotézu o frekvenční shodě pomocí funkce CHI2.TEST.

Žádné tabulky, žádné těžkopádné výpočty. Zadáním sloupců s pozorovanými a očekávanými frekvencemi jako argumenty funkce okamžitě získáme p-úroveň. Krása.

Nyní si představte, že hrajete v kostky s podezřelým chlapem. Rozdělení bodů od 1 do 5 zůstává stejné, ale hodí 26 šestek (celkový počet hodů je 78).

P-level se v tomto případě ukáže jako 0,003, což je mnohem méně než 0,05. Existují dobré důvody pochybovat o platnosti kostek. Zde je návod, jak tato pravděpodobnost vypadá na grafu rozdělení chí-kvadrát.

Samotné kritérium chí-kvadrát se zde ukazuje jako 17,8, což je přirozeně větší hodnota než tabulkové (11,1).

Doufám, že jsem byl schopen vysvětlit, co je kritériem souhlasu χ 2(Pearsonova chí-kvadrát) a jak ji lze použít k testování statistických hypotéz.

Na závěr ještě jednou o důležité podmínce! Chí-kvadrát test funguje správně pouze tehdy, když počet všech frekvencí překročí 50 a minimální očekávaná hodnota pro každou gradaci není menší než 5. Pokud je v kterékoli kategorii očekávaná frekvence nižší než 5, ale součet všech frekvencí přesahuje 50, pak se taková kategorie zkombinuje s nejbližší tak, aby jejich celková četnost přesáhla 5. Pokud to není možné nebo je součet četností menší než 50, měly by být použity přesnější metody testování hypotéz. O nich si povíme jindy.

Níže je video o tom, jak testovat hypotézu v Excelu pomocí testu chí-kvadrát.

Ministerstvo školství a vědy Ruské federace

Federální agentura pro vzdělávání města Irkutsk

Bajkalská státní univerzita ekonomie a práva

Ústav informatiky a kybernetiky

Chí-kvadrát distribuce a její aplikace

Kolmyková Anna Andrejevna

student 2. ročníku

skupina IS-09-1

Irkutsk 2010

Úvod

1. Chí-kvadrát rozdělení

aplikace

Závěr

Bibliografie

Úvod

Jak se přístupy, myšlenky a výsledky teorie pravděpodobnosti používají v našem životě?

Základem je pravděpodobnostní model reálného jevu nebo procesu, tzn. matematický model, ve kterém jsou objektivní vztahy vyjádřeny pomocí teorie pravděpodobnosti. Pravděpodobnosti se používají především k popisu nejistot, které je třeba vzít v úvahu při rozhodování. To se týká jak nežádoucích příležitostí (rizik), tak atraktivních příležitostí (“šťastná šance”). Někdy je náhodnost záměrně zavedena do situace, například při losování, náhodném výběru jednotek pro kontrolu, provádění loterií nebo provádění spotřebitelských průzkumů.

Teorie pravděpodobnosti umožňuje použití jedné pravděpodobnosti k výpočtu jiných, které jsou pro výzkumníka zajímavé.

Pravděpodobnostní model jevu nebo procesu je základem matematické statistiky. Používají se dvě paralelní řady pojmů – ty, které se týkají teorie (pravděpodobnostní model) a ty, které se týkají praxe (vzorkování výsledků pozorování). Například teoretická pravděpodobnost odpovídá četnosti zjištěné ze vzorku. Matematické očekávání (teoretická řada) odpovídá výběrovému aritmetickému průměru (praktická řada). Vzorové charakteristiky jsou zpravidla odhady teoretických. Veličiny související s teoretickou řadou přitom „jsou v hlavách badatelů“, vztahují se ke světu idejí (podle starořeckého filozofa Platóna) a nejsou k dispozici pro přímé měření. Výzkumníci mají k dispozici pouze vzorová data, pomocí kterých se snaží stanovit vlastnosti teoretického pravděpodobnostního modelu, které je zajímají.

Proč potřebujeme pravděpodobnostní model? Faktem je, že pouze s jeho pomocí lze vlastnosti zjištěné rozborem konkrétního vzorku přenést na další vzorky i na celou tzv. obecnou populaci. Termín "populace" se používá, když se odkazuje na velký, ale konečný soubor studovaných jednotek. Například o totalitě všech obyvatel Ruska nebo totalitě všech konzumentů instantní kávy v Moskvě. Cílem marketingových či sociologických průzkumů je přenést výroky získané od vzorku stovek či tisíců lidí na populaci několika milionů lidí. Při kontrole kvality se šarže produktů chová jako běžná populace.

Přenesení závěrů ze vzorku na větší populaci vyžaduje určité předpoklady o vztahu charakteristik vzorku s charakteristikami této větší populace. Tyto předpoklady jsou založeny na vhodném pravděpodobnostním modelu.

Samozřejmě je možné zpracovávat vzorová data bez použití jednoho či druhého pravděpodobnostního modelu. Můžete například vypočítat vzorový aritmetický průměr, počítat četnost splnění určitých podmínek atd. Výsledky výpočtu se však budou týkat pouze konkrétního vzorku, přenos závěrů získaných s jejich pomocí na jakoukoli jinou populaci je nesprávný. Tato činnost se někdy nazývá „analýza dat“. Ve srovnání s pravděpodobnostně-statistickými metodami má analýza dat omezenou vzdělávací hodnotu.

Podstatou pravděpodobnostně-statistických metod rozhodování je tedy použití pravděpodobnostních modelů založených na odhadu a testování hypotéz pomocí výběrových charakteristik.

Chi-kvadrát rozdělení

Pomocí normálního rozdělení jsou definována tři rozdělení, která se dnes často používají při statistickém zpracování dat. Jedná se o distribuce Pearson („chi-square“), Student a Fisher.

Zaměříme se na distribuci

(„chi – čtverec“). Toto rozdělení poprvé studoval astronom F. Helmert v roce 1876. V souvislosti s Gaussovou teorií chyb studoval součty čtverců n nezávislých standardně normálně rozdělených náhodných veličin. Karl Pearson později nazval tuto distribuční funkci „chí-kvadrát“. A nyní distribuce nese jeho jméno.

Vzhledem k těsnému spojení s normálním rozdělením hraje rozdělení χ2 důležitou roli v teorii pravděpodobnosti a matematické statistice. Rozdělení χ2 a mnoho dalších rozdělení, které jsou definovány rozdělením χ2 (například Studentovo rozdělení), popisují výběrová rozdělení různých funkcí z výsledků normálně rozdělených pozorování a používají se ke konstrukci intervalů spolehlivosti a statistických testů.

Pearsonova distribuce

(chi - square) – rozdělení náhodné veličiny, kde X1, X2,..., Xn jsou normální nezávislé náhodné veličiny a matematické očekávání každé z nich je nula a směrodatná odchylka je jedna.

Součet čtverců


distribuovány podle zákona

(„chi – čtverec“).

V tomto případě počet termínů, tzn. n se nazývá „počet stupňů volnosti“ rozdělení chí-kvadrát. S rostoucím počtem stupňů volnosti se rozdělení pomalu blíží normálu.

Hustota tohoto rozdělení


Rozdělení χ2 tedy závisí na jednom parametru n – počtu stupňů volnosti.

Distribuční funkce χ2 má tvar:


pokud χ2≥0. (2.7.)

Obrázek 1 ukazuje graf hustoty pravděpodobnosti a distribuční funkce χ2 pro různé stupně volnosti.

Obrázek 1 Závislost hustoty pravděpodobnosti φ (x) v rozdělení χ2 (chi – čtverec) pro různé počty stupňů volnosti.

Momenty rozdělení chí-kvadrát:

Rozdělení chí-kvadrát se používá při odhadu rozptylu (pomocí intervalu spolehlivosti), testování hypotéz shody, homogenity, nezávislosti, především pro kvalitativní (kategorizované) proměnné, které nabývají konečného počtu hodnot, a v mnoha dalších úlohách statistické analýzy dat. .

2. "Chí-kvadrát" v problematice statistické analýzy dat

Statistické metody analýzy dat se používají téměř ve všech oblastech lidské činnosti. Používají se vždy, když je třeba získat a zdůvodnit jakékoli soudy o skupině (objektech nebo subjektech) s určitou vnitřní heterogenitou.

Novodobou etapu vývoje statistických metod lze počítat od roku 1900, kdy Angličan K. Pearson založil časopis „Biometrika“. První třetina dvacátého století. prošel ve znamení parametrické statistiky. Metody byly studovány na základě analýzy dat z parametrických rodin rozdělení popsaných křivkami Pearsonovy rodiny. Nejoblíbenější byla normální distribuce. K testování hypotéz byly použity Pearsonovy, Studentovy a Fisherovy testy. Byla navržena metoda maximální věrohodnosti a analýza rozptylu a byly formulovány základní myšlenky plánování experimentu.

Rozdělení chí-kvadrát je jedním z nejpoužívanějších ve statistice pro testování statistických hypotéz. Na základě rozdělení chí-kvadrát je sestaven jeden z nejúčinnějších testů dobré shody – Pearsonův test chí-kvadrát.

Kritérium shody je kritériem pro testování hypotézy o předpokládaném zákonu neznámého rozdělení.

Test χ2 (chí-kvadrát) se používá k testování hypotézy různých rozdělení. To je jeho důstojnost.

Výpočtový vzorec kritéria je roven

kde m a m' jsou empirické a teoretické frekvence

dotyčná distribuce;

n je počet stupňů volnosti.

Pro kontrolu potřebujeme porovnat empirické (pozorované) a teoretické (vypočítané za předpokladu normálního rozdělení) četnosti.

Pokud se empirické četnosti zcela shodují s četnostmi vypočítanými nebo očekávanými, S (E – T) = 0 a kritérium χ2 bude také rovno nule. Pokud se S (E – T) nerovná nule, bude to indikovat nesoulad mezi vypočtenými četnostmi a empirickými četnostmi řady. V takových případech je nutné vyhodnotit významnost kritéria χ2, které se teoreticky může měnit od nuly do nekonečna. To se provádí porovnáním skutečně získané hodnoty χ2ф s její kritickou hodnotou (χ2st). Nulová hypotéza, tj. předpoklad, že nesoulad mezi empirickou a teoretickou nebo očekávanou četností je náhodný, je vyvrácen, pokud je χ2ф větší nebo roven. χ2st pro přijatou hladinu významnosti (a) a počet stupňů volnosti (n).

V tomto článku budeme hovořit o studiu závislosti mezi znaky, nebo jak chcete - náhodnými hodnotami, proměnnými. Zejména se podíváme na to, jak zavést míru závislosti mezi charakteristikami pomocí Chí-kvadrát testu a porovnat ji s korelačním koeficientem.

Proč to může být potřeba? Abychom například pochopili, které vlastnosti jsou více závislé na cílové proměnné při konstrukci kreditního scoringu – stanovení pravděpodobnosti selhání klienta. Nebo, jako v mém případě, pochopit, jaké indikátory je třeba použít k naprogramování obchodního robota.

Samostatně podotýkám, že pro analýzu dat používám jazyk C#. Snad vše už bylo implementováno v R nebo Pythonu, ale použití C# mi umožňuje porozumět tématu do detailu, navíc je to můj oblíbený programovací jazyk.

Začněme velmi jednoduchým příkladem, vytvořte v Excelu čtyři sloupce pomocí generátoru náhodných čísel:
X=RANDBETWEEN(-100 100)
Y =X*10+20
Z =X*X
T=RANDBETWEEN(-100 100)

Jak vidíte, proměnná Y lineárně závislé na X; variabilní Z kvadraticky závislé na X; proměnné X A T nezávislý. Tuto volbu jsem zvolil záměrně, protože budeme porovnávat naši míru závislosti s korelačním koeficientem. Jak známo, mezi dvěma náhodnými proměnnými je rovno modulo 1, pokud je „nejtěžší“ typ závislosti mezi nimi lineární. Mezi dvěma nezávislými náhodnými proměnnými je nulová korelace, ale rovnost korelačního koeficientu na nulu neznamená nezávislost. Dále to uvidíme na příkladu proměnných X A Z.

Uložte soubor jako data.csv a začněte s prvními odhady. Nejprve si spočítejme korelační koeficient mezi hodnotami. Kód jsem do článku nevložil, je na mém githubu. Dostaneme korelaci pro všechny možné dvojice:

Je vidět, že lineárně závislé X A Y korelační koeficient je 1. Ale X A Z je rovna 0,01, i když jsme závislost nastavili explicitně Z=X*X. Je zřejmé, že potřebujeme opatření, které závislost lépe „pociťuje“. Než však přejdeme k testu Chí-kvadrát, podívejme se, co je kontingenční matice.

Abychom vytvořili kontingenční matici, rozdělíme rozsah proměnných hodnot do intervalů (nebo kategorizujeme). Existuje mnoho způsobů, jak to udělat, ale neexistuje žádný univerzální způsob. Některé z nich jsou rozděleny do intervalů tak, aby obsahovaly stejný počet proměnných, jiné jsou rozděleny do intervalů stejné délky. Osobně rád tyto přístupy kombinuji. Rozhodl jsem se použít tuto metodu: od proměnné odečítám skóre mat. očekávání, pak výsledek vydělte odhadem směrodatné odchylky. Jinými slovy, vycentruji a normalizuji náhodnou veličinu. Výsledná hodnota se vynásobí koeficientem (v tomto příkladu je to 1), načež se vše zaokrouhlí na nejbližší celé číslo. Výstupem je proměnná typu int, což je identifikátor třídy.

Vezměme si tedy naše znamení X A Z, kategorizujeme způsobem popsaným výše, poté vypočítáme počet a pravděpodobnost výskytu každé třídy a pravděpodobnost výskytu dvojic znaků:

Toto je matice podle množství. Zde v řádcích - počet výskytů tříd proměnných X, ve sloupcích - počet výskytů tříd proměnné Z, v buňkách - počet výskytů dvojic tříd současně. Například třída 0 se pro proměnnou vyskytla 865krát X, 823krát pro proměnnou Z a nikdy nebyl pár (0,0). Pojďme k pravděpodobností vydělením všech hodnot 3000 (celkový počet pozorování):

Získali jsme kontingenční matici získanou po kategorizaci znaků. Nyní je čas přemýšlet o kritériu. Podle definice jsou náhodné proměnné nezávislé, pokud jsou sigma algebry generované těmito náhodnými proměnnými nezávislé. Nezávislost sigma algeber implikuje párovou nezávislost událostí na nich. Dvě události se nazývají nezávislé, pokud je pravděpodobnost jejich společného výskytu rovna součinu pravděpodobností těchto událostí: Pij = Pi*Pj. Je to tento vzorec, který použijeme pro konstrukci kritéria.

Nulová hypotéza: kategorizované znaky X A Z nezávislý. Ekvivalent k tomu: rozdělení kontingenční matice je specifikováno výhradně pravděpodobnostmi výskytu tříd proměnných (pravděpodobností řádků a sloupců). Nebo toto: buňky matice jsou nalezeny součinem odpovídajících pravděpodobností řádků a sloupců. Tuto formulaci nulové hypotézy použijeme ke konstrukci rozhodovacího pravidla: významný nesoulad mezi Pij A Pi*Pj bude základem pro zamítnutí nulové hypotézy.

Nechť je pravděpodobnost výskytu třídy 0 v proměnné X. Náš celkový n třídy v X A m třídy v Z. Ukazuje se, že abychom mohli specifikovat maticové rozdělení, potřebujeme je znát n A m pravděpodobnosti. Ale ve skutečnosti, pokud víme n-1 pravděpodobnost pro X, pak se ten druhý zjistí odečtením součtu ostatních od 1. Abychom tedy našli rozložení kontingenční matice, musíme znát l=(n-1)+(m-1) hodnoty. Nebo máme l-rozměrný parametrický prostor, jehož vektor nám dává požadované rozdělení. Statistika chí-kvadrát bude vypadat takto:

a podle Fisherovy věty mají chí-kvadrát rozdělení s n*m-l-1=(n-1)(m-1) stupně svobody.

Nastavme hladinu významnosti na 0,95 (neboli pravděpodobnost chyby I. typu je 0,05). Pojďme najít kvantil rozdělení chí kvadrát pro danou hladinu významnosti a stupně volnosti z příkladu (n-l)(m-l)=4*3=12: 21.02606982. Samotná statistika chí-kvadrát pro proměnné X A Z rovná se 4088,006631. Je jasné, že hypotéza nezávislosti není přijata. Je vhodné uvažovat poměr chí-kvadrát statistiky k prahové hodnotě - v tomto případě je roven Chi2Coeff=194,4256186. Pokud je tento poměr menší než 1, pak je hypotéza nezávislosti přijata, je-li větší, pak není. Pojďme najít tento poměr pro všechny dvojice funkcí:

Tady Faktor1 A Faktor2- názvy funkcí
src_cnt1 A src_cnt2- počet jedinečných hodnot počátečních funkcí
mod_cnt1 A mod_cnt2- počet hodnot jedinečných vlastností po kategorizaci
chi2- Chi-kvadrát statistika
chi2max- prahová hodnota statistiky Chí-kvadrát pro hladinu významnosti 0,95
chi2Coeff- poměr chí-kvadrát statistiky k prahové hodnotě
kor- korelační koeficient

Je vidět, že jsou nezávislé (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) A ( Z,T), což je logické, protože proměnná T je generován náhodně. Proměnné X A Z závislé, ale méně než lineárně závislé X A Y, což je také logické.

Kód utility, která počítá tyto indikátory, jsem zveřejnil na githubu, kde je i soubor data.csv. Obslužný program vezme jako vstup soubor csv a vypočítá závislosti mezi všemi páry sloupců: PtProject.Dependency.exe data.csv