Srovnání OLS a chí-kvadrát testu. Klasické metody statistiky: chí-kvadrát test

V této poznámce se rozdělení χ 2 používá k testování konzistence souboru dat s pevným rozdělením pravděpodobnosti. Kritérium dohody často Ó Ty patřící do určité kategorie jsou porovnávány s frekvencemi, které by se teoreticky očekávaly, kdyby data skutečně měla zadané rozložení.

Testování pomocí kritéria dobré shody χ 2 se provádí v několika fázích. Nejprve se určí konkrétní rozdělení pravděpodobnosti a porovná se s původními daty. Za druhé je předložena hypotéza o parametrech zvoleného rozdělení pravděpodobnosti (např. jeho matematické očekávání) nebo je provedeno jejich posouzení. Za třetí, na základě teoretického rozdělení je určena teoretická pravděpodobnost odpovídající každé kategorii. Nakonec se statistika testu χ2 používá ke kontrole konzistence dat a distribuce:

Kde f 0- pozorovaná frekvence, f e- teoretická nebo očekávaná frekvence, k- počet kategorií zbývajících po sloučení, R- počet parametrů, které mají být odhadnuty.

Stáhněte si poznámku ve formátu nebo formátu, příklady ve formátu

Použití χ 2 testu dobré shody pro Poissonovo rozdělení

Pro výpočet pomocí tohoto vzorce v Excelu je vhodné použít funkci =SUMPRODUCT() (obr. 1).

Pro odhad parametru λ můžete použít odhad . Teoretická frekvence Xúspěchy (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 a další) odpovídající parametru λ = 2,9 lze určit pomocí funkce =POISSON.DIST(X;;FALSE). Vynásobení Poissonovy pravděpodobnosti velikostí vzorku n, dostaneme teoretickou frekvenci f e(obr. 2).

Rýže. 2. Skutečná a teoretická rychlost příletu za minutu

Jak vyplývá z Obr. 2, teoretická frekvence devíti nebo více příjezdů nepřesahuje 1,0. Aby bylo zajištěno, že každá kategorie bude obsahovat frekvenci 1,0 nebo vyšší, měla by být kategorie „9 nebo více“ kombinována s kategorií „8“. To znamená, že zbývá devět kategorií (0, 1, 2, 3, 4, 5, 6, 7, 8 a další). Vzhledem k tomu, že matematické očekávání Poissonova rozdělení je určeno na základě výběrových dat, je počet stupňů volnosti roven k – p – 1 = 9 – 1 – 1 = 7. Pomocí hladiny významnosti 0,05 zjistíme, kritická hodnota statistiky χ 2, která má 7 stupňů volnosti podle vzorce =CHI2.OBR(1-0,05;7) = 14,067. Rozhodovací pravidlo je formulováno následovně: hypotéza H 0 je zamítnuta, pokud χ 2 > 14,067, jinak hypotéza H 0 nevybočuje.

Pro výpočet χ 2 použijeme vzorec (1) (obr. 3).

Rýže. 3. Výpočet χ 2 -kritéria dobré shody pro Poissonovo rozdělení

Protože χ 2 = 2,277< 14,067, следует, что гипотезу H 0 nelze odmítnout. Jinými slovy, nemáme důvod tvrdit, že příchod klientů do banky není v souladu s Poissonovou distribucí.

Aplikace χ 2 -testu dobré shody pro normální rozdělení

V předchozích poznámkách jsme při testování hypotéz o numerických proměnných předpokládali, že studovaná populace byla normálně rozložena. Ke kontrole tohoto předpokladu můžete použít grafické nástroje, například krabicový graf nebo graf normálního rozdělení (více podrobností viz). Pro velké velikosti vzorků lze k testování těchto předpokladů použít test dobré shody χ 2 pro normální rozdělení.

Vezměme si jako příklad údaje o 5letých výnosech 158 investičních fondů (obr. 4). Předpokládejme, že chcete věřit, zda jsou data normálně distribuována. Nulová a alternativní hypotéza jsou formulovány takto: H 0: 5letý výnos se řídí normálním rozdělením, H 1: 5letý výnos nesleduje normální rozdělení. Normální rozdělení má dva parametry – matematické očekávání μ a směrodatnou odchylku σ, které lze odhadnout na základě výběrových dat. V tomto případě = 10,149 a S = 4,773.

Rýže. 4. Uspořádané pole obsahující údaje o pětiletém průměrném ročním výnosu 158 fondů

Údaje o výnosech fondů lze seskupit např. do tříd (intervalů) o šířce 5 % (obr. 5).

Rýže. 5. Rozdělení frekvence pro pětileté průměrné roční výnosy 158 fondů

Protože normální rozdělení je spojité, je nutné určit oblast čísel ohraničenou křivkou normálního rozdělení a hranicemi každého intervalu. Navíc, protože normální rozdělení se teoreticky pohybuje od –∞ do +∞, je nutné vzít v úvahu oblast tvarů, které spadají mimo hranice třídy. Plocha pod normální křivkou nalevo od bodu –10 se tedy rovná ploše obrázku ležícího pod standardizovanou normální křivkou nalevo od hodnoty Z rovné

Z = (–10 – 10,149) / 4,773 = –4,22

Plocha obrázku ležící pod standardizovanou normální křivkou vlevo od hodnoty Z = –4,22 je určena vzorcem =NORM.DIST(-10;10,149;4,773;TRUE) a je přibližně rovna 0,00001. Abyste mohli vypočítat plochu obrazce ležícího pod normální křivkou mezi body –10 a –5, musíte nejprve vypočítat plochu obrazce ležícího nalevo od bodu –5: =NORM.DIST( -5,10,149,4,773, TRUE) = 0,00075. Takže plocha obrázku ležícího pod normální křivkou mezi body –10 a –5 je 0,00075 – 0,00001 = 0,00074. Podobně můžete vypočítat plochu obrázku omezenou hranicemi každé třídy (obr. 6).

Rýže. 6. Plochy a očekávané frekvence pro každou třídu pětiletých výnosů

Je vidět, že teoretické četnosti ve čtyřech krajních třídách (dvě minimální a dvě maximální) jsou menší než 1, proto budeme třídy kombinovat, jak ukazuje obr. 7.

Rýže. 7. Výpočty spojené s použitím χ 2 testu dobré shody pro normální rozdělení

Kritérium χ 2 používáme pro shodu dat s normálním rozdělením pomocí vzorce (1). V našem příkladu po sloučení zůstane šest tříd. Vzhledem k tomu, že očekávaná hodnota a směrodatná odchylka jsou odhadnuty ze vzorových dat, počet stupňů volnosti je kp – 1 = 6 – 2 – 1 = 3. Pomocí hladiny významnosti 0,05 zjistíme, že kritická hodnota statistiky χ 2, která má tři stupně volnosti = CI2.OBR(1-0,05;F3) = 7,815. Výpočty spojené s použitím kritéria dobré shody χ 2 jsou znázorněny na Obr. 7.

Je vidět, že χ 2 -statistika = 3,964< χ U 2 7,815, следовательно гипотезу H 0 nelze odmítnout. Jinými slovy, nemáme důvod tvrdit, že 5leté výnosy investičních fondů zaměřených na vysoký růst nepodléhají běžnému rozdělení.

Několik nedávných příspěvků zkoumalo různé přístupy k analýze kategorických dat. Jsou popsány metody pro testování hypotéz o kategoriálních datech získaných analýzou dvou nebo více nezávislých vzorků. Kromě chí-kvadrát testů jsou zvažovány neparametrické postupy. Je popsán Wilcoxonův rank test, který se používá v situacích, kdy nejsou splněny podmínky aplikace t-kritéria pro testování hypotézy o rovnosti matematických očekávání dvou nezávislých skupin a také Kruskal-Wallisův test, který je alternativou k jednofaktorové analýze rozptylu (obr. 8).

Rýže. 8. Blokové schéma metod pro testování hypotéz o kategoriálních datech

Jsou použity materiály z knihy Levin et al. – M.: Williams, 2004. – str. 763–769

Pearsonův χ 2 test je neparametrická metoda, která nám umožňuje posoudit významnost rozdílů mezi skutečným (odhaleným) počtem výsledků nebo kvalitativními charakteristikami vzorku, které spadají do každé kategorie, a teoretickým počtem, který lze očekávat ve studovaném skupiny, pokud je pravdivá nulová hypotéza. Zjednodušeně řečeno, metoda umožňuje vyhodnotit statistickou významnost rozdílů mezi dvěma a více relativními ukazateli (četnosti, podíly).

1. Historie vývoje kritéria χ 2

Chí-kvadrát test pro analýzu kontingenčních tabulek byl vyvinut a navržen v roce 1900 anglickým matematikem, statistikem, biologem a filozofem, zakladatelem matematické statistiky a jedním ze zakladatelů biometrie. Karl Pearson(1857-1936).

2. Proč se používá Pearsonův χ 2 test?

V analýze lze použít chí-kvadrát test kontingenční tabulky obsahující informace o četnosti výsledků v závislosti na přítomnosti rizikového faktoru. Například, čtyřpolní kontingenční tabulka jak následuje:

Existuje výsledek (1) Žádný výsledek (0) Celkový
Existuje rizikový faktor (1) A B A+B
Žádný rizikový faktor (0) C D C+D
Celkový A+C B+D A+B+C+D

Jak takovou kontingenční tabulku vyplnit? Podívejme se na malý příklad.

Probíhá studie o vlivu kouření na riziko rozvoje arteriální hypertenze. Pro tento účel byly vybrány dvě skupiny subjektů - první zahrnovala 70 osob, které kouří alespoň 1 krabičku cigaret denně, druhá zahrnovala 80 nekuřáků stejného věku. V první skupině mělo 40 lidí vysoký krevní tlak. Ve druhém byla arteriální hypertenze pozorována u 32 osob. V souladu s tím byl normální krevní tlak ve skupině kuřáků u 30 osob (70 - 40 = 30) a ve skupině nekuřáků - u 48 (80 - 32 = 48).

Do čtyřpolní kontingenční tabulky vyplníme počáteční údaje:

Ve výsledné kontingenční tabulce každý řádek odpovídá konkrétní skupině subjektů. Sloupce ukazují počet lidí s arteriální hypertenzí nebo normálním krevním tlakem.

Úkol, který je kladen na výzkumníka, zní: existují statisticky významné rozdíly mezi frekvencí osob s krevním tlakem mezi kuřáky a nekuřáky? Na tuto otázku lze odpovědět výpočtem Pearsonova chí-kvadrát testu a porovnáním výsledné hodnoty s kritickou.

3. Podmínky a omezení pro použití Pearsonova chí-kvadrát testu

  1. Je třeba měřit srovnatelné ukazatele jmenovité měřítko(například pohlaví pacienta je muž nebo žena) nebo v řadové(například stupeň arteriální hypertenze, nabývající hodnot od 0 do 3).
  2. Tato metoda umožňuje analyzovat nejen čtyřpolní tabulky, kdy faktor i výsledek jsou binární proměnné, to znamená, že mají pouze dvě možné hodnoty (například mužské nebo ženské pohlaví, přítomnost nebo nepřítomnost určité onemocnění v anamnéze...). Pearsonův chí-kvadrát test lze také použít v případě analýzy vícepolních tabulek, kdy faktor a (nebo) výsledek nabývá tří nebo více hodnot.
  3. Srovnávané skupiny musí být nezávislé, to znamená, že chí-kvadrát test by se neměl používat při porovnávání pozorování před a po. McNemarův test(při porovnání dvou příbuzných populací) nebo vypočítané Cochranův Q test(v případě srovnání tří a více skupin).
  4. Při rozboru čtyřpolních tabulek očekávané hodnoty v každé buňce jich musí být alespoň 10. Pokud alespoň v jedné buňce nabývá očekávaný jev hodnoty od 5 do 9, musí se vypočítat chí-kvadrát test s Yatesovým dodatkem. Pokud je alespoň v jedné buňce očekávaný jev menší než 5, měla by se použít analýza Fisherův přesný test.
  5. Při analýze vícepolních tabulek by očekávaný počet pozorování neměl být menší než 5 ve více než 20 % buněk.

4. Jak vypočítat Pearsonův chí-kvadrát test?

K výpočtu chí-kvadrát testu potřebujete:

Tento algoritmus je použitelný pro čtyřpolní i vícepolní tabulky.

5. Jak interpretovat hodnotu Pearsonova chí-kvadrát testu?

Pokud je získaná hodnota kritéria χ 2 větší než kritická hodnota, docházíme k závěru, že existuje statistický vztah mezi studovaným rizikovým faktorem a výsledkem na příslušné hladině významnosti.

6. Příklad výpočtu Pearsonova chí-kvadrát testu

Stanovme statistickou významnost vlivu faktoru kouření na výskyt arteriální hypertenze pomocí výše uvedené tabulky:

  1. Vypočítáme očekávané hodnoty pro každou buňku:
  2. Najděte hodnotu Pearsonova chí-kvadrát testu:

    χ2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. Počet stupňů volnosti f = (2-1)*(2-1) = 1. Pomocí tabulky zjistíme kritickou hodnotu Pearsonova chí-kvadrát testu, která na hladině významnosti p=0,05 a počet stupňů volnosti 1 je 3,841.
  4. Získanou hodnotu chí-kvadrát testu porovnáváme s kritickou: 4,396 > 3,841, závislost výskytu arteriální hypertenze na přítomnosti kouření je tedy statisticky významná. Hladina významnosti tohoto vztahu odpovídá p<0.05.
Účel kritéria χ 2 - Pearsonovo kritérium Kritérium χ 2 se používá ke dvěma účelům: 1) k porovnání empirického rozdělení charakteristiky s teoretickým - rovnoměrné, normální nebo jiné; 2) porovnat dvě, tři nebo více empirických distribucí stejné charakteristiky. Popis kritéria Kritérium χ 2 odpovídá na otázku, zda se různé hodnoty charakteristiky vyskytují se stejnou frekvencí v empirických a teoretických rozděleních nebo ve dvou či více empirických rozděleních. Výhodou této metody je, že umožňuje porovnávat distribuce prezentovaných vlastností v libovolném měřítku, počínaje stupnicí jmen. V nejjednodušším případě alternativní distribuce „ano – ne“, „povolil vadu – nepovolil vadu“, „vyřešil problém – nevyřešil problém“ atd., již můžeme použít kritérium χ 2. Čím větší je nesoulad mezi dvěma porovnávanými distribucemi, tím větší je empirická hodnota χ 2 . Automatický výpočet χ 2 - Pearsonovo kritérium Chcete-li provést automatický výpočet χ 2 - Pearsonovo kritérium, musíte provést dva kroky: Krok 1. Specifikujte počet empirických rozdělení (od 1 do 10); Krok 2. Zadejte empirické četnosti do tabulky; Krok 3. Získejte odpověď.

Výhodou Pearsonova kritéria je jeho univerzálnost: lze jej použít k testování hypotéz o různých distribučních zákonech.

1. Testování hypotézy normálního rozdělení.

Nechte získat dostatečně velký vzorek P s možností mnoha různých významů. Pro usnadnění zpracování rozdělíme interval od nejmenší po největší hodnotu opce na s stejné části a budeme předpokládat, že hodnoty možností, které spadají do každého intervalu, se přibližně rovnají číslu, které určuje střed intervalu. Spočítáním počtu možností, které spadají do každého intervalu, vytvoříme tzv. seskupený vzorek:

možnosti…….. X 1 X 2 … x s

frekvence …………. P 1 P 2 … n s ,

Kde x i jsou hodnoty středů intervalů a n i– počet zahrnutých možností i-interval (empirické frekvence).



Ze získaných dat můžete vypočítat výběrový průměr a výběrovou směrodatnou odchylku σ B. Ověřme předpoklad, že populace je rozložena podle normálního zákona s parametry M(X) = , D(X) = . Poté můžete zjistit počet čísel z velikosti vzorku P, které by se za tohoto předpokladu (tedy teoretických četností) měly objevit v každém intervalu. K tomu pomocí tabulky hodnot Laplaceovy funkce zjistíme pravděpodobnost, že se do ní dostaneme i interval:

,

Kde a já A b i- hranice i-tý interval. Vynásobením získaných pravděpodobností velikostí vzorku n zjistíme teoretické četnosti: p i = n·p i Naším cílem je porovnat empirické a teoretické četnosti, které se od sebe samozřejmě liší, a zjistit, zda jsou tyto rozdíly nevýznamné a nevyvracejí hypotézu o normálním rozdělení zkoumané náhodné veličiny, nebo zda jsou tak velké, že odporují této hypotéze. K tomuto účelu se používá kritérium ve formě náhodné veličiny

. (20.1)

Jeho význam je zřejmý: sečtou se části, které tvoří druhé mocniny odchylek empirických četností od teoretických od odpovídajících teoretických četností. Lze prokázat, že bez ohledu na skutečný distribuční zákon populace, zákon rozdělení náhodné veličiny (20.1) inklinuje k zákonu rozdělení (viz přednáška 12) s počtem stupňů volnosti k = s – 1 – r, Kde r– počet parametrů očekávaného rozdělení odhadnutý z údajů vzorku. Normální rozdělení je tedy charakterizováno dvěma parametry k = s – 3. Pro zvolené kritérium se zkonstruuje pravostranná kritická oblast určená podmínkou

(20.2)

Kde α - hladina významnosti. V důsledku toho je kritická oblast dána nerovností a oblast přijetí hypotézy je .

Takže, abychom otestovali nulovou hypotézu N 0: populace je normálně rozdělena - musíte vypočítat pozorovanou hodnotu kritéria ze vzorku:

, (20.1`)

a pomocí tabulky kritických bodů rozdělení χ 2 najděte kritický bod pomocí známých hodnot α a k = s – 3. Pokud - je nulová hypotéza přijata, pokud je zamítnuta.

2. Testování hypotézy rovnoměrného rozdělení.

Při použití Pearsonova testu k testování hypotézy, že populace je rovnoměrně rozložena s odhadovanou hustotou pravděpodobnosti

Po výpočtu hodnoty z dostupného vzorku je nutné odhadnout parametry A A b podle vzorců:

Kde A* A b*- hodnocení A A b. Opravdu, pro rovnoměrné rozdělení M(X) = , , kde můžete získat systém pro určování A* A b*: , jehož řešením jsou výrazy (20.3).

Pak, za předpokladu, že , můžete najít teoretické četnosti pomocí vzorců

Tady s– počet intervalů, do kterých je vzorek rozdělen.

Pozorovaná hodnota Pearsonova kritéria se vypočítá pomocí vzorce (20.1`) a kritická hodnota se vypočítá pomocí tabulky s přihlédnutím ke skutečnosti, že počet stupňů volnosti k = s – 3. Poté se určí hranice kritické oblasti stejným způsobem jako při testování hypotézy normálního rozdělení.

3. Testování hypotézy o exponenciálním rozdělení.

V tomto případě, po rozdělení existujícího vzorku na intervaly stejné délky, zvážíme posloupnost možností, které jsou od sebe stejně vzdálené (předpokládáme, že všechny možnosti, které spadají do i- tý interval, mít hodnotu shodující se s jeho středem) a jejich odpovídající frekvence n i(počet vzorových možností zahrnutých v i– tý interval). Počítejme z těchto dat a berme jako odhad parametru λ velikost. Poté se teoretické četnosti vypočítají pomocí vzorce

Poté se porovnává pozorovaná a kritická hodnota Pearsonova kritéria, přičemž se bere v úvahu skutečnost, že počet stupňů volnosti k = s – 2.

V praxi biologického výzkumu je často nutné otestovat tu či onu hypotézu, tedy zjistit, do jaké míry faktický materiál získaný experimentátorem potvrzuje teoretický předpoklad a do jaké míry se analyzovaná data shodují s teoreticky očekávanými jedničky. Vyvstává úkol statisticky vyhodnotit rozdíl mezi skutečnými údaji a teoretickým očekáváním, stanovit, v jakých případech a s jakou mírou pravděpodobnosti lze tento rozdíl považovat za spolehlivý a naopak, kdy by měl být považován za nevýznamný, nevýznamný, v mezích náhody. V druhém případě je zachována hypotéza, na jejímž základě jsou vypočtena teoreticky očekávaná data nebo ukazatele. Takovou variačně-statistickou technikou pro testování hypotézy je metoda chí-kvadrát (χ 2). Toto měřítko se často nazývá „kritérium shody“ nebo „Pearsonův test dobré shody“. S jeho pomocí lze s různou pravděpodobností usuzovat na míru korespondence empiricky získaných dat s teoreticky očekávanými.

Z formálního hlediska se porovnávají dvě variační řady, dvě populace: jedna je empirická distribuce, druhá je vzorek se stejnými parametry ( n, M, S atd.) je stejný jako empirický, ale jeho frekvenční rozdělení je konstruováno v přísném souladu se zvoleným teoretickým zákonem (normální, Poissonův, binomický atd.), kterému se má chování zkoumané náhodné veličiny řídit. .

Obecně lze vzorec pro kritérium shody zapsat takto:

Kde a – skutečná frekvence pozorování,

A – teoreticky očekávaná frekvence pro danou třídu.

Nulová hypotéza předpokládá, že mezi porovnávanými distribucemi nejsou žádné významné rozdíly. Chcete-li posoudit významnost těchto rozdílů, měli byste se podívat na speciální tabulku kritických hodnot chí-kvadrát (Tabulka 9 P) a porovnáním vypočtené hodnoty χ 2 s tabulkou rozhodněte, zda se empirické rozdělení spolehlivě či nespolehlivě odchyluje od teoretického. Hypotéza o absenci těchto rozdílů bude tedy buď vyvrácena, nebo ponechána v platnosti. Pokud je vypočtená hodnota χ 2 se rovná nebo překračuje tabulku χ ² ( α , df), rozhodnout, že empirické rozdělení se výrazně liší od teoretického. Hypotéza o absenci těchto rozdílů bude tedy vyvrácena. Li χ ² < χ ² ( α , df), nulová hypotéza zůstává v platnosti. Obecně se uznává, že přijatelná úroveň významnosti α = 0,05, protože v tomto případě existuje pouze 5% šance, že nulová hypotéza je správná, a proto existuje dostatek důvodů (95%) k jejímu zamítnutí.


Určitým problémem je správné určení počtu stupňů volnosti ( df), pro které jsou hodnoty kritéria převzaty z tabulky. Určit počet stupňů volnosti z celkového počtu tříd k musíte odečíst počet omezení (tj. počet parametrů použitých k výpočtu teoretických četností).

V závislosti na typu rozložení studované charakteristiky se bude měnit vzorec pro výpočet počtu stupňů volnosti. Pro alternativní distribuce ( k= 2) do výpočtů je zapojen pouze jeden parametr (velikost vzorku), proto je počet stupňů volnosti df= k−1=2−1=1. Pro polynom Distribuční vzorec je podobný: df= k−1. Chcete-li zkontrolovat shodu řady variací s distribucí jed jsou již použity dva parametry - velikost vzorku a průměrná hodnota (číselná shoda s disperzí); počet stupňů volnosti df= k−2. Při kontrole konzistence empirického rozdělení možnost normální nebo binomický Podle zákona se počet stupňů volnosti bere jako počet skutečných tříd mínus tři podmínky pro konstrukci řad - velikost vzorku, průměr a rozptyl, df= k−3. Okamžitě stojí za zmínku, že kritérium χ² funguje pouze pro vzorky objem minimálně 25 variant, a četnosti jednotlivých tříd by měly být ne nižší než 4.

Nejprve si ukážeme použití chí-kvadrát testu na příkladu analýzy alternativní variabilita. V jednom experimentu ke studiu dědičnosti rajčat bylo nalezeno 3629 červených a 1176 žlutých plodů. Teoretický poměr frekvencí pro dělení znaků u druhé hybridní generace by měl být 3:1 (75 % ku 25 %). Provádí se? Jinými slovy, je tento vzorek odebrán z populace, ve které je poměr frekvencí 3:1 nebo 0,75:0,25?

Vytvořme tabulku (Tabulka 4), do které vyplníme hodnoty empirických četností a výsledky výpočtu teoretických četností pomocí vzorce:

A = n∙p,

Kde p– teoretické četnosti (zlomky varianty tohoto typu),

n – velikost vzorku.

Například, A 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.

23. Koncepce chí-kvadrát a Studentova distribuce a grafické zobrazení

1) Rozdělení (chí-kvadrát) s n stupni volnosti je rozdělení součtu čtverců n nezávislých standardních normálních náhodných veličin.

Distribuce (chí-kvadrát)– rozdělení náhodné veličiny (a matematické očekávání každé z nich je 0 a směrodatná odchylka je 1)

kde jsou náhodné proměnné nezávislé a mají stejnou distribuci. V tomto případě se počet členů, tj., nazývá „počet stupňů volnosti“ rozdělení chí-kvadrát. Chí-kvadrát číslo je určeno jedním parametrem, počtem stupňů volnosti. S rostoucím počtem stupňů volnosti se rozdělení pomalu blíží normálu.

Pak součet jejich čtverců

je náhodná veličina rozdělená podle tzv. zákona chí-kvadrát s k = n stupni volnosti; pokud jsou členy spojeny nějakým vztahem (například ), pak počet stupňů volnosti k = n – 1.

Hustota tohoto rozdělení

Tady - funkce gama; konkrétně Г(n + 1) = n! .

Proto je rozdělení chí-kvadrát určeno jedním parametrem - počtem stupňů volnosti k.

Poznámka 1. S rostoucím počtem stupňů volnosti se rozdělení chí-kvadrát postupně blíží normálu.

Poznámka 2. Pomocí chí-kvadrát rozdělení se určuje mnoho dalších rozdělení, se kterými se v praxi setkáváme, např. rozdělení náhodné veličiny - délka náhodného vektoru (X1, X2,..., Xn), souřadnice které jsou nezávislé a rozdělené podle normálního zákona.

Rozdělení χ2 poprvé uvažovali R. Helmert (1876) a K. Pearson (1900).

Math.expect.=n; D = 2n

2) Studentská distribuce

Uvažujme dvě nezávislé náhodné veličiny: Z, která má normální rozdělení a je normalizovaná (tj. M(Z) = 0, σ(Z) = 1), a V, která je rozdělena podle zákona chí-kvadrát s k stupně svobody. Potom hodnota

má rozdělení nazývané t-rozdělení nebo Studentovo rozdělení s k stupni volnosti. V tomto případě se k nazývá „počet stupňů volnosti“ Studentova rozdělení.

S rostoucím počtem stupňů volnosti se Studentovo rozdělení rychle blíží normálu.

Tuto distribuci zavedl v roce 1908 anglický statistik W. Gosset, který pracoval v továrně na pivo. V této továrně se k ekonomickým a technickým rozhodnutím používaly pravděpodobnostní a statistické metody, proto její vedení zakázalo V. Gossetovi publikovat vědecké články pod svým jménem. Tímto způsobem bylo chráněno obchodní tajemství a „know-how“ v podobě pravděpodobnostních a statistických metod vyvinutých V. Gossetem. Měl však možnost publikovat pod pseudonymem „Student“. Příběh Gosset-Student ukazuje, že ještě před sto lety si manažeři Spojeného království uvědomovali větší ekonomickou efektivitu pravděpodobnostních a statistických metod rozhodování.