Az OLS és a khi-négyzet teszt összehasonlítása. A statisztika klasszikus módszerei: khi-négyzet próba

Ebben a megjegyzésben a χ 2 eloszlást egy rögzített valószínűségi eloszlású adathalmaz konzisztenciájának tesztelésére használjuk. Az egyetértési kritérium gyakran O Egy adott kategóriába tartozó Önt összehasonlítjuk azokkal a gyakoriságokkal, amelyek elméletileg várhatóak lennének, ha az adatok valóban a megadott eloszlásúak lennének.

A χ 2 illeszkedési kritérium alapján történő tesztelés több szakaszban történik. Először egy konkrét valószínűségi eloszlást kell meghatározni, és összehasonlítani az eredeti adatokkal. Másodsorban hipotézist állítanak fel a kiválasztott valószínűségi eloszlás paramétereiről (például annak matematikai elvárásáról), vagy elvégzik azok értékelését. Harmadszor, az elméleti eloszlás alapján meghatározzuk az egyes kategóriáknak megfelelő elméleti valószínűséget. Végül a χ2 tesztstatisztikát használjuk az adatok és az eloszlás konzisztenciájának ellenőrzésére:

Ahol f 0- megfigyelt gyakoriság, f e- elméleti vagy várható gyakoriság, k- az összevonás után fennmaradó kategóriák száma, R- a becsülendő paraméterek száma.

Töltse le a jegyzetet vagy formátumban, a példákat formátumban

A χ 2 illeszkedési teszt alkalmazása a Poisson-eloszlásra

A képlet segítségével történő kiszámításhoz az Excelben célszerű a =SUMPRODUCT() függvényt használni (1. ábra).

A paraméter becsléséhez λ használhatja a becslést . Elméleti frekvencia x a paraméternek megfelelő sikerek (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 és több) λ = 2,9 a =POISSON.DIST(X;;FALSE) függvénnyel határozható meg. A Poisson-valószínűség szorzata a minta méretével n, megkapjuk az elméleti frekvenciát f e(2. ábra).

Rizs. 2. A tényleges és elméleti érkezési arány percenként

ábrából következik. 2, a kilenc vagy több érkezés elméleti gyakorisága nem haladja meg az 1,0 értéket. Annak biztosítása érdekében, hogy minden kategória 1,0 vagy nagyobb gyakoriságot tartalmazzon, a „9 vagy több” kategóriát a „8” kategóriával kell kombinálni. Azaz kilenc kategória marad (0, 1, 2, 3, 4, 5, 6, 7, 8 és több). Mivel a Poisson-eloszlás matematikai elvárása mintaadatok alapján kerül meghatározásra, a szabadságfokok száma egyenlő k – p – 1 = 9 – 1 – 1 = 7. 0,05-ös szignifikanciaszintet használva megkapjuk a χ 2 statisztika kritikus értéke, amelynek 7 szabadsági foka van a =CHI2.OBR(1-0.05;7) = 14.067 képlet szerint. A döntési szabály a következőképpen fogalmazódik meg: hipotézis H 0 el kell utasítani, ha χ 2 > 14,067, ellenkező esetben a hipotézis H 0 nem tér el.

A χ 2 kiszámításához az (1) képletet használjuk (3. ábra).

Rizs. 3. A χ 2 -illesztési kritérium kiszámítása a Poisson-eloszláshoz

Mivel χ 2 = 2,277< 14,067, следует, что гипотезу H 0 nem utasítható el. Vagyis nincs okunk azt állítani, hogy az ügyfelek bankba érkezése nem engedelmeskedik a Poisson-eloszlásnak.

χ 2 -illesztési teszt alkalmazása normál eloszlásra

A korábbi megjegyzésekben a numerikus változókra vonatkozó hipotézisek tesztelésekor azt feltételeztük, hogy a vizsgált sokaság normális eloszlású. Ennek a feltételezésnek az ellenőrzéséhez használhat grafikus eszközöket, például dobozdiagramot vagy normál eloszlási gráfot (további részletekért lásd:). Nagy mintaméretek esetén ezeknek a feltételezéseknek a tesztelésére a normál eloszlásra vonatkozó χ 2 illeszkedési teszt használható.

Példaként vegyük 158 befektetési alap 5 éves hozamának adatait (4. ábra). Tegyük fel, hogy el akarja hinni, hogy az adatok normál eloszlásúak-e. A null- és alternatív hipotézis a következőképpen fogalmazódik meg: H 0: 5 éves hozam normál eloszlást követ, H 1: Az 5 éves hozam nem normál eloszlást követ. A normál eloszlásnak két paramétere van - a μ matematikai elvárás és a σ szórás, amely mintaadatok alapján becsülhető. Ebben az esetben = 10,149 és S = 4,773.

Rizs. 4. 158 alap ötéves átlagos éves hozamának adatait tartalmazó rendezett tömb

Az alap hozamára vonatkozó adatok például 5%-os szélességű osztályokba (intervallumokba) csoportosíthatók (5. ábra).

Rizs. 5. Gyakorisági eloszlás 158 alap ötéves átlagos éves hozama esetén

Mivel a normál eloszlás folytonos, meg kell határozni a normál eloszlási görbe által határolt ábrák területét és az egyes intervallumok határait. Ezenkívül, mivel a normális eloszlás elméletileg –∞ és +∞ között mozog, figyelembe kell venni az osztályhatárokon kívül eső alakzatok területét. Tehát a normálgörbe alatti terület a –10 ponttól balra egyenlő a szabványos normálgörbe alatti, a Z értéktől balra lévő ábra területével egyenlő.

Z = (–10 – 10,149) / 4,773 = –4,22

A szabványos normálgörbe alatti, a Z = –4,22 értéktől balra fekvő ábra területét a =NORM.DIST(-10;10,149;4,773;TRUE) képlet határozza meg, és körülbelül 0,00001. A –10 és –5 pontok közötti normálgörbe alatti ábra területének kiszámításához először ki kell számítani a –5 ponttól balra fekvő ábra területét: =NORM.DIST( -5,10,149,4,773,TRUE) = 0,00075 . Tehát a normálgörbe alatti ábra területe a –10 és –5 pontok között 0,00075 – 0,00001 = 0,00074. Hasonlóképpen kiszámíthatja az ábra területét, amelyet az egyes osztályok határai korlátoznak (6. ábra).

Rizs. 6. Területek és várható gyakoriságok az 5 éves hozamok egyes osztályaihoz

Látható, hogy a négy szélső osztályban (két minimum és két maximum) az elméleti gyakoriságok kisebbek, mint 1, ezért az osztályokat a 7. ábra szerint összevonjuk.

Rizs. 7. Számítások a χ 2 illeszkedési próbával a normál eloszlásra

A χ 2 kritériumot használjuk az adatok normál eloszlással való egyezésére az (1) képlet segítségével. Példánkban az összevonás után hat osztály marad. Mivel a várható értéket és a szórást a mintaadatokból becsüljük, a szabadsági fokok száma az kp – 1 = 6 – 2 – 1 = 3. 0,05-ös szignifikanciaszintet használva azt találjuk, hogy a három szabadságfokkal rendelkező χ 2 statisztika kritikus értéke = CI2.OBR(1-0,05;F3) = 7,815. A χ 2 illeszkedési feltétel használatához kapcsolódó számításokat az ábra mutatja. 7.

Látható, hogy χ 2 -statisztika = 3,964< χ U 2 7,815, следовательно гипотезу H 0 nem utasítható el. Vagyis nincs alapunk azt állítani, hogy a nagy növekedésre koncentráló befektetési alapok 5 éves hozamai nem esnek normális eloszlás alá.

A közelmúltban számos poszt különböző megközelítéseket tárt fel a kategorikus adatok elemzésére. Két vagy több független minta elemzéséből nyert kategorikus adatokkal kapcsolatos hipotézisek tesztelésének módszereit ismertetjük. A khi-négyzet próbák mellett nem paraméteres eljárásokat is figyelembe veszünk. Leírják a Wilcoxon rangtesztet, amelyet olyan helyzetekben használnak, amikor az alkalmazási feltételek nem teljesülnek t-kritériumok a két független csoport matematikai elvárásainak egyenlőségére vonatkozó hipotézis tesztelésére, valamint a Kruskal-Wallis teszt, amely az egytényezős varianciaanalízis alternatívája (8. ábra).

Rizs. 8. A kategorikus adatokkal kapcsolatos hipotézisek tesztelésének módszereinek blokkdiagramja

A Levin et al. Statisztika menedzsereknek című könyv anyagait használjuk. – M.: Williams, 2004. – p. 763–769

A Pearson-féle χ 2 teszt egy nem paraméteres módszer, amely lehetővé teszi, hogy felmérjük az egyes kategóriákba tartozó minta kimeneteleinek tényleges (feltárt) száma vagy minőségi jellemzői közötti különbségek szignifikanciáját, és a vizsgáltban várható elméleti szám között. csoportokba, ha a nullhipotézis igaz. Leegyszerűsítve, a módszer lehetővé teszi két vagy több relatív mutató (gyakoriság, arányok) közötti különbségek statisztikai szignifikanciájának értékelését.

1. A χ 2 kritérium kialakulásának története

A kontingenciatáblázatok elemzésére szolgáló khi-négyzet tesztet egy angol matematikus, statisztikus, biológus és filozófus, a matematikai statisztika megalapítója és a biometria egyik megalapítója fejlesztette ki és javasolta 1900-ban. Karl Pearson(1857-1936).

2. Miért használják a Pearson-féle χ 2 tesztet?

Az elemzésben a khi-négyzet teszt használható készenléti táblázatok információkat tartalmaz a kimenetelek gyakoriságáról egy kockázati tényező jelenlététől függően. Például, négymezős kontingenciatábla alábbiak szerint:

Van eredmény (1) Nincs eredmény (0) Teljes
Van egy kockázati tényező (1) A B A+B
Nincs kockázati tényező (0) C D C+D
Teljes A+C B+D A+B+C+D

Hogyan kell kitölteni egy ilyen tartaléktáblát? Nézzünk egy kis példát.

Vizsgálat folyik a dohányzásnak az artériás hipertónia kialakulásának kockázatára gyakorolt ​​hatásáról. Ebből a célból két alanycsoportot választottak ki – az elsőbe 70 olyan személy került, akik naponta legalább 1 doboz cigarettát szívnak el, a másodikba 80 azonos korú nemdohányzót. Az első csoportban 40 embernek volt magas vérnyomása. A másodikban 32 embernél figyeltek meg artériás magas vérnyomást. Ennek megfelelően a normál vérnyomás a dohányosok csoportjában 30 fő (70-40 = 30), a nemdohányzók csoportjában pedig 48 fő (80-32 = 48) volt.

A négy mezős kontingencia táblát kitöltjük a kiindulási adatokkal:

Az így kapott kontingenciatáblázatban minden sor a tantárgyak meghatározott csoportjának felel meg. Az oszlopok az artériás hipertóniában vagy normál vérnyomásban szenvedők számát mutatják.

A kutató feladata a következő: van-e statisztikailag szignifikáns különbség a vérnyomásosok gyakorisága között a dohányosok és a nemdohányzók körében? Erre a kérdésre a Pearson khi-négyzet próba kiszámításával adható meg a válasz, és a kapott értéket összehasonlítjuk a kritikus értékkel.

3. A Pearson-khi-négyzet teszt alkalmazásának feltételei és korlátai

  1. Összehasonlítható mutatókban kell mérni névleges méretarány(például a páciens neme férfi vagy nő) vagy in sorrendi(például az artériás magas vérnyomás mértéke, 0 és 3 közötti értékeket véve).
  2. Ezzel a módszerrel nem csak a négymezős táblázatok elemzését teszi lehetővé, ha a faktor és az eredmény is bináris változó, azaz csak két lehetséges értékük van (például férfi vagy női nem, egy bizonyos betegség az anamnézisben...). A Pearson khi-négyzet teszt használható többmezős táblák elemzésekor is, amikor egy tényező és (vagy) eredmény három vagy több értéket vesz fel.
  3. Az összehasonlítandó csoportoknak függetleneknek kell lenniük, vagyis a khi-négyzet tesztet nem szabad az előtte-utána megfigyelések összehasonlításakor használni. McNemar teszt(két rokon sokaság összehasonlításakor) vagy számított Cochran Q tesztje(három vagy több csoport összehasonlítása esetén).
  4. Négymezős táblák elemzésekor várható értékek minden cellában legalább 10-nek kell lennie. Ha legalább egy cellában a várt jelenség 5 és 9 közötti értéket vesz fel, akkor a khi-négyzet tesztet kell kiszámítani Yates módosításával. Ha legalább egy cellában a várt jelenség 5-nél kisebb, akkor az elemzést kell használni Fisher pontos tesztje.
  5. A többmezős táblák elemzésekor a cellák több mint 20%-ában a várható megfigyelések száma nem lehet kevesebb 5-nél.

4. Hogyan kell kiszámítani a Pearson khi-négyzet tesztet?

A khi-négyzet teszt kiszámításához a következőkre van szüksége:

Ez az algoritmus négymezős és többmezős táblákhoz egyaránt alkalmazható.

5. Hogyan értelmezzük a Pearson khi-négyzet teszt értékét?

Ha a χ 2 kritérium kapott értéke nagyobb, mint a kritikus érték, arra a következtetésre jutunk, hogy a vizsgált kockázati tényező és az eredmény között a megfelelő szignifikanciaszinten statisztikai kapcsolat van.

6. Példa a Pearson khi-négyzet próba kiszámítására

Határozzuk meg a dohányzási faktornak az artériás hipertónia előfordulására gyakorolt ​​hatásának statisztikai szignifikanciáját a fent tárgyalt táblázat segítségével!

  1. Minden cellához kiszámítjuk a várható értékeket:
  2. Keresse meg a Pearson khi-négyzet teszt értékét:

    χ 2 = (40-33,6) 2 /33,6 + (30-36,4) 2 /36,4 + (32-38,4) 2 /38,4 + (48-41,6) 2 /41,6 = 4,396.

  3. A szabadsági fokok száma f = (2-1)*(2-1) = 1. A táblázat segítségével megtaláljuk a Pearson khi-négyzet próba kritikus értékét, amely p=0,05 szignifikancia szinten és a sz. Az 1. szabadságfok értéke 3,841.
  4. A khi-négyzet teszt kapott értékét összehasonlítjuk a kritikus értékkel: 4,396 > 3,841, ezért az artériás hipertónia előfordulási gyakoriságának a dohányzás jelenlététől való függése statisztikailag szignifikáns. Ennek a kapcsolatnak a szignifikancia szintje p<0.05.
A χ 2 kritérium célja – a Pearson-kritérium A χ 2 kritérium két célra szolgál: 1) egy jellemző empirikus eloszlásának összehasonlítása az elméletivel – egyenletes, normál vagy valamilyen más; 2) ugyanazon jellemző két, három vagy több empirikus eloszlásának összehasonlítása. A kritérium leírása A χ 2 kritérium arra a kérdésre ad választ, hogy egy jellemző különböző értékei azonos gyakorisággal fordulnak elő empirikus és elméleti eloszlásban, vagy két vagy több tapasztalati eloszlásban. A módszer előnye, hogy lehetővé teszi a bemutatott jellemzők eloszlásának összehasonlítását tetszőleges skálán, a névskálából kiindulva. Egy alternatív eloszlás legegyszerűbb esetben „igen - nem”, „megengedett egy hibát – nem engedett meg hibát”, „megoldott egy problémát – nem oldott meg” stb., már alkalmazhatjuk a χ 2 kritériumot. Minél nagyobb az eltérés a két összehasonlított eloszlás között, annál nagyobb a χ 2 tapasztalati értéke. χ 2 – Pearson-kritérium automatikus kiszámítása A χ 2 – Pearson-feltétel automatikus kiszámításához két lépést kell végrehajtania: 1. lépés. Adja meg az empirikus eloszlások számát (1-től 10-ig); 2. lépés. Írja be az empirikus gyakoriságokat a táblázatba; 3. lépés. Választ kapni.

A Pearson-kritérium előnye az univerzalitás: különféle eloszlási törvényekre vonatkozó hipotézisek tesztelésére használható.

1. A normális eloszlás hipotézisének tesztelése.

Legyen elég nagy minta P sokféle jelentésű opcióval. A feldolgozás kényelme érdekében az opció legkisebb értékétől a legnagyobb értékig terjedő intervallumot felosztjuk s egyenlő részekre, és feltételezzük, hogy az egyes intervallumokba eső opciók értéke megközelítőleg megegyezik az intervallum közepét meghatározó számmal. Az egyes intervallumokba eső opciók számának megszámlálásával létrehozunk egy úgynevezett csoportos mintát:

lehetőségek……….. x 1 x 2 … x s

frekvenciák…………. P 1 P 2 … n s ,

Ahol x i az intervallumok felezőpontjainak értékei, és n i– a benne foglalt opciók száma én-intervallum (empirikus frekvenciák).



A kapott adatokból kiszámíthatja a minta átlagát és a minta szórását σ B. Vizsgáljuk meg azt a feltevést, hogy a sokaság normális, paraméteres törvény szerint oszlik el M(x) = , D(x) = . Ezután a mintaméretből megtudhatja a számok számát P, amelynek minden intervallumban meg kell jelennie e feltevés mellett (vagyis az elméleti frekvenciákban). Ehhez a Laplace-függvény értéktáblázata segítségével megtaláljuk a bekerülési valószínűséget én intervallum:

,

Ahol és énÉs b i- határok én-edik intervallum. A kapott valószínűségeket megszorozva az n mintamérettel, megkapjuk az elméleti gyakoriságokat: p i =n·p i Célunk az egymástól természetesen eltérő empirikus és elméleti gyakoriságok összehasonlítása, és annak megállapítása, hogy ezek a különbségek jelentéktelenek-e, és nem cáfolják-e a vizsgált valószínűségi változó normális eloszlására vonatkozó hipotézist, vagy olyan nagyok, hogy ellentmondanak ennek a hipotézisnek. Erre a célra egy valószínűségi változó formájában lévő kritériumot használnak

. (20.1)

Jelentése nyilvánvaló: összegezzük azokat a részeket, amelyeket az empirikus frekvenciák elméletitől való eltérésének négyzete alkot a megfelelő elméleti frekvenciákból. Bizonyítható, hogy a sokaság valós eloszlási törvényétől függetlenül a valószínűségi változó (20.1) eloszlási törvénye a szabadságfokszámú eloszlási törvényhez (lásd 12. előadás) hajlik. k = s – 1 – r, Ahol r– a mintaadatokból becsült várható eloszlás paramétereinek száma. A normál eloszlást tehát két paraméter jellemzi k = s – 3. A kiválasztott kritériumhoz egy jobb oldali kritikus régiót szerkesztünk, amelyet a feltétel határoz meg

(20.2)

Ahol α - szignifikancia szint. Következésképpen a kritikus tartományt az egyenlőtlenség adja és a hipotézis elfogadási területe .

Tehát a nullhipotézis tesztelésére N 0: a sokaság normális eloszlású - a mintából ki kell számítania a kritérium megfigyelt értékét:

, (20.1`)

és a χ 2 eloszlás kritikus pontjainak táblázatát használva keresse meg a kritikus pontot az α ismert értékeinek és k = s – 3. Ha - a nullhipotézist elfogadjuk, ha elvetjük.

2. Az egyenletes eloszlás hipotézisének tesztelése.

Amikor a Pearson-tesztet használjuk annak a hipotézisnek a tesztelésére, hogy a sokaság egyenletesen oszlik el a becsült valószínűségi sűrűséggel

A rendelkezésre álló mintából kiszámolva szükséges a paraméterek becslése AÉs b a képletek szerint:

Ahol A*És b*- értékelések AÉs b. Valóban, az egyenletes elosztás érdekében M(x) = , , ahol rendszert kaphat annak meghatározására A*És b*: , melynek megoldása a (20.3) kifejezések.

Akkor ezt feltételezve , a képletek segítségével megtalálhatja az elméleti gyakoriságokat

Itt s– azoknak az intervallumoknak a száma, amelyekre a minta fel van osztva.

A Pearson-kritérium megfigyelt értékét a (20.1`) képlet segítségével, a kritikus értéket pedig a táblázat segítségével számítjuk ki, figyelembe véve azt a tényt, hogy a szabadságfokok száma k = s – 3. Ezt követően a kritikus tartomány határait ugyanúgy meghatározzuk, mint a normális eloszlás hipotézisének tesztelésekor.

3. Az exponenciális eloszlásra vonatkozó hipotézis tesztelése.

Ebben az esetben, miután a meglévő mintát egyenlő hosszúságú intervallumokra osztottuk, figyelembe vesszük az opciók sorozatát, amelyek egymástól egyenlő távolságra vannak (feltételezzük, hogy minden opció, amely én- edik intervallum, vegyünk egy értéket, amely egybeesik a közepével), és a hozzájuk tartozó frekvenciákat n i(a mintalehetőségek száma tartalmazza én– edik intervallum). Számoljunk ezekből az adatokból, és vegyük a paraméter becslését λ méret. Ezután a képlet segítségével kiszámítjuk az elméleti gyakoriságokat

Ezután összehasonlítjuk a Pearson-kritérium megfigyelt és kritikus értékét, figyelembe véve, hogy a szabadságfokok száma k = s – 2.

A biológiai kutatások gyakorlatában gyakran szükséges egy-egy hipotézis tesztelése, vagyis annak kiderítése, hogy a kísérletező által megszerzett tényanyag mennyiben erősíti meg az elméleti feltételezést, és az elemzett adatok mennyiben esnek egybe az elméletileg várt adatokkal. azok. A feladat a tényleges adatok és az elméleti elvárások közötti különbség statisztikai értékelése, annak megállapítása, hogy ez a különbség milyen esetekben és milyen valószínűséggel tekinthető megbízhatónak, és fordítva, mikor tekinthető jelentéktelennek, jelentéktelennek a véletlen határain belül. Utóbbi esetben megmarad a hipotézis, amely alapján az elméletileg várható adatokat vagy mutatókat számítják ki. A hipotézis tesztelésének ilyen variációs-statisztikai technikája a módszer chi-négyzet (χ 2). Ezt a mértéket gyakran „alkalmassági kritériumnak” vagy „Pearson-féle illeszkedési tesztnek” nevezik. Segítségével változó valószínűséggel meg lehet ítélni az empirikusan kapott adatok és az elméletileg várt adatok megfelelésének mértékét.

Formális szempontból két variációs sorozatot, két sokaságot hasonlítanak össze: az egyik egy empirikus eloszlás, a másik egy minta azonos paraméterekkel ( n, M, S stb.) megegyezik az empirikuséval, de gyakorisági eloszlása ​​szigorúan a választott elméleti törvény (normál, Poisson, binomiális stb.) szerint épül fel, amelynek a vizsgált valószínűségi változó viselkedése feltételezhetően engedelmeskedik. .

Általában a megfelelőségi kritérium képlete a következőképpen írható fel:

Ahol a – a megfigyelések tényleges gyakorisága,

A – adott osztályra vonatkozó elméletileg várható gyakoriság.

A nullhipotézis azt feltételezi, hogy az összehasonlított eloszlások között nincs szignifikáns különbség. Ezen eltérések jelentőségének felméréséhez a kritikus khi-négyzet értékek speciális táblázatát kell használni (9. P) és a számított érték összehasonlításával χ 2 táblázat segítségével döntse el, hogy az empirikus eloszlás megbízhatóan vagy nem megbízhatóan tér el az elméletitől. Így az eltérések hiányára vonatkozó hipotézist vagy megcáfolják, vagy érvényben maradnak. Ha a számított érték χ 2 egyenlő vagy meghaladja a táblázatot χ ² ( α , df), döntse el, hogy az empirikus eloszlás jelentősen eltér az elméletitől. Így az ezen különbségek hiányára vonatkozó hipotézis meg lesz cáfolva. Ha χ ² < χ ² ( α , df), a nullhipotézis érvényben marad. Általánosan elfogadott, hogy a jelentőség elfogadható szintje α = 0,05, mert ebben az esetben csak 5% az esélye annak, hogy a nullhipotézis helyes, és ezért elegendő ok (95%) van annak elutasítására.


Egy bizonyos probléma a szabadsági fokok számának helyes meghatározása ( df), amelyhez a kritériumértékek a táblázatból származnak. Meghatározni a szabadsági fokok számát az összes osztályszámból k ki kell vonnia a kényszerek számát (azaz az elméleti gyakoriságok kiszámításához használt paraméterek számát).

A vizsgált jellemző eloszlásának típusától függően változik a szabadságfokok számának számítási képlete. Mert alternatív disztribúciók ( k= 2) csak egy paraméter (mintanagyság) vesz részt a számításokban, ezért a szabadsági fokok száma df= k−1=2−1=1. Mert polinom Az elosztási képlet hasonló: df= k−1. A variációs sorozat és az eloszlás megfelelőségének ellenőrzése Poisson két paraméter már használatban van - a minta mérete és az átlagérték (számszerűen egybeesik a diszperzióval); szabadsági fokok száma df= k−2. Az empirikus eloszlás konzisztenciájának ellenőrzésekor a lehetőséget Normál vagy binomiális A törvény szerint a szabadsági fokok számát úgy tekintjük, mint a tényleges osztályok számát, mínusz három feltételt a sorozat készítéséhez - minta nagysága, átlaga és variancia, df= k−3. Azonnal érdemes megjegyezni, hogy a χ²-kritérium csak minták esetén működik kötet legalább 25 változat, és az egyes osztályok gyakorisága legyen nem alacsonyabb 4-nél.

Először egy elemzési példán keresztül szemléltetjük a khi-négyzet teszt használatát alternatív változékonyság. A paradicsom öröklődését vizsgáló egyik kísérletben 3629 piros és 1176 sárga gyümölcsöt találtak. A második hibrid generációban a karakterek felosztásának gyakorisági arányának elméleti aránya 3:1 (75-25%). Megvalósítás alatt áll? Más szavakkal, ez a minta olyan populációból származik, amelyben a gyakorisági arány 3:1 vagy 0,75:0,25?

Készítsünk egy táblázatot (4. táblázat), kitöltve az empirikus gyakoriságok értékeit és az elméleti gyakoriságok kiszámításának eredményeit a képlet segítségével:

A = n∙p,

Ahol p– elméleti frekvenciák (egy ilyen típusú változat töredékei),

n – minta nagysága.

Például, A 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.

23. A khi-négyzet és a Student-eloszlás fogalma, valamint grafikus nézet

1) Egy n szabadságfokú eloszlás (khi-négyzet) n független standard normális valószínűségi változó négyzetösszegének eloszlása.

Eloszlás (khi-négyzet)– egy valószínűségi változó eloszlása ​​(és mindegyik matematikai elvárása 0, szórása 1)

hol vannak a valószínűségi változók függetlenek és azonos eloszlásúak. Ebben az esetben a tagok számát, azaz a khi-négyzet eloszlás „szabadságfokainak számát” nevezzük. A khi-négyzet számot egy paraméter, a szabadságfokok száma határozza meg. A szabadsági fokok számának növekedésével az eloszlás lassan megközelíti a normálisat.

Aztán a négyzetük összege

az úgynevezett khi-négyzet törvény szerint eloszló valószínűségi változó k = n szabadságfokkal; ha a tagokat valamilyen összefüggés (például ) kapcsolja össze, akkor a szabadsági fokok száma k = n – 1.

Ennek az eloszlásnak a sűrűsége

Itt - gamma függvény; különösen Г(n + 1) = n! .

Ezért a khi-négyzet eloszlást egy paraméter határozza meg - a k szabadsági fokok száma.

Megjegyzés 1. A szabadsági fokok számának növekedésével a khi-négyzet eloszlás fokozatosan közelít a normálishoz.

Megjegyzés 2. A khi-négyzet eloszlás segítségével sok más, a gyakorlatban előforduló eloszlást is meghatároznak, például egy valószínűségi változó eloszlását - egy véletlen vektor hossza (X1, X2,..., Xn), a koordináták amelyek függetlenek és a normál törvény szerint oszlanak meg.

A χ2 eloszlással először R. Helmert (1876) és K. Pearson (1900) foglalkozott.

Math.expect.=n; D=2n

2) Diákosztás

Tekintsünk két független valószínűségi változót: Z, amely normális eloszlású és normalizált (azaz M(Z) = 0, σ(Z) = 1), és V, amely a khi-négyzet törvénye szerint eloszlik k-val. szabadsági fokokat. Aztán az érték

t-eloszlásnak vagy Student-eloszlásnak nevezett eloszlása ​​van k szabadságfokkal. Ebben az esetben k-t a Student-eloszlás „szabadságfokainak számának” nevezzük.

A szabadsági fokok számának növekedésével a Student-eloszlás gyorsan megközelíti a normált.

Ezt az elosztást 1908-ban vezette be W. Gosset angol statisztikus, aki egy sörgyárban dolgozott. Ebben a gyárban valószínûségi és statisztikai módszereket alkalmaztak a gazdasági és mûszaki döntések meghozatalához, ezért a vezetõsége megtiltotta V. Gosset-nek, hogy saját neve alatt publikáljon tudományos cikkeket. Ily módon a V. Gosset által kidolgozott valószínűségi és statisztikai módszerek formájában megvédték az üzleti titkokat és a „know-how-t”. Lehetősége volt azonban „Diák” álnéven publikálni. A Gosset-Student történet azt mutatja, hogy az Egyesült Királyság vezetői már száz évvel ezelőtt is tisztában voltak a valószínűségi és statisztikai döntéshozatali módszerek nagyobb gazdasági hatékonyságával.