Здравейте критично. Как да интерпретираме тестовата стойност на Хи-квадрат на Пиърсън

При провеждане на хи-квадрат тест се проверява взаимната независимост на две променливи в таблицата за непредвидени обстоятелства и благодарение на това косвено се определя зависимостта на двете променливи. Две променливи се считат за взаимно независими, ако наблюдаваните честоти (f 0) в клетките съвпадат с очакваните честоти (f e).

За да извършите тест хи-квадрат с помощта на SPSS, изпълнете следните стъпки:

  • Изберете команди от менюто Анализирам(Анализ) > Описателна статистика(Описателна статистика) > кръстосани таблици...(Таблици за извънредни ситуации)
  • Бутон Нулиране(Нулиране) изчистване на възможни настройки.
  • Преместете променливата пол в списъка с редове и променливата психика в списъка с колони.
  • Щракнете върху бутона клетки...(Клетки). В диалоговия прозорец поставете отметка до квадратчето за отметка по подразбиране Наблюдаваното, още квадратчета за отметка ОчакванИ Стандартизиран. Потвърдете избора си с бутона продължи.
  • Щракнете върху бутона Статистика…(Статистика).

Ще се отвори диалоговият прозорец, описан по-горе. Кръстосани таблици: Статистика.

  • Поставете отметка в квадратчето Хи-квадрат(Хи-квадрат). Щракнете върху бутона продължи, а в главния диалогов прозорец - до Добре.

Ще получите следната таблица за непредвидени обстоятелства.

Пол * Психическо състояние. Таблица за непредвидени обстоятелства.

Психическо състояние Обща сума
Изключително нестабилен Нестабилна Устойчив Много стабилен
Етаж женски пол Броя 16 18 9 1 44
Очакван брой 7.9 16.6 17.0 2.5 44.0
Std. Остатъчен 2.9 0.3 -1.9 -0.9
Мъжки Броя 3 22 32 5 62
Очакван брой 11.1 23.4 24.0 3.5 62.0
Std. Остатъчен -2.4 -0.3 1.6 0.8
Обща сума Броя 19 40 41 6 106
Очакван брой 19.0 40.0 41.0 6.0 106.0

Освен това прозорецът за визуализация ще покаже резултатите от теста хи-квадрат:

Хи-квадрат тестове

  • А. 2 клетки (25,0%) имат очакван брой по-малък от 5. Минималният очакван брой е 2,49 (2 клетки (25%) имат очаквана честота по-малка от 5. Минималната очаквана честота е 2,49.)

Използват се три различни подхода за изчисляване на теста хи-квадрат: формулата на Pearson, корекция на вероятността и тест на Mantel-Haenszel. Ако таблицата за непредвидени обстоятелства има четири полета и очакваната вероятност е по-малка от 5, допълнително се изпълнява точният тест на Фишер.

Хи-квадрат тест на Пиърсън

Обикновено формулата на Pearson се използва за изчисляване на хи-квадрат теста:

Тук се изчислява сумата от квадратите на стандартизираните остатъци за всички полета на таблицата за непредвидени обстоятелства. Следователно, полета с по-висок стандартизиран остатък имат по-значителен принос към числената стойност на теста хи-квадрат и, следователно, към значим резултат. Съгласно правилото, дадено в раздел 8.7.2, стандартизиран остатък от 2 или повече показва значителна разлика между наблюдаваните и очакваните честоти.

В примера, който разглеждаме, формулата на Пиърсън дава максималната значима стойност за теста хи-квадрат (p<0.001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная psyche имеет значение "крайне неустойчивое". У женщин это значение сильно повышено, а у мужчин - понижено.

Правилността на теста хи-квадрат се определя от две условия: първо, очакваните честоти< 5 должны встречаться не более чем в 20% полей таблицы; во-вторых, суммы по строкам и столбцам всегда должны быть больше нуля.

В разглеждания пример обаче това условие не е изпълнено напълно. Както показва бележката след тестовата таблица хи-квадрат, 25% от полетата имат очаквана честота по-малка от 5. Въпреки това, тъй като приемливата граница4 от 20% е само леко превишена и тези полета, поради техния много малък стандартизиран остатък , допринасят много малка част за стойността на хи-квадрат теста, това нарушение може да се счита за незначително.

Хи-квадрат тест с коригиране на вероятността

Алтернатива на формулата на Пиърсън за изчисляване на хи-квадрат теста е корекцията на вероятността:

При голям размер на извадката формулата на Pearson и коригираната формула дават много сходни резултати. В нашия пример коригираният с вероятност хи-квадрат тест е 23,688.

Тест на Mantel-Haenszel

Допълнително в таблицата за непредвидени обстоятелства под обозначението линейно по линейно("линеен по линеен") се показва стойността на теста на Mantel-Haenszel (20.391). Тази форма на коригирания хи-квадрат тест на Mantel-Haenszel е друга мярка за линейната връзка между редовете и колоните на таблица за непредвидени обстоятелства. Дефинира се като произведението на корелационния коефициент на Пиърсън и броя на наблюденията, намален с едно:

Така полученият критерий има една степен на свобода. Методът Mantel-Haenszel винаги се използва, когато диалоговият прозорец Кръстосани таблици: Статистикаотметка в квадратчето Хи-квадрат. Въпреки това, за данни, свързани с номиналната скала, този критерий не е приложим.

). Конкретната формулировка на тестваната хипотеза ще варира в зависимост от случая.

В тази публикация ще опиша как работи критерият \(\chi^2\), като използвам (хипотетичен) пример от имунологията. Нека си представим, че сме провели експеримент, за да определим ефективността на потискане на развитието на микробно заболяване, когато в тялото се въведат подходящи антитела. В експеримента участваха общо 111 мишки, които разделихме на две групи, включващи съответно 57 и 54 животни. Първата група мишки получава инжекции от патогенни бактерии, последвани от въвеждане на кръвен серум, съдържащ антитела срещу тези бактерии. Животните от втората група послужиха за контрола - те получиха само бактериални инжекции. След известно време на инкубация се оказа, че 38 мишки са умрели, а 73 са оцелели. От загиналите 13 са от първа група, а 25 от втора (контролна). Нулевата хипотеза, тествана в този експеримент, може да бъде формулирана по следния начин: прилагането на серум с антитела няма ефект върху оцеляването на мишките. С други думи, ние твърдим, че наблюдаваните разлики в преживяемостта на мишките (77,2% в първата група срещу 53,7% във втората група) са напълно случайни и не са свързани с ефекта на антителата.

Получените в експеримента данни могат да бъдат представени под формата на таблица:

Обща сума

Бактерии + серум

Само бактерии

Обща сума

Таблици като показаната се наричат ​​таблици за непредвидени случаи. В разглеждания пример таблицата е с размери 2x2: има два класа обекти („Бактерии + серум“ и „Само бактерии“), които се изследват по два критерия („Мъртви“ и „Оцелели“). Това е най-простият случай на таблица за непредвидени обстоятелства: разбира се, както броят на изучаваните класове, така и броят на функциите може да бъде по-голям.

За да тестваме нулевата хипотеза, посочена по-горе, трябва да знаем каква би била ситуацията, ако антителата действително нямаха ефект върху оцеляването на мишките. С други думи, трябва да изчислите очаквани честотиза съответните клетки от таблицата за непредвидени обстоятелства. Как да го направим? В експеримента са загинали общо 38 мишки, което е 34,2% от общия брой на участващите животни. Ако прилагането на антитела не повлиява преживяемостта на мишките, трябва да се наблюдава еднакъв процент на смъртност и в двете експериментални групи, а именно 34,2%. Изчислявайки колко е 34,2% от 57 и 54, получаваме 19,5 и 18,5. Това са очакваните нива на смъртност в нашите експериментални групи. Очакваните нива на оцеляване се изчисляват по подобен начин: тъй като са оцелели общо 73 мишки или 65,8% от общия брой, очакваните нива на оцеляване ще бъдат 37,5 и 35,5. Нека създадем нова таблица за непредвидени обстоятелства, сега с очакваните честоти:

Мъртъв

Оцелели

Обща сума

Бактерии + серум

Само бактерии

Обща сума

Както виждаме, очакваните честоти са доста различни от наблюдаваните, т.е. прилагането на антитела изглежда има ефект върху оцеляването на мишки, заразени с патогена. Можем да определим количествено това впечатление с помощта на теста за съответствие на Pearson \(\chi^2\):

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


където \(f_o\) и \(f_e\) са съответно наблюдаваните и очакваните честоти. Сумирането се извършва по всички клетки на таблицата. Така че за разглеждания пример имаме

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

Получената стойност на \(\chi^2\) достатъчно голяма ли е, за да отхвърли нулевата хипотеза? За да се отговори на този въпрос е необходимо да се намери съответната критична стойност на критерия. Броят на степените на свобода за \(\chi^2\) се изчислява като \(df = (R - 1)(C - 1)\), където \(R\) и \(C\) са числото на редове и колони в конюгацията на таблицата. В нашия случай \(df = (2 -1)(2 - 1) = 1\). Като знаем броя на степените на свобода, сега можем лесно да намерим критичната стойност \(\chi^2\), като използваме стандартната R функция qchisq() :


Така при една степен на свобода само в 5% от случаите стойността на критерия \(\chi^2\) надвишава 3,841. Стойността, която получихме, 6,79, значително надвишава тази критична стойност, което ни дава право да отхвърлим нулевата хипотеза, че няма връзка между прилагането на антитела и оцеляването на заразените мишки. Отхвърляйки тази хипотеза, рискуваме да сгрешим с вероятност по-малка от 5%.

Трябва да се отбележи, че горната формула за критерия \(\chi^2\) дава леко завишени стойности при работа с таблици за непредвидени обстоятелства с размер 2x2. Причината е, че разпределението на самия критерий \(\chi^2\) е непрекъснато, докато честотите на двоичните характеристики („умрял“ / „оцелял“) са по дефиниция дискретни. В тази връзка при изчисляване на критерия е прието да се въвежда т.нар корекция на непрекъснатостта, или Поправката на Йейтс :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0,5)^2)(f_e).\]

"s Хи-квадрат тест с Yates" данни за корекция на непрекъснатостта: мишки X-квадрат = 5,7923, df = 1, p-стойност = 0,0161


Както виждаме, R автоматично прилага корекцията за непрекъснатост на Йейтс ( Хи-квадрат тест на Пиърсън с корекция за непрекъснатост на Йейтс). Стойността на \(\chi^2\), изчислена от програмата, беше 5,79213. Можем да отхвърлим нулевата хипотеза за липса на ефект на антитела с риск да сгрешим с вероятност от малко над 1% (p-стойност = 0,0161).

До края на 19-ти век нормалното разпределение се смяташе за универсален закон за изменението на данните. К. Пиърсън обаче отбеляза, че емпиричните честоти могат да се различават значително от нормалното разпределение. Възникна въпросът как да се докаже това. Изисква се не само графично сравнение, което е субективно, но и стриктна количествена обосновка.

Така е измислен критерият χ 2(хи-квадрат), който тества значимостта на разликата между емпирични (наблюдавани) и теоретични (очаквани) честоти. Това се случи още през 1900 г., но критерият се използва и днес. Освен това, той е адаптиран за решаване на широк кръг от проблеми. На първо място, това е анализът на номиналните данни, т.е. тези, които се изразяват не чрез количество, а чрез принадлежност към някаква категория. Например класа на автомобила, пола на участника в експеримента, вида на растението и др. Математически операции като събиране и умножение не могат да бъдат приложени към такива данни; честотите могат да бъдат изчислени само за тях.

Означаваме наблюдаваните честоти Относно (Наблюдавано), очакван - E (Очаква се). Като пример, нека вземем резултата от хвърляне на зар 60 пъти. Ако е симетрична и еднаква, вероятността да се получи която и да е страна е 1/6 и следователно очакваният брой да се получи всяка страна е 10 (1/6∙60). Записваме наблюдаваните и очакваните честоти в таблица и чертаем хистограма.

Нулевата хипотеза е, че честотите са последователни, тоест действителните данни не противоречат на очакваните данни. Алтернативна хипотеза е, че отклоненията в честотите надхвърлят случайните флуктуации, т.е. несъответствията са статистически значими. За да направим строго заключение, имаме нужда.

  1. Обобщена мярка за несъответствието между наблюдаваните и очакваните честоти.
  2. Разпределението на тази мярка, ако хипотезата, че няма разлики е вярна.

Да започнем с разстоянието между честотите. Ако просто вземете разликата О - Д, тогава такава мярка ще зависи от мащаба на данните (честотите). Например 20 - 5 = 15 и 1020 - 1005 = 15. И в двата случая разликата е 15. Но в първия случай очакваните честоти са 3 пъти по-малки от наблюдаваните, а във втория случай - само 1,5 %. Нуждаем се от относителна мярка, която не зависи от мащаба.

Нека обърнем внимание на следните факти. Като цяло, броят на градациите, в които се измерват честотите, може да бъде много по-голям, така че вероятността едно наблюдение да попадне в една или друга категория е доста малка. Ако е така, тогава разпределението на такава случайна променлива ще се подчинява на закона за редките събития, известен като Закон на Поасон. В закона на Поасон, както е известно, стойността на математическото очакване и дисперсията съвпадат (параметър λ ). Това означава, че очакваната честота за някоя категория на номиналната променлива E iще бъде едновременно и неговата дисперсия. Освен това законът на Поасон клони към нормален при голям брой наблюдения. Комбинирайки тези два факта, получаваме, че ако хипотезата за съответствието между наблюдаваните и очакваните честоти е вярна, тогава, с голям брой наблюдения, израз

Ще има.

Важно е да запомните, че нормалното ще се появи само при достатъчно високи честоти. В статистиката е общоприето, че общият брой наблюдения (сума от честоти) трябва да бъде най-малко 50 и очакваната честота във всяка градация трябва да бъде най-малко 5. Само в този случай стойността, показана по-горе, ще има стандартна норма разпространение. Да приемем, че това условие е изпълнено.

Стандартното нормално разпределение има почти всички стойности в рамките на ±3 (правилото на трите сигми). Така получихме относителната разлика в честотите за една градация. Имаме нужда от обобщаваща мярка. Не можете просто да съберете всички отклонения - получаваме 0 (познайте защо). Пиърсън предложи сумирането на квадратите на тези отклонения.

Това е знакът критерий χ 2Пиърсън. Ако честотите наистина отговарят на очакваните, тогава стойността на критерия ще бъде относително малка (тъй като повечето отклонения са около нулата). Но ако критерият се окаже голям, тогава това показва значителни разлики между честотите.

Критерият става „голям“, когато настъпването на такава или дори по-голяма стойност стане малко вероятно. И за да се изчисли такава вероятност, е необходимо да се знае разпределението на критерия, когато експериментът се повтаря многократно, когато хипотезата за съответствие на честотата е вярна.

Както е лесно да се види, стойността на хи-квадрат също зависи от броя на членовете. Колкото повече са, толкова по-голяма стойност трябва да има критерият, тъй като всеки член ще допринесе за общата сума. Следователно за всяко количество независимаусловия, ще има собствено разпространение. Оказва се, че χ 2е цяло семейство от дистрибуции.

И тук стигаме до един деликатен момент. Какво е число независимаусловия? Изглежда, че всеки термин (т.е. отклонение) е независим. Така смяташе и К. Пиърсън, но се оказа, че греши. Всъщност броят на независимите членове ще бъде с един по-малък от броя на градациите на номиналната променлива н. Защо? Защото, ако имаме извадка, за която сумата от честотите вече е изчислена, тогава една от честотите винаги може да бъде определена като разлика между общия брой и сумата от всички останали. Следователно вариацията ще бъде малко по-малка. Роналд Фишър забеляза този факт 20 години след като Пиърсън разработи своя критерий. Дори масите трябваше да бъдат преправени.

По този повод Фишър въвежда нова концепция в статистиката - степен на свобода(степени на свобода), което представлява броя на независимите членове в сумата. Концепцията за степените на свобода има математическо обяснение и се появява само в разпределения, свързани с нормалното (на Стюдънт, на Фишер-Снедекор и самото хи-квадрат).

За да разберем по-добре значението на степените на свобода, нека се обърнем към един физически аналог. Нека си представим точка, която се движи свободно в пространството. Има 3 степени на свобода, т.к може да се движи във всяка посока в триизмерното пространство. Ако една точка се движи по която и да е повърхност, тогава тя вече има две степени на свобода (напред и назад, наляво и надясно), въпреки че продължава да бъде в триизмерното пространство. Точка, движеща се по пружина, отново е в триизмерно пространство, но има само една степен на свобода, т.к може да се движи напред или назад. Както можете да видите, пространството, където се намира обектът, не винаги отговаря на реалната свобода на движение.

Приблизително по същия начин разпределението на статистически критерий може да зависи от по-малък брой елементи от условията, необходими за изчисляването му. Като цяло, броят на степените на свобода е по-малък от броя на наблюденията с броя на съществуващите зависимости. Това е чиста математика, без магия.

Така че разпределението χ 2е семейство от разпределения, всяко от които зависи от параметъра за степени на свобода. А формалната дефиниция на теста хи-квадрат е следната. Разпределение χ 2(хи-квадрат) s кстепени на свобода е разпределението на сумата от квадрати кнезависими стандартни нормални случайни променливи.

След това можем да преминем към самата формула, чрез която се изчислява функцията на разпределение хи-квадрат, но за щастие всичко отдавна е изчислено за нас. За да получите вероятността от интерес, можете да използвате или съответната статистическа таблица, или готова функция в специализиран софтуер, който дори е наличен в Excel.

Интересно е да се види как формата на разпределението хи-квадрат се променя в зависимост от броя на степените на свобода.

С увеличаване на степените на свобода разпределението хи-квадрат има тенденция да бъде нормално. Това се обяснява с действието на централната гранична теорема, според която сумата от голям брой независими случайни променливи има нормално разпределение. Не пише нищо за квадратите)).

Проверка на хипотези с помощта на теста хи-квадрат

Сега стигаме до тестване на хипотези с помощта на метода хи-квадрат. Като цяло технологията остава. Нулевата хипотеза е, че наблюдаваните честоти съответстват на очакваните (т.е. няма разлика между тях, защото са взети от една и съща популация). Ако това е така, тогава разсейването ще бъде относително малко, в рамките на случайните колебания. Мярката за дисперсия се определя с помощта на теста хи-квадрат. След това или самият критерий се сравнява с критичната стойност (за съответното ниво на значимост и степени на свобода), или, което е по-правилно, се изчислява наблюдаваното p-ниво, т.е. вероятността да се получи същата или дори по-голяма стойност на критерия, ако нулевата хипотеза е вярна.

защото ние се интересуваме от съответствието на честотите, тогава хипотезата ще бъде отхвърлена, когато критерият е по-голям от критичното ниво. Тези. критерият е едностранен. Въпреки това понякога (понякога) е необходимо да се тества лявата хипотеза. Например, когато емпиричните данни са много сходни с теоретичните данни. Тогава критерият може да попадне в малко вероятна област, но отляво. Факт е, че при естествени условия е малко вероятно да се получат честоти, които практически съвпадат с теоретичните. Винаги има някаква случайност, която дава грешка. Но ако няма такава грешка, тогава може би данните са фалшифицирани. Но все пак хипотезата за дясната страна обикновено се тества.

Да се ​​върнем на проблема със заровете. Нека изчислим стойността на теста хи-квадрат, като използваме наличните данни.

Сега нека намерим табличната стойност на критерия при 5 степени на свобода ( к) и ниво на значимост 0,05 ( α ).

Това е χ 2 0,05; 5 = 11,1.

Нека сравним действителните и табличните стойности. 3.4 ( χ 2) < 11,1 (χ 2 0,05; 5). Изчисленият критерий се оказа по-малък, което означава, че не се отхвърля хипотезата за равенство (съгласуване) на честотите. На фигурата ситуацията изглежда така.

Ако изчислената стойност попада в критичната област, нулевата хипотеза ще бъде отхвърлена.

Би било по-правилно да се изчисли и p-нивото. За да направите това, трябва да намерите най-близката стойност в таблицата за даден брой степени на свобода и да разгледате съответното ниво на значимост. Но това е миналия век. Ще използваме персонален компютър, по-специално MS Excel. Excel има няколко функции, свързани с хи-квадрат.

По-долу е дадено кратко описание за тях.

CH2.OBR– критична стойност на критерия при дадена вероятност отляво (както в статистическите таблици)

CH2.OBR.PH– критична стойност на критерия за дадена вероятност отдясно. Функцията по същество дублира предишната. Но тук можете веднага да посочите нивото α , вместо да го извадите от 1. Това е по-удобно, защото в повечето случаи е необходима дясната опашка на разпределението.

CH2.DIST– p-ниво вляво (плътността може да се изчисли).

CH2.DIST.PH– p-ниво вдясно.

CHI2.ТЕСТ– незабавно провежда тест хи-квадрат за два дадени честотни диапазона. Броят на степените на свобода се приема с една по-малък от броя на честотите в колоната (както трябва да бъде), връщайки стойността на p-ниво.

Нека изчислим за нашия експеримент критичната (таблична) стойност за 5 степени на свобода и алфа 0,05. Формулата на Excel ще изглежда така:

CH2.OBR(0,95;5)

CH2.OBR.PC(0,05;5)

Резултатът ще бъде същият - 11.0705. Това е стойността, която виждаме в таблицата (закръглена до 1 знак след десетичната запетая).

Нека най-накрая изчислим p-нивото за критерия за 5 степени на свобода χ 2= 3,4. Имаме нужда от вероятност отдясно, така че вземаме функция с добавяне на HH (дясна опашка)

CH2.DIST.PH(3,4;5) = 0,63857

Това означава, че при 5 степени на свобода вероятността за получаване на стойността на критерия е χ 2= 3,4 и повече е равно на почти 64%. Естествено, хипотезата не се отхвърля (p-нивото е по-голямо от 5%), честотите са в много добро съответствие.

Сега нека проверим хипотезата за съответствие на честотата с помощта на функцията CH2.TEST.

Без таблици, без тромави изчисления. Като посочим колони с наблюдавани и очаквани честоти като аргументи на функцията, веднага получаваме p-ниво. красота.

Сега си представете, че играете на зарове с подозрителен човек. Разпределението на точките от 1 до 5 остава същото, но той хвърля 26 шестици (общият брой хвърляния става 78).

P-нивото в този случай се оказва 0,003, което е много по-малко от 0,05. Има основателни причини да се съмнявате в валидността на заровете. Ето как изглежда тази вероятност на диаграма за разпределение хи-квадрат.

Самият критерий хи-квадрат тук се оказва 17,8, което естествено е по-голямо от таблицата (11,1).

Надявам се, че успях да обясня какъв е критерият за съгласие χ 2(хи-квадрат на Пиърсън) и как може да се използва за тестване на статистически хипотези.

И накрая, още веднъж за важно условие! Тестът хи-квадрат работи правилно само когато броят на всички честоти надвишава 50 и минималната очаквана стойност за всяка градация е не по-малка от 5. Ако в която и да е категория очакваната честота е по-малка от 5, но сумата от всички честоти надвишава 50, тогава тази категория се комбинира с най-близката, така че общата им честота да надвишава 5. Ако това не е възможно или сумата на честотите е по-малка от 50, тогава трябва да се използват по-точни методи за проверка на хипотези. За тях ще говорим друг път.

По-долу има видеоклип за това как да тествате хипотеза в Excel с помощта на теста хи-квадрат.

Министерство на образованието и науката на Руската федерация

Федерална агенция за образование на град Иркутск

Байкалски държавен университет по икономика и право

Катедра "Информатика и кибернетика".

Хи-квадрат разпределение и неговите приложения

Колмикова Анна Андреевна

Студентка 2-ра година

група ИС-09-1

Иркутск 2010 г

Въведение

1. Хи-квадрат разпределение

Приложение

Заключение

Библиография

Въведение

Как се използват подходите, идеите и резултатите от теорията на вероятностите в живота ни?

Основата е вероятностен модел на реално явление или процес, т.е. математически модел, в който обективните връзки са изразени от гледна точка на теорията на вероятностите. Вероятностите се използват предимно за описание на несигурностите, които трябва да се вземат предвид при вземането на решения. Това се отнася както за нежелани възможности (рискове), така и за привлекателни („щастлив шанс”). Понякога произволността се въвежда умишлено в ситуация, например при теглене на жребий, произволен избор на единици за контрол, провеждане на лотарии или провеждане на потребителски проучвания.

Теорията на вероятностите позволява една вероятност да се използва за изчисляване на други, които представляват интерес за изследователя.

Вероятностният модел на явление или процес е в основата на математическата статистика. Използват се две паралелни серии от понятия – тези, свързани с теорията (вероятностен модел) и тези, свързани с практиката (извадка от резултатите от наблюдението). Например, теоретичната вероятност съответства на честотата, намерена от извадката. Математическото очакване (теоретична серия) съответства на средноаритметичното извадково (практическа серия). По правило характеристиките на извадката са оценки на теоретичните. В същото време количествата, свързани с теоретичните серии, „са в главите на изследователите“, се отнасят до света на идеите (според древногръцкия философ Платон) и не са достъпни за директно измерване. Изследователите разполагат само с примерни данни, с които се опитват да установят свойствата на теоретичен вероятностен модел, който ги интересува.

Защо се нуждаем от вероятностен модел? Факт е, че само с негова помощ свойствата, установени от анализа на конкретна проба, могат да бъдат пренесени върху други проби, както и върху цялата така наречена генерална съвкупност. Терминът "популация" се използва, когато се говори за голяма, но ограничена колекция от изследвани единици. Например за съвкупността от всички жители на Русия или за съвкупността от всички потребители на разтворимо кафе в Москва. Целта на маркетинговите или социологическите проучвания е да прехвърлят твърдения, получени от извадка от стотици или хиляди хора, към популации от няколко милиона души. При контрола на качеството партида от продукти действа като обща съвкупност.

Прехвърлянето на заключения от извадка към по-голяма популация изисква някои предположения относно връзката на характеристиките на извадката с характеристиките на тази по-голяма популация. Тези предположения се основават на подходящ вероятностен модел.

Разбира се, възможно е да се обработват примерни данни, без да се използва един или друг вероятностен модел. Например, можете да изчислите примерно средно аритметично, да преброите честотата на изпълнение на определени условия и т.н. Резултатите от изчислението обаче ще се отнасят само до конкретна извадка; прехвърлянето на заключенията, получени с тяхна помощ, към всяка друга популация е неправилно. Тази дейност понякога се нарича „анализ на данни“. В сравнение с вероятностно-статистическите методи, анализът на данни има ограничена образователна стойност.

Така че използването на вероятностни модели, базирани на оценка и тестване на хипотези, използвайки характеристики на извадка, е същността на вероятностно-статистическите методи за вземане на решения.

Хи-квадрат разпределение

С помощта на нормалното разпределение се дефинират три разпределения, които сега често се използват в статистическата обработка на данни. Това са разпределенията на Пиърсън („хи-квадрат“), Студент и Фишер.

Ще се съсредоточим върху разпространението

(„чи – квадрат“). Това разпределение е изследвано за първи път от астронома Ф. Хелмерт през 1876 г. Във връзка с теорията на грешките на Гаус той изучава сумите от квадратите на n независими стандартно нормално разпределени случайни променливи. Карл Пиърсън по-късно нарече тази функция на разпределение „хи-квадрат“. И сега разпределението носи неговото име.

Поради тясната си връзка с нормалното разпределение, разпределението χ2 играе важна роля в теорията на вероятностите и математическата статистика. Разпределението χ2 и много други разпределения, които се определят от разпределението χ2 (например разпределението на Стюдънт), описват примерни разпределения на различни функции от нормално разпределени резултати от наблюдение и се използват за конструиране на доверителни интервали и статистически тестове.

Разпределение на Пиърсън

(chi - квадрат) – разпределение на случайна променлива, където X1, X2,..., Xn са нормални независими случайни променливи, като математическото очакване на всяка от тях е нула, а стандартното отклонение е единица.

Сбор на квадрати


разпределени по закон

(„чи – квадрат“).

В този случай броят на термините, т.е. n се нарича "брой степени на свобода" на разпределението хи-квадрат.С увеличаването на броя на степените на свобода разпределението бавно се доближава до нормалното.

Плътността на това разпределение


И така, разпределението на χ2 зависи от един параметър n – броя на степените на свобода.

Функцията на разпределение χ2 има формата:


ако χ2≥0. (2.7.)

Фигура 1 показва графика на плътността на вероятността и функцията на разпределение χ2 за различни степени на свобода.

Снимка 1Зависимост на плътността на вероятността φ (x) в разпределението χ2 (chi – квадрат) за различен брой степени на свобода.

Моменти на разпределението хи-квадрат:

Разпределението хи-квадрат се използва при оценяване на дисперсията (използване на доверителен интервал), тестване на хипотези за съгласие, хомогенност, независимост, предимно за качествени (категоризирани) променливи, които приемат краен брой стойности, и в много други задачи на анализ на статистически данни .

2. "Хи-квадрат" в задачите на статистическия анализ на данни

Статистическите методи за анализ на данни се използват в почти всички области на човешката дейност. Те се използват винаги, когато е необходимо да се получат и обосноват някакви преценки за група (обекти или субекти) с някаква вътрешна хетерогенност.

Съвременният етап на развитие на статистическите методи може да се брои от 1900 г., когато англичанинът К. Пиърсън основава списанието "Биометрика". Първата третина на ХХ век. премина под знака на параметричната статистика. Методите са изследвани въз основа на анализ на данни от параметрични семейства от разпределения, описани от криви на семейство Пиърсън. Най-популярното беше нормалното разпределение. За проверка на хипотезите са използвани тестовете на Pearson, Student и Fisher. Предложени са методът на максималната вероятност и дисперсионният анализ и са формулирани основните идеи за планиране на експеримента.

Разпределението хи-квадрат е едно от най-широко използваните в статистиката за тестване на статистически хипотези. Въз основа на разпределението хи-квадрат е конструиран един от най-мощните тестове за добро съответствие - хи-квадрат тестът на Pearson.

Критерият за съгласие е критерият за проверка на хипотезата за приетия закон на неизвестно разпределение.

Тестът χ2 (хи-квадрат) се използва за проверка на хипотезата за различни разпределения. Това е неговото достойнство.

Формулата за изчисление на критерия е равна на

където m и m’ са съответно емпирични и теоретични честоти

въпросното разпределение;

n е броят на степените на свобода.

За да проверим, трябва да сравним емпиричните (наблюдавани) и теоретичните (изчислени при предположението за нормално разпределение) честоти.

Ако емпиричните честоти напълно съвпадат с изчислените или очаквани честоти, S (E – T) = 0 и критерият χ2 също ще бъде равен на нула. Ако S (E – T) не е равно на нула, това ще означава несъответствие между изчислените честоти и емпиричните честоти на серията. В такива случаи е необходимо да се оцени значимостта на критерия χ2, който теоретично може да варира от нула до безкрайност. Това се прави чрез сравняване на действително получената стойност на χ2ф с неговата критична стойност (χ2st). Нулевата хипотеза, т.е. предположението, че несъответствието между емпиричните и теоретичните или очакваните честоти е случайно, се опровергава, ако χ2ф е по-голямо или равно на χ2st за приетото ниво на значимост (a) и броя на степените на свобода (n).

В тази статия ще говорим за изследване на зависимостта между признаци или както предпочитате - случайни стойности, променливи. По-специално, ще разгледаме как да въведем мярка за зависимост между характеристиките с помощта на теста Хи-квадрат и да я сравним с коефициента на корелация.

Защо това може да е необходимо? Например, за да се разбере кои функции са по-зависими от целевата променлива при конструиране на кредитен рейтинг - определяне на вероятността клиентът да не изпълни задълженията си. Или, както в моя случай, разберете какви индикатори трябва да се използват за програмиране на робот за търговия.

Отделно бих искал да отбележа, че използвам езика C# за анализ на данни. Може би всичко това вече е имплементирано в R или Python, но използването на C# за мен ми позволява да разбера темата в детайли, освен това това е любимият ми език за програмиране.

Нека започнем с много прост пример, създайте четири колони в Excel с помощта на генератор на произволни числа:
х=RANDBETWEEN(-100,100)
Y =х*10+20
З =х*х
T=RANDBETWEEN(-100,100)

Както можете да видите, променливата Yлинейно зависими от х; променлива Зквадратно зависим от х; променливи хИ Tнезависима. Направих този избор нарочно, защото ще сравним нашата мярка за зависимост с коефициента на корелация. Както е известно, между две случайни променливи тя е равна по модул 1, ако най-трудната зависимост между тях е линейна. Има нулева корелация между две независими случайни променливи, но равенството на корелационния коефициент на нула не означава независимост. След това ще видим това, използвайки примера на променливите хИ З.

Запазете файла като data.csv и започнете първите оценки. Първо, нека изчислим коефициента на корелация между стойностите. Не съм вмъкнал кода в статията; той е в моя github. Получаваме корелацията за всички възможни двойки:

Вижда се, че линейно зависими хИ Yкоефициентът на корелация е 1. Но хИ Зтя е равна на 0,01, въпреки че зависимостта е зададена изрично З=х*х. Ясно е, че имаме нужда от мярка, която „усеща“ по-добре пристрастяването. Но преди да преминем към теста Хи-квадрат, нека да разгледаме какво представлява матрицата на непредвидените обстоятелства.

За да изградим матрица за непредвидени обстоятелства, ние разделяме диапазона от променливи стойности на интервали (или категоризираме). Има много начини да направите това, но няма универсален начин. Някои от тях са разделени на интервали, така че да съдържат еднакъв брой променливи, други са разделени на интервали с еднаква дължина. Аз лично обичам да комбинирам тези подходи. Реших да използвам този метод: изваждам резултата от мат от променливата. очаквания, след това разделете резултата на оценката на стандартното отклонение. С други думи, аз центрирам и нормализирам случайната променлива. Получената стойност се умножава по коефициент (в този пример е 1), след което всичко се закръгля до най-близкото цяло число. Резултатът е променлива от тип int, която е идентификаторът на класа.

Така че нека вземем нашите знаци хИ З, ние категоризираме по описания по-горе начин, след което изчисляваме броя и вероятностите за поява на всеки клас и вероятностите за поява на двойки характеристики:

Това е матрица по количество. Тук в редовете - броят на срещанията на класовете променливи х, в колони - броят на срещанията на класове на променливата З, в клетки - броят на появяванията на двойки класове едновременно. Например клас 0 се среща 865 пъти за променливата х, 823 пъти за променлива Зи никога не е имало двойка (0,0). Нека да преминем към вероятностите, като разделим всички стойности на 3000 (общ брой наблюдения):

Получихме матрица за непредвидени обстоятелства, получена след категоризиране на характеристиките. Сега е моментът да помислим за критерия. По дефиниция случайните променливи са независими, ако сигма алгебрите, генерирани от тези случайни променливи, са независими. Независимостта на сигма алгебрите предполага двойната независимост на събитията от тях. Две събития се наричат ​​независими, ако вероятността за съвместното им възникване е равна на произведението на вероятностите за тези събития: Pij = Pi*Pj. Именно тази формула ще използваме, за да конструираме критерия.

Нулева хипотеза: категоризирани знаци хИ Знезависима. Еквивалентно на него: разпределението на матрицата на непредвидените обстоятелства се определя единствено от вероятностите за поява на класове променливи (вероятности на редове и колони). Или това: клетките на матрицата се намират чрез произведението на съответните вероятности на редовете и колоните. Ще използваме тази формулировка на нулевата хипотеза, за да конструираме правилото за вземане на решение: значително несъответствие между пижИ Пи*Пжще бъде основа за отхвърляне на нулевата хипотеза.

Нека е вероятността клас 0 да се появи в променлива х. Нашата обща сума нкласове хИ мкласове З. Оказва се, че за да уточним матричното разпределение, трябва да ги знаем нИ мвероятности. Но всъщност, ако знаем n-1вероятност за х, тогава последното се намира чрез изваждане на сбора на останалите от 1. Следователно, за да намерим разпределението на матрицата на непредвидените обстоятелства, трябва да знаем l=(n-1)+(m-1)стойности. Или имаме л-мерно параметрично пространство, векторът от който ни дава желаното разпределение. Хи-квадрат статистиката ще изглежда така:

и според теоремата на Фишър имат разпределение Хи-квадрат с n*m-l-1=(n-1)(m-1)степени на свобода.

Нека зададем нивото на значимост на 0,95 (или вероятността за грешка от тип I е 0,05). Нека намерим квантила на разпределението Хи квадрат за дадено ниво на значимост и степени на свобода от примера (n-1)(m-1)=4*3=12: 21.02606982. Самата хи-квадрат статистика за променливите хИ Зе равно на 4088.006631. Ясно е, че хипотезата за независимост не се приема. Удобно е да се вземе предвид съотношението на статистиката Хи-квадрат към праговата стойност - в този случай то е равно на Chi2Coeff=194.4256186. Ако това съотношение е по-малко от 1, тогава хипотезата за независимост се приема; ако е по-голямо, тогава не е така. Нека намерим това съотношение за всички двойки функции:

Тук Фактор1И Фактор 2- имена на функции
src_cnt1И src_cnt2- брой уникални стойности на първоначалните характеристики
mod_cnt1И mod_cnt2- брой уникални стойности на характеристиките след категоризиране
чи2- Хи-квадрат статистика
chi2max- прагова стойност на статистиката Хи-квадрат за ниво на значимост от 0,95
chi2Coeff- отношение на хи-квадрат статистиката към праговата стойност
кор- коефициент на корелация

Вижда се, че те са независими (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) И ( Z,T), което е логично, тъй като променливата Tсе генерира на случаен принцип. Променливи хИ Ззависим, но по-малко от линейно зависим хИ Y, което също е логично.

Публикувах кода на помощната програма, която изчислява тези индикатори, в github, където има и файла data.csv. Помощната програма приема csv файл като вход и изчислява зависимостите между всички двойки колони: PtProject.Dependency.exe data.csv