Какво показва дисперсията в статистиката? Очакване и дисперсия на случайна променлива

Тази страница описва стандартен пример за намиране на отклонение, можете също да разгледате други проблеми за намирането му

Пример 1. Определяне на групова, групова средна, междугрупова и обща дисперсия

Пример 2. Намиране на дисперсията и коефициента на вариация в групираща таблица

Пример 3. Намиране на дисперсия в дискретна серия

Пример 4. Следните данни са достъпни за група от 20 задочни студенти. Необходимо е да се изгради интервална серия от разпределението на характеристиката, да се изчисли средната стойност на характеристиката и да се изследва нейната дисперсия

Нека изградим интервално групиране. Нека определим обхвата на интервала с помощта на формулата:

където X max е максималната стойност на груповата характеристика;
X min – минимална стойност на груповия признак;
n – брой интервали:

Приемаме n=5. Стъпката е: h = (192 - 159)/ 5 = 6,6

Нека създадем интервално групиране

За по-нататъшни изчисления ще изградим спомагателна таблица:

X"i – средата на интервала. (например средата на интервала 159 – 165.6 = 162.3)

Определяме средния ръст на учениците, като използваме формулата за средноаритметично претеглено:

Нека определим дисперсията с помощта на формулата:

Формулата може да се трансформира по следния начин:

От тази формула следва, че дисперсията е равна на разликата между средната стойност на квадратите на опциите и квадрата и средната стойност.

Дисперсия във вариационни сериис равни интервали, използвайки метода на моментите, може да се изчисли по следния начин, като се използва второто свойство на дисперсията (разделяне на всички опции на стойността на интервала). Определяне на дисперсия, изчислено по метода на моментите, като се използва следната формула е по-малко трудоемко:

където i е стойността на интервала;
A е конвенционална нула, за която е удобно да се използва средата на интервала с най-висока честота;
m1 е квадратът на момента от първи ред;
m2 - момент от втори ред

Алтернативна вариация на признака (ако в статистическа популация дадена характеристика се промени по такъв начин, че има само две взаимно изключващи се опции, тогава такава променливост се нарича алтернативна) може да се изчисли по формулата:

Замествайки q = 1- p в тази дисперсионна формула, получаваме:

Видове дисперсии

Обща дисперсияизмерва вариацията на дадена характеристика в цялата съвкупност като цяло под влиянието на всички фактори, които причиняват тази вариация. Тя е равна на средния квадрат на отклоненията на отделните стойности на характеристика x от общата средна стойност на x и може да се определи като проста дисперсия или претеглена дисперсия.

Дисперсия в рамките на групата характеризира случайна вариация, т.е. част от вариацията, която се дължи на влиянието на неотчетени фактори и не зависи от фактора-атрибут, който формира основата на групата. Такава дисперсия е равна на средния квадрат на отклоненията на отделните стойности на атрибута в групата X от средната аритметична на групата и може да се изчисли като проста дисперсия или като претеглена дисперсия.



По този начин, мерки за дисперсия в рамките на групатавариация на признак в група и се определя по формулата:

където xi е средното за групата;
ni е броят на единиците в групата.

Например вътрешногруповите отклонения, които трябва да бъдат определени в задачата за изследване на влиянието на квалификацията на работниците върху нивото на производителността на труда в цеха, показват вариации в производството във всяка група, причинени от всички възможни фактори (техническо състояние на оборудването, наличие на инструменти и материали, възраст на работниците, интензивност на труда и др.), с изключение на разликите в квалификационната категория (в рамките на групата всички работници имат еднаква квалификация).

Наред с изучаването на вариациите на дадена характеристика в цялата популация като цяло, често е необходимо да се проследят количествените промени в характеристиката в групите, на които е разделена популацията, както и между групите. Това изследване на вариация се постига чрез изчисляване и анализиране на различни видове вариация.
Има общи, междугрупови и вътрешногрупови дисперсии.
Обща дисперсия σ 2измерва вариацията на даден признак в цялата популация под влиянието на всички фактори, които са причинили тази вариация.

Междугруповата вариация (δ) характеризира систематичната вариация, т.е. разлики в стойността на изучавания признак, които възникват под влиянието на факторния признак, който формира основата на групата. Изчислява се по формулата:
.

Дисперсия в рамките на групата (σ)отразява случайна вариация, т.е. част от вариацията, която възниква под влияние на неотчетени фактори и не зависи от фактора-атрибут, който формира основата на групата. Изчислява се по формулата:
.

Средна стойност на дисперсиите в рамките на групата: .

Има закон, свързващ 3 вида дисперсия. Общата дисперсия е равна на сумата от средната стойност на вътрешногруповата и междугруповата дисперсия: .
Това съотношение се нарича правило за добавяне на отклонения.

Широко използван показател в анализа е делът на дисперсията между групите в общата дисперсия. Нарича се емпиричен коефициент на детерминация (η 2): .
Корен квадратен от емпиричния коефициент на детерминация се нарича емпирично съотношение на корелация (η):
.
Той характеризира влиянието на характеристиката, която формира основата на групата, върху вариацията на получената характеристика. Емпиричното съотношение на корелация варира от 0 до 1.
Нека демонстрираме практическата му употреба, като използваме следния пример (Таблица 1).

Пример №1. Таблица 1 - Производителност на труда на две групи работници в един от цеховете на НПО Циклон

Нека изчислим общите и груповите средни и дисперсии:




Изходните данни за изчисляване на средната стойност на вътрешногруповата и междугруповата вариация са представени в табл. 2.
таблица 2
Изчисление и δ 2 за две групи работници.


Работнически групи
Брой работници, хора Средно, деца/смяна дисперсия

Завършено техническо обучение

5 95 42,0

Тези, които не са завършили техническо обучение

5 81 231,2

Всички работници

10 88 185,6
Да изчислим показателите. Средна стойност на вариациите в рамките на групата:
.
Междугрупова дисперсия

Общо отклонение:
По този начин емпиричното съотношение на корелация: .

Наред с вариациите в количествените характеристики могат да се наблюдават и вариации в качествените характеристики. Това изследване на вариацията се постига чрез изчисляване на следните видове вариации:

Вътрешногруповата дисперсия на дела се определя по формулата

Където n i– брой единици в отделни групи.
Делът на изследваната характеристика в цялата популация, който се определя по формулата:
Трите типа дисперсии са свързани помежду си, както следва:
.

Тази връзка на дисперсиите се нарича теорема за добавяне на дисперсии на дела на признака.

дисперсия аз Дисперсия (от латински dispersio - разпръскване)

в математическата статистика и теорията на вероятностите, най-често използваната мярка за дисперсия, т.е. отклонение от средната стойност. В статистически смисъл Д.

е средноаритметичното на квадратите на отклоненията на стойностите x iот средното им аритметично

В теорията на вероятностите, D. случайна променлива хнаречено математическо очакване E ( х - m x) 2 квадратни отклонения хот математическото си очакване m x= E ( х). Г. случайна променлива хозначен с D ( х) или чрез σ 2 X. Корен квадратен от D. (т.е. σ, ако D. е σ 2) се нарича стандартно отклонение (виж Квадратно отклонение).

За случайна променлива хс непрекъснато разпределение на вероятността, характеризиращо се с плътност на вероятността (вижте плътност на вероятността) Р(х), D. се изчислява по формулата

В теорията на вероятностите теоремата е от голямо значение: Сумата от независимите членове е равна на сумата от техните D. Не по-малко важно е неравенството на Чебишев, което позволява да се оцени вероятността от големи отклонения на случайна променлива хот математическото си очакване.

II дисперсия

Наличието на D вълни води до изкривяване на формата на сигналите, докато се разпространяват в средата. Това се обяснява с факта, че хармоничните вълни с различни честоти, на които сигналът може да бъде разложен, се разпространяват с различни скорости (за повече подробности вижте Вълни, Групова скорост). Дисперсията на светлината, когато се разпространява в прозрачна призма, води до разлагане на бялата светлина в спектър (виж Дисперсия на светлината).


Велика съветска енциклопедия. - М.: Съветска енциклопедия. 1969-1978 .

Синоними:

Вижте какво е „вариация“ в други речници:

    дисперсия- Разпръскване на нещо. В математиката дисперсията определя отклонението на количествата от средната стойност. Дисперсията на бялата светлина води до нейното разлагане на компоненти. Разсейването на звука го кара да се разпространява. Разпръскване на съхранени данни в... ... Ръководство за технически преводач

    Съвременна енциклопедия

    - (вариация) Мярка за дисперсия на данните. Дисперсията на набор от N членове се намира чрез добавяне на квадратите на техните отклонения от средната стойност и разделяне на N. Следователно, ако членовете са xi за i = 1, 2,..., N и тяхната средна стойност е m , дисперсията...... Икономически речник

    дисперсия- (от латинското dispersio разсейване) на вълните, зависимостта на скоростта на разпространение на вълните в вещество от дължината на вълната (честотата). Дисперсията се определя от физичните свойства на средата, в която се разпространяват вълните. Например във вакуум... ... Илюстрован енциклопедичен речник

    - (от латински dispersio разсейване) в математическата статистика и теорията на вероятностите, мярка за дисперсия (отклонение от средната стойност). В статистиката дисперсията е средната аритметична стойност на квадратните отклонения на наблюдаваните стойности (x1, x2,...,xn) на случаен... ... Голям енциклопедичен речник

    В теорията на вероятностите най-често използваната мярка за отклонение от средната стойност е мярката за дисперсия. На английски: Dispersion Синоними: Statistical dispersion Английски синоними: Statistical dispersion Вижте също: Примерни популации Финансови... ... Финансов речник

    - [лат. dispersus разпръснат, разпръснат] 1) разпръскване; 2) химия, физика. раздробяване на вещество на много малки частици. Г. светлинно разлагане на бялата светлина в спектър с помощта на призма; 3) мат. отклонение от средното. Речник на чуждите думи. Комлев Н.Г.,..... Речник на чуждите думи на руския език

    дисперсия- (вариация) показател за дисперсия на данните, съответстващ на средното квадратично отклонение на тези данни от средноаритметичната стойност. Равно на квадрата на стандартното отклонение. Речник на практическия психолог. М.: AST, Жътва. С. Ю. Головин. 1998 г. ... Голяма психологическа енциклопедия

    Разпръскване, разпръскване Речник на руските синоними. дисперсия съществително, брой синоними: 6 нанодисперсия (1) ... Речник на синонимите

    дисперсия- характеристика на дисперсията на стойностите на случайна променлива, измерена чрез квадрата на техните отклонения от средната стойност (обозначена с d2). Г. се различава между теоретична (непрекъсната или дискретна) и емпирична (също непрекъсната и... ... Икономически и математически речник

    дисперсия- * дисперсия * дисперсия 1. Дисперсия; разсейване; вариация (виж). 2. Теоретична вероятностна концепция, която характеризира мярката на отклонение на случайна променлива от нейното математическо очакване. В биометричната практика дисперсията на извадката s2 ... Генетика. енциклопедичен речник

Книги

  • Аномална дисперсия в широки ленти на поглъщане, D.S. Коледа. Възпроизведено в оригиналния авторски правопис на изданието от 1934 г. (издателство „Известия на Академията на науките на СССР“). В…

Нека изчислим вГ-ЦАEXCELдисперсия на извадката и стандартно отклонение. Ще изчислим и дисперсията на случайна променлива, ако е известно нейното разпределение.

Нека първо разгледаме дисперсия, тогава стандартно отклонение.

Дисперсия на извадката

Дисперсия на извадката (дисперсия на извадката,пробадисперсия) характеризира разпространението на стойностите в масива спрямо .

И трите формули са математически еквивалентни.

От първата формула става ясно, че дисперсия на извадкатае сумата от квадратите на отклоненията на всяка стойност в масива от средно, разделено на размера на извадката минус 1.

вариации пробиизползва се функцията DISP(), английски. името VAR, т.е. VARiance. От версия MS EXCEL 2010 се препоръчва използването на неговия аналог DISP.V(), английски. името ВАРС, т.е. Примерна VARiance. Освен това, започвайки от версията на MS EXCEL 2010, има функция DISP.Г(), английски. име VARP, т.е. Популация VARiance, която изчислява дисперсияЗа население. Цялата разлика се свежда до знаменателя: вместо n-1 като DISP.V(), DISP.G() има само n в знаменателя. Преди MS EXCEL 2010 функцията VAR() се използваше за изчисляване на дисперсията на съвкупността.

Дисперсия на извадката
=QUADROTCL(Проба)/(БРОЙ(Проба)-1)
=(СУМА(Проба)-БРОЙ(Проба)*СРЕДНА(Проба)^2)/ (БРОЙ(Проба)-1)– обичайна формула
=SUM((Пример -СРЕДНО(Пример))^2)/ (БРОЙ(Пример)-1) –

Дисперсия на извадкатае равно на 0, само ако всички стойности са равни една на друга и съответно равни средна стойност. Обикновено колкото по-голяма е стойността вариации, толкова по-голямо е разпространението на стойностите в масива.

Дисперсия на извадкатае точкова оценка вариацииразпределение на случайната променлива, от която е направена проба. Относно строителството доверителни интервалипри оценяване вариацииможе да се прочете в статията.

Дисперсия на случайна променлива

Да изчисля дисперсияслучайна променлива, трябва да я знаете.

За вариациислучайната променлива X често се означава като Var(X). дисперсияравно на квадрата на отклонението от средната E(X): Var(X)=E[(X-E(X)) 2 ]

дисперсияизчислено по формулата:

където x i е стойността, която една случайна променлива може да приеме, а μ е средната стойност (), p(x) е вероятността случайната променлива да приеме стойността x.

Ако една случайна променлива има , тогава дисперсияизчислено по формулата:

Измерение вариациисъответства на квадрата на мерната единица на първоначалните стойности. Например, ако стойностите в извадката представляват измервания на частично тегло (в kg), тогава измерението на дисперсията ще бъде kg 2 . Това може да бъде трудно за тълкуване, така че да се характеризира разпространението на стойностите, стойност, равна на корен квадратен от вариациистандартно отклонение.

Някои имоти вариации:

Var(X+a)=Var(X), където X е случайна променлива, а a е константа.

Var(aХ)=a 2 Var(X)

Var(X)=E[(X-E(X)) 2 ]=E=E(X 2)-E(2*X*E(X))+(E(X)) 2 =E(X 2)- 2*E(X)*E(X)+(E(X)) 2 =E(X 2)-(E(X)) 2

Това свойство на дисперсия се използва в статия за линейна регресия.

Var(X+Y)=Var(X) + Var(Y) + 2*Cov(X;Y), където X и Y са случайни променливи, Cov(X;Y) е ковариацията на тези случайни променливи.

Ако случайните променливи са независими, тогава те ковариацияе равно на 0 и следователно Var(X+Y)=Var(X)+Var(Y). Това свойство на дисперсия се използва при извеждане.

Нека покажем, че за независими величини Var(X-Y)=Var(X+Y). Наистина Var(X-Y)= Var(X-Y)= Var(X+(-Y))= Var(X)+Var(-Y)= Var(X)+Var(-Y)= Var( X)+(- 1) 2 Var(Y)= Var(X)+Var(Y)= Var(X+Y). Това свойство на дисперсия се използва за конструиране.

Примерно стандартно отклонение

Примерно стандартно отклонениее мярка за това колко широко са разпръснати стойностите в дадена извадка спрямо техните .

A-приори, стандартно отклонениеравно на корен квадратен от вариации:

Стандартно отклонениене взема предвид големината на стойностите в проба, а само степента на дисперсия на ценностите около тях средно аритметично. За да илюстрираме това, нека дадем пример.

Нека изчислим стандартното отклонение за 2 проби: (1; 5; 9) и (1001; 1005; 1009). И в двата случая s=4. Очевидно е, че съотношението на стандартното отклонение към стойностите на масива се различава значително между пробите. За такива случаи се използва Коефициентът на вариация(Coefficient of Variation, CV) - отношение Стандартно отклонениедо средното аритметика, изразено като процент.

В MS EXCEL 2007 и по-стари версии за изчисление Примерно стандартно отклонениеизползва се функцията =STDEVAL(), английски. име STDEV, т.е. Стандартно отклонение. От версията на MS EXCEL 2010 се препоръчва използването на неговия аналог =STDEV.B() , английски. име STDEV.S, т.е. Примерно стандартно отклонение.

Освен това, започвайки от версията на MS EXCEL 2010, има функция STANDARDEV.G(), англ. име STDEV.P, т.е. Стандартно отклонение на населението, което изчислява стандартно отклонениеЗа население. Цялата разлика се свежда до знаменателя: вместо n-1, както в STANDARDEV.V(), STANDARDEVAL.G() има само n в знаменателя.

Стандартно отклонениеможе също да се изчисли директно с помощта на формулите по-долу (вижте примерния файл)
=ROOT(QUADROTCL(проба)/(БРОЙ(проба)-1))
=КОРЕН((СУМА(Проба)-БРОЙ(Проба)*СРЕДНА(Проба)^2)/(БРОЙ(Проба)-1))

Други мерки за разсейване

Функцията SQUADROTCL() изчислява с сума от квадратните отклонения на стойностите от техните средно аритметично. Тази функция ще върне същия резултат като формулата =DISP.G( проба)*ПРОВЕРКА( проба) , Където проба- препратка към диапазон, съдържащ масив от примерни стойности (). Изчисленията във функцията QUADROCL() се правят по формулата:

Функцията SROTCL() също е мярка за разпространението на набор от данни. Функцията SROTCL() изчислява средната стойност на абсолютните стойности на отклоненията на стойностите от средно аритметично. Тази функция ще върне същия резултат като формулата =SUMPRODUCT(ABS(Проба-СРЕДНА(Проба)))/БРОЙ(Проба), Където проба- връзка към диапазон, съдържащ масив от примерни стойности.

Изчисленията във функцията SROTCL () се правят по формулата:

дисперсияслучайна величина- мярка за разпространение на дадено случайна величина, тоест нея отклоненияот математическото очакване. В статистиката нотацията (сигма на квадрат) често се използва за означаване на дисперсия. Нарича се корен квадратен от дисперсията, равна на стандартно отклонениеили стандартен спред. Стандартното отклонение се измерва в същите единици като самата случайна променлива, а дисперсията се измерва в квадратите на тази единица.

Въпреки че е много удобно да се използва само една стойност (като средна стойност или режим и медиана) за оценка на цялата извадка, този подход може лесно да доведе до неправилни заключения. Причината за тази ситуация не се крие в самата стойност, а във факта, че една стойност по никакъв начин не отразява разпространението на стойностите на данните.

Например в извадката:

средната стойност е 5.

В самата извадка обаче няма нито един елемент със стойност 5. Може да се наложи да знаете степента на близост на всеки елемент в извадката до неговата средна стойност. Или с други думи, ще трябва да знаете дисперсията на стойностите. Познавайки степента на промяна в данните, можете по-добре да интерпретирате средна стойност, МедианаИ мода. Степента, до която се променят стойностите на извадката, се определя чрез изчисляване на тяхната дисперсия и стандартно отклонение.



Дисперсията и квадратният корен от дисперсията, наречени стандартно отклонение, характеризират средното отклонение от средната стойност на извадката. Сред тези две величини най-важното е стандартно отклонение. Тази стойност може да се разглежда като средното разстояние, на което елементите са от средния елемент на извадката.

Дисперсията е трудна за смислено тълкуване. Въпреки това квадратният корен от тази стойност е стандартното отклонение и може лесно да се тълкува.

Стандартното отклонение се изчислява, като първо се определи дисперсията и след това се вземе корен квадратен от дисперсията.

Например, за масива от данни, показан на фигурата, ще бъдат получени следните стойности:

Снимка 1

Тук средната стойност на квадратните разлики е 717,43. За да получите стандартното отклонение, всичко, което остава, е да вземете корен квадратен от това число.

Резултатът ще бъде приблизително 26,78.

Не забравяйте, че стандартното отклонение се интерпретира като средното разстояние, на което елементите са от средната стойност на извадката.

Стандартното отклонение измерва колко добре средната стойност описва цялата извадка.

Да приемем, че сте ръководител на отдел за производство на компютри. Тримесечният отчет посочва, че производството за последното тримесечие е 2500 компютъра. Това добре ли е или лошо? Вие поискахте (или вече има тази колона в отчета) да се покаже стандартното отклонение за тези данни в отчета. Стандартното отклонение например е 2000. За вас като ръководител на отдел става ясно, че производствената линия изисква по-добро управление (твърде големи отклонения в броя на сглобените компютри).

Спомнете си, че когато стандартното отклонение е голямо, данните са широко разпръснати около средната стойност, а когато стандартното отклонение е малко, те се групират близо до средната стойност.

Четирите статистически функции VAR(), VAR(), STDEV() и STDEV() са предназначени за изчисляване на дисперсията и стандартното отклонение на числа в диапазон от клетки. Преди да можете да изчислите дисперсията и стандартното отклонение на набор от данни, трябва да определите дали данните представляват популация или извадка от популация. В случай на извадка от генерална съвкупност, трябва да използвате функциите VAR() и STDEV(), а в случай на генерална съвкупност, функциите VAR() и STDEV():

Население функция

DISPR()

STANDOTLONP()
проба

DISP()

STDEV()

Дисперсията (както и стандартното отклонение), както отбелязахме, показва степента, в която стойностите, включени в набора от данни, са разпръснати около средното аритметично.

Малка стойност на дисперсия или стандартно отклонение показва, че всички данни са концентрирани около средната аритметична стойност, а голяма стойност на тези стойности показва, че данните са разпръснати в широк диапазон от стойности.

Дисперсията е доста трудна за смислено тълкуване (какво означава малка стойност, голяма стойност?). производителност Задачи 3ще ви позволи визуално, върху графика, да покажете значението на дисперсията за набор от данни.

Задачи

· Упражнение 1.

· 2.1. Дайте понятията: дисперсия и стандартно отклонение; тяхното символно обозначение за статистическа обработка на данни.

· 2.2. Попълнете работния лист в съответствие с фигура 1 и направете необходимите изчисления.

· 2.3. Дайте основните формули, използвани при изчисленията

· 2.4. Обяснете всички обозначения ( , , )

· 2.5. Обяснете практическото значение на понятията дисперсия и стандартно отклонение.

Задача 2.

1.1. Дайте понятията: генерална съвкупност и извадка; математически очаквания и тяхното средноаритметично символно обозначение за статистическа обработка на данни.

1.2. В съответствие с Фигура 2, подгответе работен лист и направете изчисления.

1.3. Посочете основните формули, използвани при изчисленията (за генералната съвкупност и извадката).

Фигура 2

1.4. Обяснете защо е възможно да се получат такива средни аритметични стойности в проби като 46.43 и 48.78 (вижте Приложението на файла). Направете изводи.

Задача 3.

Има две проби с различни набори от данни, но средната стойност за тях ще бъде една и съща:

Фигура 3

3.1. Попълнете работния лист в съответствие с фигура 3 и направете необходимите изчисления.

3.2. Дайте основните формули за изчисление.

3.3. Изградете графики в съответствие с фигури 4, 5.

3.4. Обяснете получените зависимости.

3.5. Извършете подобни изчисления за данните от две проби.

Оригинална проба 11119999

Изберете стойностите на втората проба, така че средноаритметичната стойност за втората проба да е същата, например:

Изберете сами стойностите за втората проба. Подредете изчисления и графики подобно на Фигури 3, 4, 5. Покажете основните формули, използвани при изчисленията.

Направете подходящи заключения.

Изпълнете всички задачи под формата на доклад с всички необходими чертежи, графики, формули и кратки обяснения.

Забележка: изграждането на графиките трябва да бъде обяснено с чертежи и кратки обяснения.