Доверителен интервал. Какво представлява и как може да се използва? Точност на оценката, ниво на достоверност (надеждност)

Точност на оценката, ниво на достоверност (надеждност)

Доверителен интервал

При вземане на проби от малък обем трябва да се използват интервални оценки, тъй като това избягва груби грешки, за разлика от точковите оценки.

Интервалът е оценка, която се определя от две числа - краищата на интервала, покриващ параметъра, който се оценява. Интервалните оценки ни позволяват да установим точността и надеждността на оценките.

Нека статистическата характеристика *, намерена от извадковите данни, служи като оценка на неизвестния параметър. Ще го считаме за постоянно число (може би случайна променлива). Ясно е, че * колкото по-точно се определя параметърът b, толкова по-малка е абсолютната стойност на разликата | - * |. С други думи, ако >0 и | - * |< , то чем меньше, тем оценка точнее. Таким образом, положительное число характеризует точность оценки.

Статистическите методи обаче не ни позволяват категорично да твърдим, че оценката * удовлетворява неравенството | - *|<, можно лишь говорить о вероятности, с которой это неравенство осуществляется.

Надеждността (вероятността за доверие) на оценка от * е вероятността, с която неравенството се реализира | - *|<. Обычно надежность оценки задается наперед, причем в качестве берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

Нека вероятността | - *|<, равна т.е.

Замяна на неравенство | - *|< равносильным ему двойным неравенством -<| - *|<, или *- <<*+, имеем

R(*-< <*+)=.

Доверителен интервал (*-, *+) се нарича доверителен интервал, който покрива неизвестен параметър с дадена надеждност.

Доверителни интервали за оценка на математическото очакване на нормално разпределение при известно разпределение.

Интервална оценка с надеждността на математическото очакване a на нормално разпределена количествена характеристика X въз основа на средната стойност на извадката x с известно стандартно отклонение на съвкупността е доверителен интервал

x - t(/n^?)< a < х + t(/n^?),

където t(/n^?)= е точността на оценката, n е обемът на извадката, t е стойността на аргумента на функцията на Лаплас Ф(t), при която Ф(t)=/2.

От равенството t(/n^?)= могат да се направят следните изводи:

1. с увеличаване на размера на извадката n броят намалява и следователно точността на оценката се увеличава;

2. повишаването на надеждността на оценката = 2Ф(t) води до нарастване на t (Ф(t) е нарастваща функция), а следователно и до нарастване; с други думи, увеличаването на надеждността на класическата оценка води до намаляване на нейната точност.

Пример. Случайната променлива X има нормално разпределение с известно стандартно отклонение =3. Намерете доверителни интервали за оценка на неизвестното математическо очакване a въз основа на средните стойности на извадката x, ако размерът на извадката е n = 36 и надеждността на оценката е дадена = 0,95.

Решение. Да намерим t. От връзката 2Ф(t) = 0,95 получаваме Ф(t) = 0,475. От таблицата намираме t=1,96.

Нека намерим точността на оценката:

измерване на доверителния интервал на точност

T(/n^?)= (1,96,3)//36 = 0,98.

Доверителният интервал е: (x - 0,98; x + 0,98). Например, ако x = 4,1, тогава доверителният интервал има следните граници на доверителност:

х - 0,98 = 4,1 - 0,98 = 3,12; х + 0,98 = 4,1 + 0,98 = 5,08.

По този начин стойностите на неизвестния параметър a, в съответствие с данните от извадката, отговарят на неравенство 3.12< а < 5,08. Подчеркнем, что было бы ошибочным написать Р (3,12 < а < 5,08) = 0,95. Действительно, так как а - постоянная величина, то либо она заключена в найденном интервале (тогда событие 3,12 < а < 5,08 достоверно и его вероятность равна единице), либо в нем не заключена (в этом случае событие 3,12 < а < 5,08 невозможно и его вероятность равна нулю). Другими словами, доверительную вероятность не следует связывать с оцениваемым параметром; она связана лишь с границами доверительного интервала, которые, как уже было указано, изменяются от выборки к выборке.

Нека обясним значението на дадена надеждност. Надеждност = 0,95 показва, че ако се вземат достатъчно голям брой проби, тогава 95% от тях определят доверителните интервали, в които действително се съдържа параметърът; само в 5% от случаите може да надхвърли доверителния интервал.

Ако е необходимо да се оцени математическото очакване с предварително определена точност и надеждност, тогава минималният размер на извадката, който ще гарантира тази точност, се намира с помощта на формулата

Доверителни интервали за оценка на математическото очакване на нормално разпределение с неизвестно

Интервална оценка с надеждността на математическото очакване a на нормално разпределена количествена характеристика X въз основа на средната стойност на извадката x с неизвестно стандартно отклонение на генералната съвкупност е доверителен интервал

x - t()(s/n^?)< a < х + t()(s/n^?),

където s е „коригираното“ стандартно отклонение на извадката, t() се намира от таблицата за даденото и n.

Пример. Количествената характеристика X на съвкупността е нормално разпределена. Въз основа на размер на извадката от n=16 бяха установени средната стойност на извадката x = 20,2 и „коригираното“ стандартно отклонение s = 0,8. Оценете неизвестното математическо очакване, като използвате доверителен интервал с надеждност 0,95.

Решение. Нека намерим t(). Използвайки таблицата, чрез = 0,95 и n=16 намираме t()=2,13.

Нека намерим границите на доверието:

x - t() (s/n^?) = 20,2 - 2,13 *. 0,8/16^? = 19,774

x + t()(s/n^?) = 20,2 + 2,13 * 0,8/16^? = 20,626

И така, с надеждност от 0,95, неизвестният параметър a се съдържа в доверителен интервал от 19,774< а < 20,626

Оценка на истинската стойност на измерваната величина

Нека се направят n независими измервания с еднаква точност на някаква физическа величина, чиято истинска стойност е неизвестна.

Резултатите от отделните измервания ще разглеждаме като случайни величини Хl, Х2,…Хn. Тези величини са независими (измерванията са независими). Те имат едно и също математическо очакване a (истинската стойност на измерената величина), еднакви дисперсии ^2 (измерванията са еднакво точни) и се разпределят нормално (това предположение се потвърждава от опита).

По този начин всички предположения, направени при извличането на доверителните интервали, са изпълнени и следователно сме свободни да използваме формулите. С други думи, истинската стойност на измерената стойност може да бъде оценена от средната аритметична стойност на резултатите от отделните измервания, като се използват доверителни интервали.

Пример. Въз основа на данни от девет независими измервания с еднаква точност на физическа величина, средноаритметичната стойност на резултатите от отделните измервания е установено, че е x = 42,319, а „коригираното“ стандартно отклонение s = 5,0. Изисква се да се оцени истинската стойност на измерената стойност с надеждност = 0,95.

Решение. Истинската стойност на измерената величина е равна на нейното математическо очакване. Следователно проблемът се свежда до оценяване на математическото очакване (при дадено неизвестно) с помощта на доверителен интервал, покриващ a с дадена надеждност = 0,95.

x - t()(s/n^?)< a < х + t()(s/n^?)

Използвайки таблицата, използвайки y = 0,95 и l = 9, намираме

Нека намерим точността на оценката:

t())(s/n^?) = 2,31 * 5/9^?=3,85

Нека намерим границите на доверието:

x - t() (s/n^?) = 42,319 - 3,85 = 38,469;

x + t() (s/n^?) = 42,319 +3,85 = 46,169.

Така че, с надеждност от 0,95, истинската стойност на измерената стойност се намира в доверителния интервал от 38,469< а < 46,169.

Доверителни интервали за оценка на стандартното отклонение на нормално разпределение.

Нека количествената характеристика X на генералната съвкупност е разпределена нормално. Изисква се да се оцени неизвестното общо стандартно отклонение от „коригираното“ извадково стандартно отклонение s. За да направим това, ще използваме интервална оценка.

Интервална оценка (с надеждност) на стандартното отклонение o на нормално разпределена количествена характеристика X въз основа на „коригираното“ извадково стандартно отклонение s е доверителният интервал

s (1 -- q)< < s (1 + q) (при q < 1),

0 < < s (1 + q) (при q > 1),

където q се намира от таблицата за дадено n n.

Пример 1. Количественият признак X на генералната съвкупност е разпределен нормално. Въз основа на размер на извадката от n = 25, беше намерено „коригирано“ стандартно отклонение от s = 0,8. Намерете доверителен интервал, покриващ общото стандартно отклонение с надеждност 0,95.

Решение. Използвайки таблицата с данни = 0,95 и n = 25, намираме q = 0,32.

Необходимият доверителен интервал s (1 -- q)< < s (1 + q) таков:

0,8(1-- 0,32) < < 0,8(1+0,32), или 0,544 < < 1,056.

Пример 2. Количественият признак X на генералната съвкупност е разпределен нормално. Въз основа на размер на извадката от n=10, беше намерено „коригирано“ стандартно отклонение от s = 0,16. Намерете доверителен интервал, покриващ общото стандартно отклонение с надеждност 0,999.

Решение. Използвайки таблицата в допълнението, въз основа на данни = 0,999 и n=10, намираме 17= 1,80 (q > 1). Необходимият доверителен интервал е:

0 < < 0,16(1 + 1,80), или 0 < < 0,448.

Степенточност на измерване

В теорията на грешките е обичайно да се характеризира точността на измерване (точността на инструмента), като се използва стандартното отклонение на случайните грешки на измерването. За оценка се използва „коригираното“ стандартно отклонение s. Тъй като обикновено резултатите от измерването са взаимно независими, имат едно и също математическо очакване (истинската стойност на измерената стойност) и същата дисперсия (в случай на измервания с еднаква точност), теорията, описана в предходния параграф, е приложима за оценка на точност на измерванията.

Пример. На базата на 15 измервания с еднаква точност е намерено „коригирано“ стандартно отклонение от s = 0,12. Намерете точността на измерване с надеждност 0,99.

Решение. Точността на измерване се характеризира със стандартното отклонение на случайните грешки, така че проблемът се свежда до намиране на доверителния интервал s (1 -- q)< < s (1 + q) , покрывающего с заданной надежностью 0,99

Използвайки таблицата в допълнението за = 0,99 и n = 15 намираме q = 0,73.

Необходимият доверителен интервал

0,12(1-- 0,73) < < 0,12(1+0,73), или 0.03 < < 0,21.

Оценка на вероятността (биномиално разпределение) от относителна честота

Интервална оценка (с надеждност) на неизвестната вероятност p на биномиално разпределение по относителна честота w е доверителният интервал (с приблизителни краища p1 и p2)

p1< p < p2,

където n е общият брой тестове; m е броят на повторенията на събитието; w - относителна честота, равна на отношението m/n; t е стойността на аргумента на функцията на Лаплас, при която Ф(t) = /2.

Коментирайте. За големи стойности на n (от порядъка на стотици) могат да се приемат като приблизителни граници на доверителния интервал

Преди това разгледахме определянето на доверителната вероятност за отделно измерване X i с помощта на таблица. 1.1, тоест определяне на вероятността X i да не се отклонява от истинската стойност с повече от ΔX.

Най-важната задача обаче е да се определи величината на отклонението от истинската стойност X на средната аритметична стойност резултати от измерване. За да разрешите проблема, можете да използвате и таблицата. 1.1, като вместо стойността σ се взема стойността σ , тоест y / (n 0.5) или като се вземе предвид (1.14), за краен брой измерения

Средна квадратична грешка на средноаритметичното S n равна на средната квадратна грешка на отделен резултат, разделена на корен квадратен от броя на измерванията.

Това е основният закон за увеличаване на точността с увеличаване на наблюденията. От това следва, че за да се увеличи точността на измерванията 2 пъти, е необходимо броят на измерванията да се увеличи 4 пъти. Това заключение обаче се отнася само за измервания, при които точността на резултата се определя изцяло от случайна грешка.

Обикновено се извършват относително малък брой измервания за n, от които се определя стойността S n . Ако, когато оценяваме вероятността за доверие, приемем, че стойността S n съвпада с y и използвайте таблицата. 1.1, тогава ще получим надценени стойности на α. От факта, че σ е границата на S n при n → ∞ следва, че S n е пропорционална на стойността на σ . Коефициентът на пропорционалност зависи от броя на измерванията и отразява степента на приближение S n към σ . Въз основа на това интервалът ΔX може да бъде представен като

Стойностите на t αn, наречени коефициент на Студент, са изчислени за различни стойности на n и α и са дадени в табл. 1.2. Сравнявайки дадените в нея данни с данните в табл. 1.1 е лесно да се види, че за големи n стойността t αn клони към съответните стойности на стойността ε. Това е естествено, тъй като с увеличаване на n S n клони към σ .

Използвайки коефициентите на Стюдънт, можем да пренапишем равенството (1.14) във формата

Използвайки това съотношение и табл. 1.2, лесно е да се определят доверителни интервали и доверителни вероятности за всеки малък брой измервания. След извършване на измерванията трябва да се знаят всички количества, включени в този израз - някои от тях могат да бъдат зададени предварително, други трябва да бъдат определени.

Мярка за точността на резултатите от измерването е относителната грешка (грешка), обикновено изразена като процент (%):


Стойността ϕ = 1/δ, обратната на относителната грешка, се нарича точност на измерване.

Използвайки таблицата с коефициентите на Student, можете също да решите обратната задача: като използвате известната абсолютна грешка на измервателното устройство и дадена стойност на надеждност, определете необходимия брой измервания в серия.

ПРИЛОЖЕНИЕ НА ТЕОРИЯТА НА ВЕРОЯТНОСТИТЕ В СТАТИСТИКАТА.

1. Основни понятия.

2. Определяне на неизвестната функция на разпределение.

3. Определяне на неизвестни параметри на разпределението.

4. Доверителен интервал. Вероятност за доверие.

5. Приложение на теста на Стюдънт за сравнение на общ

инертни материали.

6. Елементи на корелационната теория.

7. Проверка на хипотезата за нормалното разпределение на генерал

съвкупност. Тест за съответствие на Pearson.

Основни понятия.

Математическата статистика е дял от математиката, който изучава методите за обработка и анализ на експериментални данни, получени в резултат на наблюдения на масивни случайни събития и явления.

Наблюденията върху обекти могат да обхващат всички членове на изследваната популация без изключение и могат да бъдат ограничени до проучвания само на определена част от членовете на тази популация. Първото наблюдение се нарича непрекъснато или пълно, второто частично или селективен .

Естествено, най-пълна информация се дава чрез непрекъснато наблюдение, но не винаги се прибягва до него. Първо, непрекъснатото наблюдение е много трудоемко, и второ, често е практически невъзможно или дори непрактично. Следователно в по-голямата част от случаите те прибягват до селективни изследвания.

Популация, от която някои от нейните членове са избрани по някакъв начин за съвместно изследване, се нарича общо население , а част от избраната по един или друг начин генерална съвкупност е извадкова съвкупност или проба .

Обемът на популацията теоретично е неограничен, но на практика винаги е ограничен.

Размерът на извадката може да бъде голям или малък, но не може да бъде по-малък от две.

Изборът в извадката може да се извърши на случаен принцип (чрез жребий или лотария). Или планирано, в зависимост от задачата и организацията на проучването. За да бъде извадката представителна, е необходимо да се обърне внимание на диапазона на вариация на характеристиката и да се съгласува размерът на извадката с него.

2. Определяне на неизвестната функция на разпределение.

Така че направихме селекция. Нека разделим обхвата на наблюдаваните стойности на интервали , , …. еднаква дължина. За да изчислите необходимия брой интервали, можете да използвате следните формули:

Следваща нека m i - брой наблюдавани стойности, включени в аз thинтервал. Чрез разделяне m i за общ брой наблюдения н, получаваме съответната честота аз-охинтервал: , и . Нека създадем следната таблица:

Номер на интервала Интервал m i
m 1
м 2
... ... ... ...
к m k

което се нарича статистически близо . Емпиричен (или статистически ) разпределителна функция случайна променлива е честотата на събитие, така че количеството в резултат на експеримента ще приеме стойност, по-малка от х:

На практика е достатъчно да се намерят стойностите на функцията на статистическото разпределение F*(x) по точки , които са границите на интервалите на статистическия ред:

(5.2)

Трябва да се отбележи, че при и при . Чрез нанасяне на точките и свързвайки ги с гладка крива, получаваме приблизителна графика на емпиричната функция на разпределение (фиг. 5.1). Използвайки закона за големите числа на Бернули, можем да докажем, че с достатъчно голям брой тестове с вероятност, близка до единица, емпиричната функция на разпределение се различава толкова малко, колкото желаем, от функцията на разпределение на неизвестната ни случайна променлива.

Често, вместо да се начертае функцията на емпиричното разпределение, се прави следното. Интервалите са нанесени върху абсцисната ос, ,…. . На всеки интервал се изгражда правоъгълник, чиято площ е равна на честотата, съответстваща на този интервал. Височина з аз на този правоъгълник е равно на , където е дължината на всеки от интервалите. Ясно е, че сумата от площите на всички построени правоъгълници е равна на единица.

Нека разгледаме функция, която е постоянна в интервала и равна на . Графиката на тази функция се нарича хистограма . Това е стъпаловидна линия (фиг. 5.2). Използвайки закона на Бернули за големите числа, може да се докаже, че за малки и големи числа, с практическа сигурност, толкова малко, колкото се желае, се различава от плътността на разпределение на непрекъсната случайна променлива.

Така на практика се определя вида на неизвестната функция на разпределение на случайна величина.

3. Определяне на неизвестни параметри на разпределението.

Така получихме хистограма, която дава яснота. Яснотата на представените резултати ни позволява да правим различни изводи и преценки за изследвания обект.

Обикновено обаче те не спират дотук, а отиват по-далеч, анализирайки данните, за да тестват определени предположения относно възможните механизми на процесите или явленията, които се изучават.

Въпреки че данните във всяко проучване са сравнително малко, бихме искали резултатите от анализа да опишат достатъчно целия действителен или възможен набор (т.е. популацията).

За да направите това, се правят някои предположения за това как показателите, изчислени въз основа на експериментални данни (извадка), се отнасят към параметрите на генералната съвкупност.

Решението на този проблем е основна част от всеки анализ на експериментални данни и е тясно свързано с използването на редица теоретични разпределения, обсъдени по-горе.

Широкото използване на нормалното разпределение в статистическите изводи има както емпирично, така и теоретично оправдание.

Първо, практиката показва, че в много случаи нормалното разпределение наистина е доста точно представяне на експерименталните данни.

Второ, теоретично е доказано, че средните стойности на интервалите на хистограмата се разпределят по закон, близък до нормалния.

Въпреки това, трябва ясно да се разбере, че нормалното разпределение е само чисто математически инструмент и изобщо не е необходимо реалните експериментални данни да бъдат точно описани от нормалното разпределение. Въпреки че в много случаи, допускайки малка грешка, можем да кажем, че данните са нормално разпределени.

Редица показатели, като средна стойност, дисперсия и др., характеризират извадката и се наричат ​​статистики. Същите показатели, но свързани със съвкупността като цяло, се наричат ​​параметри. По този начин можем да кажем, че статистиката служи за оценка на параметрите.

Общата средна е средноаритметичното на стойностите общ обем на населението:

Средната стойност на извадката е средната аритметична стойност на обема на пробата:

(5.4)

ако изборът е под формата на таблица.

Средната стойност на извадката се приема като оценка на общата средна стойност.

Генералната дисперсия е средноаритметичното на квадратите на отклоненията на стойностите на съвкупността от средната им стойност:

Общото стандартно отклонение е корен квадратен от общата дисперсия: .

Дисперсията на извадката е средната аритметична стойност на квадратите на отклонението на стойностите на извадката от тяхната средна стойност:

Стандартното отклонение на извадката се определя като .

За по-добро съответствие с експерименталните резултати се въвежда концепцията за емпирична (или коригирана) дисперсия:

За да оцените общото стандартно отклонение, използвайте коригираното стандартно отклонение или емпиричен стандарт:

(5.5)

В случай, че всички стойности на извадката са различни, т.е. , , формули за и приемат формата:

(5.6)

Доверителен интервал. Вероятност за доверие.

Различните статистически данни, получени в резултат на изчисленията, са точкови оценки на съответните параметри на съвкупността.

Ако извлечем определен брой проби от общата съвкупност и намерим интересуващата ни статистика за всяка от тях, тогава изчислените стойности ще представляват случайни променливи, които имат известно разпространение около изчисления параметър.

Но по правило в резултат на експеримента изследователят има на разположение една проба. Поради това е от значителен интерес да се получи интервална оценка, т.е. определен интервал, в който, както може да се предположи, се намира истинската стойност на параметъра.

Вероятностите, признати за достатъчни за уверени преценки относно параметрите на популацията въз основа на статистика, се наричат ​​увереност.

Например, помислете как да оцените параметъра.

Интервал

Разгледаните точкови оценки на параметрите на разпределението дават оценка под формата на число, най-близко до стойността на неизвестния параметър. Такива оценки се използват само за голям брой измервания. Колкото по-малък е размерът на извадката, толкова по-лесно е да направите грешка при избора на параметър. За практиката е важно не само да се получи точкова оценка, но и да се определи интервалът, наречен доверчив,между границите на които с даден достоверна вероятност

където q е нивото на значимост; x n, x b - долната и горната граница на интервала, намира се истинската стойност на оценения параметър.

Като цяло доверителните интервали могат да бъдат конструирани въз основа на Неравенствата на Чебишев.За всеки закон на разпределение на случайна променлива с моменти от първите два реда, горната граница на вероятността за отклонение на случайната променлива x от центъра на разпределение X c, попадаща в интервала tS x, се описва от неравенството на Чебишев

където S x е оценката на стандартното отклонение на разпределението; t е положително число.

За да намерите доверителен интервал, не е необходимо да знаете закона за разпределение на резултатите от наблюдението, но трябва да знаете оценката на стандартното отклонение. Интервалите, получени с помощта на неравенството на Чебишев, се оказват твърде широки за практика. По този начин, доверителна вероятност от 0,9 за много закони на разпределение съответства на доверителен интервал от 1,6S X . Неравенството на Чебишев дава в този случай 3.16S X. Поради това не е получил широко разпространение.

В метрологичната практика се използват основно те квантилни оценкидоверителен интервал. Под 100P процентен квантил x p се разбира като абсцисата на такава вертикална линия, вляво от която площта под кривата на плътността на разпределението е равна на P%. С други думи, квантил- това е стойността на случайна променлива (грешка) с дадена доверителна вероятност P. Например, медианата на разпределението е 50% квантил x 0,5.

На практика обикновено се наричат ​​квантилите 25 и 75%. гънки,или квантили на разпределението.Между тях се намират 50% от всички възможни стойности на случайната променлива, а останалите 50% са извън тях. Интервалът от стойности на случайна променлива x между x 0 05 и x 0 95 покрива 90% от всичките й възможни стойности и се нарича междуквантилен интервал с 90% вероятност.Дължината му е d 0,9 = x 0,95 - x 0,05.

Въз основа на този подход се въвежда концепцията стойности на квантилна грешка,тези. стойности на грешка с дадена вероятност за доверие P - границите на интервала на неопределеност ± D D = ± (x p - x 1-p)/2 = ± d p /2. По дължината му възникват P% от стойностите на случайната променлива (грешка), а q = (1- P)% от общия им брой остават извън този интервал.

За да се получи интервална оценка на нормално разпределена случайна променлива, е необходимо:

Определете точковата оценка на MO x̅ и стандартното отклонение S x на случайната променлива, като използвате съответно формули (6.8) и (6.11);

Намерете горната x in и долната x n граница в съответствие с уравненията

получени като се вземе предвид (6.1). Стойностите на x n и x b се определят от таблици със стойности на интегралната функция на разпределение F(t) или функцията на Лаплас Ф(1).

Полученият доверителен интервал удовлетворява условието

където n е броят на измерените стойности; z p е аргументът на функцията на Лаплас Ф(1), съответстващ на вероятността Р/2. В този случай z p се нарича квантилен фактор. Половината от дължината на доверителния интервал се нарича доверителна граница на грешката на резултата от измерването.

Пример 6.1. Направени са 50 измервания на постоянно съпротивление. Определете доверителния интервал за стойността на MO на постоянно съпротивление, ако законът на разпределение е нормален с параметри m x = R = 590 Ohm, S x = 90 Ohm с доверителна вероятност P = 0,9.

Тъй като хипотезата за нормалността на закона за разпределение не противоречи на експерименталните данни, доверителният интервал се определя по формулата

Оттук Ф(z р) = 0,45. От таблицата, дадена в Приложение 1, намираме, че z p = 1,65. Следователно доверителният интервал ще бъде написан като

Или 590 - 21< R < 590 + 21. Окончательно 509 Ом < R < 611 Ом.

Ако законът за разпределение на случайна променлива се различава от нормалния, е необходимо да се изгради нейният математически модел и да се определи доверителният интервал с него.

Разгледаният метод за намиране на доверителни интервали е валиден за достатъчно голям брой наблюдения n, когато s = S x. Трябва да се помни, че изчислената оценка на стандартното отклонение S x е само някакво приближение на истинската стойност на s. Определянето на доверителен интервал за дадена вероятност се оказва по-малко надеждно, колкото по-малък е броят на наблюденията. Невъзможно е да се използват нормални формули за разпределение с малък брой наблюдения, ако не е възможно теоретично да се определи стандартното отклонение въз основа на предварителни експерименти с достатъчно голям брой наблюдения.

Изчисляване на доверителните интервали за случая, когато разпределението на резултатите от наблюдението е нормално, но дисперсията им е неизвестна, т.е. с малък брой наблюдения n е възможно да се извърши с помощта на разпределението на Стюдънт S(t,k). Той описва плътността на разпределение на отношението (част на Стюдънт):

където Q е истинската стойност на измереното количество. Величини x̅, S x. и S x ̅ се изчисляват на базата на експериментални данни и представляват точкови оценки на МО, стандартно отклонение на резултатите от измерването и стандартно отклонение на средноаритметичната стойност.

Вероятността фракцията на Стюдънт, в резултат на направените наблюдения, да приеме определена стойност в интервала (- t p ; + t p)

където k е броят на степените на свобода, равен на (n - 1). Стойностите на t p (наречени в този случай студентски коефициенти),изчислени с помощта на последните две формули за различни стойности на доверителната вероятност и броя на измерванията, са таблични (вижте таблицата в Приложение 1). Следователно, използвайки разпределението на Стюдънт, можете да намерите вероятността отклонението на средната аритметична стойност от истинската стойност на измерената стойност да не надвишава

В случаите, когато разпределението на случайните грешки не е нормално, често се използва разпределението на Стюдънт с приближение, чиято степен остава неизвестна. Разпределението на Стюдънт се използва за брой измервания n< 30, поскольку уже при n = 20, ...,30 оно переходит в нормальное и вместо уравнения (6.14) можно использовать уравнение (6.13). Результат измерения записывается в виде: ; P = Р d, където Р d е специфична стойност на доверителната вероятност. Факторът t за голям брой измервания n е равен на квантилния фактор z p. За малки n е равен на коефициента на Стюдънт.

Полученият резултат от измерването не е едно конкретно число, а представлява интервал, в който с определена вероятност P d се намира истинската стойност на измерената стойност. Осветяването на средата на интервала x изобщо не означава, че истинската стойност е по-близо до него, отколкото до други точки в интервала. Може да бъде навсякъде в интервала, а с вероятност 1 - Р d дори извън него.

Пример 6.2. Определянето на специфичните магнитни загуби за различни проби от една партида електротехническа стомана марка 2212 дава следните резултати: 1,21; 1,17; 1,18; 1.13; 1,19; 1,14; 1,20 и 1,18 W/kg. Ако се приеме, че няма систематична грешка и че случайната грешка е нормално разпределена, е необходимо да се определи доверителният интервал при стойности на вероятността на доверие от 0,9 и 0,95. За да разрешите проблема, използвайте формулата на Лаплас и разпределението на Стюдънт.

Използвайки формули (6.8) в (6.11) намираме оценки на средноаритметичната стойност и стандартното отклонение на резултатите от измерването. Те са съответно равни на 1,18 и 0,0278 W/kg. Ако приемем, че оценката на MSD е равна на самото отклонение, намираме:

От тук, използвайки стойностите на функцията на Лаплас, дадени в таблицата в Приложение 1, определяме това z p= 1,65. За P = 0,95, z коефициент p = 1,96. Доверителните интервали, съответстващи на P = 0,9 и 0,95, са 1,18 ± 0,016 и 1,18 ± 0,019 W/kg.

Според таблицата в Приложение 1 намираме, че t 0,9 = 1,9 и t 0,95 = 2,37. Следователно доверителните интервали са съответно 1,18±0,019 и 1,18±0,023 W/kg.

Доверителният интервал идва при нас от областта на статистиката. Това е определен диапазон, който служи за оценка на неизвестен параметър с висока степен на надеждност. Най-лесният начин да обясните това е с пример.

Да предположим, че трябва да проучите някаква случайна променлива, например скоростта на реакция на сървъра на клиентска заявка. Всеки път, когато потребител напише адреса на конкретен сайт, сървърът отговаря с различна скорост. По този начин изследваното време за реакция е произволно. И така, доверителният интервал ни позволява да определим границите на този параметър и тогава можем да кажем, че с 95% вероятност сървърът ще бъде в диапазона, който сме изчислили.

Или трябва да разберете колко хора знаят за търговската марка на компанията. Когато се изчисли доверителният интервал, ще може да се каже например, че с 95% вероятност делът на потребителите, които са запознати с това, е в диапазона от 27% до 34%.

Тясно свързана с този термин е стойността на доверителната вероятност. Той представлява вероятността желаният параметър да бъде включен в доверителния интервал. Колко голям ще бъде желаният от нас диапазон зависи от тази стойност. Колкото по-голяма е стойността, толкова по-тесен става доверителният интервал и обратното. Обикновено е настроен на 90%, 95% или 99%. Стойността 95% е най-популярната.

Този показател също се влияе от разсейването на наблюденията и неговото определение се основава на предположението, че изследваната характеристика се подчинява на това твърдение, известно още като закон на Гаус. Според него нормалното е разпределение на всички вероятности на непрекъсната случайна променлива, която може да бъде описана с плътност на вероятността. Ако предположението за нормално разпределение е неправилно, оценката може да е неправилна.

Първо, нека разберем как да изчислим доверителния интервал за Тук има два възможни случая. Дисперсията (степента на разпространение на случайна променлива) може или не може да бъде известна. Ако е известен, тогава нашият доверителен интервал се изчислява по следната формула:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - знак,

t - параметър от таблицата за разпределение на Лаплас,

σ е корен квадратен от дисперсията.

Ако дисперсията е неизвестна, тогава тя може да бъде изчислена, ако знаем всички стойности на желаната характеристика. За това се използва следната формула:

σ2 = х2ср - (хср)2, където

х2ср - средна стойност на квадратите на изследваната характеристика,

(хср)2 е квадратът на тази характеристика.

Формулата, по която се изчислява доверителният интервал в този случай, се променя леко:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - средна проба,

α - знак,

t е параметър, който се намира с помощта на таблицата за разпределение на Student t = t(ɣ;n-1),

sqrt(n) - корен квадратен от общия размер на извадката,

s е корен квадратен от дисперсията.

Помислете за този пример. Да предположим, че въз основа на резултатите от 7 измервания изследваната характеристика е определена като равна на 30, а дисперсията на извадката е равна на 36. Необходимо е да се намери с вероятност от 99% доверителен интервал, който съдържа истинската стойност на измервания параметър.

Първо, нека определим на какво е равно t: t = t (0,99; 7-1) = 3,71. Използвайки горната формула, получаваме:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Доверителният интервал за дисперсията се изчислява както в случай на известна средна стойност, така и когато няма данни за математическото очакване и е известна само стойността на точковата безпристрастна оценка на дисперсията. Тук няма да даваме формули за изчисляването му, тъй като те са доста сложни и, ако желаете, винаги могат да бъдат намерени в Интернет.

Нека само да отбележим, че е удобно да се определи доверителният интервал с помощта на Excel или мрежова услуга, която се нарича по този начин.