Приложение на метода на най-малките квадрати. Апроксимация на експериментални данни. Метод на най-малките квадрати

Метод на най-малките квадратиизползвани за оценка на параметрите на регресионното уравнение.
Брой линии (изходни данни)

Един от методите за изследване на стохастичните връзки между характеристиките е регресионният анализ.
Регресионният анализ е извеждането на регресионно уравнение, с помощта на което се намира средната стойност на случайна променлива (атрибут на резултата), ако е известна стойността на друга (или други) променливи (фактор-атрибути). Той включва следните стъпки:

  1. избор на формата на връзка (тип уравнение на аналитична регресия);
  2. оценка на параметрите на уравнението;
  3. оценка на качеството на аналитичното регресионно уравнение.
Най-често се използва линейна форма за описание на статистическата връзка на характеристиките. Фокусът върху линейните зависимости се обяснява с ясната икономическа интерпретация на неговите параметри, ограничената вариация на променливите и факта, че в повечето случаи нелинейните форми на зависимости се преобразуват (чрез логаритъм или заместване на променливи) в линейна форма за извършване на изчисления .
В случай на линейна връзка по двойки, регресионното уравнение ще приеме формата: y i =a+b·x i +u i . Параметрите a и b на това уравнение се оценяват от данните от статистическите наблюдения x и y. Резултатът от такава оценка е уравнението: , където , са оценки на параметри a и b, е стойността на резултантния атрибут (променлива), получена от регресионното уравнение (изчислена стойност).

Най-често се използва за оценка на параметри метод на най-малките квадрати (LSM).
Методът на най-малките квадрати предоставя най-добрите (последователни, ефективни и безпристрастни) оценки на параметрите на регресионното уравнение. Но само ако са изпълнени определени допускания по отношение на случайния член (u) и независимата променлива (x) (вижте допусканията на OLS).

Проблемът за оценяване на параметрите на уравнение на линейна двойка с помощта на метода на най-малките квадратие както следва: да се получат такива оценки на параметрите , , при които сумата от квадратните отклонения на действителните стойности на резултантната характеристика - y i от изчислените стойности - е минимална.
Формално OLS тестможе да се напише така: .

Класификация на методите на най-малките квадрати

  1. Метод на най-малките квадрати.
  2. Метод на максималното правдоподобие (за нормален класически линеен регресионен модел се постулира нормалност на регресионните остатъци).
  3. Обобщеният метод на най-малките квадрати OLS се използва в случай на автокорелация на грешки и в случай на хетероскедастичност.
  4. Метод на претеглени най-малки квадрати (специален случай на OLS с хетероскедастични остатъци).

Нека да илюстрираме идеята класически метод на най-малките квадрати графично. За да направим това, ще изградим диаграма на разсейване въз основа на данни от наблюдения (x i, y i, i=1;n) в правоъгълна координатна система (такава диаграма на разсейване се нарича корелационно поле). Нека се опитаме да изберем права линия, която е най-близо до точките на корелационното поле. По метода на най-малките квадрати линията се избира така, че сумата от квадратите на вертикалните разстояния между точките на корелационното поле и тази линия да е минимална.

Математическа нотация за този проблем: .
Стойностите на y i x i =1...n са ни известни; това са данни от наблюдения. Във функцията S те представляват константи. Променливите в тази функция са необходимите оценки на параметрите - , . За да се намери минимумът на функция на две променливи, е необходимо да се изчислят частните производни на тази функция за всеки от параметрите и да се приравнят към нула, т.е. .
В резултат на това получаваме система от 2 нормални линейни уравнения:
Решавайки тази система, намираме необходимите оценки на параметрите:

Правилността на изчислението на параметрите на регресионното уравнение може да се провери чрез сравняване на сумите (може да има известно несъответствие поради закръгляване на изчисленията).
За да изчислите оценките на параметрите, можете да съставите таблица 1.
Знакът на регресионния коефициент b показва посоката на връзката (ако b >0, връзката е пряка, ако b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Формално стойността на параметър a е средната стойност на y с x равно на нула. Ако атрибут-факторът няма и не може да има нулева стойност, тогава горната интерпретация на параметър a няма смисъл.

Оценяване на близостта на връзката между характеристиките извършва се с помощта на корелационния коефициент на линейна двойка - r x,y. Може да се изчисли по формулата: . Освен това корелационният коефициент на линейната двойка може да се определи чрез регресионния коефициент b: .
Диапазонът на приемливите стойности на коефициента на корелация на линейната двойка е от –1 до +1. Знакът на коефициента на корелация показва посоката на връзката. Ако r x, y >0, тогава връзката е директна; ако r x, y<0, то связь обратная.
Ако този коефициент е близък до единица по величина, тогава връзката между характеристиките може да се тълкува като доста близка линейна. Ако неговият модул е ​​равен на единица ê r x , y ê =1, то връзката между характеристиките е функционално линейна. Ако характеристиките x и y са линейно независими, тогава r x,y е близо до 0.
За да изчислите r x,y, можете също да използвате таблица 1.

маса 1

N наблюденияx iy ix i ∙y i
1 х 1y 1x 1 y 1
2 х 2y 2x 2 y 2
...
нx ny nx n y n
Колона Сума∑x∑y∑xy
Средна стойност
За да оцените качеството на полученото регресионно уравнение, изчислете теоретичния коефициент на детерминация - R 2 yx:

,
където d 2 е дисперсията на y, обяснена от регресионното уравнение;
e 2 - остатъчна (необяснена от регресионното уравнение) дисперсия на y;
s 2 y - обща (обща) дисперсия на y.
Коефициентът на детерминация характеризира съотношението на вариация (дисперсия) на резултантния атрибут y, обяснено чрез регресия (и, следователно, фактор x) в общата вариация (дисперсия) y. Коефициентът на определяне R 2 yx приема стойности от 0 до 1. Съответно стойността 1-R 2 yx характеризира съотношението на дисперсията y, причинена от влиянието на други фактори, които не са взети предвид в модела и грешките в спецификацията.
При сдвоена линейна регресия, R 2 yx =r 2 yx.

Методът на най-малките квадрати е математическа процедура за конструиране на линейно уравнение, което най-добре отговаря на набор от подредени двойки чрез намиране на стойностите за a и b, коефициентите в уравнението на правата. Целта на най-малките квадрати е да се минимизира общата квадратна грешка между стойностите на y и ŷ. Ако за всяка точка определим грешката ŷ, методът на най-малките квадрати минимизира:

където n = брой подредени двойки около линията. възможно най-близо до данните.

Тази концепция е илюстрирана на фигурата

Въз основа на фигурата линията, която най-добре отговаря на данните, регресионната линия, минимизира общата квадратна грешка на четирите точки на графиката. Ще ви покажа как да определите това с помощта на най-малките квадрати със следния пример.

Представете си млада двойка, която наскоро се е преместила заедно и споделя тоалетна масичка в банята. Младият мъж започна да забелязва, че половината от масата му неумолимо се свива, губейки почва пред пяните за коса и соевите комплекси. През последните няколко месеца човекът наблюдаваше отблизо скоростта, с която се увеличаваше броят на предметите от нейната страна на масата. Таблицата по-долу показва броя на предметите, които момичето е натрупало в тоалетната си през последните няколко месеца.

Тъй като нашата цел е да разберем дали броят на елементите се увеличава с течение на времето, „Месец“ ще бъде независимата променлива, а „Брой елементи“ ще бъде зависимата променлива.

Използвайки метода на най-малките квадрати, ние определяме уравнението, което най-добре пасва на данните, като изчисляваме стойностите на a, пресечната точка с y, и b, наклона на правата:

a = y ср. - bx ср

където x avg е средната стойност на x, независимата променлива, y avg е средната стойност на y, независимата променлива.

Таблицата по-долу обобщава изчисленията, необходими за тези уравнения.

Кривата на ефекта за нашия пример за вана ще бъде дадена от следното уравнение:

Тъй като нашето уравнение има положителен наклон от 0,976, човекът има доказателства, че броят на артикулите на масата се увеличава с течение на времето със средна скорост от 1 артикул на месец. Графиката показва кривата на ефекта с подредени двойки.

Очакванията за броя на елементите през следващите шест месеца (месец 16) ще бъдат изчислени, както следва:

ŷ = 5,13 + 0,976x = 5,13 + 0,976(16) ~ 20,7 = 21 елемента

И така, време е нашият герой да предприеме нещо.

Функция TREND в Excel

Както вероятно вече се досещате, Excel има функция за изчисляване на стойности по метод на най-малките квадрати.Тази функция се нарича TREND. Синтаксисът му е както следва:

ТЕНДЕНЦИЯ (известни Y стойности; известни X стойности; нови X стойности; константа)

известни Y стойности - масив от зависими променливи, в нашия случай броят на обектите в таблицата

известни стойности X - масив от независими променливи, в нашия случай това е месецът

нови X стойности ​​– нови X стойности (месеци), за които Функция TRENDвръща очакваната стойност на зависимите променливи (брой елементи)

const - по избор. Булева стойност, която указва дали константата b трябва да бъде 0.

Например, фигурата показва функцията TREND, използвана за определяне на очаквания брой артикули върху тоалетна за баня за 16-ия месец.

Ако определено физическо количество зависи от друго количество, тогава тази зависимост може да бъде изследвана чрез измерване на y при различни стойности на x. В резултат на измерванията се получават редица стойности:

x 1, x 2, ..., x i, ..., x n;

y 1 , y 2 , ..., y i , ... , y n .

Въз основа на данните от такъв експеримент е възможно да се построи графика на зависимостта y = ƒ(x). Получената крива позволява да се прецени формата на функцията ƒ(x). Въпреки това, постоянните коефициенти, които влизат в тази функция, остават неизвестни. Те могат да бъдат определени чрез метода на най-малките квадрати. Експерименталните точки по правило не лежат точно на кривата. Методът на най-малките квадрати изисква сумата от квадратите на отклоненията на експерименталните точки от кривата, т.е. 2 беше най-малкият.

На практика този метод най-често (и най-просто) се използва в случай на линейна зависимост, т.е. Кога

y = kxили y = a + bx.

Линейната зависимост е много разпространена във физиката. И дори когато връзката е нелинейна, те обикновено се опитват да построят графика, така че да получат права линия. Например, ако се приеме, че коефициентът на пречупване на стъклото n е свързан с дължината на светлинната вълна λ чрез връзката n = a + b/λ 2, тогава зависимостта на n от λ -2 се нанася на графиката.

Помислете за зависимостта y = kx(права линия, минаваща през началото). Нека съставим стойността φ сумата от квадратите на отклоненията на нашите точки от правата линия

Стойността на φ винаги е положителна и се оказва по-малка, колкото по-близо са нашите точки до правата линия. Методът на най-малките квадрати гласи, че стойността за k трябва да бъде избрана така, че φ да има минимум


или
(19)

Изчислението показва, че средноквадратичната грешка при определяне на стойността на k е равна на

, (20)
където n е броят на измерванията.

Нека сега разгледаме един малко по-сложен случай, когато точките трябва да удовлетворяват формулата y = a + bx(права линия, която не минава през началото).

Задачата е да се намерят най-добрите стойности на a и b от наличния набор от стойности x i, y i.

Нека отново съставим квадратната форма φ, равна на сумата от квадратите на отклоненията на точки x i, y i от правата линия

и намерете стойностите на a и b, за които φ има минимум

;

.

.

Съвместното решение на тези уравнения дава

(21)

Средните квадратични грешки при определяне на a и b са равни

(23)

.  (24)

При обработката на резултатите от измерванията по този метод е удобно всички данни да се обобщят в таблица, в която всички суми, включени във формули (19)(24), са предварително изчислени. Формите на тези таблици са дадени в примерите по-долу.

Пример 1.Изследва се основното уравнение на динамиката на въртеливото движение ε = M/J (права, минаваща през началото). При различни стойности на момента M се измерва ъгловото ускорение ε на определено тяло. Необходимо е да се определи инерционният момент на това тяло. Резултатите от измерванията на момента на силата и ъгловото ускорение са изброени във втората и третата колона таблица 5.

Таблица 5
н M, N m ε, s -1 М 2 M ε ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Използвайки формула (19), определяме:

.

За да определим средната квадратична грешка, използваме формула (20)

0.005775килограма-1 · м -2 .

Съгласно формула (18) имаме

; .

S J = (2,996 0,005775)/0,3337 = 0,05185 kg m2.

След като зададем надеждността P = 0,95, използвайки таблицата на коефициентите на Студент за n = 5, намираме t = 2,78 и определяме абсолютната грешка ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kg m2.

Нека запишем резултатите във формата:

J = (3,0 ± 0,2) kg m2;


Пример 2.Нека изчислим температурния коефициент на съпротивление на метала, използвайки метода на най-малките квадрати. Съпротивлението зависи линейно от температурата

R t = R 0 (1 + α t°) = R 0 + R 0 α t°.

Свободният член определя съпротивлението R 0 при температура 0 ° C, а коефициентът на наклона е произведението на температурния коефициент α и съпротивлението R 0 .

Резултатите от измерванията и изчисленията са дадени в таблицата ( виж таблица 6).

Таблица 6
н t°, s r, Ом t-¯t (t-¯t) 2 (t-¯t)r r - bt - a (r - bt - a) 2 .10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

Използвайки формули (21), (22) определяме

R 0 = ¯ R- α R 0 ¯ t = 1,4005 - 0,002645 85,83333 = 1,1735 Ом.

Нека намерим грешка в дефиницията на α. Тъй като , то съгласно формула (18) имаме:

.

Използвайки формули (23), (24) имаме

;

0.014126 Ом.

След като зададем надеждността на P = 0.95, използвайки таблицата на коефициентите на Student за n = 6, намираме t = 2.57 и определяме абсолютната грешка Δα = 2.57 0.000132 = 0.000338 градус -1.

α = (23 ± 4) 10 -4 градушка-1 при Р = 0,95.


Пример 3.Необходимо е да се определи радиусът на кривината на лещата с помощта на пръстените на Нютон. Бяха измерени радиусите на Нютоновите пръстени r m и бяха определени номерата на тези пръстени m. Радиусите на пръстените на Нютон са свързани с радиуса на кривината на лещата R и номера на пръстена чрез уравнението

r 2 m = mλR - 2d 0 R,

където d 0 дебелината на празнината между лещата и плоско-паралелната плоча (или деформацията на лещата),

λ дължина на вълната на падащата светлина.

λ = (600 ± 6) nm;
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a,

тогава уравнението ще приеме формата y = a + bx.

.

Резултатите от измерванията и изчисленията се въвеждат таблица 7.

Таблица 7
н x = m y = r 2, 10 -2 mm 2 m -¯m (m -¯m) 2 (m -¯ m)y y - bx - a, 10 -4 (y - bx - a) 2, 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –

Метод на обикновените най-малки квадрати (OLS).- математически метод, използван за решаване на различни проблеми, базиран на минимизиране на сумата от квадратните отклонения на определени функции от желаните променливи. Може да се използва за „решаване“ на свръхопределени системи от уравнения (когато броят на уравненията надвишава броя на неизвестните), за намиране на решения в случай на обикновени (не свръхопределени) нелинейни системи от уравнения, за приближаване на точкови стойности на някои функция. OLS е един от основните методи за регресионен анализ за оценка на неизвестни параметри на регресионни модели от извадкови данни.

Енциклопедичен YouTube

    1 / 5

    ✪ Метод на най-малките квадрати. Предмет

    ✪ Метод на най-малките квадрати, урок 1/2. Линейна функция

    ✪ Иконометрия. Лекция 5. Метод на най-малките квадрати

    ✪ Митин И.В. - Обработка на физически резултати. експеримент - Метод на най-малките квадрати (лекция 4)

    ✪ Иконометрия: Същността на метода на най-малките квадрати №2

    субтитри

История

До началото на 19в. учените не са имали определени правила за решаване на система от уравнения, в която броят на неизвестните е по-малък от броя на уравненията; Дотогава се използваха частни техники, които зависеха от вида на уравненията и от остроумието на калкулаторите и следователно различните калкулатори, базирани на едни и същи данни от наблюдения, стигаха до различни заключения. Гаус (1795) е първият, който използва метода, а Лежандр (1805) независимо го открива и публикува под съвременното му име (фр. Méthode des moindres quarrés) . Лаплас свързва метода с теорията на вероятностите, а американският математик Адрейн (1808) разглежда неговите теоретични приложения на вероятностите. Методът е широко разпространен и подобрен чрез по-нататъшни изследвания от Encke, Bessel, Hansen и други.

Същността на метода на най-малките квадрати

Позволявам x (\displaystyle x)- комплект n (\displaystyle n)неизвестни променливи (параметри), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- набор от функции от този набор от променливи. Задачата е да изберете такива стойности x (\displaystyle x), така че стойностите на тези функции да са възможно най-близо до определени стойности y i (\displaystyle y_(i)). По същество говорим за „решение“ на свръхопределена система от уравнения f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m)в посочения смисъл на максимална близост на лявата и дясната част на системата. Същността на метода на най-малките квадрати е да се избере като „мярка за близост“ сумата от квадратните отклонения на лявата и дясната страна | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). По този начин същността на MNC може да се изрази по следния начин:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\rightarrow \min _(x)).

Ако системата от уравнения има решение, тогава минимумът на сумата от квадрати ще бъде равен на нула и точните решения на системата от уравнения могат да бъдат намерени аналитично или, например, с помощта на различни числени методи за оптимизация. Ако системата е свръхопределена, т.е. свободно казано, броят на независимите уравнения е по-голям от броя на желаните променливи, тогава системата няма точно решение и методът на най-малките квадрати ни позволява да намерим някакъв „оптимален“ вектор x (\displaystyle x)в смисъл на максимална близост на векторите y (\displaystyle y)И f (x) (\displaystyle f(x))или максимална близост на вектора на отклонение e (\displaystyle e)до нула (близостта се разбира в смисъл на евклидово разстояние).

Пример - система от линейни уравнения

По-специално, методът на най-малките квадрати може да се използва за "решаване" на система от линейни уравнения

A x = b (\displaystyle Ax=b),

Където A (\displaystyle A)матрица с правоъгълен размер m × n, m > n (\displaystyle m\times n,m>n)(т.е. броят на редовете на матрица A е по-голям от броя на търсените променливи).

В общия случай такава система от уравнения няма решение. Следователно тази система може да бъде „решена“ само в смисъл на избор на такъв вектор x (\displaystyle x)за минимизиране на "разстоянието" между векторите A x (\displaystyle Ax)И b (\displaystyle b). За да направите това, можете да приложите критерия за минимизиране на сумата от квадратите на разликите между лявата и дясната страна на уравненията на системата, т.е. (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min ). Лесно е да се покаже, че решаването на този проблем за минимизиране води до решаването на следната система от уравнения

A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (T)b).

OLS в регресионен анализ (апроксимация на данни)

Нека има n (\displaystyle n)стойности на някаква променлива y (\displaystyle y)(това може да са резултатите от наблюдения, експерименти и т.н.) и свързани променливи x (\displaystyle x). Предизвикателството е да се гарантира, че връзката между y (\displaystyle y)И x (\displaystyle x)приближено чрез някаква функция, известна с точност до някои неизвестни параметри b (\displaystyle b), тоест всъщност намира най-добрите стойности на параметрите b (\displaystyle b), максимално приближаващи стойностите f (x, b) (\displaystyle f(x,b))към действителните стойности y (\displaystyle y). Всъщност това се свежда до случая на „решаване“ на свръхопределена система от уравнения по отношение на b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

В регресионния анализ и по-специално в иконометрията се използват вероятностни модели на зависимост между променливите

Y t = f (x t, b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

Където ε t (\displaystyle \varepsilon _(t))- т.нар случайни грешкимодели.

Съответно отклонения на наблюдаваните стойности y (\displaystyle y)от модела f (x, b) (\displaystyle f(x,b))вече се приема в самия модел. Същността на метода на най-малките квадрати (обикновен, класически) е да се намерят такива параметри b (\displaystyle b), при което сумата от квадратните отклонения (грешки, за регресионните модели те често се наричат ​​регресионни остатъци) e t (\displaystyle e_(t))ще бъде минимален:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

Където R S S (\displaystyle RSS)- Английски Остатъчната сума на квадратите се определя като:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\сума _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

В общия случай този проблем може да бъде решен чрез методи на числена оптимизация (минимизация). В този случай те говорят за нелинеен метод на най-малките квадрати(NLS или NLLS - английски нелинейни най-малки квадрати). В много случаи е възможно да се получи аналитично решение. За да се реши задачата за минимизиране, е необходимо да се намерят стационарни точки на функцията R S S (b) (\displaystyle RSS(b)), диференцирайки го по неизвестни параметри b (\displaystyle b), приравняване на производните на нула и решаване на получената система от уравнения:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\partial f(x_(t),b))(\partial b))=0).

OLS в случай на линейна регресия

Нека регресионната зависимост е линейна:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Позволявам ге колонният вектор на наблюденията на променливата, която се обяснява, и X (\displaystyle X)- Това (n × k) (\displaystyle ((n\пъти k)))-матрица на факторните наблюдения (матричните редове са вектори на стойностите на факторите в дадено наблюдение, колоните са вектор на стойностите на даден фактор във всички наблюдения). Матричното представяне на линейния модел има формата:

y = X b + ε (\displaystyle y=Xb+\varepsilon ).

Тогава векторът на оценките на обяснената променлива и векторът на регресионните остатъци ще бъдат равни

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

Съответно сумата от квадратите на регресионните остатъци ще бъде равна на

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Диференциране на тази функция по отношение на вектора на параметрите b (\displaystyle b)и приравнявайки производните на нула, получаваме система от уравнения (в матрична форма):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

В дешифрирана матрична форма тази система от уравнения изглежда така:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 3 x t 1 ∑ x t 3 x t 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (∑ x t 1 y t ∑ x t 2 y t ∑ x t 3 y t ⋮ ∑ x t k y t) , (\displaystyle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_(tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ сума x_(t2)x_(tk)\\\сума x_(t3)x_(t1)&\сума x_(t3)x_(t2)&\сума x_(t3)^(2)&\ldots &\сума x_ (t3)x_(tk)\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_(k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vdots \\\sum x_(tk)y_(t)\\\end(pmatrix)),)където всички суми се вземат върху всички валидни стойности t (\displaystyle t).

Ако в модела е включена константа (както обикновено), тогава x t 1 = 1 (\displaystyle x_(t1)=1)пред всички t (\displaystyle t), следователно в горния ляв ъгъл на матрицата на системата от уравнения има броя на наблюденията n (\displaystyle n), а в останалите елементи на първия ред и първата колона - просто сумите на стойностите на променливите: ∑ x t j (\displaystyle \sum x_(tj))и първият елемент от дясната страна на системата е ∑ y t (\displaystyle \sum y_(t)).

Решението на тази система от уравнения дава общата формула за оценки на най-малките квадрати за линеен модел:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\right)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

За аналитични цели последното представяне на тази формула се оказва полезно (в системата от уравнения при деление на n вместо суми се появяват средни аритметични). Ако в регресионен модел данните центриран, тогава в това представяне първата матрица има значението на примерна ковариационна матрица от фактори, а втората е вектор от ковариации на фактори със зависимата променлива. Ако в допълнение данните също са нормализиранкъм MSE (тоест в крайна сметка стандартизиран), тогава първата матрица има значението на примерна корелационна матрица на фактори, вторият вектор - вектор на примерни корелации на фактори със зависимата променлива.

Важно свойство на оценките на OLS за модели с постоянна- линията на конструираната регресия минава през центъра на тежестта на извадковите данни, т.е. равенството е изпълнено:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\hat (b))_(j)(\bar (x))_(j)).

По-специално, в краен случай, когато единственият регресор е константа, откриваме, че OLS оценката на единствения параметър (самата константа) е равна на средната стойност на обяснената променлива. Тоест, средната аритметична стойност, известна с добрите си свойства от законите на големите числа, също е оценка на най-малките квадрати - тя удовлетворява критерия за минималната сума на квадратите на отклоненията от нея.

Най-простите специални случаи

В случай на сдвоена линейна регресия y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), когато се оценява линейната зависимост на една променлива от друга, формулите за изчисление се опростяват (можете да правите без матрична алгебра). Системата от уравнения има формата:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline (xy))\\\end(pmatrix))).

От тук е лесно да намерите оценки на коефициента:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(cases) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(cases)))

Въпреки факта, че в общия случай моделите с константа са за предпочитане, в някои случаи от теоретични съображения е известно, че константа a (\displaystyle a)трябва да е равно на нула. Например във физиката връзката между напрежение и ток е U = I ⋅ R (\displaystyle U=I\cdot R); При измерване на напрежение и ток е необходимо да се оцени съпротивлението. В случая говорим за модела y = b x (\displaystyle y=bx). В този случай вместо система от уравнения имаме едно уравнение

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Следователно формулата за оценка на единичния коефициент има формата

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Случаят на полиномен модел

Ако данните са подходящи от полиномна регресионна функция на една променлива f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), след това, възприемане на степени x i (\displaystyle x^(i))като независими фактори за всеки i (\displaystyle i)възможно е да се оценят параметрите на модела въз основа на общата формула за оценка на параметрите на линеен модел. За да направите това, достатъчно е да вземете предвид в общата формула, че с такова тълкуване x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j))И x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Следователно матричните уравнения в този случай ще приемат формата:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x t 2 … ∑ n x t k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 … ∑ n x t 2 k) [ b 0 b 1 ⋮ b k ] = [ ∑ n y t ∑ n t y t ⋮ ∑ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(t)^(2)&\ldots &\sum \limits _(n)x_(t)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ сума \лимити _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).)

Статистически свойства на OLS оценителите

На първо място, отбелязваме, че за линейните модели оценките на OLS са линейни оценки, както следва от горната формула. За безпристрастни оценки на OLS е необходимо и достатъчно да се изпълни най-важното условие на регресионния анализ: математическото очакване на случайна грешка, зависимо от факторите, трябва да бъде равно на нула. Това условие по-специално е изпълнено, ако

  1. математическото очакване на случайни грешки е нула и
  2. факторите и случайните грешки са независими случайни променливи.

Второто условие - условието за екзогенност на факторите - е основно. Ако това свойство не е изпълнено, тогава можем да предположим, че почти всички оценки ще бъдат изключително незадоволителни: те дори няма да бъдат последователни (тоест дори много голямо количество данни не ни позволява да получим висококачествени оценки в този случай ). В класическия случай се прави по-силно предположение за детерминизма на факторите, за разлика от случайна грешка, което автоматично означава, че условието за екзогенност е изпълнено. В общия случай за съгласуваност на оценките е достатъчно да се удовлетвори условието за екзогенност заедно с конвергенцията на матрицата V x (\displaystyle V_(x))към някаква неособена матрица, тъй като размерът на извадката нараства до безкрайност.

За да бъдат, в допълнение към последователността и безпристрастността, оценките на (обикновените) най-малки квадрати също ефективни (най-добрите в класа на линейните безпристрастни оценки), трябва да бъдат изпълнени допълнителни свойства на случайната грешка:

Тези предположения могат да бъдат формулирани за ковариационната матрица на вектора на случайната грешка V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Линеен модел, който отговаря на тези условия, се нарича класически. OLS оценките за класическа линейна регресия са безпристрастни, последователни и най-ефективните оценки в класа на всички линейни безпристрастни оценки (в английската литература понякога се използва съкращението СИН (Най-добрият линеен безпристрастен оценител) - най-добрата линейна безпристрастна оценка; В руската литература по-често се цитира теоремата на Гаус-Марков). Както е лесно да се покаже, ковариационната матрица на вектора на оценките на коефициента ще бъде равна на:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Ефективността означава, че тази ковариационна матрица е „минимална“ (всяка линейна комбинация от коефициенти, и по-специално самите коефициенти, имат минимална дисперсия), тоест в класа на линейни безпристрастни оценители, OLS оценителите са най-добри. Диагоналните елементи на тази матрица - дисперсиите на оценките на коефициентите - са важни параметри за качеството на получените оценки. Не е възможно обаче да се изчисли ковариационната матрица, тъй като дисперсията на случайната грешка е неизвестна. Може да се докаже, че безпристрастна и последователна (за класически линеен модел) оценка на дисперсията на случайните грешки е количеството:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Замествайки тази стойност във формулата за ковариационната матрица, получаваме оценка на ковариационната матрица. Получените оценки също са безпристрастни и последователни. Важно е също, че оценката на дисперсията на грешката (и следователно дисперсията на коефициентите) и оценките на параметрите на модела са независими случайни променливи, което прави възможно получаването на тестова статистика за тестване на хипотези за коефициентите на модела.

Трябва да се отбележи, че ако класическите допускания не са изпълнени, оценките на параметрите на OLS не са най-ефективните и, когато W (\displaystyle W)е някаква симетрична матрица с положително определено тегло. Конвенционалните най-малки квадрати са специален случай на този подход, където матрицата на теглото е пропорционална на матрицата на идентичността. Както е известно, за симетричните матрици (или оператори) има разширение W = P T P (\displaystyle W=P^(T)P). Следователно посоченият функционал може да бъде представен по следния начин e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), тоест този функционал може да бъде представен като сбор от квадратите на някои трансформирани „остатъци“. По този начин можем да разграничим клас от методи на най-малките квадрати - LS методи (Least Squares).

Доказано е (теорема на Ейткен), че за обобщен линеен регресионен модел (в който не се налагат ограничения върху ковариационната матрица на случайните грешки), най-ефективните (в класа на линейните непредубедени оценки) са така наречените оценки. обобщени най-малки квадрати (GLS - Обобщени най-малки квадрати)- LS метод с тегловна матрица, равна на обратната ковариационна матрица на случайни грешки: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Може да се покаже, че формулата за GLS оценки на параметрите на линеен модел има вида

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Ковариационната матрица на тези оценки съответно ще бъде равна на

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

Всъщност същността на OLS се състои в определена (линейна) трансформация (P) на оригиналните данни и прилагането на обикновен OLS към трансформираните данни. Целта на тази трансформация е, че за трансформираните данни случайните грешки вече отговарят на класическите допускания.

Претеглен OLS

В случай на диагонална матрица на тегло (и следователно ковариационна матрица на случайни грешки), имаме така наречените претеглени най-малки квадрати (WLS). В този случай претеглената сума от квадрати на остатъците на модела е сведена до минимум, т.е. всяко наблюдение получава „тегло“, което е обратно пропорционално на дисперсията на случайната грешка в това наблюдение: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ сигма_(t)^(2)))). Всъщност данните се трансформират чрез претегляне на наблюденията (разделяне на количество, пропорционално на изчисленото стандартно отклонение на случайните грешки), а към претеглените данни се прилага обикновен OLS.

ISBN 978-5-7749-0473-0.

  • Иконометрия. Учебник / Изд. Елисеева I.I. - 2-ро изд. - М.: Финанси и статистика, 2006. - 576 с. - ISBN 5-279-02786-3.
  • Александрова Н.В.История на математическите термини, понятия, обозначения: речник-справочник. - 3-то изд.: LKI, 2008. - 248 с. - ISBN 978-5-382-00839-4.И.В. Митин, Русаков В.С. Анализ и обработка на експериментални данни – 5-то издание – 24 с.
  • Има много приложения, тъй като позволява приблизително представяне на дадена функция от други по-прости. LSM може да бъде изключително полезен при обработката на наблюдения и се използва активно за оценка на някои количества въз основа на резултатите от измервания на други, съдържащи случайни грешки. В тази статия ще научите как да прилагате изчисления на най-малките квадрати в Excel.

    Изложение на проблема с помощта на конкретен пример

    Да предположим, че има два индикатора X и Y. Освен това Y зависи от X. Тъй като OLS ни интересува от гледна точка на регресионния анализ (в Excel неговите методи се изпълняват с помощта на вградени функции), трябва незабавно да преминем към разглеждане на специфичен проблем.

    И така, нека X е търговската площ на магазин за хранителни стоки, измерена в квадратни метри, а Y е годишният оборот, определен в милиони рубли.

    Необходимо е да се направи прогноза какъв оборот (Y) ще има магазинът, ако има тази или онази търговска площ. Очевидно функцията Y = f (X) нараства, тъй като хипермаркетът продава повече стоки от щанда.

    Няколко думи за коректността на първоначалните данни, използвани за прогнозиране

    Да кажем, че имаме таблица, изградена с помощта на данни за n магазина.

    Според математическата статистика резултатите ще бъдат повече или по-малко правилни, ако се изследват данни за поне 5-6 обекта. Освен това не могат да се използват „аномални“ резултати. По-специално, елитен малък бутик може да има оборот, който е няколко пъти по-голям от оборота на големите търговски обекти от класа „masmarket“.

    Същността на метода

    Данните от таблицата могат да бъдат изобразени на декартова равнина под формата на точки M 1 (x 1, y 1), ... M n (x n, y n). Сега решението на проблема ще се сведе до избора на апроксимираща функция y = f (x), която има графика, минаваща възможно най-близо до точките M 1, M 2, .. M n.

    Разбира се, можете да използвате полином с висока степен, но тази опция е не само трудна за изпълнение, но и просто неправилна, тъй като няма да отразява основната тенденция, която трябва да бъде открита. Най-разумното решение е да се търси правата линия y = ax + b, която най-добре приближава експерименталните данни или по-точно коефициентите a и b.

    Оценка на точността

    При всяко приближение оценката на неговата точност е от особено значение. Нека обозначим с e i разликата (отклонението) между функционалните и експерименталните стойности за точка x i, т.е. e i = y i - f (x i).

    Очевидно, за да оцените точността на приближението, можете да използвате сумата от отклонения, т.е. когато избирате права линия за приблизително представяне на зависимостта на X от Y, трябва да дадете предпочитание на този с най-малката стойност на сумата e i във всички разглеждани точки. Но не всичко е толкова просто, тъй като наред с положителните отклонения ще има и отрицателни.

    Проблемът може да бъде решен с помощта на модули за отклонение или техните квадрати. Последният метод е най-широко използваният. Използва се в много области, включително регресионен анализ (имплементиран в Excel с помощта на две вградени функции), и отдавна е доказал своята ефективност.

    Метод на най-малките квадрати

    Excel, както знаете, има вградена функция AutoSum, която ви позволява да изчислявате стойностите на всички стойности, разположени в избрания диапазон. Така нищо няма да ни попречи да изчислим стойността на израза (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

    В математическа нотация това изглежда така:

    Тъй като първоначално беше взето решение за приблизително използване на права линия, имаме:

    Така задачата за намиране на правата линия, която най-добре описва конкретната зависимост на величините X и Y, се свежда до изчисляване на минимума на функция от две променливи:

    За да направите това, трябва да приравните частните производни по отношение на новите променливи a и b на нула и да решите примитивна система, състояща се от две уравнения с 2 неизвестни от вида:

    След някои прости трансформации, включително деление на 2 и манипулиране на суми, получаваме:

    Решавайки го, например, използвайки метода на Крамер, получаваме стационарна точка с определени коефициенти a * и b *. Това е минимумът, т.е. за да се предвиди какъв оборот ще има даден магазин за определен район, е подходяща правата линия y = a * x + b *, която е регресионен модел за въпросния пример. Разбира се, това няма да ви позволи да намерите точния резултат, но ще ви помогне да получите представа дали закупуването на конкретна зона на кредит от магазина ще се изплати.

    Как да внедрите най-малките квадрати в Excel

    Excel има функция за изчисляване на стойности с помощта на най-малките квадрати. Има следната форма: „ТРЕНД“ (известни Y стойности; известни X стойности; нови X стойности; константа). Нека приложим формулата за изчисляване на OLS в Excel към нашата таблица.

    За да направите това, въведете знака “=” в клетката, в която трябва да се покаже резултатът от изчислението по метода на най-малките квадрати в Excel и изберете функцията “TREND”. В прозореца, който се отваря, попълнете съответните полета, като маркирате:

    • диапазон от известни стойности за Y (в този случай данни за търговския оборот);
    • диапазон x 1 , …x n , т.е. размерът на търговската площ;
    • както известни, така и неизвестни стойности на x, за които трябва да разберете размера на оборота (за информация относно тяхното местоположение в работния лист вижте по-долу).

    Освен това формулата съдържа логическата променлива „Const“. Ако въведете 1 в съответното поле, това ще означава, че трябва да извършите изчисленията, като приемете, че b = 0.

    Ако трябва да разберете прогнозата за повече от една стойност x, тогава след въвеждане на формулата не трябва да натискате „Enter“, а трябва да въведете комбинацията „Shift“ + „Control“ + „Enter“ на клавиатурата.

    Някои функции

    Регресионният анализ може да бъде достъпен дори за манекени. Формулата на Excel за прогнозиране на стойността на масив от неизвестни променливи — TREND — може да се използва дори от тези, които никога не са чували за най-малките квадрати. Достатъчно е само да знаете някои от характеристиките на работата му. В частност:

    • Ако подредите диапазона от известни стойности на променливата y в един ред или колона, тогава всеки ред (колона) с известни стойности на x ще се възприема от програмата като отделна променлива.
    • Ако в прозореца TREND не е зададен диапазон с известно x, тогава при използване на функцията в Excel програмата ще го третира като масив, състоящ се от цели числа, чийто брой съответства на диапазона с дадените стойности на променлива y.
    • За да изведете масив от „предсказани“ стойности, изразът за изчисляване на тенденцията трябва да бъде въведен като формула за масив.
    • Ако не са посочени нови стойности на x, тогава функцията TREND ги счита за равни на известните. Ако те не са посочени, тогава масив 1 се приема като аргумент; 2; 3; 4;…, което е съизмеримо с диапазона с вече посочени параметри y.
    • Диапазонът, съдържащ новите x стойности, трябва да има същите или повече редове или колони като диапазона, съдържащ дадените y стойности. С други думи, трябва да е пропорционален на независимите променливи.
    • Масив с известни x стойности може да съдържа множество променливи. Ако обаче говорим само за един, тогава се изисква диапазоните с дадените стойности на x и y да бъдат пропорционални. В случай на няколко променливи е необходимо диапазонът с дадените стойности на y да се побере в една колона или един ред.

    Функция PREDICTION

    Изпълнява се с помощта на няколко функции. Един от тях се нарича „ПРЕДВИДЕНИЕ“. Той е подобен на „TREND“, т.е. дава резултат от изчисления, използвайки метода на най-малките квадрати. Но само за един X, за който стойността на Y е неизвестна.

    Вече знаете формули в Excel за манекени, които ви позволяват да предвидите бъдещата стойност на определен индикатор според линейна тенденция.