A legkisebb négyzetek módszerének alkalmazása. Kísérleti adatok közelítése. Legkisebb négyzet alakú módszer

Legkisebb négyzet alakú módszer a regressziós egyenlet paramétereinek becslésére szolgál.
Sorok száma (forrás adatok)

A jellemzők közötti sztochasztikus kapcsolatok vizsgálatának egyik módszere a regressziós elemzés.
A regresszióanalízis egy regressziós egyenlet levezetése, amelynek segítségével egy valószínűségi változó (eredményattribútum) átlagértékét találjuk meg, ha egy másik (vagy más) változó (faktor-attribútum) értéke ismert. Ez a következő lépéseket tartalmazza:

  1. a kapcsolat formájának kiválasztása (analitikus regressziós egyenlet típusa);
  2. egyenletparaméterek becslése;
  3. az analitikai regressziós egyenlet minőségének értékelése.
Leggyakrabban lineáris formát használnak a jellemzők statisztikai kapcsolatának leírására. A lineáris kapcsolatokra való fókuszálást paramétereinek világos közgazdasági értelmezése, a változók korlátozott változatossága magyarázza, valamint az a tény, hogy a legtöbb esetben a nemlineáris kapcsolatok formáit (logaritmussal vagy változók helyettesítésével) lineáris formává alakítják a számítások elvégzéséhez. .
Lineáris páronkénti kapcsolat esetén a regressziós egyenlet a következőképpen alakul: y i =a+b·x i +u i . Ennek az egyenletnek a és b paramétereit az x és y statisztikai megfigyelési adatokból becsüljük meg. Az ilyen értékelés eredménye a következő egyenlet: , ahol , az a és b paraméterek becslései, a regressziós egyenletből kapott attribútum (változó) értéke (számított érték).

Leggyakrabban paraméterek becslésére használják legkisebb négyzetek módszere (LSM).
A legkisebb négyzetek módszere biztosítja a legjobb (konzisztens, hatékony és torzítatlan) becsléseket a regressziós egyenlet paramétereire. De csak akkor, ha az (u) véletlentaggal és a független változóval (x) kapcsolatos bizonyos feltevések teljesülnek (lásd az OLS-feltevéseket).

Lineáris páregyenlet paramétereinek becslésének problémája a legkisebb négyzetek módszerével a következő: olyan paraméterbecslések , , , amelyeknél az eredő jellemző tényleges értékeinek négyzetes eltéréseinek összege - y i - a számított értékektől minimális.
Formálisan OLS tesztígy írható: .

A legkisebb négyzetek módszereinek osztályozása

  1. Legkisebb négyzet alakú módszer.
  2. Maximum likelihood módszer (normál klasszikus lineáris regressziós modellnél a regressziós reziduumok normalitása feltételezett).
  3. A hibák autokorrelációja és heteroszkedaszticitás esetén az általánosított legkisebb négyzetek OLS módszerét alkalmazzuk.
  4. Súlyozott legkisebb négyzetek módszere (az OLS speciális esete heteroszkedasztikus reziduumokkal).

Illusztráljuk a lényeget klasszikus legkisebb négyzetek módszere grafikusan. Ehhez a megfigyelési adatok (x i, y i, i=1;n) alapján egy téglalap alakú koordináta-rendszerben (az ilyen szórásdiagramot korrelációs mezőnek nevezzük) készítünk egy szóródiagramot. Próbáljunk meg kiválasztani egy olyan egyenest, amely a legközelebb van a korrelációs mező pontjaihoz. A legkisebb négyzetek módszere szerint az egyenest úgy választjuk ki, hogy a korrelációs mező pontjai és ez az egyenes közötti függőleges távolságok négyzetösszege minimális legyen.

A feladat matematikai jelölése: .
Az y i és x i =1...n értékei számunkra megfigyelési adatok. Az S függvényben konstansokat jelentenek. Ebben a függvényben a változók a - , paraméterek szükséges becslései. Két változó függvényének minimumának meghatározásához ki kell számítani ennek a függvénynek a parciális deriváltjait mindegyik paraméterre, és egyenlővé kell tenni azokat nullával, azaz. .
Ennek eredményeként 2 normál lineáris egyenletből álló rendszert kapunk:
Ezt a rendszert megoldva megtaláljuk a szükséges paraméterbecsléseket:

A regressziós egyenlet paramétereinek számításának helyessége az összegek összevetésével ellenőrizhető (a számítások kerekítése miatt előfordulhat némi eltérés).
A paraméterbecslések kiszámításához összeállíthatja az 1. táblázatot.
A b regressziós együttható előjele jelzi a kapcsolat irányát (ha b >0, a kapcsolat közvetlen, ha b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formálisan az a paraméter értéke y átlagos értéke, ahol x egyenlő nullával. Ha az attribútum-tényezőnek nincs és nem is lehet nulla értéke, akkor az a paraméter fenti értelmezése értelmetlen.

A jellemzők közötti kapcsolat szorosságának értékelése az r x,y lineáris pár korrelációs együttható segítségével végezzük. A képlet segítségével számítható ki: . Ezenkívül a lineáris pár korrelációs együttható a b regressziós együtthatóval határozható meg: .
A lineáris pár korrelációs együttható elfogadható értékeinek tartománya –1 és +1 között van. A korrelációs együttható előjele jelzi a kapcsolat irányát. Ha r x, y >0, akkor a kapcsolat közvetlen; ha r x, y<0, то связь обратная.
Ha ez az együttható nagyságrendileg egységhez közeli, akkor a jellemzők közötti kapcsolat meglehetősen szoros lineárisként értelmezhető. Ha a modulja egyenlő egy ê r x , y ê =1-gyel, akkor a jellemzők közötti kapcsolat funkcionális lineáris. Ha az x és y jellemzők lineárisan függetlenek, akkor r x,y közel 0.
Az r x,y kiszámításához használhatja az 1. táblázatot is.

Asztal 1

N megfigyelésx iy ix i ∙y i
1 x 1y 1x 1 y 1
2 x 2y 2x 2 y 2
...
nx ny nx n y n
Összegzés oszloponként∑x∑y∑x y
Átlagos érték
A kapott regressziós egyenlet minőségének értékeléséhez számítsa ki az elméleti determinációs együtthatót - R 2 yx:

,
ahol d 2 az y regressziós egyenlettel magyarázott varianciája;
e 2 - y reziduális (a regressziós egyenlettel meg nem magyarázható) varianciája;
s 2 y - y teljes (teljes) varianciája.
A determinációs együttható a regresszióval magyarázható y eredő attribútum variációjának (szórásának) arányát jellemzi az y teljes variációban (szórásban). Az R 2 yx determinációs együttható 0 és 1 közötti értékeket vesz fel. Ennek megfelelően az 1-R 2 yx érték az y variancia hányadosát jellemzi, amelyet a modellben nem vett egyéb tényezők és a specifikációs hibák okoznak.
Páros lineáris regresszióval R 2 yx =r 2 yx.

A legkisebb négyzetek módszere egy matematikai eljárás egy olyan lineáris egyenlet megalkotására, amely a legjobban illeszkedik a rendezett párok halmazához, az a és b értékeinek, az egyenes egyenletének együtthatóinak megkeresésével. A legkisebb négyzetek célja az y és ŷ értékei közötti teljes négyzetes hiba minimalizálása. Ha minden pontra meghatározzuk az ŷ hibát, a legkisebb négyzetek módszere minimalizálja:

ahol n = a sor körüli rendezett párok száma. a lehető legközelebb az adatokhoz.

Ezt a koncepciót az ábra szemlélteti

Az ábra alapján az adatokhoz legjobban illeszkedő egyenes, a regressziós egyenes minimalizálja a grafikon négy pontjának össznégyzetes hibáját. A következő példában megmutatom, hogyan határozható meg ez a legkisebb négyzetek használatával.

Képzeljen el egy fiatal párt, akik nemrégiben költöztek össze, és egy mosdóasztalon osztoznak a fürdőszobában. A fiatalember kezdte észrevenni, hogy asztalának fele menthetetlenül zsugorodik, és teret veszít a hajhaboktól és a szójakomplexektől. Az elmúlt néhány hónapban a srác szorosan figyelemmel kísérte, hogy milyen ütemben növekszik az asztal oldalán lévő tárgyak száma. Az alábbi táblázat azt mutatja, hogy a lány fürdőszobai mosdóján hány darab gyűlt össze az elmúlt hónapokban.

Mivel az a célunk, hogy megtudjuk, hogy a tételek száma növekszik-e az idő múlásával, ezért a „Hónap” lesz a független változó, a „Cikk száma” pedig a függő változó.

A legkisebb négyzetek módszerével meghatározzuk az adatokhoz legjobban illeszkedő egyenletet az a, az y-metszet és a b, az egyenes meredekségének értékeinek kiszámításával:

a = y átl. - bx átl

ahol x avg az x, a független változó, az y avg az y, a független változó átlagos értéke.

Az alábbi táblázat összefoglalja az ezen egyenletekhez szükséges számításokat.

A fürdőkád példánk hatásgörbéjét a következő egyenlet adja meg:

Mivel az egyenletünk pozitív meredeksége 0,976, a srácnak bizonyítéka van arra, hogy az asztalon lévő elemek száma idővel átlagosan havi 1 tétellel növekszik. A grafikon a hatásgörbét mutatja rendezett párokkal.

A következő hat hónap (16. hónap) tételszámára vonatkozó várakozást a következőképpen számítjuk ki:

ŷ = 5,13 + 0,976x = 5,13 + 0,976(16) ~ 20,7 = 21 elem

Tehát itt az ideje, hogy hősünk tegyen valamit.

TREND függvény Excelben

Amint valószínűleg már sejtette, az Excelnek van egy funkciója az értékek kiszámítására legkisebb négyzetek módszere. Ennek a függvénynek a neve TREND. A szintaxisa a következő:

TREND (ismert Y értékek; ismert X értékek; új X értékek; állandó)

ismert Y értékek – függő változók tömbje, esetünkben az objektumok száma a táblán

ismert értékek X – független változók tömbje, esetünkben ez a hónap

új X értékek – új X értékek (hónapok), amelyekre TREND funkció a függő változók várható értékét adja vissza (elemek száma)

const - nem kötelező. Logikai érték, amely megadja, hogy a b konstansnak 0-nak kell lennie.

Az ábra például a TREND függvényt mutatja, amellyel meghatározható a fürdőszobai mosdókagylón a 16. hónapban várható cikkszám.

Ha egy bizonyos fizikai mennyiség egy másik mennyiségtől függ, akkor ez a függőség úgy vizsgálható, hogy y-t x különböző értékeinél mérjük. A mérések eredményeként számos értéket kapunk:

x 1, x 2, ..., x i, ..., x n;

y 1 , y 2 , ..., y i , ... , y n .

Egy ilyen kísérlet adatai alapján elkészíthető az y = ƒ(x) függés grafikonja. A kapott görbe lehetővé teszi az ƒ(x) függvény alakjának megítélését. Az ebbe a függvénybe belépő állandó együtthatók azonban ismeretlenek maradnak. Meghatározhatók a legkisebb négyzetek módszerével. A kísérleti pontok általában nem pontosan a görbén helyezkednek el. A legkisebb négyzetek módszere megköveteli, hogy a kísérleti pontok görbétől való eltéréseinek négyzetösszege, i.e. 2 volt a legkisebb.

A gyakorlatban ezt a módszert leggyakrabban (és legegyszerűbben) lineáris kapcsolat esetén alkalmazzák, pl. Amikor

y = kx vagy y = a + bx.

A lineáris függőség nagyon elterjedt a fizikában. És még akkor is, ha a kapcsolat nemlineáris, általában megpróbálnak grafikont felépíteni, hogy egyenest kapjanak. Például, ha feltételezzük, hogy az n üveg törésmutatója a λ fényhullámhosszhoz kapcsolódik az n = a + b/λ 2 összefüggés alapján, akkor n λ -2-től való függését ábrázoljuk a grafikonon.

Vegye figyelembe a függőséget y = kx(az origón áthaladó egyenes). Állítsuk össze a φ értéket pontjaink egyenestől való eltéréseinek négyzetösszegéből

A φ értéke mindig pozitív, és annál kisebbnek bizonyul, minél közelebb vannak pontjaink az egyeneshez. A legkisebb négyzetek módszere szerint k értékét úgy kell megválasztani, hogy φ-nek legyen minimuma


vagy
(19)

A számítás azt mutatja, hogy a k értékének meghatározásánál a négyzetes középhiba egyenlő

, (20)
ahol n a mérések száma.

Nézzünk most egy kicsit nehezebb esetet, amikor a pontoknak meg kell felelniük a képletnek y = a + bx(egy egyenes, amely nem megy át az origón).

A feladat az a és b legjobb értékeinek megtalálása a rendelkezésre álló x i, y i értékkészletből.

Állítsuk össze ismét a φ másodfokú alakot, amely egyenlő az x i, y i pontok egyenestől való eltérésének négyzetes összegével

és keresse meg a és b azon értékét, amelyre φ-nek van minimuma

;

.

.

Ezen egyenletek együttes megoldása adja

(21)

A és b meghatározásának négyzetes középhibája egyenlő

(23)

.  (24)

A mérési eredmények ezzel a módszerrel történő feldolgozásakor célszerű az összes adatot egy táblázatban összesíteni, amelyben a (19)(24) képletekben szereplő összes mennyiség előzetesen kiszámításra kerül. E táblázatok formáit az alábbi példákban adjuk meg.

1. példa Az ε = M/J (az origón áthaladó egyenes) forgómozgás dinamikájának alapegyenletét tanulmányoztuk. Az M pillanat különböző értékeinél megmértük egy bizonyos test ε szöggyorsulását. Meg kell határozni ennek a testnek a tehetetlenségi nyomatékát. Az erőnyomaték és a szöggyorsulás mérési eredményeit a második és harmadik oszlop tartalmazza 5. táblázat.

5. táblázat
n M, N m ε, s -1 M 2 M ε ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

A (19) képlet segítségével meghatározzuk:

.

A négyzetes hiba meghatározásához a (20) képletet használjuk.

0.005775kg-1 · m -2 .

A (18) képlet szerint megvan

; .

S J = (2,996 0,005775)/0,3337 = 0,05185 kg m2.

Miután beállítottuk a megbízhatóságot P = 0,95-re, a Student-együtthatók táblázatát használva n = 5-re, t = 2,78-at kapunk, és meghatározzuk az abszolút hibát ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kg m2.

Írjuk az eredményeket a következő alakba:

J = (3,0 ± 0,2) kg m2;


2. példa Számítsuk ki a fémellenállás hőmérsékleti együtthatóját a legkisebb négyzetek módszerével. Az ellenállás lineárisan függ a hőmérséklettől

Rt = R 0 (1 + α t°) = R 0 + R 0 α t°.

A szabad tag határozza meg az R 0 ellenállást 0 ° C hőmérsékleten, a meredekségi együttható pedig az α hőmérsékleti együttható és az R 0 ellenállás szorzata.

A mérések és számítások eredményeit a táblázat tartalmazza ( lásd a 6. táblázatot).

6. táblázat
n t°, s r, Ohm t-¯t (t-¯t) 2 (t-¯t)r r - bt - a (r - bt - a) 2 .10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

A (21), (22) képletek segítségével meghatározzuk

R 0 = ¯ R- α R 0 ¯ t = 1,4005 - 0,002645 85,83333 = 1,1735 Ohm.

Keressünk egy hibát az α definíciójában. Mivel , akkor a (18) képlet szerint:

.

A (23), (24) képletekkel megvan

;

0.014126 Ohm.

Miután a megbízhatóságot P = 0,95-re állítottuk, a Student-együtthatók táblázatát használva n = 6-ra, azt találjuk, hogy t = 2,57, és meghatározzuk az abszolút hibát Δα = 2,57 0,000132 = 0,000338 fok -1.

α = (23 ± 4) 10 -4 jégeső-1 P = 0,95-nél.


3. példa Meg kell határozni a lencse görbületi sugarát a Newton-gyűrűk segítségével. Megmértük a Newton-gyűrűk r m sugarát, és meghatároztuk ezeknek az m gyűrűknek a számát. A Newton-gyűrűk sugarai az R lencse görbületi sugarához és a gyűrűszámhoz kapcsolódnak az egyenlet alapján

r 2 m = mλR - 2d 0 R,

ahol d 0 a lencse és a síkkal párhuzamos lemez közötti rés vastagsága (vagy a lencse deformációja),

λ a beeső fény hullámhossza.

λ = (600 ± 6) nm;
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a,

akkor az egyenlet alakot vesz fel y = a + bx.

.

A mérések és számítások eredményei bekerülnek 7. táblázat.

7. táblázat
n x = m y = r 2, 10 -2 mm 2 m -¯m (m -¯m) 2 (m -¯ m)y y - bx - a, 10 -4 (y - bx - a) 2 , 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –

Közönséges legkisebb négyzetek (OLS) módszere- különböző problémák megoldására használt matematikai módszer, amely bizonyos függvények kívánt változóktól való négyzetes eltéréseinek összegének minimalizálásán alapul. Használható túldefiniált egyenletrendszerek „megoldására” (amikor az egyenletek száma meghaladja az ismeretlenek számát), megoldást találhatunk közönséges (nem túlhatározott) nemlineáris egyenletrendszerek esetén, egyes pontértékek közelítésére. funkció. Az OLS a regresszióanalízis egyik alapvető módszere a regressziós modellek ismeretlen paramétereinek mintaadatokból történő becslésére.

Enciklopédiai YouTube

    1 / 5

    ✪ A legkisebb négyzetek módszere. Tantárgy

    ✪ Legkisebb négyzetek módszere, lecke 1/2. Lineáris függvény

    ✪ Ökonometria. 5. előadás. Legkisebb négyzetek módszere

    ✪ Mitin I.V. - Fizikai eredmények feldolgozása. kísérlet - Legkisebb négyzetek módszere (4. előadás)

    ✪ Ökonometria: A legkisebb négyzetek módszerének lényege #2

    Feliratok

Sztori

század elejéig. a tudósoknak nem voltak bizonyos szabályai egy olyan egyenletrendszer megoldására, amelyben az ismeretlenek száma kevesebb, mint az egyenletek száma; Addig az egyenletek típusától és a számológépek eszétől függő magántechnikákat alkalmaztak, ezért a különböző számológépek ugyanazon megfigyelési adatok alapján eltérő következtetésekre jutottak. Gauss (1795) volt az első, aki alkalmazta a módszert, Legendre (1805) pedig önállóan fedezte fel és publikálta mai nevén (francia. Méthode des moindres quarrés) . Laplace a módszert a valószínűségelmélettel kötötte össze, Adrain amerikai matematikus (1808) pedig annak valószínűségelméleti alkalmazásait vizsgálta. A módszert széles körben elterjedt és továbbfejlesztette Encke, Bessel, Hansen és mások további kutatásai.

A legkisebb négyzetek módszerének lényege

Hadd x (\displaystyle x)- készlet n (\displaystyle n) ismeretlen változók (paraméterek), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- függvénykészlet ebből a változókészletből. A feladat az ilyen értékek kiválasztása x (\displaystyle x), hogy ezeknek a függvényeknek az értékei a lehető legközelebb legyenek bizonyos értékekhez y i (\displaystyle y_(i)). Lényegében egy túldefiniált egyenletrendszer „megoldásáról” beszélünk f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m) a jelzett értelemben a rendszer bal és jobb oldali részeinek maximális közelsége. A legkisebb négyzetek módszerének lényege, hogy „közelségi mérőszámként” a bal és jobb oldalak négyzetes eltéréseinek összegét választjuk. | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Így az MNC lényege a következőképpen fejezhető ki:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\megjelenítési stílus \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\jobbra \min _(x)).

Ha az egyenletrendszernek van megoldása, akkor a négyzetösszeg minimuma nulla lesz, és az egyenletrendszer pontos megoldásai analitikusan vagy például különféle numerikus optimalizálási módszerekkel kereshetők. Ha a rendszer túldefiniált, vagyis lazán szólva a független egyenletek száma nagyobb, mint a kívánt változók száma, akkor a rendszernek nincs pontos megoldása, és a legkisebb négyzetek módszere lehetővé teszi, hogy találjunk valamilyen „optimális” vektort. x (\displaystyle x) vektorok maximális közelségének értelmében y (\displaystyle y)És f (x) (\displaystyle f(x)) vagy az eltérési vektor maximális közelsége e (\displaystyle e) nullára (a közelség az euklideszi távolság értelmében értendő).

Példa - lineáris egyenletrendszer

Különösen a legkisebb négyzetek módszere használható lineáris egyenletrendszer „megoldására”.

A x = b (\displaystyle Ax=b),

Ahol A (\displaystyle A) téglalap méretű mátrix m × n , m > n (\displaystyle m\times n,m>n)(azaz az A mátrix sorainak száma nagyobb, mint a keresett változók száma).

Általános esetben egy ilyen egyenletrendszernek nincs megoldása. Ezért ez a rendszer csak egy ilyen vektor választásának értelmében „megoldható”. x (\displaystyle x) hogy minimalizáljuk a vektorok közötti „távolságot”. A x (\displaystyle Ax)És b (\displaystyle b). Ehhez alkalmazhatja a rendszeregyenletek bal és jobb oldala közötti különbségek négyzetösszegének minimalizálásának kritériumát, azaz (A x − b) T (A x − b) → min (\megjelenítési stílus (Ax-b)^(T)(Ax-b)\jobbra \min ). Könnyen kimutatható, hogy ennek a minimalizálási feladatnak a megoldása a következő egyenletrendszer megoldásához vezet

A T A x = A T b ⇒ x = (AT A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Jobbra nyíl x=(A^(T)A)^(-1)A^ (Tuberkulózis).

OLS a regressziós elemzésben (adatközelítés)

Legyen n (\displaystyle n) valamely változó értéke y (\displaystyle y)(ez lehet megfigyelések, kísérletek stb. eredményei) és a kapcsolódó változók x (\displaystyle x). A kihívás annak biztosítása, hogy a kapcsolat között y (\displaystyle y)És x (\displaystyle x) hozzávetőlegesen valamilyen ismert függvény segítségével, néhány ismeretlen paraméteren belül b (\displaystyle b), azaz ténylegesen megtalálja a paraméterek legjobb értékét b (\displaystyle b), maximálisan közelítve az értékeket f (x, b) (\displaystyle f(x,b)) tényleges értékekre y (\displaystyle y). Valójában ez egy túl meghatározott egyenletrendszer „megoldásának” esetére vezethető vissza. b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

A regressziós elemzésben és különösen az ökonometriában a változók közötti függőség valószínűségi modelljeit használják.

Y t = f (x t , b) + ε t (\megjelenítési stílus y_(t)=f(x_(t),b)+\varepszilon _(t)),

Ahol ε t (\displaystyle \varepsilon _(t))- úgy hívják véletlenszerű hibák modellek.

Ennek megfelelően a megfigyelt értékek eltérései y (\displaystyle y) modelltől f (x, b) (\displaystyle f(x,b)) már magában a modellben is feltételezik. A legkisebb négyzetek módszerének (közönséges, klasszikus) lényege az ilyen paraméterek megtalálása b (\displaystyle b), amelynél a négyzetes eltérések összege (hibák, regressziós modelleknél ezeket gyakran regressziós maradékoknak nevezik) e t (\displaystyle e_(t)) minimális lesz:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

Ahol R S S (\displaystyle RSS)- Angol A maradék négyzetösszeg meghatározása a következő:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum_ (t=1)^(n)e_(t)^(2)=\összeg _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

Ez a probléma általános esetben numerikus optimalizálási (minimalizálási) módszerekkel oldható meg. Ebben az esetben arról beszélnek nemlineáris legkisebb négyzetek(NLS vagy NLLS – angol Non-linear Least Squares). Sok esetben lehetséges analitikus megoldást kapni. A minimalizálási probléma megoldásához meg kell találni a függvény stacionárius pontjait R S S (b) (\displaystyle RSS(b)), megkülönböztetve azt ismeretlen paraméterek szerint b (\displaystyle b), a deriváltokat nullával egyenlővé téve és a kapott egyenletrendszert megoldva:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\megjelenítési stílus \összeg _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\partial f(x_(t),b))(\partial b))=0).

OLS lineáris regresszió esetén

Legyen a regressziós függés lineáris:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\megjelenítési stílus y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepszilon =x_( t)^(T)b+\varepszilon _(t)).

Hadd y a magyarázott változó megfigyelésének oszlopvektora, és X (\displaystyle X)- Ezt (n × k) (\displaystyle ((n\x k)))-faktormegfigyelések mátrixa (a mátrix sorai egy adott megfigyelés faktorértékeinek vektorai, az oszlopok egy adott tényező értékének vektorai minden megfigyelésben). A lineáris modell mátrixábrázolása a következő formájú:

y = X b + ε (\displaystyle y=Xb+\varepsilon ).

Ekkor a magyarázott változó becslési vektora és a regressziós maradékok vektora egyenlő lesz

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

Ennek megfelelően a regressziós maradékok négyzetösszege egyenlő lesz

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Ennek a függvénynek a megkülönböztetése a paraméterek vektora alapján b (\displaystyle b)és a deriváltokat nullával egyenlővé téve egy egyenletrendszert kapunk (mátrix formában):

(X T X) b = X T y (\megjelenítési stílus (X^(T)X)b=X^(T)y).

Megfejtett mátrix formában ez az egyenletrendszer így néz ki:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x x t 2 x t 3 k 3 x t 1 x t 3 … ∑ ∑ x t 3 x t 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2 ( ∑ x t k 2) ( ∑ x t k 2 ) ∑ x t 2 y t ∑ x t 3 y t ⋮ ∑ x t k y t) , (\displaystyle (\begin(pmátrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_(tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\lpontok &\ összeg x_(t2)x_(tk)\\\összeg x_(t3)x_(t1)&\összeg x_(t3)x_(t2)&\összeg x_(t3)^(2)&\lpontok &\összeg x_ (t3)x_(tk)\\\vpontok &\vpontok &\vpontok &\dpontok &\vpontok \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\lpontok &\sum x_(tk)^(2)\\\end(pmátrix))(\begin(pmátrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_(k)\\\end(pmátrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vdots \\\sum x_(tk)y_(t)\\\end(pmátrix)),) ahol minden összeget átveszünk minden érvényes értéket t (\displaystyle t).

Ha egy konstans szerepel a modellben (a szokásos módon), akkor x t 1 = 1 (\displaystyle x_(t1)=1) mindenki előtt t (\displaystyle t), ezért az egyenletrendszer mátrixának bal felső sarkában ott van a megfigyelések száma n (\displaystyle n), az első sor és az első oszlop többi elemében pedig egyszerűen a változó értékeinek összege: ∑ x t j (\megjelenítési stílus \sum x_(tj)) a rendszer jobb oldalának első eleme pedig az ∑ y t (\displaystyle \sum y_(t)).

Ennek az egyenletrendszernek a megoldása megadja a legkisebb négyzetek becslésének általános képletét egy lineáris modellhez:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T) )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\jobb)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

Analitikai célokra ennek a képletnek az utolsó ábrázolása bizonyul hasznosnak (az egyenletrendszerben n-nel osztva az összegek helyett a számtani átlagok jelennek meg). Ha egy regressziós modellben az adatok központosított, akkor ebben az ábrázolásban az első mátrix a faktorok minta kovarianciamátrixát jelenti, a második pedig a faktorok kovarianciavektorát a függő változóval. Ha emellett az adatok is normalizálva az MSE-hez (vagyis végső soron szabványosított), akkor az első mátrix a faktorok mintakorrelációs mátrixát, a második vektor pedig a függő változóval rendelkező tényezők mintakorrelációinak vektorát jelenti.

A modellek OLS-becsléseinek fontos tulajdonsága állandóval- a megszerkesztett regresszió egyenese átmegy a mintaadatok súlypontján, azaz teljesül az egyenlőség:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\kalap (b))_(j)(\bar (x))_(j)).

Különösen szélsőséges esetben, amikor az egyetlen regresszor egy konstans, azt találjuk, hogy az egyetlen paraméter (maga az állandó) OLS-becslése megegyezik a magyarázott változó átlagos értékével. Vagyis a nagy számok törvényei alapján jó tulajdonságairól ismert számtani átlag is a legkisebb négyzetek becslése - az ettől való eltérések minimális négyzetösszegére vonatkozó kritériumot teljesíti.

A legegyszerűbb speciális esetek

Páros lineáris regresszió esetén y t = a + b x t + ε t (\megjelenítési stílus y_(t)=a+bx_(t)+\varepszilon _(t)), amikor egy változó lineáris függését megbecsüljük a másiktól, a számítási képletek leegyszerűsödnek (mátrixalgebra nélkül is megoldható). Az egyenletrendszernek a következő formája van:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmátrix))(\begin(pmatrix)a\\b\\\end(pmátrix))=(\begin(pmatrix)(\bar (y))\\ (\overline (xy))\\\end(pmátrix))).

Innen könnyen megtalálhatja az együtthatóbecsléseket:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2, a ^ = y ¯ − b x . (\displaystyle (\begin(esetek) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(esetek)))

Annak ellenére, hogy általános esetben a konstans modellek előnyösebbek, bizonyos esetekben elméleti megfontolásokból ismert, hogy egy konstans a (\displaystyle a) egyenlőnek kell lennie nullával. Például a fizikában a feszültség és az áram közötti kapcsolat az U = I ⋅ R (\displaystyle U=I\cdot R); A feszültség és az áramerősség mérésekor meg kell becsülni az ellenállást. Ebben az esetben a modellről beszélünk y = b x (\displaystyle y=bx). Ebben az esetben egyenletrendszer helyett egyetlen egyenletünk van

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Ezért az egyetlen együttható becslésére szolgáló képlet alakja a következő

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\ displaystyle (\hat (b)))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

A polinomiális modell esete

Ha az adatokat egy változó polinomiális regressziós függvénye illeszti f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), akkor a fokok érzékelése x i (\displaystyle x^(i)) mint független tényezők mindegyikre i (\displaystyle i) lehetőség van a modell paramétereinek becslésére a lineáris modell paramétereinek becslésére szolgáló általános képlet alapján. Ehhez elég az általános képletben figyelembe venni, hogy egy ilyen értelmezéssel x t i x t j = x t i x t j = x t i + j (\megjelenítési stílus x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j))És x t j y t = x t j y t (\megjelenítési stílus x_(tj)y_(t)=x_(t)^(j)y_(t)). Következésképpen a mátrixegyenletek ebben az esetben a következő formában lesznek:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x t 2 … ∑ n x t k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 k 1 n x t k + 1 k … ] = [ ∑ n y t ∑ n t y t ⋮ ∑ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(t)^(2)&\lpontok &\sum \limits _(n)x_(t)^(k+1)\\\vpontok & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\lpontok &\ összeg \limits _(n)x_(t)^(2k)\end(pmátrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmátrix)).

Az OLS becslések statisztikai tulajdonságai

Először is megjegyezzük, hogy a lineáris modellek esetében az OLS becslések lineáris becslések, amint az a fenti képletből következik. Az elfogulatlan OLS becsléseknél szükséges és elégséges a regresszióanalízis legfontosabb feltételének teljesítése: a véletlenszerű hiba faktorfeltételes matematikai elvárása nullával egyenlő. Ez a feltétel különösen akkor teljesül, ha

  1. a véletlen hibák matematikai elvárása nulla, és
  2. A faktorok és a véletlenszerű hibák független véletlen  változók.

A második feltétel - a tényezők exogenitásának feltétele - alapvető. Ha ez a tulajdonság nem teljesül, akkor feltételezhetjük, hogy szinte minden becslés rendkívül nem kielégítő: még konzisztens sem lesz (vagyis még nagyon nagy mennyiségű adat sem teszi lehetővé, hogy ebben az esetben jó minőségű becsléseket kapjunk ). Klasszikus esetben a faktorok determinizmusáról erősebb feltételezés történik, szemben a véletlenszerű hibával, ami automatikusan azt jelenti, hogy az exogenitási feltétel teljesül. Általános esetben a becslések konzisztenciájához elegendő az exogenitási feltételt a mátrix konvergenciájával együtt teljesíteni. V x (\displaystyle V_(x)) valamilyen nem szinguláris mátrixra, ahogy a minta mérete a végtelenségig növekszik.

Ahhoz, hogy a konzisztencián és a torzítatlanságon kívül a (közönséges) legkisebb négyzetek becslései is hatékonyak legyenek (a lineáris torzítatlan becslések osztályának legjobbjai), a véletlen hiba további tulajdonságainak teljesülniük kell:

Ezek a feltételezések megfogalmazhatók a véletlen hibavektor kovarianciamátrixára V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Az ezeket a feltételeket kielégítő lineáris modellt ún klasszikus. A klasszikus lineáris regresszióra vonatkozó OLS-becslések torzítatlanok, konzisztensek és a leghatékonyabb becslések az összes lineáris torzítatlan becslés osztályában (az angol szakirodalomban néha használják a rövidítést KÉK (A legjobb lineáris elfogulatlan becslő) - a legjobb lineáris torzítatlan becslés; Az orosz irodalomban gyakrabban hivatkoznak a Gauss-Markov-tételre). Amint az könnyen látható, az együtthatóbecslések vektorának kovarianciamátrixa egyenlő lesz:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

A hatékonyság azt jelenti, hogy ez a kovarianciamátrix „minimális” (az együtthatók bármely lineáris kombinációja, és különösen maguk az együtthatók minimális szórással rendelkeznek), vagyis a lineáris torzítatlan becslések osztályában az OLS becslések a legjobbak. Ennek a mátrixnak az átlós elemei - az együtthatóbecslések varianciái - a kapott becslések minőségének fontos paraméterei. A kovarianciamátrix kiszámítása azonban nem lehetséges, mivel a véletlen hiba varianciája ismeretlen. Bizonyítható, hogy a véletlenszerű hibák szórásának torzítatlan és konzisztens (klasszikus lineáris modell esetén) becslése a mennyiség:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Ezt az értéket behelyettesítve a kovarianciamátrix képletébe, megkapjuk a kovarianciamátrix becslését. Az így kapott becslések is elfogulatlanok és következetesek. Fontos az is, hogy a hibavariancia (és így az együtthatók varianciájának) becslése és a modellparaméterek becslései független valószínűségi változók legyenek, ami lehetővé teszi a modell együtthatóival kapcsolatos hipotézisek teszteléséhez tesztstatisztikák készítését.

Meg kell jegyezni, hogy ha a klasszikus feltételezések nem teljesülnek, az OLS paraméterbecslések nem a leghatékonyabbak, és ahol W (\displaystyle W) valami szimmetrikus pozitív határozott súlymátrix. A hagyományos legkisebb négyzetek egy speciális esete ennek a megközelítésnek, ahol a súlymátrix arányos az azonosságmátrixszal. Mint ismeretes, a szimmetrikus mátrixok (vagy operátorok) esetében van egy kiterjesztés W = P T P (\displaystyle W=P^(T)P). Ezért a megadott funkcionális a következőképpen ábrázolható e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), vagyis ez a funkcionális néhány transzformált „maradvány” négyzetösszegeként ábrázolható. Így megkülönböztethetjük a legkisebb négyzetek módszereinek egy osztályát - LS módszereket (Least Squares).

Bebizonyosodott (Aitken tétele), hogy egy általánosított lineáris regressziós modellnél (amelyben nincs korlátozás a véletlen hibák kovarianciamátrixára) a leghatékonyabbak (a lineáris torzítatlan becslések osztályában) az úgynevezett becslések. általánosított legkisebb négyzetek (GLS – általánosított legkisebb négyzetek)- LS módszer súlymátrixszal, amely megegyezik a véletlen hibák inverz kovarianciamátrixával: W = V ε − 1 (\displaystyle W=V_(\varepszilon )^(-1)).

Megmutatható, hogy a lineáris modell paramétereinek GLS becslésére szolgáló képletnek van alakja

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

E becslések kovarianciamátrixa ennek megfelelően egyenlő lesz

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

Valójában az OLS lényege az eredeti adatok bizonyos (lineáris) transzformációjában (P) és a hagyományos OLS alkalmazásában rejlik a transzformált adatokra. Ennek az átalakításnak az a célja, hogy a transzformált adatoknál a véletlenszerű hibák már kielégítsék a klasszikus feltételezéseket.

Súlyozott OLS

Átlós súlymátrix (és ezért véletlenszerű hibák kovarianciamátrixa) esetén van az úgynevezett súlyozott legkisebb négyzetek (WLS). Ebben az esetben a modell maradványainak súlyozott négyzetösszege minimalizálva van, azaz minden megfigyelés kap egy „súlyt”, amely fordítottan arányos a véletlen hiba szórásával ebben a megfigyelésben: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ szigma_(t)^(2)))). Valójában az adatokat a megfigyelések súlyozásával transzformálják (elosztják a véletlenszerű hibák becsült szórásával arányos összeggel), és a súlyozott adatokra szokásos OLS-t alkalmaznak.

ISBN 978-5-7749-0473-0 .

  • Ökonometria. Tankönyv / Szerk. Eliseeva I.I. – 2. kiadás. - M.: Pénzügy és Statisztika, 2006. - 576 p. - ISBN 5-279-02786-3.
  • Alexandrova N.V. Matematikai szakkifejezések, fogalmak, jelölések története: szótár-kézikönyv. - 3. kiadás - M.: LKI, 2008. - 248 p. - ISBN 978-5-382-00839-4. I.V. Mitin, Rusakov V.S. Kísérleti adatok elemzése és feldolgozása - 5. kiadás - 24 p.
  • Számos alkalmazása van, mivel lehetővé teszi egy adott függvény közelítő ábrázolását más egyszerűbbekkel. Az LSM rendkívül hasznos lehet a megfigyelések feldolgozásában, és aktívan használják bizonyos mennyiségek becslésére más véletlenszerű hibákat tartalmazó mérési eredmények alapján. Ebből a cikkből megtudhatja, hogyan lehet a legkisebb négyzetek számításait végrehajtani az Excelben.

    A probléma megfogalmazása konkrét példán keresztül

    Tegyük fel, hogy két mutató van X és Y. Sőt, Y függ X-től. Mivel az OLS a regresszióanalízis szempontjából érdekel minket (az Excelben a metódusait beépített függvényekkel valósítják meg), azonnal át kell térnünk egy konkrét probléma.

    Tehát legyen X egy élelmiszerbolt üzlethelyisége négyzetméterben, Y pedig az éves forgalom, millió rubelben.

    Előrejelzést kell készíteni, hogy mekkora (Y) forgalma lesz az üzletnek, ha van ilyen vagy olyan üzlethelyisége. Nyilvánvalóan az Y = f (X) függvény növekszik, hiszen a hipermarket több árut ad el, mint a bódé.

    Néhány szó az előrejelzéshez használt kiindulási adatok helyességéről

    Tegyük fel, hogy van egy táblánk, amely n bolt adataiból készült.

    A matematikai statisztikák szerint az eredmények többé-kevésbé helyesek, ha legalább 5-6 objektum adatait megvizsgáljuk. Ezenkívül „rendellenes” eredmények nem használhatók. Különösen egy elit kis butik forgalma többszöröse lehet a „masmarket” osztályba tartozó nagy kiskereskedelmi egységek forgalmának.

    A módszer lényege

    A táblázat adatai derékszögű síkon ábrázolhatók M 1 (x 1, y 1), ... M n (x n, y n) pontok formájában. Most a feladat megoldása egy y = f (x) közelítő függvény kiválasztására lesz redukálva, amelynek gráfja a lehető legközelebb megy át az M 1, M 2, .. M n pontokhoz.

    Természetesen használhat nagyfokú polinomot, de ezt a lehetőséget nemcsak nehéz megvalósítani, hanem egyszerűen hibás is, mivel nem tükrözi a fő trendet, amelyet észlelni kell. A legésszerűbb megoldás az y = ax + b egyenes keresése, amely a legjobban közelíti a kísérleti adatokat, pontosabban az a és b együtthatót.

    Pontosság értékelése

    Bármilyen közelítés esetén a pontosságának értékelése különösen fontos. Jelöljük e i-vel az x i pont funkcionális és kísérleti értékei közötti különbséget (eltérést), azaz e i = y i - f (x i).

    Nyilvánvaló, hogy a közelítés pontosságának értékeléséhez használhatja az eltérések összegét, azaz amikor egyenest választ X X Y-tól való függésének hozzávetőleges ábrázolásához, előnyben kell részesítenie azt, amelyiknek a legkisebb értéke van. az összeg e i minden figyelembe vett ponton. Azonban nem minden olyan egyszerű, mivel a pozitív eltérések mellett negatívak is lesznek.

    A probléma megoldható eltérési modulok vagy azok négyzetei segítségével. Az utolsó módszer a legszélesebb körben alkalmazott. Számos területen használják, beleértve a regressziós elemzést (Excelben két beépített függvény segítségével), és régóta bizonyította hatékonyságát.

    Legkisebb négyzet alakú módszer

    Az Excel, mint tudod, rendelkezik egy beépített AutoSum funkcióval, amely lehetővé teszi a kiválasztott tartományban található összes érték értékének kiszámítását. Így semmi sem akadályoz meg bennünket abban, hogy kiszámoljuk a kifejezés értékét (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

    Matematikai jelöléssel ez így néz ki:

    Mivel eredetileg úgy döntöttünk, hogy egy egyenest közelítünk, a következőt kaptuk:

    Így az X és Y mennyiségek fajlagos függőségét legjobban leíró egyenes megtalálásának feladata két változó függvényének minimumának kiszámítása:

    Ehhez az új a és b változók parciális deriváltjait nullával kell egyenlővé tenni, és meg kell oldani egy primitív rendszert, amely két egyenletből áll, és két ismeretlen alakú:

    Néhány egyszerű átalakítás után, beleértve a 2-vel való osztást és az összegek manipulálását, a következőket kapjuk:

    Megoldásában például Cramer módszerével egy stacionárius pontot kapunk bizonyos a * és b * együtthatókkal. Ez a minimum, vagyis annak előrejelzésére, hogy egy üzlet mekkora forgalmat bonyolít le egy adott területen, alkalmas az y = a * x + b * egyenes, amely egy regressziós modell a szóban forgó példában. Természetesen ez nem teszi lehetővé a pontos eredmény megtalálását, de segít abban, hogy képet kapjon arról, hogy kifizetődik-e egy adott terület bolti hitelből történő vásárlása.

    A legkisebb négyzetek implementálása az Excelben

    Az Excelnek van egy funkciója az értékek legkisebb négyzetek használatával történő kiszámítására. Ennek a következő formája van: „TREND” (ismert Y értékek; ismert X értékek; új X értékek; állandó). Alkalmazzuk táblázatunkra az Excelben az OLS-számítás képletét.

    Ehhez írja be a „=” jelet abba a cellába, amelyben az Excel legkisebb négyzetek módszerével végzett számítás eredményét meg kell jeleníteni, és válassza ki a „TREND” függvényt. A megnyíló ablakban töltse ki a megfelelő mezőket, kiemelve:

    • az Y ismert értékeinek tartománya (ebben az esetben a kereskedelmi forgalom adatai);
    • tartomány x 1 , …x n , azaz az üzlethelyiség mérete;
    • x ismert és ismeretlen értékei, amelyekhez meg kell találnia a forgalom nagyságát (a munkalapon való elhelyezkedésükről lásd alább).

    Ezenkívül a képlet tartalmazza a „Const” logikai változót. Ha 1-et ír be a megfelelő mezőbe, ez azt jelenti, hogy el kell végeznie a számításokat, feltételezve, hogy b = 0.

    Ha egynél több x értékre kell megtudnia az előrejelzést, akkor a képlet beírása után ne nyomja meg az „Enter” gombot, hanem a „Shift” + „Control” + „Enter” kombinációt kell begépelnie a billentyűzeten.

    Néhány funkció

    A regressziós elemzés még a bábuk számára is elérhető. Az ismeretlen változókból álló tömb értékének előrejelzésére szolgáló Excel-képletet – a TRENDet – azok is használhatják, akik még soha nem hallottak a legkisebb négyzetekről. Elég csak ismerni a munkájának néhány jellemzőjét. Különösen:

    • Ha az y változó ismert értékeinek tartományát egy sorban vagy oszlopban rendezi el, akkor a program minden ismert x értékkel rendelkező sort (oszlopot) külön változóként érzékel.
    • Ha a TREND ablakban nincs megadva ismert x-szel rendelkező tartomány, akkor a függvény Excelben történő használatakor a program egész számokból álló tömbként kezeli, amelynek száma megfelel a megadott értékekkel rendelkező tartománynak. y változó.
    • A „megjósolt” értékek tömbjének kiadásához a trend kiszámításához használt kifejezést tömbképletként kell megadni.
    • Ha nincs megadva x új értéke, akkor a TREND függvény egyenlőnek tekinti azokat az ismertekkel. Ha nincsenek megadva, akkor az 1. tömböt veszi argumentumnak; 2; 3; 4;…, amely arányos a már megadott y paraméterek tartományával.
    • Az új x értékeket tartalmazó tartománynak ugyanannyi vagy több sorból vagy oszlopból kell állnia, mint az adott y értékeket tartalmazó tartománynak. Más szóval, arányosnak kell lennie a független változókkal.
    • Egy ismert x értékkel rendelkező tömb több változót is tartalmazhat. Ha azonban csak egyről beszélünk, akkor szükséges, hogy a megadott x és y értékekkel arányos tartományok legyenek. Több változó esetén szükséges, hogy a megadott y értékekkel rendelkező tartomány egy oszlopba vagy egy sorban elférjen.

    PREDICTION funkció

    Több funkcióval valósítva meg. Az egyik az úgynevezett „PREDICTION”. Hasonló a „TREND”-hez, azaz a legkisebb négyzetek módszerével végzett számítások eredményét adja meg. Azonban csak egy X-re, amelyre Y értéke ismeretlen.

    Most már ismer olyan képleteket az Excelben, amelyek lehetővé teszik egy adott mutató jövőbeli értékének előrejelzését egy lineáris trend szerint.