Aplikace metody nejmenších čtverců. Aproximace experimentálních dat. Metoda nejmenších čtverců

Metoda nejmenších čtverců slouží k odhadu parametrů regresní rovnice.
Počet řádků (zdrojová data)

Jednou z metod pro studium stochastických vztahů mezi charakteristikami je regresní analýza.
Regresní analýza je odvození regresní rovnice, pomocí které se zjistí průměrná hodnota náhodné veličiny (výsledkový atribut), pokud je známa hodnota jiné (nebo jiných) proměnných (faktorových atributů). Zahrnuje následující kroky:

  1. výběr formy spojení (typ analytické regresní rovnice);
  2. odhad parametrů rovnice;
  3. posouzení kvality analytické regresní rovnice.
Nejčastěji se k popisu statistického vztahu znaků používá lineární forma. Zaměření na lineární vztahy je vysvětleno jasnou ekonomickou interpretací jejich parametrů, omezenými variacemi proměnných a skutečností, že ve většině případů jsou nelineární formy vztahů převedeny (logaritmováním nebo substitucí proměnných) do lineární formy pro provádění výpočtů. .
V případě lineárního párového vztahu bude mít regresní rovnice tvar: y i =a+b·x i +u i . Parametry aab této rovnice jsou odhadnuty ze statistických pozorovacích dat x a y. Výsledkem takového posouzení je rovnice: , kde , jsou odhady parametrů aab, je hodnota výsledného atributu (proměnné) získaná z regresní rovnice (vypočtená hodnota).

Nejčastěji se používá k odhadu parametrů metoda nejmenších čtverců (LSM).
Metoda nejmenších čtverců poskytuje nejlepší (konzistentní, efektivní a nezaujaté) odhady parametrů regresní rovnice. Ale pouze pokud jsou splněny určité předpoklady týkající se náhodného členu (u) a nezávislé proměnné (x) (viz předpoklady OLS).

Problém odhadu parametrů lineární párové rovnice metodou nejmenších čtverců je následující: získat takové odhady parametrů , , při kterých je součet čtverců odchylek skutečných hodnot výsledné charakteristiky - y i od vypočtených hodnot - minimální.
Formálně OLS test lze napsat takto: .

Klasifikace metod nejmenších čtverců

  1. Metoda nejmenších čtverců.
  2. Metoda maximální věrohodnosti (pro normální klasický lineární regresní model je postulována normalita regresních reziduí).
  3. Zobecněná metoda nejmenších čtverců OLS se používá v případě autokorelace chyb a v případě heteroskedasticity.
  4. Metoda vážených nejmenších čtverců (speciální případ OLS s heteroskedastickými rezidui).

Pojďme si pointu ilustrovat klasická metoda nejmenších čtverců graficky. K tomu sestrojíme bodový graf založený na pozorovacích datech (x i, y i, i=1;n) v pravoúhlém souřadnicovém systému (takovýto bodový graf se nazývá korelační pole). Zkusme zvolit přímku, která je nejblíže bodům korelačního pole. Podle metody nejmenších čtverců je přímka vybrána tak, aby součet druhých mocnin vertikálních vzdáleností mezi body korelačního pole a touto přímkou ​​byl minimální.

Matematická notace pro tento problém: .
Hodnoty y i a x i =1...n jsou nám známy; Ve funkci S představují konstanty. Proměnné v této funkci jsou požadované odhady parametrů - , . Pro nalezení minima funkce dvou proměnných je nutné pro každý z parametrů vypočítat parciální derivace této funkce a srovnat je s nulou, tzn. .
Výsledkem je systém 2 normálních lineárních rovnic:
Řešením tohoto systému najdeme požadované odhady parametrů:

Správnost výpočtu parametrů regresní rovnice lze zkontrolovat porovnáním částek (může dojít k určité nesrovnalosti v důsledku zaokrouhlování výpočtů).
Chcete-li vypočítat odhady parametrů, můžete sestavit tabulku 1.
Znaménko regresního koeficientu b udává směr vztahu (je-li b >0, je vztah přímý, je-li b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Formálně je hodnota parametru a průměrná hodnota y s x rovným nule. Pokud atribut-faktor nemá a nemůže mít nulovou hodnotu, pak výše uvedená interpretace parametru a nedává smysl.

Posouzení blízkosti vztahu mezi charakteristikami provedené pomocí lineárního párového korelačního koeficientu - r x,y. Lze jej vypočítat pomocí vzorce: . Kromě toho lze lineární párový korelační koeficient určit pomocí regresního koeficientu b: .
Rozsah přípustných hodnot lineárního párového korelačního koeficientu je od –1 do +1. Znaménko korelačního koeficientu udává směr vztahu. Jestliže r x, y >0, pak je spojení přímé; pokud r x, y<0, то связь обратная.
Pokud se tento koeficient co do velikosti blíží jednotce, pak lze vztah mezi charakteristikami interpretovat jako poměrně blízko lineární. Pokud je jeho modul roven jedné ê r x , y ê =1, pak je vztah mezi charakteristikami funkčně lineární. Pokud jsou rysy x a y lineárně nezávislé, pak r x,y je blízko 0.
Pro výpočet r x,y můžete také použít tabulku 1.

stůl 1

N pozorováníx iy ix i ∙y i
1 x 1y 1x 1 rok 1
2 x 2y 2x 2 y 2
...
nx ny nx n y n
Sloupec Součet∑x∑y∑xy
Průměrná hodnota
Pro posouzení kvality výsledné regresní rovnice vypočítejte teoretický koeficient determinace - R 2 yx:

,
kde d 2 je rozptyl y vysvětlený regresní rovnicí;
e 2 - zbytkový (nevysvětlený regresní rovnicí) rozptyl y;
s 2 y - celkový (celkový) rozptyl y.
Koeficient determinace charakterizuje podíl variace (disperze) výsledného atributu y vysvětleného regresí (a následně faktorem x) na celkové variaci (disperzi) y. Koeficient determinace R 2 yx nabývá hodnot od 0 do 1. Hodnota 1-R 2 yx tedy charakterizuje podíl rozptylu y způsobeného vlivem dalších faktorů nezohledněných v modelu a specifikačních chyb.
S párovou lineární regresí R 2 yx = r 2 yx.

Metoda nejmenších čtverců je matematický postup pro konstrukci lineární rovnice, která nejlépe odpovídá množině uspořádaných dvojic nalezením hodnot pro a a b, koeficienty v rovnici přímky. Cílem nejmenších čtverců je minimalizovat celkovou čtvercovou chybu mezi hodnotami y a ŷ. Pokud pro každý bod určíme chybu ŷ, metoda nejmenších čtverců minimalizuje:

kde n = počet uspořádaných párů kolem čáry. co nejblíže údajům.

Tento koncept je znázorněn na obrázku

Na základě obrázku přímka, která nejlépe odpovídá datům, regresní přímka, minimalizuje celkovou druhou mocninu čtyř bodů v grafu. Na následujícím příkladu vám ukážu, jak to určit pomocí nejmenších čtverců.

Představte si mladý pár, který se k sobě nedávno přistěhoval a sdílejí toaletní stolek v koupelně. Mladý muž si začal všímat, že polovina jeho stolu se neúprosně zmenšuje a ztrácí půdu pod nohama pro pěny na vlasy a sójové komplexy. Během posledních několika měsíců ten chlap bedlivě sledoval rychlost, s jakou narůstal počet předmětů na její straně stolu. Níže uvedená tabulka ukazuje počet položek na dívčině toaletní ješitnosti, které se nashromáždily za posledních několik měsíců.

Protože naším cílem je zjistit, zda se počet položek v průběhu času zvyšuje, bude nezávislou proměnnou „Měsíc“ a závislou proměnnou „Počet položek“.

Pomocí metody nejmenších čtverců určíme rovnici, která nejlépe odpovídá datům, výpočtem hodnot a, průsečíku y a b, sklonu přímky:

a = y prům. - bx prům

kde x avg je průměrná hodnota x, nezávislé proměnné, y avg je průměrná hodnota y, nezávislé proměnné.

Níže uvedená tabulka shrnuje výpočty potřebné pro tyto rovnice.

Efektová křivka pro náš příklad vany by byla dána následující rovnicí:

Protože naše rovnice má kladný sklon 0,976, ten chlap má důkazy, že počet položek na stole se v průběhu času zvyšuje průměrným tempem 1 položky za měsíc. Graf ukazuje efektovou křivku s uspořádanými páry.

Očekávaný počet položek během příštích šesti měsíců (16. měsíc) bude vypočítán následovně:

ŷ = 5,13 + 0,976x = 5,13 + 0,976(16) ~ 20,7 = 21 položek

Je tedy čas, aby náš hrdina podnikl nějakou akci.

Funkce TREND v Excelu

Jak jste pravděpodobně již uhodli, Excel má funkci pro výpočet hodnot podle metoda nejmenších čtverců. Tato funkce se nazývá TREND. Jeho syntaxe je následující:

TREND (známé hodnoty Y; známé hodnoty X; nové hodnoty X; konstantní)

známé hodnoty Y – pole závislých proměnných, v našem případě počet objektů v tabulce

známé hodnoty X – pole nezávislých proměnných, v našem případě je to měsíc

nové hodnoty X – nové hodnoty X (měsíce), pro které Funkce TREND vrátí očekávanou hodnotu závislých proměnných (počet položek)

const - nepovinné. Booleovská hodnota, která určuje, zda je požadováno, aby konstanta b byla 0.

Na obrázku je například znázorněna funkce TREND sloužící k určení očekávaného počtu předmětů na koupelnovém umyvadlu pro 16. měsíc.

Pokud určitá fyzikální veličina závisí na jiné veličině, lze tuto závislost studovat měřením y při různých hodnotách x. V důsledku měření se získá řada hodnot:

x 1, x 2, ..., x i, ..., x n;

y 1 , y 2 , ..., y i , ... , y n .

Na základě dat takového experimentu je možné sestrojit graf závislosti y = ƒ(x). Výsledná křivka umožňuje posoudit tvar funkce ƒ(x). Konstantní koeficienty, které do této funkce vstupují, však zůstávají neznámé. Lze je určit pomocí metody nejmenších čtverců. Experimentální body zpravidla neleží přesně na křivce. Metoda nejmenších čtverců vyžaduje, aby součet čtverců odchylek experimentálních bodů od křivky, tzn. 2 byla nejmenší.

V praxi se tato metoda nejčastěji (a nejjednodušeji) používá v případě lineárního vztahu, tzn. Když

y = kx nebo y = a + bx.

Lineární závislost je ve fyzice velmi rozšířená. A i když je vztah nelineární, obvykle se snaží sestrojit graf tak, aby dostal přímku. Předpokládáme-li například, že index lomu skla n souvisí s vlnovou délkou světla λ vztahem n = a + b/λ 2, pak se do grafu vynese závislost n na λ -2.

Zvažte závislost y = kx(přímka procházející počátkem). Složme hodnotu φ součet druhých mocnin odchylek našich bodů od přímky

Hodnota φ je vždy kladná a čím blíže jsou naše body k přímce, tím menší je. Metoda nejmenších čtverců říká, že hodnota pro k by měla být zvolena tak, aby φ mělo minimum


nebo
(19)

Výpočet ukazuje, že střední kvadratická chyba při určování hodnoty k je rovna

, (20)
kde n je počet měření.

Podívejme se nyní na trochu složitější případ, kdy body musí splňovat vzorec y = a + bx(přímka, která neprochází počátkem).

Úkolem je najít nejlepší hodnoty a a b z dostupné množiny hodnot x i, y i.

Sestavme opět kvadratickou formu φ, rovnou součtu čtverců odchylek bodů x i, y i od přímky

a najděte hodnoty aab, pro které má φ minimum

;

.

.

Společné řešení těchto rovnic dává

(21)

Střední kvadratické chyby určení aab jsou stejné

(23)

.  (24)

Při zpracování výsledků měření touto metodou je vhodné všechny údaje shrnout do tabulky, ve které jsou předběžně vypočtena všechna množství obsažená ve vzorcích (19)(24). Formy těchto tabulek jsou uvedeny v příkladech níže.

Příklad 1 Byla studována základní rovnice dynamiky rotačního pohybu ε = M/J (přímka procházející počátkem). Při různých hodnotách momentu M bylo naměřeno úhlové zrychlení ε určitého tělesa. Je třeba určit moment setrvačnosti tohoto tělesa. Výsledky měření momentu síly a úhlového zrychlení jsou uvedeny ve druhém a třetím sloupci tabulka 5.

Tabulka 5
n M, Nm ε, s-1 M 2 M ε ε - km (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Pomocí vzorce (19) určíme:

.

K určení střední kvadratické chyby použijeme vzorec (20)

0.005775kg-1 · m -2 .

Podle vzorce (18) máme

; .

SJ = (2,996 0,005775)/0,3337 = 0,05185 kg m2.

Po nastavení spolehlivosti P = 0,95 pomocí tabulky Studentových koeficientů pro n = 5 zjistíme t = 2,78 a určíme absolutní chybu ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kg m2.

Výsledky zapišme ve tvaru:

J = (3,0 ± 0,2) kg m2;


Příklad 2 Vypočítejme teplotní koeficient odporu kovu metodou nejmenších čtverců. Odpor závisí lineárně na teplotě

Rt = R° (1 + at°) = R° + R°at°.

Volný člen určuje odpor R 0 při teplotě 0 °C a součinitel strmosti je součinem teplotního koeficientu α a odporu R 0 .

Výsledky měření a výpočtů jsou uvedeny v tabulce ( viz tabulka 6).

Tabulka 6
n t°, s r, Ohm t-¯t (t-¯t) 2 (t-¯t)r r - bt - a (r - bt - a) 2,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

Pomocí vzorců (21), (22) určíme

R0 = – R-αR0 – t = 1,4005 – 0,002645 85,83333 = 1,1735 Ohm.

Najdeme chybu v definici α. Od , pak podle vzorce (18) máme:

.

Pomocí vzorců (23), (24) máme

;

0.014126 Ohm.

Po nastavení spolehlivosti na P = 0,95 pomocí tabulky Studentových koeficientů pro n = 6 zjistíme t = 2,57 a určíme absolutní chybu Δα = 2,57 0,000132 = 0,000338 stupeň -1.

a = (23 ± 4) 10-4 kroupy-1 při P = 0,95.


Příklad 3 Je nutné určit poloměr zakřivení čočky pomocí Newtonových prstenců. Byly změřeny poloměry Newtonových prstenců r m a byly stanoveny počty těchto prstenců m. Poloměry Newtonových prstenců souvisí s poloměrem zakřivení čočky R a číslem prstence rovnicí

r 2 m = mλR - 2d 0 R,

kde d 0 tloušťka mezery mezi čočkou a planparalelní deskou (nebo deformace čočky),

λ vlnová délka dopadajícího světla.

A = (600 ± 6) nm;
r2m = y;
m = x;
XR = b;
-2d 0 R = a,

pak rovnice bude mít tvar y = a + bx.

.

Výsledky měření a výpočtů se zapisují tabulka 7.

Tabulka 7
n x = m y = r2, 10-2 mm2 m -¯ m (m -¯m) 2 (m -¯ m)y y - bx - a, 10 -4 (y - bx - a) 2, 10-6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –

Metoda obyčejných nejmenších čtverců (OLS).- matematická metoda používaná k řešení různých problémů, založená na minimalizaci součtu kvadrátů odchylek určitých funkcí od požadovaných proměnných. Lze jej použít k „řešení“ přeurčených soustav rovnic (kdy počet rovnic převyšuje počet neznámých), k nalezení řešení v případě obyčejných (nepřeurčených) nelineárních soustav rovnic, k aproximaci bodových hodnot některých funkce. OLS je jednou ze základních metod regresní analýzy pro odhad neznámých parametrů regresních modelů ze vzorových dat.

Encyklopedický YouTube

    1 / 5

    ✪ Metoda nejmenších čtverců. Předmět

    ✪ Metoda nejmenších čtverců, lekce 1/2. Lineární funkce

    ✪ Ekonometrie. Přednáška 5. Metoda nejmenších čtverců

    ✪ Mitin I.V. - Zpracování fyzikálních výsledků. experiment - Metoda nejmenších čtverců (4. přednáška)

    ✪ Ekonometrie: Podstata metody nejmenších čtverců #2

    titulky

Příběh

Do počátku 19. stol. vědci neměli určitá pravidla pro řešení soustavy rovnic, ve které je počet neznámých menší než počet rovnic; Do té doby se používaly soukromé techniky, které závisely na typu rovnic a na důvtipu kalkulátorů, a proto různé kalkulátory, založené na stejných pozorovacích datech, docházely k různým závěrům. Gauss (1795) byl první, kdo tuto metodu použil, a Legendre (1805) ji nezávisle objevil a zveřejnil pod jejím moderním názvem (franc. Méthode des moindres quarrés). Laplace propojil metodu s teorií pravděpodobnosti a americký matematik Adrain (1808) uvažoval o jejích teoreticko-teorických aplikacích. Metoda byla rozšířena a zdokonalena dalším výzkumem Enckeho, Bessela, Hansena a dalších.

Podstata metody nejmenších čtverců

Nechat x (\displaystyle x)- souprava n (\displaystyle n) neznámé proměnné (parametry), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- množina funkcí z této množiny proměnných. Úkolem je takové hodnoty vybrat x (\displaystyle x), aby se hodnoty těchto funkcí co nejvíce blížily určitým hodnotám y i (\displaystyle y_(i)). V podstatě mluvíme o „řešení“ přeurčeného systému rovnic f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m) v naznačeném smyslu maximální blízkosti levé a pravé části systému. Podstatou metody nejmenších čtverců je vybrat jako „míru blízkosti“ součet čtverců odchylek levé a pravé strany. | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Podstatu MNC lze tedy vyjádřit takto:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\součet _(i)(y_(i)-f_( i)(x))^(2)\šipka doprava \min _(x)).

Pokud má soustava rovnic řešení, pak se minimum součtu čtverců bude rovnat nule a přesná řešení soustavy rovnic lze najít analyticky nebo např. pomocí různých numerických optimalizačních metod. Pokud je systém přeurčen, tedy volně řečeno, počet nezávislých rovnic je větší než počet požadovaných proměnných, pak systém nemá přesné řešení a metoda nejmenších čtverců nám umožňuje najít nějaký „optimální“ vektor. x (\displaystyle x) ve smyslu maximální blízkosti vektorů y (\displaystyle y) A f (x) (\displaystyle f(x)) nebo maximální blízkost vektoru odchylky e (\displaystyle e) k nule (blízkost je chápána ve smyslu euklidovské vzdálenosti).

Příklad - soustava lineárních rovnic

Zejména metoda nejmenších čtverců může být použita k „řešení“ soustavy lineárních rovnic

A x = b (\displaystyle Ax=b),

Kde A (\displaystyle A) matice obdélníkové velikosti m × n , m > n (\displaystyle m\times n,m>n)(tj. počet řádků matice A je větší než počet hledaných proměnných).

V obecném případě takový systém rovnic nemá řešení. Tento systém lze tedy „řešit“ pouze ve smyslu volby takového vektoru x (\displaystyle x) minimalizovat "vzdálenost" mezi vektory A x (\displaystyle Axe) A b (\displaystyle b). K tomu můžete použít kritérium minimalizace součtu čtverců rozdílů mezi levou a pravou stranou systémových rovnic, tj. (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min ). Je snadné ukázat, že řešení tohoto minimalizačního problému vede k řešení následující soustavy rovnic

A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Šipka doprava x=(A^(T)A)^(-1)A^ (T)b).

OLS v regresní analýze (aproximace dat)

Nech to být n (\displaystyle n) hodnoty nějaké proměnné y (\displaystyle y)(mohou to být výsledky pozorování, experimentů atd.) a související proměnné x (\displaystyle x). Úkolem je zajistit, aby vztah mezi y (\displaystyle y) A x (\displaystyle x) aproximovat nějakou funkcí známou v rámci nějakých neznámých parametrů b (\displaystyle b), tedy skutečně najít nejlepší hodnoty parametrů b (\displaystyle b), maximálně se přibližující hodnotám f (x, b) (\displaystyle f(x,b)) ke skutečným hodnotám y (\displaystyle y). Ve skutečnosti jde o případ „řešení“ přeurčeného systému rovnic s ohledem na b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

V regresní analýze a zejména v ekonometrii se používají pravděpodobnostní modely závislosti mezi proměnnými

Yt = f (x t, b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

Kde ε t (\displaystyle \varepsilon _(t))- tzv náhodné chyby modely.

V souladu s tím odchylky pozorovaných hodnot y (\displaystyle y) z modelu f (x, b) (\displaystyle f(x,b)) se předpokládá již v samotném modelu. Podstatou metody nejmenších čtverců (obyčejné, klasické) je takové parametry najít b (\displaystyle b), při které je součet čtverců odchylek (chyb, u regresních modelů se jim často říká regresní rezidua) e t (\displaystyle e_(t)) bude minimální:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

Kde R S S (\displaystyle RSS)- Angličtina Zbytkový součet čtverců je definován jako:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t, b)) 2 (\displaystyle RSS(b)=e^(T)e=\součet _ (t=1)^(n)e_(t)^(2)=\součet _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

V obecném případě lze tento problém řešit numerickými optimalizačními (minimalizačními) metodami. V tomto případě se mluví o nelineárních nejmenších čtverců(NLS nebo NLLS - anglicky nelineární nejmenší čtverce). V mnoha případech je možné získat analytické řešení. K vyřešení problému minimalizace je nutné najít stacionární body funkce R S S (b) (\displaystyle RSS(b)), rozlišování podle neznámých parametrů b (\displaystyle b), přirovnání derivací k nule a řešení výsledné soustavy rovnic:

∑ t = 1 n (y t − f (x t, b)) ∂ f (x t, b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\částečné f(x_(t),b))(\částečné b))=0).

OLS v případě lineární regrese

Nechť je regresní závislost lineární:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\součet _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Nechat y je sloupcový vektor pozorování vysvětlované proměnné a X (\displaystyle X)- Tento (n × k) (\displaystyle ((n\krát k)))-matice pozorování faktorů (řádky matice jsou vektory hodnot faktorů v daném pozorování, sloupce jsou vektory hodnot daného faktoru ve všech pozorováních). Maticová reprezentace lineárního modelu má tvar:

y = X b + ε (\displaystyle y=Xb+\varepsilon ).

Potom se vektor odhadů vysvětlované proměnné a vektor regresních reziduí budou rovnat

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\klobouk (y))=Xb,\quad e=y-(\klobouk (y))=y-Xb).

Podle toho bude součet čtverců regresních reziduí roven

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Rozlišení této funkce s ohledem na vektor parametrů b (\displaystyle b) a přirovnáním derivací k nule získáme soustavu rovnic (v maticovém tvaru):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

Ve formě dešifrované matice vypadá tento systém rovnic takto:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t k 2 x t x 3 … 2 x t k ∑ x t 3 x t 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 k 2) (b 3 k 1 b) ∑ x t 2 y t ∑ x t 3 y t ⋮ ∑ x t k y t) , (\displaystyle (\začátek(pmatrix)\součet x_(t1)^(2)&\součet x_(t1)x_(t2)&\součet x_(t1)x_(t3)&\ldots &\součet x_(t1)x_(tk)\\\součet x_(t2)x_(t1)&\součet x_(t2)^(2)&\součet x_(t2)x_(t3)&\ldots &\ součet x_(t2)x_(tk)\\\součet x_(t3)x_(t1)&\součet x_(t3)x_(t2)&\součet x_(t3)^(2)&\ldots &\součet x_ (t3)x_(tk)\\\vtečky &\vtečky &\vtečky &\dtečky &\vtečky \\\součet x_(tk)x_(t1)&\součet x_(tk)x_(t2)&\součet x_ (tk)x_(t3)&\ldots &\sum x_(tk)^(2)\\\konec(pmatrix))(\začátek(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vtečky \\b_(k)\\\konec (pmatrix))=(\začátek (pmatrix)\součet x_(t1)y_(t)\\\součet x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vdots \\\součet x_(tk)y_(t)\\\end(pmatrix)),) kde všechny součty přebírají všechny platné hodnoty t (\displaystyle t).

Pokud je v modelu zahrnuta konstanta (jako obvykle), pak x t 1 = 1 (\displaystyle x_(t1)=1) přede všemi t (\displaystyle t), proto je v levém horním rohu matice soustavy rovnic uveden počet pozorování n (\displaystyle n) a ve zbývajících prvcích prvního řádku a prvního sloupce – jednoduše součty hodnot proměnných: ∑ x t j (\displaystyle \sum x_(tj)) a prvním prvkem pravé strany systému je ∑ y t (\displaystyle \součet y_(t)).

Řešení tohoto systému rovnic dává obecný vzorec pro odhady nejmenších čtverců pro lineární model:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\vpravo)^(-1)(\frac (1)(n) ))X^(T)y=V_(x)^(-1)C_(xy)).

Pro analytické účely se ukazuje jako užitečné poslední znázornění tohoto vzorce (v soustavě rovnic při dělení n se místo součtů objevují aritmetické průměry). Pokud v regresním modelu data vycentrovaný, pak v tomto znázornění má první matice význam výběrové kovarianční matice faktorů a druhá je vektorem kovariancí faktorů se závisle proměnnou. Pokud jsou navíc údaje také normalizované na MSE (to je nakonec standardizované), pak má první matice význam výběrová korelační matice faktorů, druhý vektor - vektor výběrových korelací faktorů se závisle proměnnou.

Důležitá vlastnost odhadů OLS pro modely s konstantní- přímka sestrojené regrese prochází těžištěm vzorových dat, to znamená, že je splněna rovnost:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\klobouk (b_(1)))+\součet _(j=2)^(k) (\klobouček (b))_(j)(\bar (x))_(j)).

Zejména v extrémním případě, kdy jediným regresorem je konstanta, zjistíme, že odhad OLS jediného parametru (samotné konstanty) se rovná průměrné hodnotě vysvětlované proměnné. To znamená, že aritmetický průměr, známý pro své dobré vlastnosti ze zákonů velkých čísel, je také odhadem nejmenších čtverců - splňuje kritérium minimálního součtu čtverců odchylek od něj.

Nejjednodušší speciální případy

V případě párové lineární regrese y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), když se odhadne lineární závislost jedné proměnné na druhé, výpočetní vzorce se zjednoduší (obejdete se bez maticové algebry). Soustava rovnic má tvar:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\konec(pmatice))(\začátek(pmatice)a\\b\\\konec(pmatice))=(\začátek(pmatice)(\bar (y))\\ (\overline (xy))\\\end(pmatrix))).

Odtud je snadné najít odhady koeficientů:

( b ^ = Cov ⁡ (x, y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(cases)) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(cases)))

Navzdory skutečnosti, že v obecném případě jsou preferovány modely s konstantou, v některých případech je z teoretických úvah známo, že konstanta a (\displaystyle a) se musí rovnat nule. Například ve fyzice je vztah mezi napětím a proudem U = I ⋅ R (\displaystyle U=I\cdot R); Při měření napětí a proudu je nutné odhadnout odpor. V tomto případě mluvíme o modelu y = b x (\displaystyle y=bx). V tomto případě máme místo soustavy rovnic jedinou rovnici

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\součet x_(t)^(2)\right)b=\součet x_(t)y_(t)).

Vzorec pro odhad jediného koeficientu má tedy tvar

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\součet _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Případ polynomiálního modelu

Pokud jsou data fitována polynomickou regresní funkcí jedné proměnné f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), pak vnímání stupňů x i (\displaystyle x^(i)) jako nezávislé faktory pro každého i (\displaystyle i) je možné odhadnout parametry modelu na základě obecného vzorce pro odhad parametrů lineárního modelu. K tomu stačí v obecném vzorci vzít v úvahu, že s takovým výkladem x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) A x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). V důsledku toho budou mít maticové rovnice v tomto případě tvar:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x t 2 … ∑ n x t k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 2 b 1 k 1 … ] = [ ∑ n y t ∑ n t y t ⋮ ∑ n x t k y t ]. (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\součet \limits _( n)x_(t)&\součet \limity _(n)x_(t)^(2)&\ldots &\sum \limits _(n)x_(t)^(k+1)\\\vtečky & \vtečky &\dtečky &\vtečky \\\součet \limity _(n)x_(t)^(k)&\součet \limity _(n)x_(t)^(k+1)&\ldots &\ součet \limits _(n)x_(t)^(2k)\konec(pmatrix))(\začátek(bmatrix)b_(0)\\b_(1)\\\vtečky \\b_(k)\konec( bmatrix))=(\začátek(bmatrix)\součet \limity _(n)y_(t)\\\součet \limity _(n)x_(t)y_(t)\\\vtečky \\\součet \limity _(n)x_(t)^(k)y_(t)\end(bmatice)).)

Statistické vlastnosti odhadů OLS

Nejprve si všimneme, že pro lineární modely jsou odhady OLS lineárními odhady, jak vyplývá z výše uvedeného vzorce. Pro nezkreslené odhady OLS je nutné a postačující splnit nejdůležitější podmínku regresní analýzy: faktorově podmíněné matematické očekávání náhodné chyby se musí rovnat nule. Tato podmínka je splněna zejména tehdy, jestliže

  1. matematické očekávání náhodných chyb je nulové a
  2. faktory a náhodné chyby jsou nezávislé náhodné proměnné.

Druhá podmínka - podmínka exogenity faktorů - je zásadní. Pokud tato vlastnost není splněna, pak můžeme předpokládat, že téměř jakékoli odhady budou extrémně neuspokojivé: nebudou ani konzistentní (tedy ani velmi velké množství dat nám v tomto případě neumožňuje získat kvalitní odhady ). V klasickém případě je silnější předpoklad o determinismu faktorů, na rozdíl od náhodné chyby, která automaticky znamená, že podmínka exogenity je splněna. V obecném případě pro konzistenci odhadů stačí splnit podmínku exogenity spolu s konvergencí matice V x (\displaystyle V_(x)) do nějaké nesingulární matice, jak se velikost vzorku zvětšuje do nekonečna.

Aby byly kromě konzistence a nestrannosti efektivní i odhady (obyčejných) nejmenších čtverců (nejlepší ve třídě lineárních nezkreslených odhadů), musí být splněny další vlastnosti náhodné chyby:

Tyto předpoklady lze formulovat pro kovarianční matici vektoru náhodné chyby V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Lineární model, který tyto podmínky splňuje, se nazývá klasický. OLS odhady pro klasickou lineární regresi jsou nezkreslené, konzistentní a nejúčinnější odhady ve třídě všech lineárních nestranných odhadů (v anglické literatuře se někdy používá zkratka MODRÝ (Nejlepší lineární nestranný odhad) - nejlepší lineární nezkreslený odhad; V ruské literatuře je častěji citován Gauss-Markovův teorém). Jak je snadné ukázat, kovarianční matice vektoru odhadů koeficientů se bude rovnat:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Účinnost znamená, že tato kovarianční matice je „minimální“ (jakákoli lineární kombinace koeficientů, a zejména koeficienty samotné, mají minimální rozptyl), to znamená, že ve třídě lineárních nestranných odhadů jsou nejlepší odhady OLS. Diagonální prvky této matice - rozptyly odhadů koeficientů - jsou důležitými parametry kvality získaných odhadů. Není však možné vypočítat kovarianční matici, protože rozptyl náhodné chyby není znám. Lze prokázat, že nestranný a konzistentní (pro klasický lineární model) odhad rozptylu náhodných chyb je veličina:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Dosazením této hodnoty do vzorce pro kovarianční matici získáme odhad kovarianční matice. Výsledné odhady jsou rovněž nezkreslené a konzistentní. Důležité také je, že odhad rozptylu chyb (a potažmo rozptylu koeficientů) a odhady parametrů modelu jsou nezávislé náhodné veličiny, což umožňuje získat testovací statistiku pro testování hypotéz o modelových koeficientech.

Je třeba poznamenat, že pokud nejsou splněny klasické předpoklady, odhady parametrů OLS nejsou nejúčinnější a pokud W (\displaystyle W) je nějaká symetrická matice s kladně určitou váhou. Konvenční nejmenší čtverce jsou speciálním případem tohoto přístupu, kde je matice váhy úměrná matici identity. Jak známo, pro symetrické matice (nebo operátory) dochází k expanzi W = P T P (\displaystyle W=P^(T)P). Proto může být zadaný funkcionál znázorněn následovně e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), to znamená, že tento funkcionál lze reprezentovat jako součet druhých mocnin některých transformovaných „zbytků“. Můžeme tedy rozlišit třídu metod nejmenších čtverců - metody LS (Least Squares).

Bylo prokázáno (Aitkenův teorém), že pro zobecněný lineární regresní model (ve kterém nejsou kladena žádná omezení na kovarianční matici náhodných chyb) jsou nejúčinnější (ve třídě lineárních nezkreslených odhadů) tzv. odhady. zobecněné nejmenší čtverce (GLS – Generalized Least Squares)- LS metoda s váhovou maticí rovnou inverzní kovarianční matici náhodných chyb: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Lze ukázat, že vzorec pro GLS odhady parametrů lineárního modelu má tvar

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\klobouk (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Kovarianční matice těchto odhadů se tedy bude rovnat

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

Ve skutečnosti podstata OLS spočívá v určité (lineární) transformaci (P) původních dat a aplikaci obyčejné OLS na transformovaná data. Účelem této transformace je, že u transformovaných dat náhodné chyby již splňují klasické předpoklady.

Vážený OLS

V případě diagonální váhové matice (a tedy kovarianční matice náhodných chyb) máme tzv. vážené nejmenší čtverce (WLS). V tomto případě je vážený součet čtverců reziduí modelu minimalizován, to znamená, že každé pozorování obdrží „váhu“, která je nepřímo úměrná rozptylu náhodné chyby v tomto pozorování: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma_(t)^(2)))). Ve skutečnosti jsou data transformována vážením pozorování (dělením částkou úměrnou odhadované směrodatné odchylce náhodných chyb) a na vážená data je aplikována běžná OLS.

ISBN 978-5-7749-0473-0 .

  • Ekonometrie. Učebnice / Ed. Eliseeva I.I. - M.: Finance a statistika, 2006. - 576 s. - ISBN 5-279-02786-3.
  • Alexandrova N.V. Historie matematických termínů, pojmů, zápisů: slovník-příručka. - 3. vyd. - M.: LKI, 2008. - 248 s. - ISBN 978-5-382-00839-4. I.V Mitin, Rusakov V.S. Analýza a zpracování experimentálních dat - 5. vydání - 24 s.
  • Má mnoho aplikací, protože umožňuje přibližnou reprezentaci dané funkce jinými jednoduššími. LSM může být extrémně užitečné při zpracování pozorování a aktivně se používá k odhadu některých veličin na základě výsledků měření jiných obsahujících náhodné chyby. V tomto článku se dozvíte, jak implementovat výpočty nejmenších čtverců v Excelu.

    Vyjádření problému na konkrétním příkladu

    Předpokládejme, že existují dva indikátory X a Y. Navíc Y závisí na X. Protože nás OLS zajímá z hlediska regresní analýzy (v Excelu jsou jeho metody implementovány pomocí vestavěných funkcí), měli bychom okamžitě přejít k uvažování konkrétní problém.

    Nechť X je prodejní plocha obchodu s potravinami měřená v metrech čtverečních a Y je roční obrat stanovený v milionech rublů.

    Je třeba udělat prognózu, jaký obrat (Y) bude mít obchod, pokud bude mít tu či onu prodejní plochu. Je zřejmé, že funkce Y = f (X) roste, protože hypermarket prodává více zboží než stánek.

    Pár slov o správnosti výchozích dat použitých pro predikci

    Řekněme, že máme tabulku vytvořenou pomocí dat pro n obchodů.

    Podle matematických statistik budou výsledky víceméně správné, pokud se prozkoumají údaje alespoň o 5-6 objektech. Navíc nelze použít „anomální“ výsledky. Zejména elitní malý butik může mít obrat, který je několikanásobně vyšší než obrat velkých maloobchodních prodejen třídy „masmarket“.

    Podstata metody

    Tabulková data lze zobrazit na kartézské rovině ve tvaru bodů M 1 (x 1, y 1), ... M n (x n, y n). Nyní se řešení úlohy zredukuje na výběr aproximační funkce y = f (x), která má graf procházející co nejblíže bodům M 1, M 2, .. M n.

    Samozřejmě můžete použít polynom vysokého stupně, ale tato možnost je nejen obtížně implementovatelná, ale také jednoduše nesprávná, protože nebude odrážet hlavní trend, který je třeba zjistit. Nejrozumnějším řešením je hledat přímku y = ax + b, která nejlépe aproximuje experimentální data, přesněji koeficienty a a b.

    Hodnocení přesnosti

    Při jakékoli aproximaci je zvláště důležité posouzení její přesnosti. Označme e i rozdíl (odchylku) mezi funkční a experimentální hodnotou pro bod x i, tedy e i = y i - f (x i).

    Pro posouzení přesnosti aproximace můžete samozřejmě použít součet odchylek, tj. při výběru přímky pro přibližné znázornění závislosti X na Y musíte dát přednost té s nejmenší hodnotou součet e i ve všech uvažovaných bodech. Všechno však není tak jednoduché, protože spolu s pozitivními odchylkami budou existovat také negativní.

    Problém lze vyřešit pomocí odchylkových modulů nebo jejich čtverců. Poslední metoda je nejpoužívanější. Používá se v mnoha oblastech včetně regresní analýzy (v Excelu je implementována pomocí dvou vestavěných funkcí) a již dlouho se osvědčila jako účinná.

    Metoda nejmenších čtverců

    Excel, jak víte, má vestavěnou funkci AutoSum, která vám umožňuje vypočítat hodnoty všech hodnot umístěných ve vybraném rozsahu. Nic nám tedy nebude bránit vypočítat hodnotu výrazu (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

    V matematickém zápisu to vypadá takto:

    Vzhledem k tomu, že bylo původně rozhodnuto o aproximaci pomocí přímky, máme:

    Úkol najít přímku, která nejlépe popisuje specifickou závislost veličin X a Y, tedy spočívá ve výpočtu minima funkce dvou proměnných:

    Chcete-li to provést, musíte srovnat parciální derivace vzhledem k novým proměnným aab k nule a vyřešit primitivní systém sestávající ze dvou rovnic se 2 neznámými tvaru:

    Po několika jednoduchých transformacích, včetně dělení 2 a manipulace se součty, dostaneme:

    Když to vyřešíme například Cramerovou metodou, získáme stacionární bod s určitými koeficienty a * a b *. To je minimum, tedy pro predikci, jaký obrat bude mít obchod pro určitou oblast, je vhodná přímka y = a * x + b *, což je regresní model pro daný příklad. Samozřejmě vám to neumožní najít přesný výsledek, ale pomůže vám to udělat si představu, zda se vám nákup konkrétní oblasti na kredit obchodu vyplatí.

    Jak implementovat nejmenší čtverce v Excelu

    Excel má funkci pro výpočet hodnot pomocí nejmenších čtverců. Má následující tvar: „TREND“ (známé hodnoty Y; známé hodnoty X; nové hodnoty X; konstanta). Aplikujme vzorec pro výpočet OLS v Excelu na naši tabulku.

    Chcete-li to provést, zadejte znaménko „=“ do buňky, ve které se má zobrazit výsledek výpočtu metodou nejmenších čtverců v Excelu, a vyberte funkci „TREND“. V okně, které se otevře, vyplňte příslušná pole a zvýrazněte:

    • rozsah známých hodnot pro Y (v tomto případě údaje pro obchodní obrat);
    • rozsah x 1 , …x n , tj. velikost prodejní plochy;
    • známé i neznámé hodnoty x, u kterých je potřeba zjistit velikost obratu (informace o jejich umístění na listu viz níže).

    Vzorec navíc obsahuje logickou proměnnou „Const“. Pokud do příslušného pole zadáte 1, bude to znamenat, že byste měli provést výpočty za předpokladu, že b = 0.

    Pokud potřebujete zjistit předpověď pro více než jednu hodnotu x, pak po zadání vzorce byste neměli stisknout „Enter“, ale musíte na klávesnici zadat kombinaci „Shift“ + „Control“ + „Enter“.

    Některé funkce

    Regresní analýza může být přístupná i pro figuríny. Excelovský vzorec pro predikci hodnoty pole neznámých proměnných — TREND — mohou použít i ti, kteří o nejmenších čtvercích nikdy neslyšeli. Stačí znát některé rysy jeho práce. Zejména:

    • Pokud uspořádáte rozsah známých hodnot proměnné y do jednoho řádku nebo sloupce, pak každý řádek (sloupec) se známými hodnotami x bude programem vnímán jako samostatná proměnná.
    • Pokud není v okně TRENDU zadán rozsah se známým x, bude s ním program při použití funkce v Excelu zacházet jako s polem složeným z celých čísel, jejichž počet odpovídá rozsahu s danými hodnotami proměnná y.
    • Pro výstup pole „předpokládaných“ hodnot musí být výraz pro výpočet trendu zadán jako maticový vzorec.
    • Pokud nejsou zadány nové hodnoty x, pak je funkce TREND považuje za rovné těm známým. Pokud nejsou zadány, pak se jako argument použije pole 1; 2; 3; 4;…, což je úměrné rozsahu s již zadanými parametry y.
    • Rozsah obsahující nové hodnoty x musí mít stejný nebo více řádků nebo sloupců jako rozsah obsahující dané hodnoty y. Jinými slovy, musí být úměrná nezávislým proměnným.
    • Pole se známými hodnotami x může obsahovat více proměnných. Pokud však mluvíme pouze o jednom, pak je nutné, aby rozsahy s danými hodnotami x a y byly úměrné. V případě více proměnných je nutné, aby se rozsah s danými hodnotami y vešel do jednoho sloupce nebo jednoho řádku.

    Funkce PREDICTION

    Implementováno pomocí několika funkcí. Jeden z nich se nazývá „PŘEDPOVĚĎ“. Podobá se „TREND“, tedy dává výsledek výpočtů metodou nejmenších čtverců. Ovšem pouze pro jedno X, u kterého je hodnota Y neznámá.

    Nyní znáte vzorce v Excelu pro figuríny, které vám umožňují předpovídat budoucí hodnotu konkrétního ukazatele podle lineárního trendu.