Statistické distribuční řady. Statistické shrnutí a seskupení. Příklady řešení problémů

Matematické statistiky- obor matematiky věnovaný matematickým metodám zpracování, systematizace a využití statistických dat pro vědecké a praktické závěry.

3.1. ZÁKLADNÍ POJMY MATEMATICKÉ STATISTIKY

V lékařských a biologických problémech je často nutné studovat distribuci určité charakteristiky pro velmi velký počet jedinců. Tento rys má pro různé jedince různé významy, jde tedy o náhodnou veličinu. Například jakýkoli terapeutický lék má různou účinnost, když je aplikován na různé pacienty. Abychom však získali představu o účinnosti tohoto léku, není třeba jej aplikovat každý nemocný. U relativně malé skupiny pacientů je možné vysledovat výsledky užívání léku a na základě získaných dat identifikovat podstatné rysy (účinnost, kontraindikace) léčebného procesu.

Populace- soubor homogenních prvků charakterizovaných nějakým atributem, který má být studován. Toto znamení je kontinuální náhodná veličina s hustotou distribuce f(x).

Pokud nás například zajímá prevalence onemocnění v určitém regionu, pak obecná populace je celá populace regionu. Pokud chceme zjistit vnímavost mužů a žen k tomuto onemocnění odděleně, pak bychom měli uvažovat o dvou obecných populacích.

Pro studium vlastností běžné populace je vybrána určitá část jejích prvků.

Vzorek- část běžné populace vybraná k vyšetření (léčbě).

Pokud to nezpůsobí zmatek, pak se vzorek nazývá jako soubor předmětů, vybrané pro průzkum a celek

hodnoty studovaná charakteristika získaná při vyšetření. Tyto hodnoty mohou být reprezentovány několika způsoby.

Jednoduchá statistická řada - hodnoty studované charakteristiky, zaznamenané v pořadí, v jakém byly získány.

Příklad jednoduché statistické řady získané měřením rychlosti povrchové vlny (m/s) v kůži čela u 20 pacientů je uveden v tabulce. 3.1.

Tabulka 3.1.Jednoduchá statistická řada

Jednoduchá statistická řada je hlavním a nejúplnějším způsobem zaznamenávání výsledků průzkumu. Může obsahovat stovky prvků. Je velmi těžké podívat se na takovou totalitu jedním pohledem. Proto jsou velké vzorky obvykle rozděleny do skupin. K tomu je oblast změny charakteristiky rozdělena do několika (N) intervalech stejnou šířku a vypočítejte relativní četnosti (n/n) atributu spadajícího do těchto intervalů. Šířka každého intervalu je:

Intervalové hranice mají následující význam:

Pokud je jakýkoli prvek vzorku hranicí mezi dvěma sousedními intervaly, pak je klasifikován jako vlevo, odjet interval. Takto seskupená data se nazývají intervalové statistické řady.

je tabulka, která ukazuje intervaly hodnot atributu a relativní četnosti výskytu atributu v těchto intervalech.

V našem případě můžeme sestavit např. následující intervalovou statistickou řadu (N = 5, d= 4), tabulka. 3.2.

Tabulka 3.2.Intervalové statistické řady

Zde interval 28-32 zahrnuje dvě hodnoty rovné 28 (tabulka 3.1) a interval 32-36 zahrnuje hodnoty 32, 33, 34 a 35.

Intervalovou statistickou řadu lze znázornit graficky. Za tímto účelem jsou intervaly hodnot atributů vykresleny podél osy abscisy a na každé z nich, jako na základně, je vytvořen obdélník s výškou rovnou relativní frekvenci. Výsledný sloupcový graf se nazývá histogram.

Rýže. 3.1. sloupcový graf

V histogramu jsou celkem jasně patrné statistické vzory rozložení charakteristiky.

Při velké velikosti vzorku (několik tisíc) a malých šířkách sloupců se tvar histogramu blíží tvaru grafu hustota distribuce podepsat.

Počet sloupců histogramu lze vybrat pomocí následujícího vzorce:

Ruční vytvoření histogramu je dlouhý proces. Proto byly vyvinuty počítačové programy, které je automaticky konstruují.

3.2. ČÍSELNÉ CHARAKTERISTIKY STATISTICKÉ ŘADY

Mnoho statistických postupů používá výběrové odhady pro očekávání a rozptyl populace (neboli MSE).

Ukázkový průměr(X) je aritmetický průměr všech prvků jednoduché statistické řady:

Pro náš příklad X= 37,05 (m/s).

Vzorový průměr jenejlepšíobecný průměrný odhadM.

Vzorový rozptyl s 2 rovná se součtu čtverců odchylek prvků od průměru vzorku, děleno n- 1:

V našem příkladu s2 = 25,2 (m/s)2.

Upozorňujeme, že při výpočtu výběrového rozptylu není jmenovatelem vzorce velikost vzorku n, ale n-1. To je způsobeno tím, že při výpočtu odchylek ve vzorci (3.3) se místo neznámého matematického očekávání používá jeho odhad - průměr vzorku.

Vzorový rozptyl je nejlepší odhad obecného rozptylu (σ 2).

Vzorová směrodatná odchylka(s) je druhá odmocnina výběrového rozptylu:

Pro náš příklad s= 5,02 (m/s).

Selektivní střední kvadratická odchylka je nejlepší odhad obecné směrodatné odchylky (σ).

S neomezeným nárůstem velikosti vzorku mají všechny charakteristiky vzorku tendenci odpovídat charakteristikám obecné populace.

K výpočtu charakteristik vzorku se používají počítačové vzorce. V Excelu tyto výpočty provádějí statistické funkce PRŮMĚR, VARIANCE. STANDARDNÍ ODCHYLKA

3.3. INTERVALOVÉ HODNOCENÍ

Všechny charakteristiky vzorku jsou náhodné proměnné. To znamená, že pro jiný vzorek stejné velikosti se hodnoty charakteristik vzorku budou lišit. Tedy selektivní

vlastnosti jsou pouze odhady relevantní charakteristiky populace.

Nevýhody selektivního hodnocení jsou kompenzovány intervalový odhad, zastupující číselný interval uvnitř kterého s danou pravděpodobností R d je nalezena skutečná hodnota odhadovaného parametru.

Nechat U r - nějaký parametr obecné populace (obecný průměr, obecný rozptyl atd.).

Intervalový odhad parametr U r se nazývá interval (U 1, U 2), splňující podmínku:

P(U < Ur < U2) = Рд. (3.5)

Pravděpodobnost R d volal pravděpodobnost spolehlivosti.

Pravděpodobnost spolehlivosti Pd - pravděpodobnost, že skutečná hodnota odhadované veličiny je uvnitř zadaný interval.

V tomto případě interval (U 1, U 2) volal interval spolehlivosti pro odhadovaný parametr.

Často se místo pravděpodobnosti spolehlivosti používá přidružená hodnota α = 1 - Р d, která je tzv. úroveň významnosti.

Úroveň významnosti je pravděpodobnost, že skutečná hodnota odhadovaného parametru je mimo interval spolehlivosti.

Někdy jsou α a Pd vyjádřeny v procentech, například 5 % místo 0,05 a 95 % místo 0,95.

V intervalovém odhadu nejprve vyberte vhodné pravděpodobnost spolehlivosti(obvykle 0,95 nebo 0,99) a poté najděte vhodný rozsah hodnot pro odhadovaný parametr.

Všimněme si některých obecných vlastností intervalových odhadů.

1. Čím nižší je hladina významnosti (tím více R d), tím širší je odhad intervalu. Pokud je tedy na hladině významnosti 0,05 intervalový odhad obecného průměru 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Čím větší je velikost vzorku n, tím užší je intervalový odhad se zvolenou hladinou významnosti. Nechť například 5 je procentuální odhad obecného průměru (β = 0,05) získaný ze vzorku 20 prvků, pak 34,7< M< 39,4.

Zvětšením velikosti vzorku na 80 získáme přesnější odhad na stejné hladině významnosti: 35,5< M< 38,6.

Obecně platí, že konstrukce spolehlivých odhadů spolehlivosti vyžaduje znalost zákona, podle kterého je odhadovaný náhodný atribut distribuován v populaci. Podívejme se, jak se konstruuje intervalový odhad obecný průměr charakteristika, která je v populaci rozložena podle normální zákon.

3.4. INTERVALOVÝ ODHAD VŠEOBECNÉHO PRŮMĚRU PRO ZÁKON O NORMÁLNÍ DISTRIBUCI

Konstrukce intervalového odhadu obecného průměru M pro populaci se zákonem normálního rozdělení je založena na následující vlastnosti. Pro vzorkovací objem n přístup

dodržuje Studentovo rozdělení s počtem stupňů volnosti ν = n- 1.

Tady X- průměr vzorku a s- selektivní směrodatná odchylka.

Pomocí studentských distribučních tabulek nebo jejich počítačových analogů můžete najít hraniční hodnotu takovou, že s danou pravděpodobností spolehlivosti platí následující nerovnost:

Tato nerovnost odpovídá nerovnosti pro M:

Kde ε - poloviční šířka intervalu spolehlivosti.

Konstrukce intervalu spolehlivosti pro M se tedy provádí v následujícím pořadí.

1. Vyberte pravděpodobnost spolehlivosti Р d (obvykle 0,95 nebo 0,99) a pro ni pomocí Studentovy distribuční tabulky najděte parametr t

2. Vypočítejte poloviční šířku intervalu spolehlivosti ε:

3. Získejte intervalový odhad obecného průměru s vybranou pravděpodobností spolehlivosti:

Stručně se to píše takto:

Pro nalezení intervalových odhadů byly vyvinuty počítačové postupy.

Vysvětlíme si, jak používat tabulku rozdělení studentů. Tato tabulka má dva „vstupy“: levý sloupec, který se nazývá počet stupňů volnosti ν = n- 1 a horní řádek je hladina významnosti α. Na průsečíku odpovídajícího řádku a sloupce najděte Studentův koeficient t.

Aplikujme tuto metodu na náš vzorek. Níže je uveden fragment studentské distribuční tabulky.

Tabulka 3.3. Fragment studentské distribuční tabulky

Jednoduchá statistická řada pro vzorek 20 lidí (n= 20, ν =19) je uveden v tabulce. 3.1. Pro tuto řadu výpočty pomocí vzorců (3.1-3.3) dávají: X= 37,05; s= 5,02.

Pojďme si vybrat a = 0,05 (Р d = 0,95). Na průsečíku řádku „19“ a sloupce „0,05“ najdeme t= 2,09.

Vypočítejme přesnost odhadu pomocí vzorce (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Sestrojme intervalový odhad: s pravděpodobností 95% neznámý obecný průměr splňuje nerovnost:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), Rd = 0,95.

3.5. METODY TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

Statistické hypotézy

Než formulujete, co je statistická hypotéza, zvažte následující příklad.

Pro srovnání dvou metod léčby určitého onemocnění byly vybrány dvě skupiny pacientů po 20 lidech, které byly těmito metodami léčeny. U každého pacienta byla zaznamenána počet procedur, po kterém bylo dosaženo pozitivního účinku. Na základě těchto údajů byly pro každou skupinu zjištěny výběrové průměry (X), výběrové rozptyly (s 2) a vzorové směrodatné odchylky (s).

Výsledky jsou uvedeny v tabulce. 3.4.

Tabulka 3.4

Počet procedur nutných k získání pozitivního efektu je náhodná veličina, o které jsou všechny informace aktuálně obsaženy v daném vzorku.

Od stolu 3.4 ukazuje, že průměr vzorku v první skupině je menší než ve druhé. Znamená to, že stejný vztah platí pro obecné průměry: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает statistické testování hypotéz.

Statistická hypotéza- je to předpoklad o vlastnostech populací.

Budeme zvažovat hypotézy o vlastnostech dva obecné populace.

Pokud mají populace známý, totožný rozdělení odhadované hodnoty a předpoklady se týkají hodnot nějaký parametr tohoto rozdělení, pak se nazývají hypotézy parametrické. Vzorky se například odebírají z populací s normální zákon rozdělení a stejný rozptyl. Je potřeba to zjistit jsou stejne obecné průměry těchto populací.

Pokud není nic známo o zákonech rozdělení obecných populací, pak se nazývají hypotézy o jejich vlastnostech neparametrické. Například, jsou stejne zákony rozložení populace, ze které se vzorky odebírají.

Nulové a alternativní hypotézy.

Úkolem testování hypotéz. Úroveň významnosti

Pojďme se seznámit s terminologií používanou při testování hypotéz.

H 0 - nulová hypotéza (skeptická hypotéza) je hypotéza o absenci rozdílů mezi porovnávanými vzorky. Skeptik se domnívá, že rozdíly mezi odhady vzorků získanými z výsledků výzkumu jsou způsobeny náhodou;

H 1- alternativní hypotéza (optimistická hypotéza) je hypotéza o přítomnosti rozdílů mezi porovnávanými vzorky. Optimista se domnívá, že rozdíly mezi výběrovými odhady jsou způsobeny objektivními důvody a odpovídají rozdílům v obecné populaci.

Testování statistických hypotéz je možné pouze tehdy, když je možné nějaké sestavit velikost(kritérium), jehož distribuční právo v případě spravedlnosti H 0 slavný. Pak pro toto množství můžeme specifikovat interval spolehlivosti, do kterého s danou pravděpodobností R d jeho hodnota klesá. Tento interval se nazývá kritická oblast. Pokud hodnota kritéria spadá do kritické oblasti, pak je hypotéza přijata N 0. Jinak je hypotéza H 1 přijata.

V lékařském výzkumu se používá P d = 0,95 nebo P d = 0,99. Tyto hodnoty odpovídají úrovně významnosti a = 0,05 nebo a = 0,01.

Při testování statistických hypotézúroveň významnosti(α) je pravděpodobnost zamítnutí nulové hypotézy, když je pravdivá.

Vezměte prosím na vědomí, že v jádru je postup testování hypotéz zaměřen na zjišťování rozdílů a nepotvrdit jejich nepřítomnost. Když hodnota kritéria přesahuje kritickou oblast, můžeme „skeptikovi“ s čistým srdcem říci – no, co jiného chcete?! Pokud by rozdíly nebyly, pak by s pravděpodobností 95 % (nebo 99 %) byla vypočtená hodnota ve stanovených mezích. Ale ne!..

Pokud hodnota kritéria spadá do kritické oblasti, pak není důvod se domnívat, že hypotéza H 0 je správná. To s největší pravděpodobností ukazuje na jeden ze dvou možných důvodů.

1. Velikosti vzorků nejsou dostatečně velké, aby detekovaly rozdíly. Je pravděpodobné, že pokračující experimentování přinese úspěch.

2. Existují rozdíly. Jsou ale tak malé, že nemají praktický význam. V tomto případě nemá pokračování v experimentech smysl.

Přejděme k některým statistickým hypotézám používaným v lékařském výzkumu.

3.6. TESTOVÁNÍ HYPOTÉZ O ROVNOSTI VARIANT, FISCHEROVO F-KRITÉRIUM

V některých klinických studiích se pozitivní účinek neprokázal tolik velikost studovaného parametru, kolik z toho stabilizace, snížení jeho výkyvů. V tomto případě vyvstává otázka srovnání dvou obecných rozptylů na základě výsledků výběrového šetření. Tento problém lze vyřešit pomocí Fisherův test.

Formulace problému

normální zákon distribuce. Vzorové velikosti -

n 1 A n2, A vzorové odchylky rovnat se s 1 a s 2 2 obecné odchylky.

Testovatelné hypotézy:

H 0- obecné odchylky jsou stejní;

H 1- obecné odchylky jsou rozdílní.

Zobrazeno, pokud jsou vzorky odebrány z populací s normální zákon distribuce, pak pokud je hypotéza pravdivá H 0 poměr výběrových rozptylů sleduje Fisherovo rozdělení. Proto jako kritérium pro kontrolu férovosti H 0 hodnota se bere F, vypočítá se podle vzorce:

Kde s 1 a s 2 jsou výběrové rozptyly.

Tento poměr se řídí Fisherovým rozdělením s počtem stupňů volnosti čitatele ν 1 = n 1- 1 a počet stupňů volnosti jmenovatele ν 2 = n 2 - 1. Hranice kritické oblasti se zjistí pomocí Fisherových distribučních tabulek nebo pomocí počítačové funkce BRASPOBR.

Pro příklad uvedený v tabulce. 3.4, dostaneme: ν 1 = ν 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. Při α = 0,05 jsou hranice kritické oblasti v tomto pořadí: = 0,40, = 2,53.

Hodnota kritéria spadá do kritické oblasti, takže hypotéza je přijata H 0: obecné výběrové odchylky jsou stejní.

3.7. TESTOVÁNÍ HYPOTÉZ TÝKAJÍCÍ SE ROVNOSTI PROSTŘEDKŮ, STUDENTSKÉ t-KRITÉRIUM

Srovnávací úkol průměrný dvě obecné populace vznikají, když je praktický význam přesně velikost studovaná charakteristika. Například při porovnání délky léčby dvěma různými metodami nebo počtu komplikací vzniklých při jejich použití. V tomto případě můžete použít Studentův t-test.

Formulace problému

Byly získány dva vzorky (X 1) a (X 2) extrahované z obecných populací pomocí normální zákon distribuce a stejné odchylky. Velikosti vzorků - n 1 a n 2, vzorové prostředky jsou rovny X1 a X2 a vzorové odchylky- s 1 2 a s 2 2 respektive. Nutno porovnat obecné průměry.

Testovatelné hypotézy:

H 0- obecné průměry jsou stejní;

H 1- obecné průměry jsou rozdílní.

Ukazuje se, že pokud je hypotéza pravdivá H 0 Hodnota t vypočtená podle vzorce:

rozdělené podle Studentova zákona s počtem stupňů volnosti ν = ν 1 + + ν2 - 2.

Zde kde ν 1 = n 1 - 1 - počet stupňů volnosti pro první vzorek; v 2 = n 2 - 1 - počet stupňů volnosti pro druhý vzorek.

Hranice kritické oblasti se nalézají pomocí tabulek t-rozdělení nebo pomocí počítačové funkce STUDRIST. Studentovo rozdělení je symetrické kolem nuly, takže levá a pravá hranice kritické oblasti jsou identické co do velikosti a opačného znaménka: -a

Pro příklad uvedený v tabulce. 3.4, dostaneme:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. Při a = 0,05 = 2,02.

Hodnota kritéria přesahuje levou hranici kritické oblasti, takže hypotézu přijímáme H 1: obecné průměry jsou rozdílní. Přitom populační průměr první vzorek MÉNĚ.

Použitelnost Studentova t-testu

Studentův t test je použitelný pouze pro vzorky z normální agregáty s identické obecné odchylky. Pokud je porušena alespoň jedna z podmínek, je použitelnost kritéria sporná. Požadavek normality běžné populace je obvykle ignorován, cit teorém centrálního limitu. Rozdíl mezi výběrovými průměry v čitateli (3.10) lze skutečně považovat za normálně rozdělený pro ν > 30. Otázku rovnosti rozptylů však nelze ověřit a odkazy na skutečnost, že Fisherův test rozdíly nezjistil, nelze brát. v úvahu. Nicméně, t-test je široce používán k detekci rozdílů v průměrech populace, i když bez dostatečných důkazů.

Níže je diskutováno neparametrické kritérium, který se úspěšně používá pro stejné účely a který žádné nevyžaduje normálnost, ani rovnost rozptylů.

3.8. NEPARAMETRICKÉ POROVNÁNÍ DVOU VZORKŮ: KRITÉRIUM MANN-WHITNEY

Neparametrické testy jsou navrženy tak, aby detekovaly rozdíly v zákonech rozdělení dvou populací. Kritéria, která jsou citlivá na rozdíly obecně průměrný, nazývaná kritéria posun Kritéria, která jsou citlivá na rozdíly obecně disperze, nazývaná kritéria měřítko. Mann-Whitney test odkazuje na kritéria posun a používá se k detekci rozdílů v průměrech dvou populací, z nichž jsou vzorky prezentovány v žebříčková stupnice. Naměřené charakteristiky jsou umístěny na této stupnici ve vzestupném pořadí a následně jsou očíslovány celými čísly 1, 2... Tato čísla jsou tzv. řadách. Stejným množstvím jsou přiřazeny stejné úrovně. Není důležitá hodnota samotného atributu, ale pouze řadové místo které řadí mezi ostatní veličiny.

V tabulce 3.5. první skupina z tabulky 3.4 je uvedena v rozšířené podobě (řádek 1), seřazená (řádek 2) a poté jsou řady identických hodnot nahrazeny aritmetickými průměry. Například položkám 4 a 4 v prvním řádku byly přiděleny pozice 2 a 3, které byly poté nahrazeny stejnou hodnotou 2,5.

Tabulka 3.5

Formulace problému

Nezávislé vzorky (X 1) A (X 2) extrahované z obecných populací s neznámými zákony distribuce. Vzorové velikosti n 1 A n 2 respektive. Hodnoty prvků vzorku jsou uvedeny v žebříčková stupnice. Je třeba zkontrolovat, zda se tyto obecné populace od sebe liší?

Testovatelné hypotézy:

H 0- vzorky patří do stejné obecné populace; H 1- vzorky patří k různým obecným populacím.

K testování takových hypotéz se používá (/-Mann-Whitney test.

Nejprve se ze dvou vzorků sestaví kombinovaný vzorek (X), jehož prvky jsou seřazeny. Potom je nalezen součet pořadí odpovídajících prvkům prvního vzorku. Tato částka je kritériem pro testování hypotéz.

U= Součet pořadí prvního vzorku. (3.11)

U nezávislých vzorků, jejichž objemy jsou větší než 20, hodnota U se řídí normálním rozdělením, jehož matematické očekávání a směrodatná odchylka se rovnají:

Hranice kritické oblasti jsou proto nalezeny podle tabulek normálního rozdělení.

Pro příklad uvedený v tabulce. 3.4, dostaneme: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. Pro α = 0,05 dostaneme: vlevo = 338 a vpravo = 482.

Hodnota kritéria přesahuje levou hranici kritické oblasti, proto je přijata hypotéza H 1: obecné populace mají různé distribuční zákony. Přitom populační průměr první vzorek MÉNĚ.

Úvod

Lidstvo od nepaměti zohledňuje mnoho jevů a předmětů doprovázejících jeho životní činnost a související výpočty. Lidé dostávali všestranné, i když se lišili v úplnosti, v různých fázích společenského vývoje. Data denně zohledňovaná v procesu ekonomického rozhodování a v zobecněné podobě na úrovni státu při určování směru hospodářské a sociální politiky a charakteru zahraničněpolitických aktivit.

Vedeni úvahami o závislosti blahobytu národa na velikosti vytvořeného užitečného produktu, zájmy strategické bezpečnosti států a národů na velikosti dospělé mužské populace, příjmy státní pokladny na velikosti zdanitelných zdrojů , atd., je dlouhodobě jednoznačně uznávána a realizována formou různých účetních akcí.

S přihlédnutím k úspěchům ekonomické vědy se umožnilo vypočítat ukazatele, které obecně charakterizují výsledky reprodukčního procesu na úrovni společnosti: celkový sociální produkt, národní důchod, hrubý národní produkt.

Všechny výše uvedené informace poskytuje společnosti ve stále větším objemu statistika, která je nezbytnou součástí státního aparátu. Statistická data tedy dokážou mluvit jazykem statistických ukazatelů o mnoha věcech velmi názornou a přesvědčivou formou.

Pro statistickou analýzu dat ve své práci jsem použil program Excel (výpočet vzorců a vykreslování grafů).

Statistické distribuční řady, jejich význam a aplikace ve statistice

Výsledkem zpracování a systematizace dat primárního statistického pozorování jsou seskupení nazývaná distribuční řady. V nich je znám počet pozorovacích jednotek ve skupinách. Prezentováno v absolutním a relativním vyjádření.

Statistická distribuční řada je uspořádané rozdělení studovaných jednotek populace do skupin podle určité proměnné charakteristiky. Charakterizuje složení (strukturu) zkoumaného jevu, umožňuje posoudit homogenitu populace, vzorec distribuce a hranice variace jednotek populace.

Statistické řady se dělí na:

Atributivní - jedná se o řady konstruované podle atributivních charakteristik, ve vzestupném nebo sestupném pořadí pozorovaných znalostí.

Tedy kvalitativní charakteristiky, které nemají číselné vyjádření a charakterizují vlastnost, kvalitu studovaného socioekonomického jevu.

Atributivní distribuční řady charakterizují složení populace podle určitých podstatných charakteristik.

Tyto údaje, pořízené za několik období, umožňují studovat změny ve struktuře.

Počet skupin distribuční řady atributů je adekvátní počtu gradací. Odrůdy atributivních vlastností.

Příklad řady distribuce atributů je uveden v tabulce 1.

Tabulka 1. Rozdělení studentů 1. ročníku podle studijních výsledků

Prvky této distribuční řady jsou gradace atributivního znaku „Achievement“ („mají čas“ - „nemají čas“) a počet každé skupiny v absolutním (lidé) a relativním (%).

Zkoušku z oboru složilo 46 studentů. Jejich podíl činil 92 %.

Variační řady jsou řady postavené na kvantitativním základě.

Variační distribuční řady se skládají ze dvou prvků: možností a frekvencí:

Varianty jsou číselné hodnoty kvantitativní charakteristiky ve variační distribuční řadě. Mohou být pozitivní a negativní, absolutní a relativní. Takže při seskupování podniků podle výsledků hospodářské činnosti jsou kladné možnosti zisk a záporná čísla ztráta.

Frekvence jsou počty jednotlivých možností nebo každé skupiny variační řady, tzn. Toto jsou čísla ukazující, jak často se určité možnosti vyskytují v distribuční sérii. Součet všech frekvencí se nazývá objem populace a je určen počtem prvků celé populace.

Frekvence jsou frekvence vyjádřené jako relativní hodnoty (zlomky jednotek nebo procenta). Součet frekvencí je roven jedné nebo 100 %. Nahrazení frekvencí frekvencemi umožňuje porovnávat série variací s různým počtem pozorování.

Variační řady se v závislosti na povaze variace dělí na diskrétní a intervalové.

Diskrétní variační distribuční řada je řada, ve které jsou skupiny složeny podle charakteristiky, která se mění diskrétně a nabývá pouze celočíselných hodnot.

Příklad diskrétní variační distribuční řady je uveden v tabulce 2.

Tabulka 2. Rozdělení studentů podle skóre zkoušky

V gr. Tabulka 1, Tabulka 2 uvádí možnosti pro řadu diskrétních variant. V gr. 2 - frekvence a v gr. 3 - frekvence. V případě spojité variace může hodnota znaku v populačních jednotkách nabývat jakékoliv hodnoty v rámci určitých mezí. Liší se od sebe libovolně malým množstvím.

Intervalová variační distribuční řada je řada, ve které může seskupovací charakteristika, která tvoří základ seskupení, nabývat v určitém intervalu libovolných hodnot, včetně zlomkových.

Intervalovou distribuční řadu je vhodné konstruovat především se spojitou variací charakteristiky a také tehdy, pokud se diskrétní variace projevuje v širokém rozsahu, tzn. počet variant diskrétní charakteristiky je poměrně velký.

Pravidla a principy pro konstrukci intervalových distribučních řad jsou podobné pravidlům a principům pro konstrukci statistických seskupení. Pokud je intervalová variační distribuční řada konstruována se stejnými intervaly, četnosti umožňují posoudit míru zaplnění intervalu jednotkami populace. Při konstrukci nestejných intervalů je nemožné získat informaci o míře zaplnění každého intervalu. Aby bylo možné provést srovnávací analýzu obsazenosti intervalů, určí se indikátor charakterizující hustotu distribuce. Jedná se o poměr počtu populačních jednotek k šířce intervalu.

Příklad distribuce intervalových variací je uveden v tabulce 3.

Tabulka 3. Rozdělení stavebních firem v kraji podle průměrného počtu zaměstnanců*

* - Čísla jsou podmíněná

Prezentovaná distribuční řada je intervalová, jejíž tvorba skupin je založena na spojitém znaku.

Pro přehlednost lze analýzu distribučních řad provést na základě jejich grafického znázornění. Za tímto účelem se zkonstruuje polygon, histogram, ogive a distribuční kumulace.

Výpočtová část úlohy č. 5

K dispozici jsou výběrová data (5% mechanický vzorek) o průměrných ročních nákladech stálých výrobních aktiv a výkonu podniků v hospodářském sektoru za vykazované období.

Tabulka 4. Počáteční údaje

Výstup produktu, miliony rublů.

Podle prvotních údajů:

1. Sestrojte statistickou řadu rozdělení podniků podle průměrných ročních nákladů stálých výrobních aktiv, tvořících čtyři skupiny podniků ve stejných intervalech, charakterizujte je počtem podniků a podílem podniků.

2. Vypočítejte obecné ukazatele distribuční řady:

a) průměrné roční náklady na stálá výrobní aktiva, vážené hodnoty atributu absolutním počtem podniků a jejich podílem;

b) modus a medián;

c) sestrojte grafy distribuční řady a určete na nich hodnotu modu a mediánu.

Řešení:

1. Nejprve určete délku intervalu pomocí vzorce:

e=(x max - x min)/k,

kde k je počet skupin v seskupení (z podmínky k=4),

x max a x min - maximální a minimální hodnoty distribuční řady,

e=(60 - 20)/4=10 milionů rublů.

Poté definujeme dolní a horní intervalové limity pro každou skupinu:

Číslo skupiny

spodní řádek

horní limit

Vytvoříme pracovní list 5, kde shrneme výchozí data:

Tabulka 5. Pracovní list

Skupiny podniků podle průměrných ročních nákladů na otevřený penzijní fond,

Podnik č.

Průměrné roční náklady na OPF, miliony rublů.

Výstup,

Vypočítejme charakteristiky distribuční řady podle podílu podniků pomocí vzorce:

kde d je podíl podniku;

f i - počet podniků ve skupině;

F i - celkový počet podniků.

Dosaďte data do vzorců. Získané výsledky se zapisují do závěrečné tabulky 6.

Všechny vzorce a výpočty v tabulce 6 jsou zadány v Excelu a jsou uvedeny v příloze 1.

Tabulka 6. Rozdělení podniků podle průměrné roční hodnoty stálých výrobních aktiv

Toto seskupení ukazuje, že většina těchto podniků (33,3 %) má průměrné roční náklady na fixní výrobní aktiva v rozmezí od 40 do 50 milionů rublů.

2. a) Vypočítejte průměrné roční náklady dlouhodobého výrobního majetku pomocí vzorce váženého aritmetického průměru, přičemž hodnoty vážíte absolutním počtem podniků:

a podle specifické hmotnosti:

Pro výpočet průměru z intervalové řady je nutné vyjádřit možnosti v jednom (diskrétním) čísle, jedná se o jednoduchý aritmetický průměr horní a dolní hodnoty intervalu:

Dosaďte data do vzorců. Získané výsledky zaznamenáme do tabulky 7.

Všechny vzorce a výpočty v tabulce 7 jsou zadány v Excelu a jsou uvedeny v příloze 1.

Tabulka 7. Výpočet průměrných ročních nákladů otevřeného penzijního fondu

Průměrné hodnoty jsou stejné, což dokazuje, že výpočty jsou správné. Průměrné roční náklady na OPF jsou 41,333 milionů rublů.

b) Vypočítejte modus a medián této řady.

Režim je hodnota funkce, která se ve studované populaci vyskytuje nejčastěji. Pro intervalové variační distribuční řady se režim vypočítá pomocí vzorce:

kde x Mo je spodní mez modálního intervalu;

i Mo je hodnota modálního intervalu;

f Mo - frekvence modálního intervalu;

f Mo-1 - frekvence intervalu předcházejícího modálnímu;

f Po+1 - frekvence intervalu následujícího po modálním.

Zpočátku určíme modální interval na základě nejvyšší frekvence atributu. Největší počet podniků - 10 - průměrné roční náklady na fixní výrobní aktiva se pohybují v rozmezí 40 - 50 milionů rublů, což je modální.

Dosaďte data do vzorce.

Z výpočtu je zřejmé, že modální hodnota nákladů na OPF podniků je náklad rovnající se 44 milionům rublů.

Medián je možnost umístěná uprostřed uspořádané série variací, která ji rozděluje na dvě stejné části. Pro intervalové variační řady se medián vypočítá pomocí vzorce:

kde x Me je dolní mez středního intervalu;

i Me - hodnota středního intervalu;

F je součet frekvencí řady;

S Me-1 je součet akumulovaných frekvencí řady předcházejících střednímu intervalu;

f Me - frekvence středního intervalu.

Určíme interval mediánu, ve kterém se nachází pořadové číslo mediánu. Za tímto účelem vypočítejme součet frekvencí jako kumulativní součet k číslu, které přesahuje polovinu objemu populace (30/2 = 15). Získaná data zaneseme do výpočtové tabulky 8.

Tabulka 8. Výpočet mediánu

Ve sloupci „Součet akumulovaných frekvencí“ hodnota 23 odpovídá intervalu 40 - 50. Jedná se o interval mediánu, ve kterém se nachází medián.

Dosaďte data do vzorce.

Výpočet ukazuje, že polovina podniků má průměrné roční náklady na stálá výrobní aktiva až 42 milionů rublů, zatímco druhá polovina je nad touto částkou.

c) Sestavte grafy této distribuční řady na základě získaných dat:

Rýže. 1.

Medián

Rýže. 2. Kumulativní rozdělení podniků podle průměrných ročních nákladů na otevřený penzijní fond

Předmět matematické statistiky. Obecná a výběrová populace.

— Matematické statistiky– obor matematiky, který studuje metody výběru, seskupování, systematizace a analýzy statistických dat za účelem získání vědecky podložených závěrů.

— Statistická data– číselné hodnoty uvažované charakteristiky studovaných objektů, získané jako výsledek náhodného experimentu.

Matematická statistika úzce souvisí s teorií pravděpodobnosti, ale na rozdíl od teorie pravděpodobnosti je matematický model experimentu neznámý. V matematické statistice je pomocí statistických dat nutné stanovit neznámé rozdělení pravděpodobnosti nebo objektivně odhadnout parametry rozdělení.

Metody matematické statistiky umožňují sestavit optimální matematické modely hmotnostních, opakujících se jevů. Spojujícím článkem mezi teorií pravděpodobnosti a matematickou statistikou jsou limitní věty teorie pravděpodobnosti.

V současné době se statistické metody používají téměř ve všech odvětvích národního hospodářství.

— Populace– statistické údaje všech studovaných objektů (někdy – samotných objektů). Běžná populace je často považována za SV X.

— Vzorek(výběrová populace) – statistická data objektů vybraných náhodně z obecné populace.

— Velikost vzorku n(objem běžné populace N) – počet objektů vybraných ke studiu z běžné populace (počet objektů v obecné populaci).

Příklady.

A) Statistická data může být: růst studentů; počet sloves (nebo jiných slovních druhů) v textové pasáži o určité délce; GPA; úroveň inteligence; počet chyb způsobených dispečerem atd.

b) Obecná populace možná: výška všech lidí, hodnosti všech továrních dělníků, frekvence používání určitého slovního druhu ve všech dílech studovaného autora, průměrná známka vysvědčení všech absolventů atd.



PROTI) Vzorkování může být: – výška 20 studentů, počet sloves v náhodně vybraných 50 homogenních pasážích textu o délce 500 slovních použití, průměrná známka z vysvědčení 100 náhodně vybraných absolventů z městských škol atd.

Ukázka se nazývá zástupce pokud správně odráží vlastnost běžné populace. Reprezentativnosti vzorku je dosaženo náhodným výběrem, kdy všechny objekty v populaci mají stejnou pravděpodobnost, že budou vybrány.

Aby byl vzorek reprezentativní, používají se různé metody výběru objektů studia.

Typy výběru: jednoduché, mechanické, sériové, typické.

Jednoduchý. Prvky jsou náhodně vybírány z celé populace.

Mechanický výběr. Je vybráno každých 10 (25, 30 atd.) objektů z obecné populace.

Seriál. V každé sérii je provedena studie (např. z textu je vybráno 10 pasáží po 500 slovních použitích - 10 sérií).

Typický. Běžná populace je rozdělena do typických skupin podle určité charakteristiky. Počet sérií extrahovaných z každé takové skupiny je určen podílem této skupiny v obecné populaci.

Statistické rozložení vzorku a jeho grafické znázornění.

Pojďme studovat SV X (obecná populace) s ohledem na nějakou charakteristiku. Provádí se řada nezávislých testů. V důsledku experimentů nabývá SV X určitých hodnot. Sada získaných hodnot představuje vzorek a hodnoty samotné jsou statistická data.

Na začátku je vzorek seřazen - statistické údaje vzorku jsou uspořádány v neklesajícím pořadí. Dostáváme variační řadu.

Variační série- hodnocený vzorek.

Diskrétní statistické řady

Pokud je obecná populace diskrétní SV, sestrojí se diskrétní statistická řada (statistické rozdělení).

Nechte hodnotu jednou objevit ve vzorku,

Raza,..., - krát.

já-tý volba Vzorky; - frekvence i-tá možnost Frekvence ukazuje, kolikrát se daná možnost objevila ve vzorku.

- relativní četnost i-té možnosti

(ukazuje, jaká část ukázky je ).

Statistické rozdělení je korespondence mezi možnostmi výběru a jejich četností nebo relativní četností.

U DSV lze statistické rozdělení prezentovat ve formě tabulky – statistické řady četností nebo statistické řady relativních četností.

Statistické řady četností Statistické řady

relativní frekvence

........
........
........
........

Pro vizualizaci statistického rozložení vzorku jsou vytvořeny „grafy“ statistického rozložení: polygon a histogram.

Frekvenční mnohoúhelník(relativní četnosti) – grafické znázornění diskrétní statistické řady – přerušovaná čára postupně spojující body [pro mnohoúhelník relativních četností].

Příklad.Řešitele zajímají matematické znalosti uchazečů. Vybere se 10 uchazečů a zaznamená se jejich školní prospěch v tomto předmětu. Byl získán následující vzorek: 5;4;4;3;2;5;4;3;4;5.

a) Prezentujte vzorek ve formě série variací;

b) sestavení statistické řady četností a relativních četností;

c) nakreslete mnohoúhelník relativních četností pro výslednou řadu.

a) Seřaďme vzorek, tzn. Uspořádejme ukázkové členy v neklesajícím pořadí. Dostaneme variační řadu: 2; 3; 3; 4; 4; 4; 4; 5; 5;5.

b) Sestrojte statistickou řadu četností (soulad mezi možnostmi výběru a jejich četností) a statistickou řadu relativních četností (soulad mezi možnostmi výběru a jejich relativní četností)

0,1 0,2 0,4 0,3

Statistická frekvenční řada statistická řada rel. frekvence

1+2+4+3=10=n 0,1+0,2+0,4+0,3=1.

Relativní frekvenční polygon.


Statistické distribuční řady- uspořádané rozdělení jednotek obyvatelstva do skupin podle určité charakteristiky. Charakterizuje složení (strukturu) zkoumaného jevu, umožňuje posoudit homogenitu populace, vzorec distribuce a hranice variace jednotek populace.

Nazývají se distribuční řady konstruované podle atributivních (kvalitativních) charakteristik atributivní(rozložení obyvatelstva podle pohlaví, zaměstnání, národnosti, profese atd.).

Nazývají se distribuční řady konstruované na základě kvantitativních charakteristik variační(rozdělení obyvatelstva podle věku, dělníků podle odsloužených let, platu atd.). Variační distribuční řady se skládají ze dvou prvků: opcí a frekvencí. Možnosti– jednotlivé hodnoty charakteristiky, které nabývá v sérii. Frekvence je počet jednotlivých variant nebo každé skupiny variační řady, tzn. Toto jsou čísla ukazující, jak často se určité možnosti vyskytují v distribuční sérii. Součet všech frekvencí se nazývá objem populace a určuje počet prvků celé populace. Frekvence jsou frekvence vyjádřené jako zlomky jednotek nebo jako procento z celku.

Variační řady se v závislosti na povaze variace dělí na diskrétní a intervalové. Diskrétní variační řady jsou založeny na diskrétních (nespojitých) charakteristikách, které mají pouze celočíselné hodnoty, na diskrétních charakteristikách prezentovaných jako intervaly. Intervalové variační řady jsou založeny na spojitých charakteristikách (mají libovolné hodnoty, dokonce i zlomkové).

7. Tabulková a grafická prezentace statistických dat.

Výsledky shrnutí a seskupení jsou prezentovány ve formě tabulek. Tabulka je racionální, vizuální a kompaktní forma statistického materiálu.

Statistická tabulka je tabulka obsahující výsledky výpočtu praktických dat a je výsledkem souhrnu výchozích informací.

Tabulka charakterizuje populaci podle jedné nebo více charakteristik, vzájemně propojených logikou.

Statistická tabulka má svůj subjekt a predikát. Subjekt je objekt charakterizovaný čísly. Predikátem tabulky je soustava ukazatelů.

Tabulky mohou být jednoduché nebo složité. Jednoduchá tabulka poskytuje jednoduchý seznam objektů. Komplexní tabulka obsahuje seskupení jednotek populace současně podle 2 nebo více charakteristik. Tabulka by měla být kompaktní, nadpisy by měly být krátké, informace ve sloupcích a sloupcích by měly končit souhrnným řádkem. Sloupce a řádky musí mít jednotky, pak musí být provedena kontrola sudé a logické tabulky.

Statistický graf je výkres, ve kterém jsou statistické agregáty charakterizované určitými ukazateli popsány pomocí konvenčních geometrických obrazů nebo znaků. Při sestavování rozvrhu je nutné dodržet následující požadavky: přehlednost, výraznost a srozumitelnost. Pole grafu je část roviny, kde jsou umístěny grafické obrázky. Používají se typy grafů: lineární, sloupcové, páskové, koláčové, sektorové, tvarové, tečkové, objemové, diagramy a statistické mapy. Kartogram je schematická geografická mapa, na které jsou zvýrazněna odvětví nebo struktura obyvatelstva.

Teorie statistiky: poznámky k přednášce Burkhanova Inessa Viktorovna

1. Statistické distribuční řady

Výsledkem zpracování a systematizace dat primárního statistického pozorování jsou seskupení nazývaná distribuční řady.

Statistické distribuční řady představují uspořádané uspořádání jednotek studované populace do skupin podle skupinových charakteristik.

Existují atributivní a variační distribuční řady.

Atributivní je distribuční řada konstruovaná podle kvalitativních charakteristik. Charakterizuje složení populace podle různých podstatných charakteristik.

Je postaven na základě kvantitativních kritérií variační distribuční řady. Skládá se z četnosti (počtu) jednotlivých možností nebo každé skupiny variační řady. Tato čísla ukazují, jak často se v distribuční řadě vyskytují různé možnosti (hodnoty atributů). Součet všech frekvencí určuje velikost celé populace.

Počty skupin jsou vyjádřeny v absolutních a relativních hodnotách. V absolutních hodnotách je vyjádřena počtem populačních jednotek v každé vybrané skupině a v relativním vyjádření - ve formě podílů, specifických vah, prezentovaných jako procento z celku.

V závislosti na povaze variace atributu se rozlišují diskrétní a intervalové variační distribuční řady. V diskrétní variační řadě jsou skupinová rozdělení složena podle charakteristiky, která se mění diskrétně a nabývá pouze celočíselných hodnot.

V intervalové variační distribuční řadě může seskupovací charakteristika, která tvoří základ seskupování, nabývat libovolných hodnot v určitém intervalu.

Variační řady se skládají ze dvou prvků: frekvence a variace.

Volba nazývat individuální hodnotu proměnné charakteristiky, kterou nabývá v distribuční řadě.

Frekvence– počet jednotlivých variant nebo každé skupiny variační série. Pokud jsou frekvence vyjádřeny ve zlomcích jednotky nebo jako procento z celku, pak se nazývají frekvence.

Pravidla a principy pro konstrukci intervalových distribučních řad jsou založeny na podobných pravidlech a principech pro konstrukci statistických seskupení. Pokud je intervalová variační řada rozdělení konstruována se stejnými intervaly, četnosti umožňují posoudit míru, do jaké je interval zaplněn jednotkami populace. Pro provedení srovnávací analýzy obsazenosti intervalů je určen indikátor, který bude charakterizovat hustotu distribuce.

Hustota distribuce je poměr počtu jednotek populace k šířce intervalu.

Z knihy Kupte si restauraci. Prodej restaurace: od vytvoření po prodej autor Gorelkina Elena

Statistické metody Počítání v zástupech. Metoda, upřímně řečeno, je naivní, ale velmi populární. Organizátor restauračního podniku si vezme poznámkový blok a tužku, postaví se ke dveřím podobného podniku v ekvivalentní oblasti a spočítá, kolik lidí kolem projde za jednotku času.

Z knihy Století války. (Anglo-americká ropná politika a nový světový řád) autor Engdahl William Frederick

Kapitola 6 ENGLO-AMERIČANÉ UZAVŘENÉ ŘADY Janovská konference 16. dubna 1922 odpálila německá delegace v janovské Villa Alberta, která se zúčastnila poválečné mezinárodní ekonomické konference, bombu, jejíž rázová vlna dosáhla další

Z knihy Teorie statistiky: Poznámky k přednáškám autor

1. Statistické distribuční řady Výsledkem zpracování a systematizace dat primárního statistického pozorování jsou seskupení nazývaná distribuční řady, které představují uspořádané uspořádání jednotek

Z knihy Obecná teorie statistiky: Poznámky k přednáškám autor Konik Nina Vladimirovna

3. Statistické tabulky Ve formě statistických tabulek jsou prezentovány výsledky souhrnu a seskupení pozorovacích materiálů Statistická tabulka je zvláštní způsob, jak stručně a přehledně zaznamenat informace o studovaných společenských jevech. Statistická tabulka

Z knihy Teorie statistiky autor Burkhanová Inessa Viktorovna

PŘEDNÁŠKA č. 10. Dynamické řady a jejich studium v ​​komerční činnosti 1. Základní pojmy o dynamických řadách Všechny procesy a jevy vyskytující se v lidském společenském životě jsou předmětem studia statistické vědy a jsou v neustálém pohybu;

Z knihy Finanční statistika autor Sherstneva Galina Sergejevna

3. Statistické tabulky Poté, co byla statistická pozorovací data shromážděna a dokonce seskupena, je obtížné je vnímat a analyzovat bez určité vizuální systemizace. Výsledky statistických přehledů a seskupení jsou uvedeny ve formuláři

Z knihy Obecná teorie statistiky autor Ščerbina Lidija Vladimirovna

4. Řady agregátních indexů s konstantní a proměnlivou vahou Při studiu dynamiky ekonomických jevů se konstruují a počítají indexy pro řadu po sobě jdoucích období. Tvoří řady základních nebo řetězových indexů. V sérii srovnání základních indexů

Z knihy Podnikatelský plán 100 %. Efektivní obchodní strategie a taktika od Rhondy Abramsové

18. Statistické distribuční řady a jejich grafické znázornění Statistické distribuční řady představují uspořádané uspořádání jednotek zkoumané populace do skupin podle seskupovacích charakteristik. Existují atributové a variační řady

Z autorovy knihy

19. Statistické tabulky Ve formě statistických tabulek jsou prezentovány výsledky souhrnu a seskupení pozorovacích materiálů Statistická tabulka je zvláštní způsob, jak stručně a přehledně zaznamenat informace o studovaných společenských jevech. Statistická tabulka

Z autorovy knihy

6. Statistické pojmy Statistické informace získané jako výsledek pozorování jsou nezbytné k poskytování státním orgánům, k poskytování informací manažerům podniků, společností apod., k informování veřejnosti o

Z autorovy knihy

44. Statistické metody Statistické metody jsou zvláště široce používány při studiu finančních investic. Studium finančních investic je založeno na konstrukci rovnice ekvivalence, tzv. rozvahy finanční transakce. Obsah tohoto

Z autorovy knihy

45. Statistické modely Pro efektivní práci na akciovém trhu potřebujete vědět, jak souvisí výnos konkrétní akcie (nebo portfolia akcií konkrétního investora) s průměrným tržním výnosem celé populace akcií, tzn. k tržnímu indexu. Pro

Z autorovy knihy

15. Statistické tabulky Statistická tabulka je tabulka, která poskytuje kvantitativní popis statistické populace a je formou vizuální prezentace číselných (digitálních) dat získaných jako výsledek statistického shrnutí a seskupování.

Z autorovy knihy

19. Statistické mapy Statistické mapy jsou druhem grafických zobrazení statistických dat na schematické geografické mapě, charakterizující úroveň nebo stupeň rozšíření určitého jevu na určitém území.

Z autorovy knihy

38. Řady agregátních indexů s konstantními a proměnnými vahami Při studiu dynamiky ekonomických jevů se konstruují a počítají indexy pro řadu po sobě jdoucích období. Tvoří řady základních nebo řetězových indexů. V sérii srovnání základních indexů

Z autorovy knihy

Mezinárodní statistika Internet výrazně zjednodušil sběr dat v celosvětovém měřítku. Nejrozvinutější a mnoho rozvojových zemí má přístup ke statistickým informacím přes internet. Svá data a mezinárodní data zveřejňují ve volném přístupu.