Smerodajná odchýlka je jej praktický význam. Výpočet smerodajnej odchýlky v programe Microsoft Excel

17.10.2019

Inštrukcia

Nech je niekoľko čísel charakterizujúcich - alebo homogénne veličiny. Napríklad výsledky meraní, vážení, štatistických pozorovaní atď. Všetky prezentované množstvá sa musia merať rovnakým meraním. Ak chcete nájsť štandardnú odchýlku, postupujte takto.

Určte aritmetický priemer všetkých čísel: spočítajte všetky čísla a vydeľte súčet celkovým počtom čísel.

Určte rozptyl (rozptyl) čísel: sčítajte druhé mocniny skôr zistených odchýlok a výsledný súčet vydeľte počtom čísel.

Na oddelení je sedem pacientov s teplotou 34, 35, 36, 37, 38, 39 a 40 stupňov Celzia.

Je potrebné určiť priemernú odchýlku od priemeru.
rozhodnutie:
"na oddelení": (34+35+36+37+38+39+40)/7=37 ºС;

Odchýlky teploty od priemeru (v tomto prípade normálnej hodnoty): 34-37, 35-37, 36-37, 37-37, 38-37, 39-37, 40-37, ukazuje sa: -3, -2, -1, 0, 1, 2, 3 (°С);

Vydeľte súčet čísel získaných skôr ich počtom. Pre presnosť výpočtu je lepšie použiť kalkulačku. Výsledkom delenia je aritmetický priemer sčítancov.

Venujte veľkú pozornosť všetkým fázam výpočtu, pretože chyba aspoň v jednom z výpočtov povedie k nesprávnemu konečnému ukazovateľu. V každej fáze skontrolujte prijaté výpočty. Aritmetický priemer má rovnaký meter ako súčty čísel, to znamená, že ak určíte priemernú návštevnosť, všetky ukazovatele budú „osoba“.

Tento spôsob výpočtu sa používa iba v matematických a štatistických výpočtoch. Takže napríklad aritmetický priemer v informatike má iný algoritmus výpočtu. Aritmetický priemer je veľmi podmienený ukazovateľ. Ukazuje pravdepodobnosť udalosti za predpokladu, že má iba jeden faktor alebo indikátor. Pre čo najpodrobnejšiu analýzu je potrebné vziať do úvahy veľa faktorov. Na to sa používa výpočet všeobecnejších veličín.

Aritmetický priemer je jednou z mier centrálnej tendencie, ktorá sa široko používa v matematike a štatistických výpočtoch. Nájdenie aritmetického priemeru niekoľkých hodnôt je veľmi jednoduché, ale každá úloha má svoje vlastné nuansy, ktoré je jednoducho potrebné poznať, aby bolo možné vykonať správne výpočty.

Kvantitatívne výsledky takýchto experimentov.

Ako nájsť aritmetický priemer

Hľadanie aritmetického priemeru pre pole čísel by malo začať určením algebraického súčtu týchto hodnôt. Napríklad, ak pole obsahuje čísla 23, 43, 10, 74 a 34, ich algebraický súčet bude 184. Pri zápise sa aritmetický priemer označuje písmenom μ (mu) alebo x (x s čiarkou) . Ďalej by sa mal algebraický súčet vydeliť počtom čísel v poli. V tomto príklade bolo päť čísel, takže aritmetický priemer bude 184/5 a bude 36,8.

Funkcie práce so zápornými číslami

Ak sú v poli záporné čísla, potom sa aritmetický priemer nájde pomocou podobného algoritmu. Rozdiel je len pri výpočte v programovacom prostredí, alebo ak sú v úlohe ďalšie podmienky. V týchto prípadoch nájdenie aritmetického priemeru čísel s rôznymi znamienkami pozostáva z troch krokov:

1. Nájdenie spoločného aritmetického priemeru štandardnou metódou;
2. Nájdenie aritmetického priemeru záporných čísel.
3. Výpočet aritmetického priemeru kladných čísel.

Odpovede na každú z akcií sú napísané oddelené čiarkami.

Prirodzené a desatinné zlomky

Ak je pole čísel reprezentované desatinnými zlomkami, riešenie nastáva podľa metódy výpočtu aritmetického priemeru celých čísel, ale výsledok sa redukuje podľa požiadaviek úlohy na presnosť odpovede.

Pri práci s prirodzenými zlomkami by sa mali zredukovať na spoločného menovateľa, ktorý sa vynásobí počtom čísel v poli. Čitateľ odpovede bude súčtom daných čitateľov pôvodných zlomkových prvkov.

Lekcia číslo 4

Téma: „Popisná štatistika. Indikátory rozmanitosti znaku v súhrne "

Hlavnými kritériami pre diverzitu znaku v štatistickej populácii sú: limit, amplitúda, štandardná odchýlka, oscilačný koeficient a variačný koeficient. V predchádzajúcej lekcii sa diskutovalo o tom, že priemerné hodnoty poskytujú iba zovšeobecňujúcu charakteristiku študovaného znaku v súhrne a nezohľadňujú hodnoty jeho jednotlivých variantov: minimálne a maximálne hodnoty, nad priemerom. , pod priemerom atď.

Príklad. Priemerné hodnoty dvoch rôznych číselných sekvencií: -100; -dvadsať; 100; 20 a 0,1; -0,2; 0,1 sú úplne rovnaké a rovnakéO.Rozsahy rozptylu údajov týchto relatívnych stredných sekvencií sú však veľmi odlišné.

Definovanie uvedených kritérií pre diverzitu znaku sa vykonáva predovšetkým s prihliadnutím na jeho hodnotu pre jednotlivé prvky štatistickej populácie.

Indikátory merania variácie vlastnosti sú absolútne a príbuzný. Medzi absolútne ukazovatele variácie patria: rozsah variácie, limit, štandardná odchýlka, rozptyl. Koeficient variácie a koeficient oscilácie sa vzťahujú na relatívne miery variácie.

Limit (lim) – toto je kritérium, ktoré je určené extrémnymi hodnotami variantu v sérii variácií. Inými slovami, toto kritérium je obmedzené minimálnymi a maximálnymi hodnotami atribútu:

amplitúda (am) alebo rozsah variácií - toto je rozdiel medzi extrémami. Výpočet tohto kritéria sa vykonáva odpočítaním jeho minimálnej hodnoty od maximálnej hodnoty atribútu, čo umožňuje odhadnúť stupeň rozptylu variantu:

Nevýhodou limitu a amplitúdy ako kritérií pre variabilitu je, že úplne závisia od extrémnych hodnôt znaku v sérii variácií. V tomto prípade sa nezohľadňujú kolísanie hodnôt atribútu v rámci série.

Najkompletnejšiu charakteristiku diverzity znaku v štatistickej populácii poskytuje smerodajná odchýlka(sigma), čo je všeobecná miera odchýlky variantu od jeho strednej hodnoty. Smerodajná odchýlka sa často označuje aj ako smerodajná odchýlka.

Základom štandardnej odchýlky je porovnanie každej možnosti s aritmetickým priemerom tejto populácie. Keďže v súhrne bude vždy možností menej aj viac ako je, potom súčet odchýlok so znamienkom "" bude preplatený súčtom odchýlok so znamienkom "", t.j. súčet všetkých odchýlok je nula. Aby sa predišlo vplyvu znamienkov rozdielov, berú sa odchýlky variantu od druhej mocniny aritmetického priemeru, t.j. . Súčet štvorcových odchýlok sa nerovná nule. Na získanie koeficientu schopného merať variabilitu vezmite priemer súčtu štvorcov – táto hodnota sa nazýva rozptyl:

Podľa definície je rozptyl stredná štvorec odchýlok jednotlivých hodnôt prvku od jeho strednej hodnoty. Disperzia štvorcová štandardná odchýlka.

Disperzia je rozmerová veličina (pomenovaná). Ak sú teda varianty číselného radu vyjadrené v metroch, potom rozptyl udáva metre štvorcové; ak sú varianty vyjadrené v kilogramoch, potom rozptyl udáva druhú mocninu tejto miery (kg 2) atď.

Smerodajná odchýlka je druhá odmocnina z rozptylu:

, potom pri výpočte rozptylu a smerodajnej odchýlky v menovateli zlomku namiestoje potrebné dať.

Výpočet štandardnej odchýlky možno rozdeliť do šiestich etáp, ktoré sa musia vykonať v určitom poradí:

Použitie štandardnej odchýlky:

a) posúdiť kolísanie variačných radov a komparatívne posúdenie typickosti (reprezentatívnosti) aritmetických priemerov. Je to nevyhnutné v diferenciálnej diagnostike pri určovaní stability znakov.

b) na rekonštrukciu variačného radu, t.j. obnovenie jeho frekvenčnej odozvy na základe tri sigma pravidlá. V intervale (М±3σ) je 99,7 % všetkých variantov série, v intervale (М±2σ) - 95,5 % a v intervale (М±1σ) - 68,3 % možnosť riadkov(obr. 1).

c) na identifikáciu „vyskakovacích“ možností

d) určiť parametre normy a patológie pomocou sigma odhadov

e) na výpočet variačného koeficientu

e) na výpočet priemernej chyby aritmetického priemeru.

Charakterizovať akúkoľvek všeobecnú populáciu, ktorá mátyp normálneho rozdelenia , stačí poznať dva parametre: aritmetický priemer a smerodajnú odchýlku.

Obrázok 1. Pravidlo troch sigma

Príklad.

V pediatrii sa štandardná odchýlka používa na hodnotenie fyzického vývoja detí porovnaním údajov konkrétneho dieťaťa s príslušnými štandardnými ukazovateľmi. Za štandard sa považujú ukazovatele aritmetického priemeru fyzického vývoja zdravých detí. Porovnanie ukazovateľov s normami sa vykonáva podľa špeciálnych tabuliek, v ktorých sú uvedené normy spolu s ich zodpovedajúcimi sigma stupnicami. Predpokladá sa, že ak je ukazovateľ fyzického vývoja dieťaťa v rámci normy (aritmetický priemer) ±σ, potom fyzický vývoj dieťaťa (podľa tohto ukazovateľa) zodpovedá norme. Ak je indikátor v rámci normy ±2σ, potom existuje mierna odchýlka od normy. Ak ukazovateľ prekročí tieto hranice, potom sa fyzický vývoj dieťaťa výrazne líši od normy (patológia je možná).

Okrem variačných ukazovateľov vyjadrených v absolútnych hodnotách štatistický výskum používa variačné ukazovatele vyjadrené v relatívnych hodnotách. Oscilačný koeficient - je to pomer rozsahu variácie k priemernej hodnote vlastnosti. Variačný koeficient - toto je pomer štandardnej odchýlky k priemernej hodnote vlastnosti. Zvyčajne sú tieto hodnoty vyjadrené v percentách.

Vzorce na výpočet relatívnych ukazovateľov variácie:

Z vyššie uvedených vzorcov je zrejmé, že čím väčší je koeficient V blízko nule, tým menšia je odchýlka hodnôt vlastností. Viac V, čím je znamienko variabilnejšie.

V štatistickej praxi sa najčastejšie používa variačný koeficient. Používa sa nielen na porovnávacie hodnotenie variácií, ale aj na charakterizáciu homogenity populácie. Súbor sa považuje za homogénny, ak variačný koeficient nepresiahne 33 % (pre rozdelenia blízke normálu). Aritmeticky pomer σ a aritmetického priemeru eliminuje vplyv absolútnej hodnoty týchto charakteristík a percentuálny pomer robí z variačného koeficientu bezrozmernú (nepomenovanú) hodnotu.

Získaná hodnota variačného koeficientu sa odhaduje v súlade s približnými gradáciami stupňa diverzity znaku:

Slabé – do 10 %

Priemer – 10 – 20 %

Silný - viac ako 20%

Použitie variačného koeficientu sa odporúča v prípadoch, keď je potrebné porovnať znaky, ktoré sa líšia veľkosťou a rozmermi.

Rozdiel medzi variačným koeficientom a inými rozptylovými kritériami jasne demonštruje príklad.

stôl 1

Zloženie zamestnancov priemyselného podniku

Na základe štatistických charakteristík uvedených v príklade možno konštatovať, že vekové zloženie a vzdelanostná úroveň zamestnancov podniku sú relatívne homogénne, s nízkou odbornou stabilitou skúmaného kontingentu. Je ľahké vidieť, že pokus posúdiť tieto sociálne trendy podľa štandardnej odchýlky by viedol k chybnému záveru a pokus porovnať účtovné prvky „pracovné skúsenosti“ a „vek“ s účtovným prvkom „vzdelanie“ by bol vo všeobecnosti nesprávne z dôvodu heterogenity týchto znakov.

Medián a percentily

Pre ordinálne (poradové) rozdelenia, kde je kritériom pre stred radu medián, štandardná odchýlka a rozptyl nemôžu slúžiť ako charakteristiky rozptylu variantu.

To isté platí pre otvorené variačné série. Táto okolnosť je spôsobená tým, že odchýlky, podľa ktorých sa vypočítava rozptyl a σ, sa počítajú z aritmetického priemeru, ktorý sa nepočíta v otvorených variačných radoch a v radoch rozdelenia kvalitatívnych znakov. Preto sa pre komprimovaný popis distribúcií používa ďalší parameter rozptylu - kvantil(synonymum - "percentil"), vhodné na popis kvalitatívnych a kvantitatívnych charakteristík v akejkoľvek forme ich rozloženia. Tento parameter možno použiť aj na prevod kvantitatívnych znakov na kvalitatívne. V tomto prípade sú takéto skóre priradené v závislosti od toho, ktoré poradie kvantilu zodpovedá jednej alebo druhej konkrétnej možnosti.

V praxi biomedicínskeho výskumu sa najčastejšie používajú tieto kvantily:

– medián;

, sú kvartily (štvrtiny), kde je dolný kvartil, horný kvartil.

Kvantily rozdeľujú oblasť možných zmien vo variačnom rade do určitých intervalov. Medián (kvantil) je variant, ktorý je v strede série variácií a rozdeľuje túto sériu na polovicu, na dve rovnaké časti ( 0,5 a 0,5 ). Kvartil rozdeľuje sériu na štyri časti: prvá časť (dolný kvartil) je možnosť oddeľujúca možnosti, ktorých číselné hodnoty nepresahujú 25 % maxima možného v tejto sérii, kvartil oddeľuje možnosti s číselnou hodnotou do 50 % maximálneho možného. Horný kvartil () oddeľuje možnosti až do 75 % maximálnych možných hodnôt.

V prípade asymetrického rozdelenia premenná vzhľadom na aritmetický priemer, na jej charakterizáciu sa používa medián a kvartily. V tomto prípade sa používa nasledujúca forma zobrazenia priemernej hodnoty - ja (;). Napríklad, skúmaná vlastnosť - "obdobie, v ktorom dieťa začalo chodiť samostatne" - v študijnej skupine má asymetrické rozdelenie. Zároveň dolný kvartil () zodpovedá začiatku chôdze - 9,5 mesiaca, medián - 11 mesiacov, horný kvartil () - 12 mesiacov. V súlade s tým bude charakteristika priemerného trendu špecifikovaného atribútu prezentovaná ako 11 (9,5; 12) mesiacov.

Posúdenie štatistickej významnosti výsledkov štúdie

Štatistická významnosť údajov sa chápe ako miera ich zhody so zobrazovanou realitou, t.j. Štatisticky významné údaje sú tie, ktoré neskresľujú a správne odrážajú objektívnu realitu.

Posúdiť štatistickú významnosť výsledkov štúdie znamená určiť, s akou pravdepodobnosťou je možné preniesť výsledky získané na vzorke populácie na celú populáciu. Posúdenie štatistickej významnosti je potrebné na pochopenie toho, do akej miery možno časť javu použiť na posúdenie javu ako celku a jeho vzorcov.

Hodnotenie štatistickej významnosti výsledkov štúdie pozostáva z:

1. chyby reprezentatívnosti (chyby priemerných a relatívnych hodnôt) - m;

2. medze spoľahlivosti priemerných alebo relatívnych hodnôt;

3. spoľahlivosť rozdielu medzi priemernými alebo relatívnymi hodnotami podľa kritéria t.

Štandardná chyba aritmetického priemeru alebo chyba reprezentatívnosti charakterizuje kolísanie priemeru. Treba poznamenať, že čím väčšia je veľkosť vzorky, tým menší je rozptyl priemerných hodnôt. Štandardná chyba priemeru sa vypočíta podľa vzorca:

V modernej vedeckej literatúre sa aritmetický priemer píše spolu s chybou reprezentatívnosti:

alebo spolu so štandardnou odchýlkou:

Ako príklad si vezmite údaje pre 1 500 mestských polikliník v krajine (všeobecná populácia). Priemerný počet obsluhovaných pacientov v poliklinike je 18150 osôb. Náhodný výber 10% objektov (150 polikliník) dáva priemerný počet pacientov rovný 20051 ľuďom. Výberová chyba, zjavne súvisiaca s tým, že do vzorky nebolo zahrnutých všetkých 1 500 polikliník, sa rovná rozdielu medzi týmito priemermi – všeobecnému priemeru ( M gén) a priemer vzorky ( M sb). Ak z našej populácie vytvoríme inú vzorku rovnakej veľkosti, poskytne to iné množstvo chýb. Všetky tieto výberové prostriedky s dostatočne veľkými vzorkami sú normálne rozdelené okolo všeobecného priemeru s dostatočne veľkým počtom opakovaní vzorky rovnakého počtu objektov z bežnej populácie. Štandardná chyba priemeru m je nevyhnutné rozšírenie priemeru vzorky okolo všeobecného priemeru.

V prípade, že sú výsledky štúdie reprezentované relatívnymi hodnotami (napríklad percentami), štandardná chyba zdieľania:

kde P je ukazovateľ v %, n je počet pozorovaní.

Výsledok sa zobrazí ako (P ± m) %. Napríklad, percento zotavenia medzi pacientmi bolo (95,2±2,5)%.

Ak počet prvkov v populácii, potom pri výpočte smerodajných chýb priemeru a podielu v menovateli zlomku namiestoje potrebné dať.

Pre normálne rozdelenie (distribúcia priemeru vzorky je normálna) je známe, aká veľká časť populácie spadá do akéhokoľvek intervalu okolo priemeru. Konkrétne:

V praxi je problém v tom, že charakteristiky bežnej populácie sú nám neznáme a vzorka sa robí práve za účelom ich posúdenia. To znamená, že ak odoberieme vzorky rovnakej veľkosti n z bežnej populácie, potom v 68,3 % prípadov bude interval obsahovať hodnotu M(na intervale bude v 95,5 % prípadov a na intervale v 99,7 % prípadov).

Keďže sa v skutočnosti robí len jedna vzorka, toto tvrdenie je formulované z hľadiska pravdepodobnosti: s pravdepodobnosťou 68,3 % je priemerná hodnota atribútu vo všeobecnej populácii obsiahnutá v intervale, s pravdepodobnosťou 95,5 % - v intervale atď.

V praxi je okolo hodnoty vzorky postavený taký interval, ktorý by s danou (dostatočne vysokou) pravdepodobnosťou - pravdepodobnosť spoľahlivosti - by „pokryla“ skutočnú hodnotu tohto parametra v bežnej populácii. Tento interval sa nazýva interval spoľahlivosti.

Pravdepodobnosť spoľahlivostiP je stupeň spoľahlivosti, že interval spoľahlivosti bude skutočne obsahovať skutočnú (neznámu) hodnotu parametra v populácii.

Napríklad, ak úroveň spoľahlivosti R rovný 90 %, to znamená, že 90 vzoriek zo 100 poskytne správny odhad parametra vo všeobecnej populácii. Podľa toho pravdepodobnosť chyby, t.j. nesprávny odhad všeobecného priemeru za vzorku, sa rovná v percentách: . Pre tento príklad to znamená, že 10 vzoriek zo 100 poskytne nesprávny odhad.

Je zrejmé, že stupeň spoľahlivosti (pravdepodobnosti spoľahlivosti) závisí od veľkosti intervalu: čím širší je interval, tým vyššia je spoľahlivosť, že do neho spadne neznáma hodnota pre všeobecnú populáciu. V praxi sa na vytvorenie intervalu spoľahlivosti použije aspoň dvojnásobok vzorkovacej chyby, aby sa zabezpečila aspoň 95,5 % spoľahlivosť.

Stanovenie hraníc spoľahlivosti priemerných a relatívnych hodnôt nám umožňuje nájsť ich dve extrémne hodnoty - minimálnu možnú a maximálnu možnú, v rámci ktorých sa môže skúmaný ukazovateľ vyskytovať v celej bežnej populácii. Na základe toho limity spoľahlivosti (alebo interval spoľahlivosti)- sú to hranice priemerných alebo relatívnych hodnôt, prekročenie ktorých v dôsledku náhodných výkyvov má zanedbateľnú pravdepodobnosť.

Interval spoľahlivosti možno prepísať ako: , kde t je kritériom dôvery.

Hranice spoľahlivosti aritmetického priemeru vo všeobecnej populácii sú určené vzorcom:

M gén = M vyberte + t m M

pre relatívnu hodnotu:

R gén = P vyberte + t m R

kde M gén a R gén- hodnoty priemerných a relatívnych hodnôt pre všeobecnú populáciu; M vyberte a R vyberte- hodnoty priemerných a relatívnych hodnôt získaných v populácii vzorky; m M a m P- chyby priemerných a relatívnych hodnôt; t- kritérium spoľahlivosti (kritérium presnosti, ktoré sa nastavuje pri plánovaní štúdie a môže sa rovnať 2 alebo 3); t m- toto je interval spoľahlivosti alebo Δ - hraničná chyba ukazovateľa získaného vo vzorovej štúdii.

Je potrebné poznamenať, že hodnota kritéria t do určitej miery súvisí s pravdepodobnosťou bezchybnej predpovede (p), vyjadrenou v %. Vyberá si ho samotný výskumník, ktorý sa riadi potrebou získať výsledok s požadovaným stupňom presnosti. Takže pre pravdepodobnosť bezchybnej predpovede 95,5 % je to hodnota kritéria t je 2, pre 99,7 % - 3.

Uvedené odhady intervalu spoľahlivosti sú prijateľné len pre štatistické populácie s viac ako 30 pozorovaniami.Pri menšej veľkosti populácie (malé vzorky) sa na určenie kritéria t používajú špeciálne tabuľky. V týchto tabuľkách je požadovaná hodnota na priesečníku čiary zodpovedajúcej veľkosti populácie (n-1), a stĺpec zodpovedajúci úrovni pravdepodobnosti bezchybnej predpovede (95,5 %; 99,7 %) zvolenej výskumníkom. V lekárskom výskume je pri stanovovaní limitov spoľahlivosti pre akýkoľvek ukazovateľ pravdepodobnosť bezchybnej predpovede 95,5 % alebo viac. To znamená, že hodnota ukazovateľa získaná na výberovej populácii musí byť zistená v bežnej populácii minimálne v 95,5 % prípadov.

    Otázky na tému lekcie:

    Relevantnosť ukazovateľov diverzity vlastnosti v štatistickej populácii.

    Všeobecné charakteristiky absolútnych variačných ukazovateľov.

    Smerodajná odchýlka, výpočet, aplikácia.

    Relatívne ukazovatele variácie.

    Medián, kvartilové skóre.

    Vyhodnotenie štatistickej významnosti výsledkov štúdie.

    Smerodajná chyba aritmetického priemeru, vzorec výpočtu, príklad použitia.

    Výpočet podielu a jeho štandardná chyba.

    Koncept pravdepodobnosti spoľahlivosti, príklad použitia.

10. Pojem interval spoľahlivosti, jeho aplikácia.

    Testovacie úlohy na danú tému so vzorovými odpoveďami:

1. ABSOLÚTNE UKAZOVATELE VARIÁCIE SÚ

1) variačný koeficient

2) koeficient oscilácie

4) medián

2. RELATÍVNE UKAZOVATELE VARIÁCIE SÚ

1) disperzia

4) variačný koeficient

3. KRITÉRIUM URČENÉ EXTRÉMNYMI HODNOTAMI VARIANTU VO VARIATNEJ SÉRII

2) amplitúda

3) disperzia

4) variačný koeficient

4. ROZDIEL V EXTRÉMNEJ MOŽNOSTI JE

2) amplitúda

3) štandardná odchýlka

4) variačný koeficient

5. PRIEMERNÝ ŠTVOREC ODCHÝLOK JEDNOTLIVÝCH VÝZNAMNÝCH HODNOT OD JEHO PRIEMERNEJ HODNOTY JE

1) koeficient oscilácie

2) medián

3) disperzia

6. POMER ROZSAHU VARIÁCIÍ K PRIEMERNEJ HODNOTE FUNKCIE JE

1) variačný koeficient

2) smerodajná odchýlka

4) koeficient oscilácie

7. POMER PRIEMERNEJ Štvorcovej odchýlky K PRIEMERNEJ HODNOTE FUNKCIE JE

1) disperzia

2) variačný koeficient

3) koeficient oscilácie

4) amplitúda

8. VARIANT, KTORÝ JE UPROSTRED SÉRIE VARIÁCIÍ A ROZDEĽUJE HO NA DVE ROVNAKÉ ČASTI, JE

1) medián

3) amplitúda

9. V LEKÁRSKOM VÝSKUME SA PRI STANOVENÍ LIMITOV DÔVERY AKÉHOKOĽVEK INDIKÁTORA PRIJÍMA PRAVDEPODOBNOSŤ BEZCHÝB

10. AK 90 VZORIEK ZO 100 POSKYTUJE SPRÁVNY ODHAD PARAMETRA VO VŠEOBECNEJ OBYVATEĽSTVE, TAK TO ZNAMENÁ, ŽE PRAVDEPODOBNOSŤ SPOLOČNOSTI P ROVNAKÉ

11. V PRÍPADE, AK 10 VZORIEK ZO 100 UVÁDZA NESPRÁVNY ODHAD, PRAVDEPODOBNOSŤ CHYBY JE

12. HRANICE PRIEMERNÝCH ALEBO RELATÍVNYCH HODNôT, JE MILÁ PRAVDEPODOBNOSŤ PREJAŤ LIMITY V dôsledku NÁHODNÝCH KÝMOV - TOTO

1) interval spoľahlivosti

2) amplitúda

4) variačný koeficient

13. ZA MALÚ VZORKU SA POVAŽUJE OBYVATEĽSTVO, V KTORÝCH

1) n je menšie alebo rovné 100

2) n je menšie alebo rovné 30

3) n je menšie alebo rovné 40

4) n je blízko 0

14. PRE PRAVDEPODOBNOSŤ BEZCHYBNEJ PROGNÓZY 95 % HODNOTA KRITÉRIA t SLOŽÍ

15. PRE PRAVDEPODOBNOSŤ BEZCHYBNEJ PROGNÓZY 99 % HODNOTA KRITÉRIA t SLOŽÍ

16. PRE ROZDELENIA BLÍZKE NORMÁLNEMU SA OBYVATEĽSTVO POVAŽUJE ZA HOMOGÉNNE, AK KOEFICIENT VARIANTY NEPREŠAHUJE

17. MOŽNOSŤ ODDELENIA VARIANTY, KTORÉ ČÍSELNÉ HODNOTY NEPRESAHUJÚ 25 % MAXIMÁLNEHO MOŽNÉHO V TOMTO RIADKU JE

2) dolný kvartil

3) horný kvartil

4) kvartil

18. ÚDAJE, KTORÉ NESKRUTAJÚ A SPRÁVNE ODRAZUJÚ OBJEKTÍVNU SKUTOČNOSŤ, SA TZV.

1) nemožné

2) rovnako možné

3) spoľahlivý

4) náhodný

19. PODĽA PRAVIDLA TRI-SIGM, S NORMÁLNYM ROZDELENÍM ZNAKU V RÁMCI
BUDE NÁJDENÝ

1) Možnosť 68,3 %.

Smerodajná odchýlka

Najdokonalejšou charakteristikou variácie je štandardná odchýlka, ĸᴏᴛᴏᴩᴏᴇ sa nazýva štandard (alebo štandardná odchýlka). Smerodajná odchýlka() sa rovná druhej odmocnine stredného štvorca odchýlok hodnôt jednotlivých znakov od aritmetického priemeru:

Štandardná odchýlka je jednoduchá:

Vážená štandardná odchýlka sa použije na zoskupené údaje:

Medzi strednou kvadratickou a strednou lineárnou odchýlkou ​​za podmienok normálneho rozdelenia platí nasledujúci vzťah: ~ 1,25.

Štandardná odchýlka, ktorá je hlavnou absolútnou mierou variácie, sa používa pri určovaní hodnôt ordinát normálnej distribučnej krivky, vo výpočtoch súvisiacich s organizáciou pozorovania vzorky a stanovením presnosti charakteristík vzorky, ako aj pri posúdenie hraníc variácie znaku v homogénnej populácii.

18. Disperzia, jej druhy, smerodajná odchýlka.

Rozptyl náhodnej premennej- miera šírenia danej náhodnej veličiny, teda jej odchýlky od matematického očakávania. V štatistike sa často používa označenie alebo. Druhá odmocnina rozptylu je tzv smerodajná odchýlka, smerodajná odchýlka alebo štandardný spread.

Celkový rozptyl (σ2) meria variáciu vlastnosti v celej populácii pod vplyvom všetkých faktorov, ktoré túto variáciu spôsobili. Zároveň je vďaka metóde zoskupovania možné izolovať a merať odchýlky v dôsledku funkcie zoskupovania a odchýlky, ktoré sa vyskytujú pod vplyvom nezohľadnených faktorov.

Medziskupinový rozptyl (σ 2 m.g) charakterizuje systematickú variáciu, t. j. rozdiely v hodnote študovaného znaku, vznikajúce pod vplyvom znaku – faktora, ktorý je základom zoskupenia.

smerodajná odchýlka(synonymá: smerodajná odchýlka, smerodajná odchýlka, smerodajná odchýlka; súvisiace výrazy: smerodajná odchýlka, štandardný spread) - v teórii a štatistike pravdepodobnosti najbežnejší ukazovateľ rozptylu hodnôt náhodnej premennej vo vzťahu k jej matematickému očakávaniu. Pri obmedzených poliach vzoriek hodnôt sa namiesto matematického očakávania používa aritmetický priemer súboru vzoriek.

Smerodajná odchýlka sa meria v jednotkách samotnej náhodnej premennej a používa sa pri výpočte štandardnej chyby aritmetického priemeru, pri konštrukcii intervalov spoľahlivosti, pri štatistickom testovaní hypotéz a pri meraní lineárneho vzťahu medzi náhodnými premennými. Je definovaná ako druhá odmocnina rozptylu náhodnej premennej.

Štandardná odchýlka:

Smerodajná odchýlka(odhad štandardnej odchýlky náhodnej premennej X v porovnaní s jeho matematickým očakávaním na základe nezaujatého odhadu jeho rozptylu):

kde je disperzia; - i-ty prvok vzorky; - veľkosť vzorky; - aritmetický priemer vzorky:

Treba poznamenať, že oba odhady sú skreslené. Vo všeobecnom prípade nie je možné vytvoriť nezaujatý odhad. Zároveň je konzistentný odhad založený na nezaujatom odhade rozptylu.

19. Podstata, rozsah a postup na určenie režimu a mediánu.

Okrem mocninových priemerov v štatistike sa pre relatívnu charakteristiku veľkosti premenlivého atribútu a vnútornej štruktúry distribučných radov používajú štrukturálne priemery, ktoré sú reprezentované najmä režim a medián.

Móda- Toto je najbežnejší variant série. Móda sa používa napríklad pri určovaní veľkosti oblečenia, obuvi, o ktoré je medzi kupujúcimi najväčší dopyt. Režim pre diskrétnu sériu je variant s najvyššou frekvenciou. Pri výpočte módu pre intervalový variačný rad je mimoriadne dôležité najprv určiť modálny interval (podľa maximálnej frekvencie) a potom hodnotu modálnej hodnoty atribútu podľa vzorca:

§ - módna hodnota

§ - spodná hranica modálneho intervalu

§ - hodnota intervalu

§ - frekvencia modálneho intervalu

§ - frekvencia intervalu pred modálom

§ - frekvencia intervalu nasledujúceho po modálnej

Medián - táto charakteristická hodnota, ĸᴏᴛᴏᴩᴏᴇ leží v základe hodnotenej série a rozdeľuje túto sériu na dve časti s rovnakým počtom.

Na určenie mediánu v diskrétnej sérii pri prítomnosti frekvencií sa najskôr vypočíta polovičný súčet frekvencií a potom sa určí, aká hodnota variantu na ňu pripadá. (Ak zoradený riadok obsahuje nepárny počet prvkov, potom sa stredný počet vypočíta podľa vzorca:

M e \u003d (n (počet prvkov v súhrne) + 1) / 2,

v prípade párneho počtu prvkov sa medián bude rovnať priemeru dvoch prvkov umiestnených v strede série).

Pri výpočte mediánu pre intervalové variačné série najprv určte interval mediánu, v ktorom sa medián nachádza, a potom hodnotu mediánu podľa vzorca:

§ - požadovaný medián

§ - dolná hranica intervalu, ktorý obsahuje medián

§ - hodnota intervalu

§ - súčet frekvencií alebo počet členov série

§ - súčet akumulovaných frekvencií intervalov predchádzajúcich mediánu

§ - frekvencia stredného intervalu

Príklad. Nájdite režim a medián.

rozhodnutie: V tomto príklade je modálny interval vo vekovej skupine 25-30 rokov, pretože tento interval predstavuje najvyššiu frekvenciu (1054).

Vypočítajme hodnotu režimu:

To znamená, že modálny vek študentov je 27 rokov.

Vypočítajme medián. Medián intervalu je vo vekovej skupine 25-30 rokov, keďže v rámci tohto intervalu existuje variant, ktorý rozdeľuje populáciu na dve rovnaké časti (Σf i /2 = 3462/2 = 1731). Ďalej do vzorca dosadíme potrebné číselné údaje a získame hodnotu mediánu:

To znamená, že polovica študentov má menej ako 27,4 rokov a druhá polovica má viac ako 27,4 rokov.

Okrem režimu a mediánu sa používajú ukazovatele, ako sú kvartily, ktoré rozdeľujú zoradené série na 4 rovnaké časti, decily – 10 častí a percentily – na 100 častí.

20. Pojem selektívneho pozorovania a jeho rozsah.

Selektívne pozorovanie platí pri aplikácii nepretržitého pozorovania fyzicky nemožné z dôvodu veľkého množstva dát resp ekonomicky nerealizovateľné. Fyzická nemožnosť sa odohráva napríklad pri štúdiu tokov cestujúcich, trhových cien, rodinných rozpočtov. Ekonomická neúčelnosť nastáva pri posudzovaní kvality tovaru spojeného s jeho zničením, napríklad pri ochutnávaní, skúšaní tehál na pevnosť atď.

Štatistické jednotky vybrané na pozorovanie sú vzorkovací rámec alebo vzorkovanie a celé ich pole - všeobecná populácia(GS). V čom počet jednotiek vo vzorke určiť n a vo všetkých HS - N. Postoj n/n volal relatívna veľkosť alebo vzorový podiel.

Kvalita výsledkov odberu vzoriek závisí od reprezentatívnosť vzorky, teda na tom, ako je to zastúpené v HS. Na zabezpečenie reprezentatívnosti vzorky je nevyhnutné, aby princíp náhodného výberu jednotiek, ktorý predpokladá, že zaradenie jednotky HS do vzorky nemôže ovplyvniť žiadny iný faktor ako náhoda.

Existovať 4 spôsoby náhodného výberu vzorkovať:

  1. Vlastne náhodne výber alebo ʼʼmetóda lotoʼʼ, keď sa k štatistickým hodnotám priraďujú sériové čísla, zadávajú sa na určité predmety (napríklad sudy), ktoré sa potom zmiešajú v určitej nádobe (napríklad vo vreci) a náhodne vyberú. V praxi sa táto metóda vykonáva pomocou generátora náhodných čísel alebo matematických tabuliek náhodných čísel.
  2. Mechanický výber, podľa ktorého každý ( N/n)-tá hodnota bežnej populácie. Ak napríklad obsahuje 100 000 hodnôt a chcete vybrať 1 000, do vzorky bude spadať každá 100 000 / 1 000 = 100. hodnota. Navyše, ak nie sú zoradené, potom sa prvý náhodne vyberie z prvej stovky a čísla ostatných budú o sto viac. Napríklad, ak prvá jednotka bola číslo 19, potom ďalšia by mala byť číslo 119, potom číslo 219, potom číslo 319 atď. Ak sú jednotky všeobecnej populácie zoradené, potom sa najprv vyberie č. 50, potom č. 150, potom č. 250 atď.
  3. Vykoná sa výber hodnôt z heterogénneho dátového poľa stratifikované(stratifikovaná) metóda, kedy je všeobecná populácia predtým rozdelená do homogénnych skupín, na ktoré sa uplatňuje náhodný alebo mechanický výber.
  4. Špeciálna metóda odberu vzoriek je sériový selekcia, pri ktorej sa náhodne alebo mechanicky nevyberajú jednotlivé veličiny, ale ich série (sekvencie od nejakého čísla po nejaké za sebou), v rámci ktorej sa uskutočňuje nepretržité pozorovanie.

Kvalita pozorovaní vzoriek závisí aj od typ odberu vzoriek: opakované alebo neopakovateľné. O opätovný výberštatistické hodnoty alebo ich série, ktoré spadli do vzorky, sa po použití vrátia bežnej populácii a majú šancu dostať sa do novej vzorky. Všetky hodnoty bežnej populácie majú zároveň rovnakú pravdepodobnosť, že budú zahrnuté do vzorky. Neopakujúci sa výber znamená, že štatistické hodnoty alebo ich série zahrnuté vo vzorke sa po použití nevracajú bežnej populácii, a preto sa zvyšuje pravdepodobnosť, že sa dostanú do ďalšej vzorky pre zostávajúce hodnoty.

Neopakované vzorkovanie poskytuje presnejšie výsledky, a preto sa používa častejšie. Sú však situácie, keď sa to nedá použiť (štúdia tokov cestujúcich, dopyt spotrebiteľov atď.) a potom sa vykoná opätovný výber.

21. Limitná výberová chyba pozorovania, stredná výberová chyba, poradie ich výpočtu.

Pozrime sa podrobne na vyššie uvedené metódy tvorby výberovej populácie a na chyby reprezentatívnosti, ktoré v tomto prípade vznikajú. Vlastne-náhodne vzorka je založená na náhodnom výbere jednotiek zo všeobecnej populácie bez akýchkoľvek prvkov konzistentnosti. Technicky sa správny náhodný výber vykonáva žrebovaním (napríklad lotérie) alebo tabuľkou náhodných čísel.

V skutočnosti sa náhodný výber "vo svojej čistej forme" v praxi selektívneho pozorovania používa zriedka, ale je prvým medzi ostatnými typmi výberu, implementuje základné princípy selektívneho pozorovania. Uvažujme o niektorých otázkach teórie metódy výberu vzoriek a chybového vzorca pre jednoduchú náhodnú vzorku.

Chyba pri odbere vzoriek- ϶ᴛᴏ rozdiel medzi hodnotou parametra vo všeobecnej populácii a jeho hodnotou vypočítanou z výsledkov pozorovania vzorky. Je dôležité poznamenať, že pre priemernú kvantitatívnu charakteristiku je výberová chyba určená

Ukazovateľ sa zvyčajne nazýva hraničná výberová chyba. Priemer vzorky je náhodná premenná, ktorá môže nadobúdať rôzne hodnoty v závislosti od toho, ktoré jednotky sú vo vzorke. Preto sú výberové chyby tiež náhodné premenné a môžu nadobudnúť rôzne hodnoty. Z tohto dôvodu sa určí priemer možných chýb - stredná vzorkovacia chyba, ktorá závisí od:

veľkosť vzorky: čím väčšie číslo, tým menšia priemerná chyba;

Stupeň zmeny študovaného znaku: čím menšia je variácia znaku a následne aj rozptyl, tým menšia je priemerná výberová chyba.

O náhodný opätovný výber vypočíta sa stredná chyba. V praxi nie je všeobecný rozptyl presne známy, ale v teórii pravdepodobnosti sa to dokázalo . Keďže hodnota pre dostatočne veľké n je blízka 1, môžeme predpokladať, že . Potom by sa mala vypočítať stredná výberová chyba: . Ale v prípadoch malej vzorky (pre n<30) коэффициент крайне важно учитывать, и среднюю ошибку малой выборки рассчитывать по формуле .

O náhodné vzorkovanie uvedené vzorce sú opravené o hodnotu . Potom je priemerná chyba bez vzorkovania: a . Pretože je vždy menšia ako , potom je faktor () vždy menší ako 1. To znamená, že priemerná chyba pri neopakovanom výbere je vždy menšia ako pri opakovanom výbere. Mechanický odber vzoriek používa sa vtedy, keď je obyvateľstvo nejakým spôsobom zoradené (napríklad zoznamy voličov v abecednom poradí, telefónne čísla, čísla domov, bytov). Výber jednotiek sa vykonáva v určitom intervale, ktorý sa rovná prevrátenej hodnote percenta vzorky. Takže pri 2 % vzorke sa vyberie každých 50 jednotiek = 1 / 0,02, pri 5 % sa vyberie každá 1 / 0,05 = 20 jednotiek všeobecnej populácie.

Počiatok sa vyberá rôznymi spôsobmi: náhodne, od stredu intervalu, so zmenou pôvodu. Hlavnou vecou je vyhnúť sa systematickým chybám. Napríklad pri 5 % vzorke, ak sa ako prvá jednotka vyberie 13., potom ďalších 33, 53, 73 atď.

Z hľadiska presnosti je mechanický výber blízky správnemu náhodnému vzorkovaniu. Z tohto dôvodu sa na určenie priemernej chyby mechanického odberu vzoriek používajú vzorce správneho náhodného výberu.

O typický výber skúmaná populácia je predbežne rozdelená do homogénnych, jednotypových skupín. Napríklad pri zisťovaní podnikov ide o sektory, pododvetvia, pri skúmaní obyvateľstva ide o oblasti, sociálne či vekové skupiny. Ďalej sa uskutoční nezávislý výber z každej skupiny mechanickým alebo náhodným spôsobom.

Typický odber vzoriek poskytuje presnejšie výsledky ako iné metódy. Typifikácia všeobecnej populácie zabezpečuje zastúpenie každej typologickej skupiny vo vzorke, čo umožňuje vylúčiť vplyv medziskupinového rozptylu na priemernú výberovú chybu. Preto pri hľadaní chyby typickej vzorky podľa pravidla sčítania rozptylov () je mimoriadne dôležité brať do úvahy iba priemer skupinových rozptylov. Potom priemerná vzorkovacia chyba: s opakovaným výberom , s neopakujúcim sa výberom , kde je priemer vnútroskupinových rozptylov vo vzorke.

Sériový (alebo vnorený) výber používa sa, keď je populácia rozdelená do sérií alebo skupín pred začiatkom výberového zisťovania. Tieto série sú balíčky hotových výrobkov, študentské skupiny, tímy. Série na vyšetrenie sa vyberajú mechanicky alebo náhodne av rámci série sa vykonáva kompletný prieskum jednotiek. Z tohto dôvodu priemerná výberová chyba závisí iba od medziskupinového (medzisériového) rozptylu, ktorý sa vypočíta podľa vzorca: kde r je počet vybraných sérií; je priemer i-tej série. Vypočíta sa priemerná sériová vzorkovacia chyba: s opätovným výberom , s neopakovaným výberom , kde R je celkový počet sérií. Kombinované výber je kombináciou uvažovaných metód výberu.

Priemerná výberová chyba pre ktorúkoľvek metódu výberu závisí hlavne od absolútnej veľkosti vzorky a v menšej miere od percenta vzorky. Predpokladajme, že 225 pozorovaní sa uskutoční v prvom prípade z populácie 4 500 jednotiek a v druhom prípade z 225 000 jednotiek. Odchýlky v oboch prípadoch sa rovnajú 25. Potom, v prvom prípade, pri 5% výbere, bude výberová chyba: V druhom prípade sa pri výbere 0,1 % bude rovnať:

Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, s 50-násobným poklesom percenta vzorkovania sa vzorková chyba mierne zvýšila, pretože veľkosť vzorky sa nezmenila. Predpokladajme, že veľkosť vzorky sa zväčší na 625 pozorovaní. V tomto prípade je vzorkovacia chyba: Nárast vzorky o 2,8-násobok pri rovnakej veľkosti všeobecnej populácie znižuje veľkosť výberovej chyby viac ako 1,6-krát.

22.Metódy a spôsoby tvorby výberovej populácie.

V štatistike sa používajú rôzne metódy tvorby súborov vzoriek, čo je určené cieľmi štúdie a závisí od špecifík predmetu štúdia.

Hlavnou podmienkou vykonania výberového zisťovania je zamedzenie vzniku systematických chýb vyplývajúcich z porušenia princípu rovnosti príležitostí vstupu každej jednotky bežnej populácie do výberového súboru. Predchádzanie systematickým chybám je dosiahnuté použitím vedecky podložených metód na vytvorenie vzorky populácie.

Existujú nasledujúce spôsoby výberu jednotiek z bežnej populácie: 1) individuálny výber - vo vzorke sa vyberajú jednotlivé jednotky; 2) skupinový výber – do vzorky spadajú kvalitatívne homogénne skupiny alebo série skúmaných jednotiek; 3) kombinovaný výber je kombináciou individuálneho a skupinového výberu. Spôsoby výberu sú určené pravidlami pre tvorbu výberovej populácie.

Vzorka musí byť:

  • správna náhoda spočíva v tom, že vzorka vzniká ako výsledok náhodného (neúmyselného) výberu jednotlivých jednotiek z bežnej populácie. V tomto prípade sa počet jednotiek vybraných v súbore vzoriek zvyčajne určuje na základe akceptovaného podielu vzorky. Podiel vzorky je pomer počtu jednotiek vo výberovej populácii n k počtu jednotiek vo všeobecnej populácii N, ᴛ.ᴇ.
  • mechanický spočíva v tom, že výber jednotiek vo vzorke sa robí zo všeobecnej populácie, rozdelenej do rovnakých intervalov (skupín). V tomto prípade sa veľkosť intervalu vo všeobecnej populácii rovná recipročnej hodnote podielu vzorky. Takže pri 2% vzorke sa vyberie každá 50. jednotka (1:0,02), pri 5% vzorke každá 20. jednotka (1:0,05) atď. Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, v súlade s akceptovaným podielom selekcie je všeobecná populácia akoby mechanicky rozdelená na rovnaké skupiny. Z každej skupiny vo vzorke je vybratá len jedna jednotka.
  • typické - v ktorých sa všeobecná populácia najskôr rozdelí na homogénne typické skupiny. Ďalej, z každej typickej skupiny sa uskutoční individuálny výber jednotiek do vzorky náhodnou alebo mechanickou vzorkou. Dôležitou vlastnosťou typickej vzorky je, že poskytuje presnejšie výsledky v porovnaní s inými metódami výberu jednotiek vo vzorke;
  • sériový- v ktorých je všeobecná populácia rozdelená do rovnako veľkých skupín - rad. Séria sa vyberá vo vzorovom súbore. V rámci série sa vykonáva nepretržité pozorovanie jednotiek, ktoré spadajú do série;
  • kombinované- vzorka by mala byť dvojstupňová. V tomto prípade je všeobecná populácia najskôr rozdelená do skupín. Ďalej sa vyberú skupiny a v rámci nich sa vyberú jednotlivé jednotky.

V štatistike sa rozlišujú tieto metódy výberu jednotiek vo vzorke:

  • jednostupňový vzorka - každá vybraná jednotka je okamžite podrobená štúdiu na danom základe (v skutočnosti náhodné a sériové vzorky);
  • viacstupňový odber vzoriek - výber sa uskutočňuje zo všeobecnej populácie jednotlivých skupín a zo skupín sa vyberajú jednotlivé jednotky (typická vzorka s mechanickou metódou výberu jednotiek v populácii vzorky).

Okrem toho rozlišujte:

  • opätovný výber- podľa schémy vrátenej lopty. Zároveň sa každá jednotka alebo séria, ktorá spadla do vzorky, vráti do všeobecnej populácie, a preto má šancu byť opäť zaradená do vzorky;
  • neopakovateľný výber- podľa schémy nevrátenej lopty. Má presnejšie výsledky pre rovnakú veľkosť vzorky.

23. Stanovenie kritickej veľkosti vzorky (použitie Študentovej tabuľky).

Jedným z vedeckých princípov v teórii vzorkovania je zabezpečiť výber dostatočného počtu jednotiek. Teoreticky je extrémny význam dodržiavania tohto princípu prezentovaný v dôkazoch limitných teorémov teórie pravdepodobnosti, ktoré umožňujú stanoviť, koľko jednotiek by sa malo vybrať zo všeobecnej populácie, aby to bolo dostatočné a zabezpečilo reprezentatívnosť vzorky.

Zníženie smerodajnej chyby vzorky, a teda zvýšenie presnosti odhadu, je vždy spojené s nárastom veľkosti vzorky, v súvislosti s tým je už v štádiu organizovania pozorovania vzorky potrebné rozhodnúť, aká by mala byť veľkosť vzorky, aby sa zabezpečila požadovaná presnosť výsledkov pozorovania. Výpočet mimoriadne dôležitej veľkosti vzorky je zostavený pomocou vzorcov odvodených zo vzorcov pre hraničné výberové chyby (A), ktoré zodpovedajú jednému alebo druhému typu a metóde výberu. Takže pre náhodnú opakovanú veľkosť vzorky (n) máme:

Podstatou tohto vzorca je, že pri náhodnom opätovnom výbere mimoriadne dôležitého čísla je veľkosť vzorky priamo úmerná druhej mocnine koeficientu spoľahlivosti. (t2) a rozptyl variačného znaku (~2) a je nepriamo úmerný druhej mocnine medznej výberovej chyby (~2). Predovšetkým, keď sa medzná chyba zdvojnásobí, požadovaná veľkosť vzorky sa musí znížiť štvornásobne. Z troch parametrov dva (t a?) nastavuje výskumník. V rovnakej dobe, výskumník, na základe cieľa

a ciele výberového prieskumu by mali rozhodnúť o otázke: v akej kvantitatívnej kombinácii je lepšie zahrnúť tieto parametre, aby sa poskytla najlepšia možnosť? V jednom prípade môže byť spokojnejší so spoľahlivosťou získaných výsledkov (t) ako s mierou presnosti (?), v druhom naopak. Ťažšie je vyriešiť otázku hodnoty hraničnej výberovej chyby, keďže výskumník tento ukazovateľ v štádiu návrhu výberového pozorovania nemá, v súvislosti s tým je v praxi zvykom hraničná výberová chyba nastaviť , spravidla do 10 % očakávanej priemernej úrovne vlastnosti . K stanoveniu predpokladanej priemernej úrovne možno pristupovať rôznymi spôsobmi: použitím údajov z podobných predchádzajúcich prieskumov alebo použitím údajov z rámca vzorkovania a odberom malej pilotnej vzorky.

Najťažšie na stanovenie pri navrhovaní pozorovania vzorky je tretí parameter vo vzorci (5.2) – rozptyl populácie vzorky. V tomto prípade je nevyhnutné využiť všetky informácie dostupné vyšetrovateľovi z predchádzajúcich podobných a pilotných prieskumov.

Otázka určenia mimoriadne dôležitej veľkosti vzorky sa stáva zložitejšou, ak výberové zisťovanie zahŕňa štúdium viacerých znakov výberových jednotiek. V tomto prípade sú priemerné úrovne každej z charakteristík a ich variácie spravidla odlišné a v tomto ohľade je možné rozhodnúť, ktorému rozptylu ktorej z charakteristík uprednostniť len s prihliadnutím na účel a ciele prieskumu.

Pri navrhovaní výberového pozorovania sa predpokladá vopred stanovená hodnota prípustnej výberovej chyby v súlade s cieľmi konkrétnej štúdie a pravdepodobnosťou záverov na základe výsledkov pozorovania.

Vo všeobecnosti vám vzorec pre hraničnú chybu priemernej hodnoty vzorky umožňuje určiť:

‣‣‣ veľkosť možných odchýlok ukazovateľov všeobecnej populácie od ukazovateľov vzorky populácie;

‣‣‣ potrebnú veľkosť vzorky, poskytujúcu požadovanú presnosť, v ktorej hranice možnej chyby nepresiahnu určitú špecifikovanú hodnotu;

‣‣‣ pravdepodobnosť, že chyba vo vzorke bude mať daný limit.

Študentská distribúcia v teórii pravdepodobnosti je to jednoparametrová rodina absolútne spojitých rozdelení.

24. Rad dynamiky (interval, moment), uzavretie radu dynamiky.

Séria dynamiky- sú to hodnoty štatistických ukazovateľov, ktoré sú prezentované v určitej chronologickej postupnosti.

Každý časový rad obsahuje dve zložky:

1) ukazovatele časového obdobia(roky, štvrťroky, mesiace, dni alebo dátumy);

2) ukazovatele charakterizujúce skúmaný objekt za časové obdobia alebo k zodpovedajúcim dátumom, ktoré sú tzv úrovne čísla.

Úrovne série sú vyjadrené ako absolútne, ako aj priemerné alebo relatívne hodnoty. Vzhľadom na závislosť od povahy ukazovateľov sa vytvárajú dynamické série absolútnych, relatívnych a priemerných hodnôt. Dynamické rady relatívnych a priemerných hodnôt sú postavené na základe derivačných radov absolútnych hodnôt. Existujú intervalové a momentové série dynamiky.

Dynamický intervalový rad obsahuje hodnoty ukazovateľov za určité časové obdobia. V intervalových radoch možno hladiny sčítať, čím sa získa objem javu za dlhšie obdobie, alebo takzvané akumulované súčty.

Dynamické momentové série odráža hodnoty ukazovateľov v určitom časovom okamihu (dátum času). V momentových radoch môže výskumníka zaujímať iba rozdiel javov, odrážajúci zmenu úrovne radu medzi určitými dátumami, keďže súčet úrovní tu nemá skutočný obsah. Tu sa nepočítajú kumulatívne súčty.

Najdôležitejšou podmienkou pre správnu konštrukciu časových radov je porovnateľnosť na úrovni série týkajúce sa rôznych období. Úrovne by mali byť prezentované v homogénnych množstvách, mala by existovať rovnaká úplnosť pokrytia rôznych častí javu.

Aby sa predišlo skresleniu skutočnej dynamiky, v štatistickej štúdii (uzávierka časového radu) sa vykonávajú predbežné výpočty, ktoré predchádzajú štatistickej analýze časového radu. Pod uzatváranie radov dynamiky je zvykom chápať spojenie do jedného radu dvoch alebo viacerých riadkov, ktorých úrovne sú vypočítané podľa inej metodiky alebo nezodpovedajú územným hraniciam atď. Uzavretie série dynamiky môže tiež znamenať redukciu absolútnych úrovní série dynamiky na spoločný základ, čím sa eliminuje nekompatibilita úrovní série dynamiky.

25. Koncept porovnateľnosti radov dynamiky, koeficientov, rastu a tempa rastu.

Séria dynamiky- sú to série štatistických ukazovateľov charakterizujúcich vývoj prírodných a spoločenských javov v čase. Štatistické zbierky vydané Štátnym štatistickým výborom Ruska obsahujú veľké množstvo časových radov v tabuľkovej forme. Séria dynamiky umožňuje odhaliť zákonitosti vývoja skúmaných javov.

Časové rady obsahujú dva typy ukazovateľov. Časové ukazovatele(roky, štvrťroky, mesiace atď.) alebo časové body (na začiatku roka, na začiatku každého mesiaca atď.). Indikátory úrovne riadkov. Ukazovatele úrovní časových radov sú vyjadrené v absolútnych hodnotách (výroba v tonách alebo rubľoch), relatívnych hodnotách (podiel mestského obyvateľstva v %) a priemerných hodnotách (priemerné mzdy pracovníkov v priemysle podľa rokov atď. .). V tabuľkovej forme obsahuje časový rad dva stĺpce alebo dva riadky.

Správna konštrukcia časových radov zahŕňa splnenie niekoľkých požiadaviek:

  1. všetky ukazovatele série dynamiky musia byť vedecky podložené, spoľahlivé;
  2. ukazovatele série dynamiky by mali byť porovnateľné v čase, ᴛ.ᴇ. musia byť vypočítané pre rovnaké časové obdobia alebo v rovnakých dátumoch;
  3. ukazovatele množstva dynamiky by mali byť porovnateľné na celom území;
  4. ukazovatele série dynamiky by mali byť obsahovo porovnateľné, ᴛ.ᴇ. vypočítané podľa jednotnej metodiky rovnakým spôsobom;
  5. ukazovatele série dynamiky by mali byť porovnateľné v rámci celého radu uvažovaných fariem. Všetky ukazovatele série dynamiky by sa mali uvádzať v rovnakých meracích jednotkách.

Štatistické ukazovatele môžu charakterizovať buď výsledky skúmaného procesu za určité časové obdobie, alebo stav skúmaného javu v určitom časovom bode, ᴛ.ᴇ. indikátory sú intervalové (periodické) a okamžité. V súlade s tým sú spočiatku série dynamiky buď intervalové alebo momentové. Momentové série dynamiky zasa prichádzajú s rovnakými a nerovnakými časovými intervalmi.

Počiatočná séria dynamiky sa prevedie na sériu priemerných hodnôt a sériu relatívnych hodnôt (reťazec a základňa). Takéto časové rady sa nazývajú odvodené časové rady.

Spôsob výpočtu priemernej úrovne v rade dynamiky je odlišný, vzhľadom na typ série dynamiky. Pomocou príkladov zvážte typy časových radov a vzorce na výpočet priemernej úrovne.

Absolútne zisky (Δy) ukazujú, o koľko jednotiek sa zmenila následná úroveň série v porovnaní s predchádzajúcou (stĺpec 3. - reťazové absolútne prírastky) alebo v porovnaní s počiatočnou úrovňou (stĺpec 4. - základné absolútne prírastky). Výpočtové vzorce možno zapísať takto:

S poklesom absolútnych hodnôt série dôjde k „zníženiu“, „poklesu“, resp.

Absolútne miery rastu naznačujú, že napríklad v roku 1998 ᴦ. výroba produktu „A“ sa v porovnaní s rokom 1997 zvýšila ᴦ. o 4 tisíc ton av porovnaní s rokom 1994 ᴦ. - o 34 tisíc ton; pre ostatné roky, pozri tabuľku. 11,5 g.
Hostené na ref.rf
3 a 4.

Rastový faktor ukazuje, koľkokrát sa úroveň série zmenila v porovnaní s predchádzajúcou (stĺpec 5 - reťazcové faktory rastu alebo poklesu) alebo v porovnaní s počiatočnou úrovňou (stĺpec 6 - základné faktory rastu alebo poklesu). Výpočtové vzorce možno zapísať takto:

Miery rastu ukazujú, o koľko percent je ďalšia úroveň série v porovnaní s predchádzajúcou (stĺpec 7 - reťazcové miery rastu) alebo v porovnaní s počiatočnou úrovňou (stĺpec 8 - základné miery rastu). Výpočtové vzorce možno zapísať takto:

Takže napríklad v roku 1997 ᴦ. objem výroby produktu „A“ v porovnaní s rokom 1996 ᴦ. dosiahol 105,5 % (

Tempo rastu ukazujú, o koľko percent sa úroveň vykazovaného obdobia zvýšila v porovnaní s predchádzajúcim (stĺpec 9 - reťazcové miery rastu) alebo v porovnaní s počiatočnou úrovňou (stĺpec 10 - základné miery rastu). Výpočtové vzorce možno zapísať takto:

T pr \u003d Tp - 100 % alebo T pr \u003d absolútny nárast / úroveň predchádzajúceho obdobia * 100 %

Takže napríklad v roku 1996 ᴦ. v porovnaní s rokom 1995 ᴦ. produkt "A" bol vyrobený viac o 3,8% (103,8% - 100%) alebo (8:210)x100% a v porovnaní s rokom 1994 ᴦ. - o 9 % (109 % - 100 %).

Ak sa absolútne úrovne v rade znížia, potom bude miera nižšia ako 100 % a podľa toho bude miera poklesu (miera rastu so znamienkom mínus).

Absolútna hodnota nárastu o 1 %.(gr.
Hostené na ref.rf
11) ukazuje, koľko jednotiek je potrebné vyrobiť v danom období, aby sa úroveň predchádzajúceho obdobia zvýšila o 1 %. V našom príklade v roku 1995 ᴦ. bolo potrebné vyrobiť 2,0 tisíc ton av roku 1998 ᴦ. - 2,3 tisíc ton, ᴛ.ᴇ. oveľa väčší.

Existujú dva spôsoby, ako určiť veľkosť absolútnej hodnoty 1% rastu:

§ úroveň predchádzajúceho obdobia vydelená 100;

§ absolútne reťazové prírastky vydelené zodpovedajúcimi mierami rastu reťazca.

Absolútna hodnota 1% nárastu =

V dynamike, najmä počas dlhého obdobia, je dôležité spoločne analyzovať tempo rastu s obsahom každého percentuálneho nárastu alebo poklesu.

Upozorňujeme, že uvažovaná metodika analýzy časových radov je použiteľná pre časové rady, ktorých úrovne sú vyjadrené v absolútnych hodnotách (t, tisíc rubľov, počet zamestnancov atď.), ako aj pre časové rady úrovne ktoré sú vyjadrené v relatívnych ukazovateľoch (% šrotu, % obsahu popola uhlia atď.) alebo priemernými hodnotami (priemerná úroda v c/ha, priemerná mzda atď.).

Spolu s uvažovanými analytickými ukazovateľmi vypočítanými pre každý rok v porovnaní s predchádzajúcou alebo počiatočnou úrovňou je pri analýze časových radov mimoriadne dôležité vypočítať priemerné analytické ukazovatele za obdobie: priemerná úroveň radu, priemerný ročný absolútny nárast (pokles) a priemernú ročnú mieru rastu a mieru rastu .

Metódy na výpočet priemernej úrovne série dynamiky boli diskutované vyššie. V intervalovom rade dynamiky, ktorý uvažujeme, sa priemerná úroveň radu vypočíta podľa vzorca jednoduchého aritmetického priemeru:

Priemerná ročná produkcia produktu za roky 1994-1998. predstavoval 218,4 tisíc ton.

Priemerný ročný absolútny prírastok sa tiež vypočíta podľa vzorca aritmetického priemeru

Smerodajná odchýlka - pojem a typy. Klasifikácia a vlastnosti kategórie "Štandardná odchýlka" 2017, 2018.

Múdri matematici a štatistici prišli so spoľahlivejším ukazovateľom, aj keď s trochu iným účelom - stredná lineárna odchýlka. Tento ukazovateľ charakterizuje mieru rozšírenia hodnôt súboru údajov okolo ich priemernej hodnoty.

Aby ste ukázali mieru šírenia údajov, musíte najprv určiť, k čomu sa bude toto samotné rozšírenie považovať za relatívne - zvyčajne je to priemerná hodnota. Ďalej musíte vypočítať, ako ďaleko sú hodnoty analyzovaného súboru údajov ďaleko od priemeru. Je jasné, že každá hodnota zodpovedá určitej odchýlke, ale zaujíma nás aj všeobecný odhad pokrývajúci celú populáciu. Preto sa priemerná odchýlka vypočíta pomocou vzorca zvyčajného aritmetického priemeru. Ale! Aby sme však mohli vypočítať priemer odchýlok, musia sa najprv spočítať. A ak spočítame kladné a záporné čísla, navzájom sa vyrušia a ich súčet bude mať tendenciu k nule. Aby sa tomu zabránilo, všetky odchýlky sa berú modulo, to znamená, že všetky záporné čísla sa stanú kladnými. Teraz bude priemerná odchýlka ukazovať všeobecnú mieru rozptylu hodnôt. V dôsledku toho sa priemerná lineárna odchýlka vypočíta podľa vzorca:

a je priemerná lineárna odchýlka,

X- analyzovaný ukazovateľ s pomlčkou navrchu - priemerná hodnota ukazovateľa,

n je počet hodnôt v analyzovanom súbore údajov,

operátor sumácie, dúfam, nikoho nevystraší.

Priemerná lineárna odchýlka vypočítaná pomocou špecifikovaného vzorca odráža priemernú absolútnu odchýlku od priemernej hodnoty pre túto populáciu.

Červená čiara na obrázku je priemerná hodnota. Odchýlky každého pozorovania od priemeru sú označené malými šípkami. Sú vzaté modulo a sčítané. Potom sa všetko vydelí počtom hodnôt.

Aby bol obraz úplný, treba uviesť ešte jeden príklad. Povedzme, že existuje spoločnosť, ktorá vyrába odrezky na lopaty. Každý odrezok by mal byť dlhý 1,5 metra, ale čo je dôležitejšie, všetky by mali byť rovnaké, alebo aspoň plus mínus 5 cm, nedbalí pracovníci však odrežú 1,2 m, potom 1,8 m. Riaditeľ spoločnosti sa rozhodol vykonať štatistickú analýzu dĺžky odrezkov. Vybral som 10 kusov a zmeral ich dĺžku, našiel priemer a vypočítal priemernú lineárnu odchýlku. Priemer vyšiel tak akurát - 1,5 m. Ale priemerná lineárna odchýlka bola 0,16 m. Takže sa ukazuje, že každý rez je dlhší alebo kratší ako je potrebné v priemere o 16 cm. Je o čom hovoriť s robotníkmi. V skutočnosti som nevidel reálne využitie tohto indikátora, tak som si vymyslel príklad sám. V štatistikách však takýto ukazovateľ existuje.

Disperzia

Rovnako ako priemerná lineárna odchýlka, rozptyl tiež odráža rozsah, v akom sa údaje šíria okolo priemeru.

Vzorec na výpočet rozptylu vyzerá takto:

(pre variačné série (vážený rozptyl))

(pre nezoskupené údaje (jednoduchý rozptyl))

Kde: σ 2 - disperzia, Xi– analyzujeme ukazovateľ sq (hodnota vlastnosti), – priemernú hodnotu ukazovateľa, f i – počet hodnôt v analyzovanom súbore údajov.

Rozptyl je stredná druhá mocnina odchýlok.

Najprv sa vypočíta priemer, potom sa vezme rozdiel medzi každou základnou líniou a priemerom, umocní sa na druhú, vynásobí sa frekvenciou zodpovedajúcej hodnoty funkcie, pridá sa a potom sa vydelí počtom hodnôt v populácii.

Vo svojej čistej forme, ako je napríklad aritmetický priemer alebo index, sa však disperzia nepoužíva. Je to skôr pomocný a prechodný ukazovateľ, ktorý sa používa pre iné typy štatistických analýz.

Zjednodušený spôsob výpočtu rozptylu

smerodajná odchýlka

Na použitie rozptylu na analýzu údajov sa z neho vyberie druhá odmocnina. Ukazuje sa tzv smerodajná odchýlka.

Mimochodom, štandardná odchýlka sa tiež nazýva sigma - z gréckeho písmena, ktoré ju označuje.

Smerodajná odchýlka samozrejme charakterizuje aj mieru rozptylu údajov, no teraz ju (na rozdiel od rozptylu) možno porovnať s pôvodnými údajmi. Stredné štvorcové ukazovatele v štatistike spravidla poskytujú presnejšie výsledky ako lineárne. Preto je štandardná odchýlka presnejšou mierou rozptylu údajov ako priemerná lineárna odchýlka.

X i - náhodné (aktuálne) hodnoty;

X priemerná hodnota náhodných premenných vo vzorke sa vypočíta podľa vzorca:

takže, rozptyl je stredná druhá mocnina odchýlok . To znamená, že najprv sa vypočíta priemerná hodnota a potom sa vezme rozdiel medzi každou pôvodnou a strednou hodnotou, na druhú , sa pridá a potom vydelí počtom hodnôt v danej populácii.

Rozdiel medzi jednotlivou hodnotou a priemerom odráža mieru odchýlky. Umocňuje sa, aby sa zabezpečilo, že všetky odchýlky sa stanú výlučne kladnými číslami a aby sa zabránilo vzájomnému zrušeniu kladných a záporných odchýlok pri ich sčítaní. Potom, vzhľadom na druhú mocninu odchýlok, jednoducho vypočítame aritmetický priemer.

Kľúč k magickému slovu „rozptyl“ spočíva práve v týchto troch slovách: priemer – štvorec – odchýlky.

štandardná odchýlka (RMS)

Ak vezmeme druhú odmocninu disperzie, dostaneme tzv. štandardná odchýlka“. Sú tam mená "štandardná odchýlka" alebo "sigma" (z názvu gréckeho písmena σ .). Vzorec pre štandardnú odchýlku je:

takže, rozptyl je sigma na druhú alebo - štvorec štandardnej odchýlky.

Smerodajná odchýlka, samozrejme, tiež charakterizuje mieru rozptylu údajov, ale teraz (na rozdiel od rozptylu) ju možno porovnať s pôvodnými údajmi, pretože majú rovnaké merné jednotky (to je zrejmé z výpočtového vzorca). Rozsah variácie je rozdiel medzi extrémnymi hodnotami. Smerodajná odchýlka ako miera neistoty je tiež súčasťou mnohých štatistických výpočtov. S jeho pomocou sa stanovuje stupeň presnosti rôznych odhadov a predpovedí. Ak je odchýlka veľmi veľká, potom bude veľká aj smerodajná odchýlka, preto bude predpoveď nepresná, čo sa prejaví napríklad vo veľmi širokých intervaloch spoľahlivosti.

Preto sa v metódach štatistického spracovania údajov pri oceňovaní nehnuteľností v závislosti od požadovanej presnosti úlohy používa pravidlo dvoch alebo troch sigm.

Na porovnanie pravidla dvoch sigma a pravidla troch sigma používame Laplaceov vzorec:

F – F,

kde Ф(x) je Laplaceova funkcia;



Minimálna hodnota

β = maximálna hodnota

s = hodnota sigma (štandardná odchýlka)

a = stredná hodnota

V tomto prípade sa používa konkrétna forma Laplaceovho vzorca, keď hranice α a β hodnôt náhodnej premennej X sú rovnako vzdialené od distribučného centra a = M(X) o nejakú hodnotu d: a = a-d , b = a+d. Alebo (1) Vzorec (1) určuje pravdepodobnosť danej odchýlky d náhodnej premennej X so zákonom normálneho rozdelenia od jej matematického očakávania М(X) = a. Ak vo vzorci (1) vezmeme postupne d = 2s a d = 3s, potom dostaneme: (2), (3).

Pravidlo dvoch sigma

Takmer spoľahlivo (s pravdepodobnosťou spoľahlivosti 0,954) možno tvrdiť, že všetky hodnoty náhodnej premennej X so zákonom normálneho rozdelenia sa odchyľujú od jej matematického očakávania M(X) = a o hodnotu nie väčšiu ako 2 s (dva štandardy odchýlky). Pravdepodobnosť spoľahlivosti (Pd) je pravdepodobnosť udalostí, ktoré sú podmienečne akceptované ako spoľahlivé (ich pravdepodobnosť je blízka 1).

Znázornime pravidlo dvoch sigma geometricky. Na obr. 6 je znázornená Gaussova krivka s distribučným stredom a. Plocha ohraničená celou krivkou a osou Ox je 1 (100 %) a plocha krivočiareho lichobežníka medzi úsečkami a–2s a a+2s podľa pravidla dvoch sigma je 0,954 (95,4 % z celkovej plochy). Plocha zatienených plôch sa rovná 1-0,954 = 0,046 (>5 % celkovej plochy). Tieto úseky sa nazývajú kritický rozsah náhodnej premennej. Hodnoty náhodnej premennej, ktoré spadajú do kritickej oblasti, sú nepravdepodobné a v praxi sa podmienečne považujú za nemožné.

Pravdepodobnosť podmienene nemožných hodnôt sa nazýva hladina významnosti náhodnej premennej. Úroveň významnosti súvisí s úrovňou spoľahlivosti podľa vzorca:

kde q je hladina významnosti vyjadrená v percentách.

Pravidlo troch sigma

Pri riešení problémov vyžadujúcich väčšiu spoľahlivosť, keď sa pravdepodobnosť spoľahlivosti (Pd) berie 0,997 (presnejšie 0,9973), sa namiesto pravidla dvoch sigma podľa vzorca (3) použije pravidlo tri sigma.



Podľa pravidlo troch sigma s úrovňou spoľahlivosti 0,9973 bude kritickou oblasťou oblasť hodnôt atribútov mimo intervalu (a-3s, a+3s). Hladina významnosti je 0,27 %.

Inými slovami, pravdepodobnosť, že absolútna hodnota odchýlky prekročí trojnásobok štandardnej odchýlky, je veľmi malá, konkrétne 0,0027=1-0,9973. To znamená, že len v 0,27 % prípadov sa to môže stať. Takéto udalosti, založené na princípe nemožnosti nepravdepodobných udalostí, možno považovať za prakticky nemožné. Tie. vysoká presnosť vzorkovania.

Toto je podstata pravidla troch sigma:

Ak je náhodná premenná normálne rozdelená, potom absolútna hodnota jej odchýlky od matematického očakávania nepresiahne trojnásobok štandardnej odchýlky (RMS).

V praxi sa pravidlo troch sigma uplatňuje nasledovne: ak rozdelenie skúmanej náhodnej premennej nie je známe, ale podmienka špecifikovaná vo vyššie uvedenom pravidle je splnená, potom existuje dôvod predpokladať, že študovaná premenná je rozdelená normálne; inak nie je normálne distribuovaný.

Úroveň významnosti sa berie v závislosti od povoleného stupňa rizika a úlohy. Pri oceňovaní nehnuteľností sa zvyčajne odoberá menej presná vzorka podľa pravidla dvoch sigma.



Podobné články