Hodnota štandardnej odchýlky. Smerodajná odchýlka

17.10.2019

Hodnoty získané zo skúseností nevyhnutne obsahujú chyby z rôznych dôvodov. Medzi nimi je potrebné rozlišovať medzi systematickými a náhodnými chybami. Systematické chyby sú spôsobené dôvodmi, ktoré pôsobia veľmi špecifickým spôsobom a vždy sa dajú celkom presne odstrániť alebo zohľadniť. Náhodné chyby sú spôsobené veľmi veľkým počtom individuálnych príčin, ktoré nie je možné presne vysvetliť a pôsobia rôznymi spôsobmi pri každom jednotlivom meraní. Tieto chyby nemožno úplne vylúčiť; možno ich brať do úvahy len priemerne, na čo je potrebné poznať zákony, ktorými sa riadia náhodné chyby.

Meranú veličinu označíme A, náhodnú chybu merania x. Keďže chyba x môže nadobudnúť akúkoľvek hodnotu, ide o spojitú náhodnú premennú, ktorá je plne charakterizovaná svojim distribučným zákonom.

Najjednoduchší a najpresnejšie odrážajúci realitu (v drvivej väčšine prípadov) je tzv zákon normálneho rozdelenia chýb:

Tento distribučný zákon možno získať z rôznych teoretických predpokladov, najmä z požiadavky, že najpravdepodobnejšou hodnotou neznámej veličiny, pre ktorú sa priamym meraním získa rad hodnôt s rovnakým stupňom presnosti, je aritmetický priemer tieto hodnoty. Množstvo 2 sa nazýva disperzia tohto normálneho zákona.

Priemerná

Stanovenie disperzie z experimentálnych údajov. Ak sa pre akúkoľvek hodnotu A získa n hodnôt a i priamym meraním s rovnakým stupňom presnosti a ak chyby hodnoty A podliehajú zákonu normálneho rozdelenia, potom najpravdepodobnejšia hodnota A bude priemer:

a - aritmetický priemer,

a i - nameraná hodnota v i-tom kroku.

Odchýlka pozorovanej hodnoty (pre každé pozorovanie) a i hodnoty A od aritmetický priemer: a i - a.

Na určenie rozptylu zákona o normálnom rozdelení chýb v tomto prípade použite vzorec:

2 - disperzia,
a - aritmetický priemer,
n - počet meraní parametrov,

Smerodajná odchýlka

Smerodajná odchýlka ukazuje absolútnu odchýlku nameraných hodnôt od aritmetický priemer. V súlade so vzorcom na meranie presnosti lineárnej kombinácie stredná kvadratická chyba Aritmetický priemer je určený vzorcom:

, Kde


a - aritmetický priemer,
n - počet meraní parametrov,
a i - nameraná hodnota v i-tom kroku.

Variačný koeficient

Variačný koeficient charakterizuje relatívnu mieru odchýlky nameraných hodnôt od aritmetický priemer:

, Kde

V - variačný koeficient,
- štandardná odchýlka,
a - aritmetický priemer.

Čím vyššia je hodnota koeficient variácie, tým je relatívne väčší rozptyl a menšia uniformita študovaných hodnôt. Ak variačný koeficient menej ako 10 %, potom sa variabilita radu variácií považuje za nevýznamnú, 10 % až 20 % sa považuje za priemernú, viac ako 20 % a menej ako 33 % sa považuje za významnú a ak variačný koeficient presahuje 33 %, svedčí to o heterogenite informácií a potrebe vylúčiť najväčšie a najmenšie hodnoty.

Priemerná lineárna odchýlka

Jedným z ukazovateľov rozsahu a intenzity variácie je priemerná lineárna odchýlka(modul priemernej odchýlky) od aritmetického priemeru. Priemerná lineárna odchýlka vypočítané podľa vzorca:

, Kde

_
a - priemerná lineárna odchýlka,
a - aritmetický priemer,
n - počet meraní parametrov,
a i - nameraná hodnota v i-tom kroku.

Na kontrolu súladu študovaných hodnôt so zákonom normálneho rozdelenia sa používa vzťah indikátor asymetrie na jeho chybu a postoj indikátor špičatosti na jeho chybu.

Indikátor asymetrie

Indikátor asymetrie(A) a jeho chyba (m a) sa vypočíta podľa týchto vzorcov:

, Kde

A - indikátor asymetrie,
- štandardná odchýlka,
a - aritmetický priemer,
n - počet meraní parametrov,
a i - nameraná hodnota v i-tom kroku.

Indikátor Kurtózy

Indikátor Kurtózy(E) a jeho chyba (m e) sa vypočíta pomocou týchto vzorcov:

, Kde

Podľa výberového prieskumu boli vkladatelia zoskupení podľa veľkosti ich vkladu v mestskej Sberbank:

Definuj:

1) rozsah zmeny;

2) priemerná veľkosť vkladu;

3) priemerná lineárna odchýlka;

4) disperzia;

5) štandardná odchýlka;

6) variačný koeficient príspevkov.

Riešenie:

Tento distribučný rad obsahuje otvorené intervaly. V takýchto sériách sa bežne predpokladá, že hodnota intervalu prvej skupiny sa rovná hodnote intervalu ďalšej skupiny a hodnota intervalu poslednej skupiny sa rovná hodnote intervalu predchádzajúci.

Hodnota intervalu druhej skupiny je rovná 200, teda hodnota prvej skupiny je tiež rovná 200. Hodnota intervalu predposlednej skupiny je rovná 200, čo znamená, že aj posledný interval bude majú hodnotu 200.

1) Definujme rozsah variácie ako rozdiel medzi najväčšou a najmenšou hodnotou atribútu:

Rozsah variácií veľkosti vkladu je 1 000 rubľov.

2) Priemerná výška príspevku sa určí pomocou vzorca váženého aritmetického priemeru.

Najprv určme diskrétnu hodnotu atribútu v každom intervale. Aby sme to dosiahli, pomocou jednoduchého vzorca aritmetického priemeru nájdeme stredy intervalov.

Priemerná hodnota prvého intervalu bude:

druhý - 500 atď.

Výsledky výpočtu zapíšeme do tabuľky:

Výška vkladu, rub.Počet vkladateľov, fStred intervalu, xxf
200-400 32 300 9600
400-600 56 500 28000
600-800 120 700 84000
800-1000 104 900 93600
1000-1200 88 1100 96800
Celkom 400 - 312000

Priemerný vklad v mestskej Sberbank bude 780 rubľov:

3) Priemerná lineárna odchýlka je aritmetický priemer absolútnych odchýlok jednotlivých hodnôt charakteristiky od celkového priemeru:

Postup výpočtu priemernej lineárnej odchýlky v rade intervalového rozdelenia je nasledujúci:

1. Vážený aritmetický priemer sa vypočíta tak, ako je uvedené v odseku 2).

2. Zisťujú sa absolútne odchýlky od priemeru:

3. Výsledné odchýlky sa vynásobia frekvenciami:

4. Nájdite súčet vážených odchýlok bez zohľadnenia znamienka:

5. Súčet vážených odchýlok sa vydelí súčtom frekvencií:

Je vhodné použiť tabuľku údajov výpočtu:

Výška vkladu, rub.Počet vkladateľov, fStred intervalu, x
200-400 32 300 -480 480 15360
400-600 56 500 -280 280 15680
600-800 120 700 -80 80 9600
800-1000 104 900 120 120 12480
1000-1200 88 1100 320 320 28160
Celkom 400 - - - 81280

Priemerná lineárna odchýlka veľkosti vkladu klientov Sberbank je 203,2 rubľov.

4) Disperzia je aritmetický priemer druhej mocniny odchýlok každej hodnoty atribútu od aritmetického priemeru.

Výpočet rozptylu v intervaloch distribučných radov sa vykonáva pomocou vzorca:

Postup na výpočet rozptylu je v tomto prípade nasledujúci:

1. Určite vážený aritmetický priemer, ako je uvedené v odseku 2).

2. Nájdite odchýlky od priemeru:

3. Druhá mocnina odchýlky každej možnosti od priemeru:

4. Vynásobte druhé mocniny odchýlok váhami (frekvenciami):

5. Zhrňte výsledné produkty:

6. Výsledná suma sa vydelí súčtom váh (frekvencií):

Uveďme výpočty do tabuľky:

Výška vkladu, rub.Počet vkladateľov, fStred intervalu, x
200-400 32 300 -480 230400 7372800
400-600 56 500 -280 78400 4390400
600-800 120 700 -80 6400 768000
800-1000 104 900 120 14400 1497600
1000-1200 88 1100 320 102400 9011200
Celkom 400 - - - 23040000

V tomto článku budem hovoriť o ako nájsť smerodajnú odchýlku. Tento materiál je mimoriadne dôležitý pre úplné pochopenie matematiky, takže učiteľ matematiky by mal venovať jeho štúdiu samostatnú alebo dokonca niekoľko hodín. V tomto článku nájdete odkaz na podrobný a zrozumiteľný video návod, ktorý vysvetľuje, čo je štandardná odchýlka a ako ju nájsť.

Smerodajná odchýlka umožňuje vyhodnotiť rozptyl hodnôt získaných meraním určitého parametra. Označené symbolom (grécke písmeno "sigma").

Vzorec na výpočet je pomerne jednoduchý. Ak chcete nájsť štandardnú odchýlku, musíte vziať druhú odmocninu z rozptylu. Takže teraz sa musíte opýtať: "Čo je rozptyl?"

Čo je rozptyl

Definícia rozptylu vyzerá takto. Disperzia je aritmetický priemer druhej mocniny odchýlok hodnôt od priemeru.

Ak chcete nájsť odchýlku, vykonajte nasledujúce výpočty postupne:

  • Určte priemer (jednoduchý aritmetický priemer radu hodnôt).
  • Potom odpočítajte priemer od každej hodnoty a odmocnite výsledný rozdiel (dostanete štvorcový rozdiel).
  • Ďalším krokom je výpočet aritmetického priemeru výsledných štvorcových rozdielov (prečo presne štvorce nájdete nižšie).

Pozrime sa na príklad. Povedzme, že sa vy a vaši priatelia rozhodnete zmerať výšku svojich psov (v milimetroch). Ako výsledok meraní ste dostali nasledujúce miery výšky (v kohútiku): 600 mm, 470 mm, 170 mm, 430 mm a 300 mm.

Vypočítajme priemer, rozptyl a smerodajnú odchýlku.

Najprv zistime priemernú hodnotu. Ako už viete, na tento účel musíte sčítať všetky namerané hodnoty a rozdeliť ich počtom meraní. Priebeh výpočtu:

Priemer mm.

Priemer (aritmetický priemer) je teda 394 mm.

Teraz musíme určiť odchýlka výšky každého psa od priemeru:

nakoniec na výpočet rozptylu, odmocníme každý z výsledných rozdielov a potom nájdeme aritmetický priemer získaných výsledkov:

Rozptyl mm2.

Disperzia je teda 21704 mm2.

Ako nájsť smerodajnú odchýlku

Ako teda môžeme teraz vypočítať štandardnú odchýlku, keď poznáme rozptyl? Ako si pamätáme, vezmite z toho druhú odmocninu. To znamená, že štandardná odchýlka sa rovná:

Mm (zaokrúhlené na najbližšie celé číslo v mm).

Pomocou tejto metódy sme zistili, že niektorí psi (napríklad rotvajleri) sú veľmi veľké psy. Existujú však aj veľmi malí psi (napríklad jazvečíky, ale nemali by ste im to povedať).

Najzaujímavejšie je, že smerodajná odchýlka nesie užitočné informácie. Teraz môžeme ukázať, ktoré zo získaných výsledkov merania výšky sú v intervale, ktorý dostaneme, ak vynesieme smerodajnú odchýlku od priemeru (na obe jeho strany).

To znamená, že pomocou štandardnej odchýlky získame „štandardnú“ metódu, ktorá nám umožňuje zistiť, ktorá z hodnôt je normálna (štatistický priemer) a ktorá je mimoriadne veľká alebo naopak malá.

Čo je štandardná odchýlka

Ale... všetko bude trochu iné, ak to rozoberieme vzorkaúdajov. V našom príklade sme uvažovali všeobecná populácia. To znamená, že našich 5 psov boli jediné psy na svete, ktoré nás zaujímali.

Ak sú však údaje vzorkou (hodnoty vybrané z veľkej populácie), výpočty je potrebné vykonať inak.

Ak existujú hodnoty, potom:

Všetky ostatné výpočty sa vykonávajú podobne, vrátane určenia priemeru.

Napríklad, ak je našich päť psov len vzorkou populácie psov (všetkých psov na planéte), musíme ich rozdeliť 4, nie 5, menovite:

Ukážkový rozptyl = mm 2.

V tomto prípade sa štandardná odchýlka vzorky rovná mm (zaokrúhlené na najbližšie celé číslo).

Dá sa povedať, že sme urobili „opravu“ v prípade, že naše hodnoty sú len malou vzorkou.

Poznámka. Prečo presne štvorcové rozdiely?

Prečo však pri výpočte rozptylu berieme presne druhú mocninu rozdielov? Povedzme, že pri meraní nejakého parametra ste dostali nasledujúcu sadu hodnôt: 4; 4; -4; -4. Ak jednoducho spočítame absolútne odchýlky od priemeru (rozdiely)... záporné hodnoty sa vyrušia s kladnými:

.

Ukazuje sa, že táto možnosť je zbytočná. Potom možno stojí za to vyskúšať absolútne hodnoty odchýlok (to znamená moduly týchto hodnôt)?

Na prvý pohľad to dopadne dobre (výsledná hodnota sa mimochodom nazýva stredná absolútna odchýlka), ale nie vo všetkých prípadoch. Skúsme iný príklad. Nech výsledok merania bude v nasledujúcom súbore hodnôt: 7; 1; -6; -2. Potom je priemerná absolútna odchýlka:

Wow! Opäť sme dostali výsledok 4, aj keď rozdiely majú oveľa väčší rozptyl.

Teraz sa pozrime, čo sa stane, ak odmocníme rozdiely (a potom vezmeme druhú odmocninu ich súčtu).

Pre prvý príklad to bude:

.

Pre druhý príklad to bude:

Teraz je to úplne iná vec! Čím väčší je rozptyl rozdielov, tým väčšia je štandardná odchýlka... o čo sme sa snažili.

V skutočnosti táto metóda využíva rovnakú myšlienku ako pri výpočte vzdialenosti medzi bodmi, len sa aplikuje iným spôsobom.

A z matematického hľadiska poskytuje používanie druhých mocnín a odmocnín viac výhod, ako by sme mohli získať z hodnôt absolútnych odchýlok, vďaka čomu je štandardná odchýlka použiteľná aj na iné matematické problémy.

Sergey Valerievich vám povedal, ako nájsť štandardnú odchýlku

Lekcia č.4

Téma: „Popisná štatistika. Indikátory diverzity vlastností v súhrne"

Hlavné kritériá pre diverzitu charakteristiky v štatistickej populácii sú: limit, amplitúda, štandardná odchýlka, koeficient oscilácie a koeficient variácie. V predchádzajúcej lekcii sa diskutovalo o tom, že priemerné hodnoty poskytujú iba zovšeobecnenú charakteristiku charakteristiky študovanej v súhrne a nezohľadňujú hodnoty jej jednotlivých variantov: minimálne a maximálne hodnoty, nadpriemerné, nižšie priemer atď.

Príklad. Priemerné hodnoty dvoch rôznych číselných radov: -100; -20; 100; 20 a 0,1; -0,2; 0,1 sú úplne rovnaké a rovnakéO.Avšak rozsahy rozptylu týchto relatívnych stredných sekvenčných údajov sú veľmi odlišné.

Určenie uvedených kritérií pre diverzitu ukazovateľa sa primárne vykonáva s prihliadnutím na jeho hodnotu v jednotlivých prvkoch štatistického súboru.

Indikátory na meranie variácie vlastnosti sú absolútne A príbuzný. Medzi absolútne ukazovatele variácie patria: rozsah variácie, limit, štandardná odchýlka, rozptyl. Koeficient variácie a koeficient oscilácie sa vzťahujú na relatívne miery variácie.

Limit (lim) – Toto je kritérium, ktoré je určené extrémnymi hodnotami variantu v sérii variácií. Inými slovami, toto kritérium je obmedzené minimálnymi a maximálnymi hodnotami atribútu:

amplitúda (am) alebo rozsah variácií - Toto je rozdiel medzi extrémnymi možnosťami. Výpočet tohto kritéria sa vykonáva odpočítaním jeho minimálnej hodnoty od maximálnej hodnoty atribútu, čo nám umožňuje odhadnúť stupeň rozptylu možnosti:

Nevýhodou limitu a amplitúdy ako kritérií variability je, že úplne závisia od extrémnych hodnôt charakteristiky v rade variácií. V tomto prípade sa nezohľadňujú kolísanie hodnôt atribútov v rámci série.

Najúplnejší popis diverzity vlastnosti v štatistickej populácii poskytuje smerodajná odchýlka(sigma), čo je všeobecná miera odchýlky opcie od jej priemernej hodnoty. Štandardná odchýlka sa často nazýva smerodajná odchýlka.

Smerodajná odchýlka je založená na porovnaní každej možnosti s aritmetickým priemerom danej populácie. Keďže v súhrne bude vždy možností aj menej aj viac ako je, súčet odchýlok so znamienkom "" bude zrušený súčtom odchýlok so znamienkom "", t.j. súčet všetkých odchýlok je nula. Aby sa predišlo vplyvu znamienok rozdielov, berú sa odchýlky od štvorca aritmetického priemeru, t.j. . Súčet štvorcových odchýlok sa nerovná nule. Ak chcete získať koeficient, ktorý dokáže merať variabilitu, zoberte priemer súčtu štvorcov – táto hodnota sa nazýva odchýlky:

Disperzia je v podstate priemerný štvorec odchýlok jednotlivých hodnôt charakteristiky od jej priemernej hodnoty. Disperzia štvorec štandardnej odchýlky.

Rozptyl je rozmerová veličina (pomenovaná). Ak sú teda varianty číselného radu vyjadrené v metroch, potom rozptyl udáva metre štvorcové; ak sú možnosti vyjadrené v kilogramoch, potom rozptyl udáva druhú mocninu tejto miery (kg 2) atď.

Smerodajná odchýlka– druhá odmocnina rozptylu:

, potom pri výpočte rozptylu a smerodajnej odchýlky v menovateli zlomku namiestotreba dať.

Výpočet štandardnej odchýlky možno rozdeliť do šiestich etáp, ktoré sa musia vykonať v určitom poradí:

Aplikácia štandardnej odchýlky:

a) na posudzovanie variability variačných radov a porovnávacie posúdenie typickosti (reprezentatívnosti) aritmetických priemerov. To je nevyhnutné v diferenciálnej diagnostike pri určovaní stability symptómov.

b) rekonštruovať variačný rad, t.j. obnovenie jeho frekvenčnej odozvy na základe tri sigma pravidlá. V intervale (М±3σ) 99,7 % všetkých variantov série sa nachádza v intervale (М±2σ) - 95,5 % a v rozsahu (М±1σ) - 68,3 % variant riadkov(obr. 1).

c) na identifikáciu „vyskakovacích“ možností

d) určiť parametre normy a patológie pomocou sigma odhadov

e) na výpočet variačného koeficientu

f) na výpočet priemernej chyby aritmetického priemeru.

Charakterizovať akúkoľvek populáciu, ktorá mátyp normálneho rozdelenia , stačí poznať dva parametre: aritmetický priemer a smerodajnú odchýlku.

Obrázok 1. Pravidlo Three Sigma

Príklad.

V pediatrii sa štandardná odchýlka používa na hodnotenie fyzického vývoja detí porovnaním údajov konkrétneho dieťaťa s príslušnými štandardnými ukazovateľmi. Ako štandard sa berie aritmetický priemer telesného vývoja zdravých detí. Porovnanie ukazovateľov s normami sa vykonáva pomocou špeciálnych tabuliek, v ktorých sú uvedené normy spolu s ich zodpovedajúcimi sigma stupnicami. Predpokladá sa, že ak je ukazovateľ fyzického vývoja dieťaťa v rámci normy (aritmetický priemer) ±σ, potom fyzický vývoj dieťaťa (podľa tohto ukazovateľa) zodpovedá norme. Ak je indikátor v rámci normy ±2σ, potom existuje mierna odchýlka od normy. Ak ukazovateľ prekročí tieto hranice, potom sa fyzický vývoj dieťaťa výrazne líši od normy (patológia je možná).

Okrem variačných ukazovateľov vyjadrených v absolútnych hodnotách štatistický výskum používa variačné ukazovatele vyjadrené v relatívnych hodnotách. Oscilačný koeficient - je to pomer rozsahu variácie k priemernej hodnote vlastnosti. Variačný koeficient - je to pomer smerodajnej odchýlky k priemernej hodnote charakteristiky. Tieto hodnoty sú zvyčajne vyjadrené v percentách.

Vzorce na výpočet ukazovateľov relatívnej variácie:

Z vyššie uvedených vzorcov je zrejmé, že čím väčší koeficient V je bližšie k nule, tým menšia je odchýlka v hodnotách charakteristiky. Viac V, čím je znamienko variabilnejšie.

V štatistickej praxi sa najčastejšie používa variačný koeficient. Používa sa nielen na porovnávacie hodnotenie variácií, ale aj na charakterizáciu homogenity populácie. Populácia sa považuje za homogénnu, ak variačný koeficient nepresahuje 33 % (pre rozdelenia blízke normálu). Aritmeticky pomer σ a aritmetického priemeru neutralizuje vplyv absolútnej hodnoty týchto charakteristík a percentuálny pomer robí z variačného koeficientu bezrozmernú (nepomenovanú) hodnotu.

Výsledná hodnota variačného koeficientu sa odhaduje v súlade s približnými gradáciami stupňa diverzity znaku:

Slabé – do 10 %

Priemer – 10 – 20 %

Silný - viac ako 20%

Použitie variačného koeficientu sa odporúča v prípadoch, keď je potrebné porovnať charakteristiky, ktoré sa líšia veľkosťou a rozmermi.

Rozdiel medzi variačným koeficientom a inými rozptylovými kritériami je jasne demonštrovaný príklad.

stôl 1

Zloženie pracovníkov priemyselného podniku

Na základe štatistických charakteristík uvedených v príklade môžeme vyvodiť záver o relatívnej homogenite vekového zloženia a vzdelanostnej úrovne zamestnancov podniku vzhľadom na nízku odbornú stabilitu skúmaného kontingentu. Je ľahké vidieť, že pokus posúdiť tieto sociálne trendy podľa štandardnej odchýlky by viedol k chybnému záveru a pokus porovnať účtovné charakteristiky „pracovná prax“ a „vek“ s účtovným ukazovateľom „vzdelanie“ by bol vo všeobecnosti nesprávne z dôvodu heterogenity týchto charakteristík.

Medián a percentily

Pre ordinálne (poradové) rozdelenia, kde je kritériom pre stred radu medián, štandardná odchýlka a rozptyl nemôžu slúžiť ako charakteristiky rozptylu variantu.

To isté platí pre otvorené série variácií. Táto okolnosť je spôsobená skutočnosťou, že odchýlky, z ktorých sa počíta rozptyl a σ, sú merané z aritmetického priemeru, ktorý sa nepočíta v otvorených variačných radoch a v radoch rozdelenia kvalitatívnych charakteristík. Preto sa pre komprimovaný popis distribúcií používa ďalší parameter rozptylu - kvantil(synonymum - „percentil“), vhodné na popis kvalitatívnych a kvantitatívnych charakteristík v akejkoľvek forme ich distribúcie. Tento parameter možno použiť aj na premenu kvantitatívnych charakteristík na kvalitatívne. V tomto prípade sa takéto hodnotenia prideľujú v závislosti od poradia kvantilu, ktorému konkrétna možnosť zodpovedá.

V praxi biomedicínskeho výskumu sa najčastejšie používajú tieto kvantily:

– medián;

, – kvartily (štvrtiny), kde – dolný kvartil, horný kvartil.

Kvantily rozdeľujú oblasť možných zmien v sérii variácií do určitých intervalov. Medián (kvantil) je možnosť, ktorá je v strede série variácií a rozdeľuje túto sériu na polovicu na dve rovnaké časti ( 0,5 A 0,5 ). Kvartil rozdeľuje sériu na štyri časti: prvá časť (dolný kvartil) je možnosť, ktorá oddeľuje možnosti, ktorých číselné hodnoty nepresahujú 25 % maximálneho možného množstva v danej sérii; kvartil oddeľuje možnosti s číselnou hodnotou až 50 % maximálneho možného. Horný kvartil () oddeľuje možnosti až do 75 % maximálnych možných hodnôt.

V prípade asymetrického rozdelenia premenná vzhľadom na aritmetický priemer, na jej charakterizáciu sa používa medián a kvartily. V tomto prípade sa používa nasledujúca forma zobrazenia priemernej hodnoty - Meh (;). Napríklad, skúmaný znak – „obdobie, v ktorom dieťa začalo samostatne chodiť“ – má v študijnej skupine asymetrickú distribúciu. Zároveň dolný kvartil () zodpovedá začiatku chôdze - 9,5 mesiaca, medián - 11 mesiacov, horný kvartil () - 12 mesiacov. V súlade s tým bude charakteristika priemerného trendu špecifikovaného atribútu prezentovaná ako 11 (9,5; 12) mesiacov.

Posúdenie štatistickej významnosti výsledkov štúdie

Štatistickou významnosťou údajov sa rozumie miera, do akej zodpovedajú zobrazenej skutočnosti, t.j. štatisticky významné údaje sú tie, ktoré neskresľujú a správne odrážajú objektívnu realitu.

Posúdenie štatistickej významnosti výsledkov výskumu znamená určenie, s akou pravdepodobnosťou je možné preniesť výsledky získané z výberovej populácie na celú populáciu. Posúdenie štatistickej významnosti je potrebné na pochopenie toho, do akej miery sa dá jav použiť na posúdenie javu ako celku a jeho vzorcov.

Hodnotenie štatistickej významnosti výsledkov výskumu pozostáva z:

1. chyby reprezentatívnosti (chyby priemerných a relatívnych hodnôt) - m;

2. medze spoľahlivosti priemerných alebo relatívnych hodnôt;

3. spoľahlivosť rozdielu v priemerných alebo relatívnych hodnotách podľa kritéria t.

Štandardná chyba aritmetického priemeru alebo chyba reprezentatívnosti charakterizuje kolísanie priemeru. Je potrebné poznamenať, že čím väčšia je veľkosť vzorky, tým menší je rozptyl priemerných hodnôt. Štandardná chyba priemeru sa vypočíta podľa vzorca:

V modernej vedeckej literatúre sa aritmetický priemer píše spolu s chybou reprezentatívnosti:

alebo spolu so štandardnou odchýlkou:

Ako príklad si vezmite údaje o 1 500 mestských klinikách v krajine (všeobecná populácia). Priemerný počet obsluhovaných pacientov v ambulancii je 18 150 osôb. Náhodný výber 10 % miest (150 ambulancií) dáva priemerný počet pacientov rovný 20 051 ľuďom. Výberová chyba, zrejme kvôli tomu, že do vzorky nebolo zahrnutých všetkých 1500 kliník, sa rovná rozdielu medzi týmito priemermi – všeobecnému priemeru ( M gén) a priemer vzorky ( M vybraný). Ak z našej populácie vytvoríme inú vzorku rovnakej veľkosti, dostane inú chybovú hodnotu. Všetky tieto výberové prostriedky s dostatočne veľkými vzorkami sú rozdelené normálne okolo všeobecného priemeru s dostatočne veľkým počtom opakovaní vzorky rovnakého počtu objektov z bežnej populácie. Štandardná chyba priemeru m- toto je nevyhnutné rozšírenie priemeru vzorky okolo všeobecného priemeru.

V prípade, že sú výsledky výskumu prezentované v relatívnych množstvách (napríklad v percentách) - vypočítané štandardná chyba zlomku:

kde P je ukazovateľ v %, n je počet pozorovaní.

Výsledok sa zobrazí ako (P ± m) %. Napríklad, percento zotavenia medzi pacientmi bolo (95,2±2,5)%.

V prípade, že počet prvkov obyv, potom pri výpočte smerodajných chýb priemeru a zlomku v menovateli zlomku namiestotreba dať.

Pre normálne rozdelenie (distribúcia priemerov vzorky je normálne) vieme, aká časť populácie spadá do akéhokoľvek intervalu okolo priemeru. Konkrétne:

V praxi je problém, že charakteristiky bežnej populácie sú nám neznáme a vzorka sa robí práve za účelom ich odhadu. To znamená, že ak urobíme vzorky rovnakej veľkosti n z bežnej populácie, potom v 68,3 % prípadov bude interval obsahovať hodnotu M(v 95,5 % prípadov bude na intervale a v 99,7 % prípadov – na intervale).

Keďže sa v skutočnosti odoberá iba jedna vzorka, toto tvrdenie je formulované z hľadiska pravdepodobnosti: s pravdepodobnosťou 68,3 % leží priemerná hodnota atribútu v populácii v intervale, s pravdepodobnosťou 95,5 % - v intervale atď.

V praxi sa okolo hodnoty vzorky vytvorí interval tak, že s danou (dostatočne vysokou) pravdepodobnosťou, pravdepodobnosť spoľahlivosti - by „pokryla“ skutočnú hodnotu tohto parametra v bežnej populácii. Tento interval sa nazýva interval spoľahlivosti.

Pravdepodobnosť spoľahlivostiP toto je miera spoľahlivosti, že interval spoľahlivosti bude skutočne obsahovať skutočnú (neznámu) hodnotu parametra v populácii.

Napríklad, ak pravdepodobnosť spoľahlivosti R je 90 %, to znamená, že 90 vzoriek zo 100 poskytne správny odhad parametra v populácii. Podľa toho pravdepodobnosť chyby, t.j. nesprávny odhad všeobecného priemeru za vzorku sa rovná v percentách: . Pre tento príklad to znamená, že 10 vzoriek zo 100 poskytne nesprávny odhad.

Je zrejmé, že stupeň spoľahlivosti (pravdepodobnosti spoľahlivosti) závisí od veľkosti intervalu: čím širší je interval, tým vyššia je spoľahlivosť, že do neho spadne neznáma hodnota pre populáciu. V praxi sa na vytvorenie intervalu spoľahlivosti používa aspoň dvojnásobok vzorkovacej chyby, aby sa zabezpečila aspoň 95,5 % spoľahlivosť.

Stanovenie hraníc spoľahlivosti priemerov a relatívnych hodnôt nám umožňuje nájsť ich dve extrémne hodnoty - minimálnu možnú a maximálnu možnú, v rámci ktorých sa študovaný ukazovateľ môže vyskytovať v celej populácii. Na základe toho limity spoľahlivosti (alebo interval spoľahlivosti)- sú to hranice priemerných alebo relatívnych hodnôt, za ktorými je v dôsledku náhodných výkyvov nevýznamná pravdepodobnosť.

Interval spoľahlivosti možno prepísať ako: , kde t– kritérium dôvery.

Hranice spoľahlivosti aritmetického priemeru v populácii sú určené vzorcom:

M gén = M vyberte + t m M

pre relatívnu hodnotu:

R gén = P vyberte + t m R

Kde M gén A R gén- hodnoty priemerných a relatívnych hodnôt pre všeobecnú populáciu; M vyberte A R vyberte- hodnoty priemerných a relatívnych hodnôt získaných zo vzorky populácie; m M A m P- chyby priemerných a relatívnych hodnôt; t- kritérium spoľahlivosti (kritérium presnosti, ktoré sa stanovuje pri plánovaní štúdie a môže sa rovnať 2 alebo 3); t m- je to interval spoľahlivosti alebo Δ - maximálna chyba ukazovateľa získaná vo vzorovej štúdii.

Je potrebné poznamenať, že hodnota kritéria t do určitej miery súvisí s pravdepodobnosťou bezchybnej predpovede (p), vyjadrenou v %. Vyberá si ho samotný výskumník, ktorý sa riadi potrebou získať výsledok s požadovaným stupňom presnosti. Pre pravdepodobnosť bezchybnej predpovede 95,5 % je teda hodnota kritéria t je 2, pre 99,7 % - 3.

Dané odhady intervalu spoľahlivosti sú prijateľné len pre štatistické populácie s viac ako 30 pozorovaniami.Pri menšej veľkosti populácie (malé vzorky) sa na určenie t kritéria používajú špeciálne tabuľky. V týchto tabuľkách sa požadovaná hodnota nachádza na priesečníku čiary zodpovedajúcej veľkosti populácie (n-1), a stĺpec zodpovedajúci úrovni pravdepodobnosti bezchybnej predpovede (95,5 %; 99,7 %) zvolenej výskumníkom. V lekárskom výskume je pri stanovovaní limitov spoľahlivosti pre akýkoľvek ukazovateľ pravdepodobnosť bezchybnej predpovede 95,5 % alebo viac. To znamená, že hodnota ukazovateľa získaná z výberovej populácie musí byť zistená v bežnej populácii minimálne v 95,5 % prípadov.

    Otázky na tému lekcie:

    Relevantnosť ukazovateľov diverzity znakov v štatistickej populácii.

    Všeobecné charakteristiky absolútnych variačných ukazovateľov.

    Smerodajná odchýlka, výpočet, aplikácia.

    Relatívne miery variácie.

    Medián, kvartilové skóre.

    Hodnotenie štatistickej významnosti výsledkov štúdie.

    Smerodajná chyba aritmetického priemeru, vzorec výpočtu, príklad použitia.

    Výpočet podielu a jeho štandardnej chyby.

    Koncept pravdepodobnosti spoľahlivosti, príklad použitia.

10. Pojem intervalu spoľahlivosti, jeho aplikácia.

    Testovacie úlohy na danú tému so štandardnými odpoveďami:

1. ABSOLÚTNE UKAZOVATELE VARIÁCIE TÝKAJÚCE SA

1) variačný koeficient

2) koeficient oscilácie

4) medián

2. RELATÍVNE UKAZOVATELE VARIÁCIE SÚVISIACE

1) disperzia

4) variačný koeficient

3. KRITÉRIUM, KTORÉ JE URČENÉ EXTRÉMNYMI HODNOTAMI MOŽNOSTI V SÉRII VARIÁCIÍ

2) amplitúda

3) disperzia

4) variačný koeficient

4. ROZDIEL EXTRÉMNYCH MOŽNOSTÍ JE

2) amplitúda

3) štandardná odchýlka

4) variačný koeficient

5. PRIEMERNÝ ŠTVOREC ODCHÝLOK JEDNOTLIVÝCH HODNOT CHARAKTERISTIKY OD JEJ PRIEMERNÝCH HODNOT JE

1) koeficient oscilácie

2) medián

3) disperzia

6. POMER STUPNE VARIACIÍ K PRIEMERNEJ HODNOTE ZNAKU JE

1) variačný koeficient

2) smerodajná odchýlka

4) koeficient oscilácie

7. POMER PRIEMERNEJ ŠTVOTNEJ ODCHYLKY K PRIEMERNEJ HODNOTE CHARAKTERISTIKY JE

1) disperzia

2) variačný koeficient

3) koeficient oscilácie

4) amplitúda

8. MOŽNOSŤ, KTORÁ JE UPROSTRED SÉRIE VARIÁCIÍ A ROZDEĽUJE HO NA DVE ROVNAKÉ ČASTI, JE

1) medián

3) amplitúda

9. V LEKÁRSKOM VÝSKUME SA PRI STANOVENÍ LIMITOV DÔVERY PRE AKÝKOĽVEK INDIKÁTOR PRIJÍMA PRAVDEPODOBNOSŤ BEZCHÝB

10. AK 90 VZORIEK ZO 100 POSKYTUJE SPRÁVNY ODHAD PARAMETRA V OBYVATEĽSTVE, ZNAMENÁ TO, ŽE PRAVDEPODOBNOSŤ DÔVERY P ROVNAKÉ

11. AK 10 VZORIEK ZO 100 UVÁDZA NESPRÁVNY ODHAD, PRAVDEPODOBNOSŤ CHYBY JE ROVNANÁ

12. HRANICE PRIEMERNÝCH ALEBO RELATÍVNYCH HODNOT, ZA KTORÉ MÁ Z DÔVODU NÁHODNÝCH KMITOV NEVÝZNAMNÚ PRAVDEPODOBNOSŤ – TOTO JE

1) interval spoľahlivosti

2) amplitúda

4) variačný koeficient

13. ZA MALÚ VZORKU SA POVAŽUJE OBYVATEĽSTVO, V KTORÝCH

1) n je menšie alebo rovné 100

2) n je menšie alebo rovné 30

3) n je menšie alebo rovné 40

4) n je blízko 0

14. PRE PRAVDEPODOBNOSŤ BEZCHYBNEJ PROGNÓZY 95 % HODNOTA KRITÉRIA t JE

15. PRE PRAVDEPODOBNOSŤ BEZCHYBNEJ PROGNÓZY 99 % HODNOTA KRITÉRIA t JE

16. PRE ROZDELENIA BLÍZKE NORMÁLNEMU SA OBYVATEĽSTVO POVAŽUJE ZA HOMOGÉNNE, AK KOEFICIENT VARIANTY NEPREŠAHUJE

17. MOŽNOSŤ, ODDELENIE MOŽNOSTÍ, KTORÝCH ČÍSELNÉ HODNOTY NEPRESAHUJÚ 25% MAXIMÁLNEHO MOŽNÉHO V DANEJ SÉRII – TOTO JE

2) dolný kvartil

3) horný kvartil

4) kvartil

18. ÚDAJE, KTORÉ NESKRUTAJÚ A SPRÁVNE ODRAZUJÚ OBJEKTÍVNU SKUTOČNOSŤ, SA TZV.

1) nemožné

2) rovnako možné

3) spoľahlivý

4) náhodný

19. PODĽA PRAVIDLA „TRI SIGMA“, S NORMÁLNYM ROZDELENÍM CHARAKTERISTIKY V RÁMCI
BUDE NÁJDENÝ

1) Možnosť 68,3 %.

Pri štatistickom testovaní hypotéz, pri meraní lineárneho vzťahu medzi náhodnými premennými.

Štandardná odchýlka:

Smerodajná odchýlka(odhad smerodajnej odchýlky náhodnej premennej Podlaha, steny okolo nás a strop, X v porovnaní s jeho matematickým očakávaním na základe nezaujatého odhadu jeho rozptylu):

kde je disperzia; - Podlaha, steny okolo nás a strop, i prvok výberu; - veľkosť vzorky; - aritmetický priemer vzorky:

Treba poznamenať, že oba odhady sú skreslené. Vo všeobecnom prípade nie je možné vytvoriť nezaujatý odhad. Odhad založený na nestrannom odhade rozptylu je však konzistentný.

Pravidlo troch sigma

Pravidlo troch sigma() - takmer všetky hodnoty normálne rozloženej náhodnej premennej ležia v intervale. Presnejšie – s nie menšou ako 99,7 % spoľahlivosťou leží hodnota normálne rozloženej náhodnej premennej v špecifikovanom intervale (za predpokladu, že hodnota je pravdivá a nie je získaná ako výsledok spracovania vzorky).

Ak skutočná hodnota nie je známa, mali by sme použiť nie, ale podlahu, steny okolo nás a strop, s. Tak sa pravidlo troch sigmov mení na pravidlo troch poschodí, stien okolo nás a stropu, s .

Interpretácia hodnoty štandardnej odchýlky

Veľká hodnota štandardnej odchýlky ukazuje veľký rozptyl hodnôt v prezentovanom súbore s priemernou hodnotou súboru; malá hodnota teda ukazuje, že hodnoty v súbore sú zoskupené okolo strednej hodnoty.

Napríklad máme tri sady čísel: (0, 0, 14, 14), (0, 6, 8, 14) a (6, 6, 8, 8). Všetky tri súbory majú stredné hodnoty rovné 7 a štandardné odchýlky, v tomto poradí, rovné 7, 5 a 1. Posledný súbor má malú štandardnú odchýlku, pretože hodnoty v súbore sú zoskupené okolo strednej hodnoty; prvá množina má najväčšiu smerodajnú odchýlku - hodnoty v rámci množiny sa značne líšia od priemernej hodnoty.

Vo všeobecnom zmysle možno štandardnú odchýlku považovať za mieru neistoty. Napríklad vo fyzike sa štandardná odchýlka používa na určenie chyby série po sebe nasledujúcich meraní nejakej veličiny. Táto hodnota je veľmi dôležitá na určenie hodnovernosti skúmaného javu v porovnaní s hodnotou predpovedanou teóriou: ak sa priemerná hodnota meraní výrazne líši od hodnôt predpovedaných teóriou (veľká štandardná odchýlka), potom by sa mali získané hodnoty alebo spôsob ich získania znova skontrolovať.

Praktické využitie

V praxi vám štandardná odchýlka umožňuje určiť, do akej miery sa môžu hodnoty v súbore líšiť od priemernej hodnoty.

Klíma

Predpokladajme, že existujú dve mestá s rovnakou priemernou maximálnou dennou teplotou, ale jedno sa nachádza na pobreží a druhé vo vnútrozemí. Je známe, že mestá nachádzajúce sa na pobreží majú veľa rôznych maximálnych denných teplôt, ktoré sú nižšie ako mestá nachádzajúce sa vo vnútrozemí. Preto bude smerodajná odchýlka maximálnych denných teplôt pre pobrežné mesto menšia ako pre druhé mesto, napriek tomu, že priemerná hodnota tejto hodnoty je rovnaká, čo v praxi znamená, že pravdepodobnosť, že maximálna teplota vzduchu na ktorýkoľvek daný deň v roku bude vyšší, bude sa líšiť od priemernej hodnoty, vyššej pre mesto nachádzajúce sa vo vnútrozemí.

Šport

Predpokladajme, že existuje niekoľko futbalových tímov, ktoré sú hodnotené podľa nejakého súboru parametrov, napríklad podľa počtu strelených a inkasovaných gólov, šancí na skórovanie atď. Je veľmi pravdepodobné, že najlepší tím v tejto skupine bude mať lepšie hodnoty na viacerých parametroch. Čím menšia je štandardná odchýlka tímu pre každý z prezentovaných parametrov, tým je výsledok tímu predvídateľnejší; takéto tímy sú vyrovnané. Na druhej strane tím s veľkou smerodajnou odchýlkou ​​je ťažké predpovedať výsledok, čo sa zase vysvetľuje nevyváženosťou, napríklad silná obrana, ale slabý útok.

Použitie štandardnej odchýlky tímových parametrov umožňuje v tej či onej miere predpovedať výsledok zápasu dvoch tímov, posúdiť silné a slabé stránky tímov, a teda aj zvolené spôsoby boja.

Technická analýza

pozri tiež

Literatúra

* Borovikov, V.ŠTATISTIKA. Umenie analýzy dát na počítači: Pre profesionálov / V. Borovikov. - St. Petersburg. : Peter, 2003. - 688 s. - ISBN 5-272-00078-1.



Podobné články