Wartość odchylenia standardowego. Odchylenie standardowe

17.10.2019

Wartości uzyskane z doświadczenia nieuchronnie zawierają błędy z różnych powodów. Wśród nich wyróżnić należy błędy systematyczne i przypadkowe. Błędy systematyczne wynikają z przyczyn, które działają w bardzo specyficzny sposób i zawsze można je wyeliminować lub uwzględnić z wystarczającą dokładnością. Błędy losowe są spowodowane bardzo dużą liczbą indywidualnych przyczyn, których nie można dokładnie wyjaśnić i które działają inaczej w każdym indywidualnym pomiarze. Błędów tych nie można całkowicie wykluczyć; można je brać pod uwagę tylko średnio, do czego konieczna jest znajomość praw, którym podlegają błędy przypadkowe.

Zmierzoną wartość będziemy oznaczać przez A, a błąd przypadkowy w pomiarze x. Ponieważ błąd x może przyjąć dowolną wartość, jest to ciągła zmienna losowa, która w pełni charakteryzuje się własnym prawem dystrybucji.

Najprostszym i najdokładniej oddającym rzeczywistość (w zdecydowanej większości przypadków) jest tzw rozkład normalny błędów:

To prawo dystrybucji można uzyskać z różnych przesłanek teoretycznych, w szczególności z wymogu, że najbardziej prawdopodobną wartością nieznanej wielkości, dla której szereg wartości o tym samym stopniu dokładności uzyskuje się przez bezpośredni pomiar, jest średnia arytmetyczna te wartości. Wartość 2 jest wywoływana dyspersja tego normalnego prawa.

Przeciętny

Oznaczanie dyspersji na podstawie danych eksperymentalnych. Jeżeli dla dowolnej wielkości A, n wartości a i uzyskuje się przez bezpośredni pomiar z tym samym stopniem dokładności, a błędy w ilości A podlegają prawu rozkładu normalnego, wówczas najbardziej prawdopodobną wartością A będzie przeciętny:

a - średnia arytmetyczna,

a i - wartość mierzona na i-tym kroku.

Odchylenie obserwowanej wartości (dla każdej obserwacji) a i wartości A od Średnia arytmetyczna: a ja - a.

Aby określić rozproszenie rozkładu normalnego błędów w tym przypadku, użyj wzoru:

2 - dyspersja,
a - średnia arytmetyczna,
n to liczba pomiarów parametrów,

odchylenie standardowe

odchylenie standardowe pokazuje bezwzględne odchylenie zmierzonych wartości od Średnia arytmetyczna. Zgodnie ze wzorem na miarę dokładności kombinacji liniowej pierwiastek błędu średniokwadratowegośrednią arytmetyczną wyznacza wzór:

, gdzie


a - średnia arytmetyczna,
n to liczba pomiarów parametrów,
a i - wartość mierzona na i-tym kroku.

Współczynnik zmienności

Współczynnik zmienności charakteryzuje względny stopień odchylenia zmierzonych wartości od Średnia arytmetyczna:

, gdzie

V - współczynnik zmienności,
- odchylenie standardowe,
a - średnia arytmetyczna.

Im większa wartość Współczynnik zmienności, tym relatywnie większy rozrzut i mniejsza jednorodność badanych wartości. Jeśli współczynnik zmienności mniej niż 10%, to zmienność szeregu zmian uważa się za nieistotną, od 10% do 20% dotyczy średniej, powyżej 20% i mniej niż 33% za istotną, a jeżeli współczynnik zmienności przekracza 33%, wskazuje to na heterogeniczność informacji i konieczność wykluczenia największych i najmniejszych wartości.

Średnie odchylenie liniowe

Jednym ze wskaźników zakresu i intensywności zmienności jest średnie odchylenie liniowe(średni moduł odchylenia) od średniej arytmetycznej. Średnie odchylenie liniowe obliczone według wzoru:

, gdzie

_
a - średnie odchylenie liniowe,
a - średnia arytmetyczna,
n to liczba pomiarów parametrów,
a i - wartość mierzona na i-tym kroku.

Aby sprawdzić zgodność badanych wartości z prawem rozkładu normalnego, stosuje się zależność wskaźnik asymetrii na swój błąd i postawę wskaźnik kurtozy do jego błędu.

Indeks asymetrii

Indeks asymetrii(A) i jego błąd (m a) oblicza się za pomocą następujących wzorów:

, gdzie

A - wskaźnik asymetrii,
- odchylenie standardowe,
a - średnia arytmetyczna,
n to liczba pomiarów parametrów,
a i - wartość mierzona na i-tym kroku.

Wskaźnik kurtozy

Wskaźnik kurtozy(E) i jego błąd (m e) oblicza się za pomocą następujących wzorów:

, gdzie

Według badania reprezentacyjnego deponenci zostali pogrupowani według wielkości depozytu w Sbierbanku miasta:

Definiować:

1) zakres zmienności;

2) średnią kwotę lokaty;

3) średnie odchylenie liniowe;

4) dyspersja;

5) odchylenie standardowe;

6) współczynnik zmienności składek.

Decyzja:

Ta seria dystrybucji zawiera przedziały otwarte. W takich szeregach przyjmuje się umownie, że wartość przedziału pierwszej grupy jest równa wartości przedziału następnej, a wartość przedziału ostatniej grupy jest równa wartości przedziału poprzedniej jeden.

Wartość przedziału drugiej grupy wynosi 200, zatem wartość pierwszej grupy również wynosi 200. Wartość przedziału przedostatniej grupy wynosi 200, co oznacza, że ​​ostatni przedział również będzie miał wartość równą 200.

1) Zdefiniuj zakres zmienności jako różnicę między największą a najmniejszą wartością atrybutu:

Zakres zmienności wielkości wkładu wynosi 1000 rubli.

2) Średnią wielkość składki określa formuła średniej arytmetycznej ważonej.

Ustalmy wstępnie dyskretną wartość atrybutu w każdym przedziale. Aby to zrobić, korzystając z prostej formuły średniej arytmetycznej, znajdujemy punkty środkowe przedziałów.

Średnia wartość pierwszego przedziału będzie równa:

drugi - 500 itd.

Umieśćmy wyniki obliczeń w tabeli:

Kwota depozytu, rub.Liczba ofiarodawców, fŚrodek przedziału, xxf
200-400 32 300 9600
400-600 56 500 28000
600-800 120 700 84000
800-1000 104 900 93600
1000-1200 88 1100 96800
Całkowity 400 - 312000

Średni depozyt w miejskim Sbierbanku wyniesie 780 rubli:

3) Średnie odchylenie liniowe jest średnią arytmetyczną bezwzględnych odchyleń poszczególnych wartości atrybutu od średniej całkowitej:

Procedura obliczania średniego odchylenia liniowego w szeregach rozkładu przedziałowego jest następująca:

1. Oblicza się średnią arytmetyczną ważoną, jak pokazano w ust. 2).

2. Bezwzględne odchylenia wariantu od średniej wyznacza się:

3. Otrzymane odchylenia mnożymy przez częstości:

4. Suma ważonych odchyleń znajduje się bez uwzględnienia znaku:

5. Suma ważonych odchyleń jest dzielona przez sumę częstości:

Wygodnie jest skorzystać z tabeli obliczonych danych:

Kwota depozytu, rub.Liczba ofiarodawców, fŚrodek przedziału, x
200-400 32 300 -480 480 15360
400-600 56 500 -280 280 15680
600-800 120 700 -80 80 9600
800-1000 104 900 120 120 12480
1000-1200 88 1100 320 320 28160
Całkowity 400 - - - 81280

Średnie liniowe odchylenie wielkości depozytu klientów Sbierbanku wynosi 203,2 rubla.

4) Dyspersja to średnia arytmetyczna kwadratów odchyleń wartości każdej cechy od średniej arytmetycznej.

Obliczenie wariancji w szeregach rozkładu przedziałowego przeprowadza się według wzoru:

Procedura obliczania wariancji w tym przypadku jest następująca:

1. Wyznacz średnią arytmetyczną ważoną, jak pokazano w ust. 2).

2. Znajdź odchylenia od średniej:

3. Podnoszenie do kwadratu odchylenia każdej opcji od średniej:

4. Pomnóż odchylenia do kwadratu przez wagi (częstości):

5. Podsumuj otrzymane prace:

6. Otrzymaną kwotę dzieli się przez sumę wag (częstości):

Umieśćmy obliczenia w tabeli:

Kwota depozytu, rub.Liczba ofiarodawców, fŚrodek przedziału, x
200-400 32 300 -480 230400 7372800
400-600 56 500 -280 78400 4390400
600-800 120 700 -80 6400 768000
800-1000 104 900 120 14400 1497600
1000-1200 88 1100 320 102400 9011200
Całkowity 400 - - - 23040000

W tym artykule opowiem o jak znaleźć odchylenie standardowe. Ten materiał jest niezwykle ważny dla pełnego zrozumienia matematyki, dlatego korepetytor matematyki powinien poświęcić na jego przestudiowanie osobną lekcję lub nawet kilka. W tym artykule znajdziesz link do szczegółowego i zrozumiałego samouczka wideo, który wyjaśnia, czym jest odchylenie standardowe i jak je znaleźć.

odchylenie standardowe umożliwia oszacowanie rozrzutu wartości uzyskanych w wyniku pomiaru określonego parametru. Jest oznaczony symbolem (grecka litera „sigma”).

Wzór na obliczenie jest dość prosty. Aby znaleźć odchylenie standardowe, musisz wziąć pierwiastek kwadratowy z wariancji. Więc teraz musisz zapytać: „Czym jest wariancja?”

Co to jest dyspersja

Definicja wariancji jest następująca. Dyspersja to średnia arytmetyczna kwadratów odchyleń wartości od średniej.

Aby znaleźć wariancję, wykonaj kolejno następujące obliczenia:

  • Określ średnią (prosta średnia arytmetyczna szeregu wartości).
  • Następnie odejmij średnią od każdej z wartości i podnieś wynikową różnicę do kwadratu (otrzymaliśmy różnica do kwadratu).
  • Kolejnym krokiem jest obliczenie średniej arytmetycznej kwadratów otrzymanych różnic (poniżej możesz dowiedzieć się, dlaczego dokładnie kwadraty).

Spójrzmy na przykład. Załóżmy, że ty i twoi przyjaciele postanawiacie zmierzyć wysokość swoich psów (w milimetrach). W wyniku pomiarów otrzymałeś następujące wymiary wysokości (w kłębie): 600 mm, 470 mm, 170 mm, 430 mm i 300 mm.

Obliczmy średnią, wariancję i odchylenie standardowe.

Najpierw znajdźmy średnią. Jak już wiesz, w tym celu musisz dodać wszystkie zmierzone wartości i podzielić przez liczbę pomiarów. Postęp obliczeń:

Średnia mm.

Tak więc średnia (średnia arytmetyczna) wynosi 394 mm.

Teraz musimy zdefiniować odchylenie wzrostu każdego z psów od średniej:

Wreszcie, obliczyć wariancję, każda z otrzymanych różnic jest podnoszona do kwadratu, a następnie znajdujemy średnią arytmetyczną otrzymanych wyników:

Dyspersja mm 2 .

Zatem dyspersja wynosi 21704 mm2.

Jak znaleźć odchylenie standardowe

Jak więc teraz obliczyć odchylenie standardowe, znając wariancję? Jak pamiętamy, weź pierwiastek kwadratowy. Oznacza to, że odchylenie standardowe wynosi:

mm (w zaokrągleniu do najbliższej liczby całkowitej w mm).

Stosując tę ​​metodę stwierdziliśmy, że niektóre psy (np. Rottweilery) są bardzo dużymi psami. Ale są też bardzo małe psy (na przykład jamniki, ale nie należy im tego mówić).

Najciekawsze jest to, że odchylenie standardowe niesie ze sobą przydatne informacje. Teraz możemy pokazać, które z otrzymanych wyników pomiaru wzrostu mieszczą się w przedziale, który otrzymamy, jeśli od średniej (po obu jej stronach) odłożymy odchylenie standardowe.

Oznacza to, że za pomocą odchylenia standardowego otrzymujemy „standardową” metodę, która pozwala dowiedzieć się, która z wartości jest normalna (średnia statystyczna), a która jest wyjątkowo duża lub odwrotnie, mała.

Co to jest odchylenie standardowe

Ale… sytuacja będzie wyglądać trochę inaczej, jeśli przeanalizujemy próbowanie dane. W naszym przykładzie rozważaliśmy ogół populacji. Oznacza to, że nasze 5 psów było jedynymi psami na świecie, które nas interesowały.

Ale jeśli dane są próbą (wartości wybrane z dużej populacji), to obliczenia należy wykonać inaczej.

Jeśli istnieją wartości, to:

Wszystkie inne obliczenia są wykonywane w ten sam sposób, w tym wyznaczanie średniej.

Na przykład, jeśli nasze pięć psów to tylko próbka populacji psów (wszystkich psów na planecie), musimy podzielić przez 4 zamiast 5 mianowicie:

Wariancja próbki = mm 2 .

W tym przypadku odchylenie standardowe dla próbki jest równe mm (w zaokrągleniu do najbliższej liczby całkowitej).

Można powiedzieć, że dokonaliśmy pewnej „korekty” w przypadku, gdy nasze wartości to tylko mała próbka.

Uwaga. Dlaczego dokładnie kwadraty różnic?

Ale dlaczego przy obliczaniu wariancji bierzemy kwadraty różnic? Przyjmijmy, że przy pomiarze jakiegoś parametru otrzymałeś następujący zestaw wartości: 4; cztery; -cztery; -cztery. Jeśli po prostu dodamy między sobą bezwzględne odchylenia od średniej (różnicy) ... wartości ujemne znoszą się z dodatnimi:

.

Okazuje się, że ta opcja jest bezużyteczna. W takim razie może warto spróbować wartości bezwzględnych odchyleń (czyli modułów tych wartości)?

Na pierwszy rzut oka okazuje się, że nie jest źle (nawiasem mówiąc, wynikowa wartość nazywa się średnim odchyleniem bezwzględnym), ale nie we wszystkich przypadkach. Spróbujmy innego przykładu. Niech wynikiem pomiaru będzie następujący zestaw wartości: 7; 1; -6; -2. Wtedy średnie odchylenie bezwzględne wynosi:

Cholera! Ponownie otrzymaliśmy wynik 4, chociaż różnice mają znacznie większy rozrzut.

Zobaczmy teraz, co się stanie, jeśli podniesiemy różnice do kwadratu (a następnie wyciągniemy pierwiastek kwadratowy z ich sumy).

Dla pierwszego przykładu otrzymujesz:

.

W przypadku drugiego przykładu otrzymujesz:

Teraz to zupełnie inna sprawa! Odchylenie średniej kwadratowej jest tym większe, im większy jest rozrzut różnic… o to nam chodziło.

W rzeczywistości ta metoda wykorzystuje ten sam pomysł, co przy obliczaniu odległości między punktami, tylko w inny sposób.

A z matematycznego punktu widzenia użycie kwadratów i pierwiastków kwadratowych jest bardziej przydatne niż moglibyśmy uzyskać na podstawie bezwzględnych wartości odchyleń, dzięki którym odchylenie standardowe ma zastosowanie do innych problemów matematycznych.

Siergiej Waleriewicz powiedział ci, jak znaleźć odchylenie standardowe

Lekcja nr 4

Temat: „Statystyki opisowe. Wskaźniki różnorodności cechy w agregacie ”

Głównymi kryteriami zróżnicowania cechy w populacji statystycznej są: granica, amplituda, odchylenie standardowe, współczynnik oscylacji i współczynnik zmienności. Na poprzedniej lekcji omówiono, że wartości średnie dają jedynie uogólnioną charakterystykę badanej cechy w agregacie i nie uwzględniają wartości jej poszczególnych wariantów: wartości minimalnej i maksymalnej, powyżej średniej , poniżej średniej itp.

Przykład. Średnie wartości dwóch różnych ciągów liczbowych: -100; -20; sto; 20 i 0,1; -0,2; 0,1 są dokładnie takie same i równeO.Jednak zakresy rozproszenia danych tych względnych średnich sekwencji są bardzo różne.

Definicja wymienionych kryteriów zróżnicowania cechy dokonywana jest przede wszystkim z uwzględnieniem jej wartości dla poszczególnych elementów populacji statystycznej.

Wskaźnikami pomiaru zmienności cechy są absolutny oraz względny. Bezwzględnymi wskaźnikami zmienności są: zakres zmienności, granica, odchylenie standardowe, wariancja. Współczynnik zmienności i współczynnik oscylacji odnoszą się do względnych miar zmienności.

Granica (limit)– jest to kryterium, które określają skrajne wartości wariantu w szeregu wariacyjnym. Innymi słowy, kryterium to jest ograniczone minimalnymi i maksymalnymi wartościami atrybutu:

Amplituda (am) lub zakres zmienności - to jest różnica między skrajnościami. Obliczenie tego kryterium odbywa się poprzez odjęcie jego minimalnej wartości od maksymalnej wartości atrybutu, co pozwala oszacować stopień rozproszenia wariantu:

Wadą granicy i amplitudy jako kryteriów zmienności jest to, że całkowicie zależą one od skrajnych wartości cechy w szeregu wariacyjnym. W tym przypadku nie są brane pod uwagę wahania wartości atrybutu w ramach serii.

Najbardziej kompletną charakterystykę różnorodności cechy w populacji statystycznej podaje wzór odchylenie standardowe(sigma), która jest ogólną miarą odchylenia wariantu od jego wartości średniej. Odchylenie standardowe jest również często określane jako odchylenie standardowe.

Podstawą odchylenia standardowego jest porównanie każdej opcji ze średnią arytmetyczną tej populacji. Ponieważ w agregacie zawsze będą opcje zarówno mniejsze, jak i większe od niego, to suma odchyleń oznaczonych znakiem „” zostanie spłacona przez sumę odchyleń oznaczonych znakiem „”, tj. suma wszystkich odchyleń wynosi zero. Aby uniknąć wpływu znaków różnic, przyjmuje się odchylenia wariantu od średniej arytmetycznej do kwadratu, tj. . Suma kwadratów odchyleń nie jest równa zeru. Aby uzyskać współczynnik zdolny do pomiaru zmienności, weź średnią z sumy kwadratów - ta wartość nazywa się dyspersja:

Z definicji wariancja to średni kwadrat odchyleń poszczególnych wartości cechy od jej wartości średniej. Dyspersja kwadratowe odchylenie standardowe.

Dyspersja jest wielkością wymiarową (nazwaną). Tak więc, jeśli warianty serii liczbowych są wyrażone w metrach, to dyspersja daje metry kwadratowe; jeśli warianty są wyrażone w kilogramach, to wariancja daje kwadrat tej miary (kg 2) i tak dalej.

Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji:

, to przy obliczaniu wariancji i odchylenia standardowego w mianowniku ułamka zamiastkonieczne jest umieszczenie.

Obliczenie odchylenia standardowego można podzielić na sześć etapów, które należy przeprowadzić w określonej kolejności:

Zastosowanie odchylenia standardowego:

a) ocena fluktuacji szeregów wariacyjnych i ocena porównawcza typowości (reprezentatywności) średnich arytmetycznych. Jest to konieczne w diagnostyce różnicowej przy określaniu stabilności objawów.

b) do rekonstrukcji szeregu wariacyjnego, tj. przywracając jego pasmo przenoszenia w oparciu o zasady trzech sigm. W przerwie (М±3σ) w przedziale znajduje się 99,7% wszystkich wariantów szeregu (М±2σ) - 95,5% oraz w przedziale (М±1σ) - Opcja rzędu 68,3%.(Rys. 1).

c) rozpoznawania opcji „wyskakujących okienek”.

d) określenie parametrów normy i patologii za pomocą szacunków sigma

e) obliczyć współczynnik zmienności

e) obliczyć średni błąd średniej arytmetycznej.

Aby scharakteryzować dowolną populację ogólną, która matyp rozkładu normalnego , wystarczy znać dwa parametry: średnią arytmetyczną i odchylenie standardowe.

Rysunek 1. Reguła trzech sigma

Przykład.

W pediatrii odchylenie standardowe służy do oceny rozwoju fizycznego dzieci poprzez porównanie danych konkretnego dziecka z odpowiednimi standardowymi wskaźnikami. Za standard przyjmuje się średnie arytmetyczne wskaźników rozwoju fizycznego dzieci zdrowych. Porównanie wskaźników z normami odbywa się według specjalnych tabel, w których podane są normy wraz z odpowiadającymi im skalami sigma. Uważa się, że jeśli wskaźnik rozwoju fizycznego dziecka mieści się w normie (średnia arytmetyczna) ±σ, to rozwój fizyczny dziecka (według tego wskaźnika) odpowiada normie. Jeśli wskaźnik mieści się w normie ±2σ, oznacza to niewielkie odchylenie od normy. Jeśli wskaźnik wykracza poza te granice, rozwój fizyczny dziecka znacznie różni się od normy (możliwa jest patologia).

Oprócz wskaźników zmienności wyrażonych w wartościach bezwzględnych, w badaniach statystycznych wykorzystuje się wskaźniki zmienności wyrażone w wartościach względnych. Współczynnik oscylacji - jest to stosunek zakresu zmienności do średniej wartości cechy. Współczynnik zmienności - jest to stosunek odchylenia standardowego do średniej wartości cechy. Zazwyczaj wartości te wyrażane są w procentach.

Wzory do obliczania względnych wskaźników zmienności:

Z powyższych wzorów widać, że im większy współczynnik V bliskie zeru, tym mniejsze zróżnicowanie wartości cechy. Więcej V, tym bardziej zmienny jest znak.

W praktyce statystycznej najczęściej stosuje się współczynnik zmienności. Służy nie tylko do porównawczej oceny zmienności, ale także do scharakteryzowania jednorodności populacji. Zbiór uważa się za jednorodny, jeżeli współczynnik zmienności nie przekracza 33% (dla rozkładów zbliżonych do normalnych). Arytmetycznie stosunek σ do średniej arytmetycznej eliminuje wpływ wartości bezwzględnej tych cech, a stosunek procentowy sprawia, że ​​współczynnik zmienności jest wartością bezwymiarową (nienazwaną).

Otrzymaną wartość współczynnika zmienności szacuje się zgodnie z przybliżonymi gradacjami stopnia zróżnicowania cechy:

Słaby - do 10%

Średnia - 10 - 20%

Silny - ponad 20%

Stosowanie współczynnika zmienności jest wskazane w przypadkach, gdy konieczne jest porównanie cech różniących się wielkością i wymiarem.

Różnica między współczynnikiem zmienności a innymi kryteriami rozproszenia jest wyraźnie pokazana przez przykład.

Tabela 1

Skład pracowników przedsiębiorstwa przemysłowego

Na podstawie podanych w przykładzie charakterystyk statystycznych można stwierdzić, że skład wiekowy i poziom wykształcenia pracowników przedsiębiorstwa są względnie jednorodne, przy niskiej stabilności zawodowej badanego kontyngentu. Łatwo zauważyć, że próba oceny tych tendencji społecznych na podstawie odchylenia standardowego doprowadziłaby do błędnego wniosku, a próba porównania cech księgowych „doświadczenie zawodowe” i „wiek” z cechą rachunkową „wykształcenie” byłaby generalnie niepoprawne ze względu na niejednorodność tych cech.

Mediana i percentyle

Dla rozkładów porządkowych (rankingowych), gdzie kryterium środka szeregu jest mediana, odchylenie standardowe i wariancja nie mogą służyć jako charakterystyki rozproszenia wariantu.

To samo dotyczy otwartych szeregów wariacyjnych. Okoliczność ta wynika z faktu, że odchylenia, według których oblicza się dyspersję i σ, są liczone od średniej arytmetycznej, która nie jest obliczana w otwartych szeregach wariacyjnych iw szeregach rozkładów cech jakościowych. Dlatego do skompresowanego opisu rozkładów używany jest inny parametr rozproszenia - kwantyl(synonim - „percentyl”), odpowiedni do opisu cech jakościowych i ilościowych w dowolnej formie ich rozkładu. Parametr ten może być również wykorzystany do konwersji cech ilościowych na jakościowe. W takim przypadku takie wyniki są przypisywane w zależności od tego, który rząd kwantyla odpowiada jednej lub drugiej konkretnej opcji.

W praktyce badań biomedycznych najczęściej stosuje się następujące kwantyle:

– mediana;

, to kwartyle (ćwiartki), gdzie to dolny kwartyl, górny kwartyl.

Kwantyle dzielą obszar możliwych zmian w szeregu wariacyjnym na określone przedziały. Mediana (kwantyl) to wariant, który znajduje się w środku szeregu wariacyjnego i dzieli ten szereg na pół, na dwie równe części ( 0,5 oraz 0,5 ). Kwartyl dzieli szereg na cztery części: pierwsza część (dolny kwartyl) to opcja oddzielająca opcje, których wartości liczbowe nie przekraczają 25% maksimum możliwego w tym szeregu, kwartyl oddziela opcje o wartości liczbowej do 50 % maksymalnego możliwego. Górny kwartyl () oddziela opcje do 75% maksymalnych możliwych wartości.

W przypadku dystrybucji asymetrycznej zmiennej względem średniej arytmetycznej, do jej scharakteryzowania wykorzystuje się medianę i kwartyle. W tym przypadku stosowana jest następująca forma wyświetlania wartości średniej - Ja (;). Na przykład, badana cecha – „okres, w którym dziecko zaczęło samodzielnie chodzić” – ma w badanej grupie rozkład asymetryczny. Jednocześnie dolny kwartyl () odpowiada rozpoczęciu chodzenia – 9,5 miesiąca, mediana – 11 miesięcy, górny kwartyl () – 12 miesięcy. W związku z tym charakterystyka średniego trendu określonego atrybutu zostanie przedstawiona jako 11 (9,5; 12) miesięcy.

Ocena istotności statystycznej wyników badań

Istotność statystyczna danych rozumiana jest jako stopień ich zgodności z przedstawianą rzeczywistością, tj. Dane istotne statystycznie to takie, które nie zniekształcają i poprawnie odzwierciedlają obiektywną rzeczywistość.

Ocena istotności statystycznej wyników badania polega na określeniu, z jakim prawdopodobieństwem możliwe jest przeniesienie wyników uzyskanych na populacji próbnej na całą populację. Ocena istotności statystycznej jest konieczna, aby zrozumieć, w jakim stopniu część zjawiska może być wykorzystana do oceny zjawiska jako całości i jego wzorców.

Ocena istotności statystycznej wyników badania polega na:

1. błędy reprezentatywności (błędy wartości średnich i względnych) - m;

2. przedziały ufności wartości średnich lub względnych;

3. wiarygodność różnicy między wartościami średnimi lub względnymi według kryterium t.

Błąd standardowy średniej arytmetycznej lub błąd reprezentatywności charakteryzuje fluktuacje średniej. Należy zauważyć, że im większa liczebność próby, tym mniejszy rozrzut wartości średnich. Błąd standardowy średniej oblicza się ze wzoru:

We współczesnej literaturze naukowej średnią arytmetyczną zapisuje się wraz z błędem reprezentatywności:

lub razem z odchyleniem standardowym:

Jako przykład rozważmy dane dla 1500 miejskich poliklinik w kraju (populacja ogólna). Średnia liczba pacjentów obsługiwanych w poliklinice wynosi 18150 osób. Losowy wybór 10% obiektów (150 poliklinik) daje średnią liczbę pacjentów równą 20051 osobom. Błąd losowania, związany oczywiście z faktem, że nie wszystkie 1500 poliklinik znalazło się w próbie, jest równy różnicy między tymi średnimi – średniej ogólnej ( M gen) i próbka średnia ( M sb). Jeśli utworzymy inną próbkę o tej samej wielkości z naszej populacji, da to inny poziom błędu. Wszystkie te średnie próbki, przy wystarczająco dużych próbach, są normalnie rozmieszczone wokół średniej ogólnej z wystarczająco dużą liczbą powtórzeń próbki o tej samej liczbie obiektów z populacji ogólnej. Błąd standardowy średniej m jest nieuniknionym rozłożeniem średnich z próby wokół średniej ogólnej.

W przypadku, gdy wyniki badania są reprezentowane przez wartości względne (na przykład procenty), tzw udostępnij błąd standardowy:

gdzie P to wskaźnik w %, n to liczba obserwacji.

Wynik jest wyświetlany jako (P ± m)%. Na przykład, odsetek wyzdrowień wśród pacjentów wynosił (95,2 ± 2,5)%.

Jeśli liczba elementów w populacji, to przy obliczaniu błędów standardowych średniej i udziału w mianowniku ułamka zamiastkonieczne jest umieszczenie.

W przypadku rozkładu normalnego (rozkład średnich z próby jest normalny) wiadomo, jaka część populacji mieści się w dowolnym przedziale wokół średniej. W szczególności:

W praktyce problem polega na tym, że cechy populacji generalnej są nam nieznane, a próba jest dobierana właśnie w celu ich oceny. Oznacza to, że jeśli weźmiemy próbki tego samego rozmiaru n z populacji ogólnej, to w 68,3% przypadków przedział będzie zawierał wartość M(będzie na interwale w 95,5% przypadków i na interwale w 99,7% przypadków).

Ponieważ w rzeczywistości pobierana jest tylko jedna próbka, stwierdzenie to jest sformułowane w kategoriach prawdopodobieństwa: z prawdopodobieństwem 68,3% średnia wartość atrybutu w populacji generalnej mieści się w przedziale z prawdopodobieństwem 95,5% - w przerwie itp.

W praktyce taki przedział jest budowany wokół wartości próbki, która z zadanym (wystarczająco wysokim) prawdopodobieństwem - prawdopodobieństwo ufności -„pokryłoby” prawdziwą wartość tego parametru w populacji generalnej. Ten interwał nazywa się przedział ufności.

Prawdopodobieństwo ufnościP to stopień ufności, że przedział ufności rzeczywiście będzie zawierał prawdziwą (nieznaną) wartość parametru w populacji.

Na przykład, jeśli poziom ufności R równy 90%, oznacza to, że 90 próbek na 100 da prawidłowe oszacowanie parametru w populacji ogólnej. W związku z tym prawdopodobieństwo błędu, tj. błędne oszacowanie średniej ogólnej dla próby, jest równe w procentach: . W tym przykładzie oznacza to, że 10 próbek na 100 da nieprawidłowe oszacowanie.

Oczywiście stopień ufności (prawdopodobieństwo ufności) zależy od wielkości przedziału: im szerszy przedział, tym większa pewność, że znajdzie się w nim nieznana wartość dla populacji ogólnej. W praktyce do skonstruowania przedziału ufności, który zapewnia pewność co najmniej 95,5%, przyjmuje się co najmniej dwukrotność błędu próbkowania.

Wyznaczenie granic ufności wartości średnich i względnych pozwala znaleźć ich dwie skrajne wartości – minimalną możliwą i maksymalną możliwą, w obrębie których badany wskaźnik może wystąpić w całej populacji ogólnej. Oparte na tym, granice ufności (lub przedział ufności)- są to granice wartości średnich lub względnych, których przekroczenie ze względu na przypadkowe wahania ma znikome prawdopodobieństwo.

Przedział ufności można zapisać jako: , gdzie t jest kryterium ufności.

Granice ufności średniej arytmetycznej w populacji ogólnej wyznacza wzór:

M gen = M wybierać + tm M

dla wartości względnej:

R gen = P wybierać + tm R

gdzie M gen oraz R gen- wartości średnich i względnych wartości dla populacji ogólnej; M wybierać oraz R wybierać- wartości średnich i względnych wartości uzyskanych na próbnej populacji; m M oraz m P- błędy wartości średnich i względnych; t- kryterium ufności (kryterium trafności, które ustalane jest podczas planowania badania i może być równe 2 lub 3); tm- jest to przedział ufności lub Δ - błąd krańcowy wskaźnika uzyskanego w badaniu reprezentacyjnym.

Należy zauważyć, że wartość kryterium t w pewnym stopniu jest to związane z prawdopodobieństwem bezbłędnej prognozy (p), wyrażonym w %. Dobiera go sam badacz, kierując się potrzebą uzyskania wyniku o wymaganym stopniu dokładności. Zatem dla prawdopodobieństwa bezbłędnej prognozy 95,5% przyjmuje się wartość kryterium t wynosi 2, dla 99,7% - 3.

Podane oszacowania przedziału ufności są dopuszczalne tylko dla populacji statystycznych o obserwacjach powyżej 30. Przy mniejszej liczebności populacji (małe próby) do wyznaczenia kryterium t stosuje się specjalne tablice. W tych tabelach pożądana wartość znajduje się na przecięciu linii odpowiadającej wielkości populacji (n-1) oraz kolumnę odpowiadającą wybranemu przez badacza poziomowi prawdopodobieństwa bezbłędnej prognozy (95,5%; 99,7%). W badaniach medycznych przy ustalaniu granic ufności dla dowolnego wskaźnika prawdopodobieństwo bezbłędnej prognozy wynosi 95,5% lub więcej. Oznacza to, że wartość wskaźnika uzyskana na populacji próbnej musi znaleźć się w populacji ogólnej w co najmniej 95,5% przypadków.

    Pytania na temat lekcji:

    Trafność wskaźników zróżnicowania cechy w populacji statystycznej.

    Ogólna charakterystyka bezwzględnych wskaźników zmienności.

    Odchylenie standardowe, obliczenia, zastosowanie.

    Względne wskaźniki zmienności.

    Mediana, wynik kwartylowy.

    Ocena istotności statystycznej wyników badania.

    Błąd standardowy średniej arytmetycznej, wzór obliczeniowy, przykład użycia.

    Obliczanie udziału i jego błędu standardowego.

    Pojęcie prawdopodobieństwa ufności, przykład zastosowania.

10. Pojęcie przedziału ufności, jego zastosowanie.

    Zadania testowe na ten temat z przykładowymi odpowiedziami:

1. BEZWZGLĘDNE WSKAŹNIKI ZMIENNOŚCI SĄ

1) współczynnik zmienności

2) współczynnik oscylacji

4) mediana

2. WZGLĘDNE WSKAŹNIKI ZMIENNOŚCI SĄ

1) dyspersja

4) współczynnik zmienności

3. KRYTERIUM OKREŚLONE PRZEZ WARTOŚCI EKSTREMALNE WARIANTU W SERII WARIACYJNEJ

2) amplituda

3) dyspersja

4) współczynnik zmienności

4. RÓŻNICA OPCJI EKSTREMALNEJ JEST

2) amplituda

3) odchylenie standardowe

4) współczynnik zmienności

5. ŚREDNI KWADRAT ODCHYLEŃ POSZCZEGÓLNYCH WARTOŚCI ISTOTNYCH OD JEJ WARTOŚCI ŚREDNIEJ TO

1) współczynnik oscylacji

2) mediana

3) dyspersja

6. STOSUNEK ZAKRESU ZMIENNOŚCI DO ŚREDNIEJ WARTOŚCI CECHY TO

1) współczynnik zmienności

2) odchylenie standardowe

4) współczynnik oscylacji

7. STOSUNEK ODCHYLENIA ŚREDNIEGO KWADRATOWEGO DO ŚREDNIEJ WARTOŚCI CECHY TO

1) dyspersja

2) współczynnik zmienności

3) współczynnik oscylacji

4) amplituda

8. WARIANT, KTÓRY ZNAJDUJE SIĘ W ŚRODKU SERII WARIANTÓW I DZIELI JĄ NA DWIE RÓWNE CZĘŚCI TO

1) mediana

3) amplituda

9. W BADANIACH MEDYCZNYCH WYZNACZAJĄC GRANICE UFNOŚCI JAKIEGOKOLWIEK WSKAŹNIKA, PRZYJMUJE SIĘ PRAWDOPODOBIEŃSTWO BEZBŁĘDNEJ PRZEWIDYWANIA

10. JEŚLI 90 PRÓB NA 100 DAJE PRAWIDŁOWE OCENY PARAMETRÓW W POPULACJI OGÓLNEJ, TO OZNACZA TO, ŻE PRAWDOPODOBIEŃSTWO UFNOŚCI P RÓWNY

11. W PRZYPADKU JEŚLI 10 PRÓBEK NA 100 PODAJE NIEPRAWIDŁOWE OCENY, PRAWDOPODOBIEŃSTWO BŁĘDU JEST

12. GRANICE WARTOŚCI ŚREDNICH LUB WZGLĘDNYCH, ISTNIEJE NIEWIELKIE PRAWDOPODOBIEŃSTWO PRZEKROCZENIA GRANIC Z POWODU OSCYLACJI LOSOWYCH - TO

1) przedział ufności

2) amplituda

4) współczynnik zmienności

13. ZA MAŁĄ PRÓBĘ UWZGLĘDNIANA JEST POPULACJA, W KTÓREJ

1) n jest mniejsze lub równe 100

2) n jest mniejsze lub równe 30

3) n jest mniejsze lub równe 40

4) n jest bliskie 0

14. DLA PRAWDOPODOBIEŃSTWA BEZBŁĘDNYCH PROGNOZ WARTOŚĆ KRYTERIUM 95% t KOMPOZYJE

15. DLA PRAWDOPODOBIEŃSTWA BEZBŁĘDNYCH PROGNOZ WARTOŚĆ KRYTERIUM 99% t KOMPOZYJE

16. DLA ROZKŁADÓW ZBLIŻONYCH DO NORMALNEGO POPULACJA JEST UWAŻANA ZA JEDNORODNĄ, JEŚLI WSPÓŁCZYNNIK ZMIENNOŚCI NIE PRZEKRACZA

17. OPCJA WYDZIELAJĄCA WARIANTY, KTÓRYCH WARTOŚCI LICZBOWE NIE PRZEKRACZAJĄ 25% MAKSYMALNEJ MOŻLIWEJ W TYM WIERSZU JEST

2) dolny kwartyl

3) górny kwartyl

4) kwartyl

18. DANE, KTÓRE NIE ZANIECZYSZCZAJĄ I PRAWIDŁOWO ODWZGLĘDNIAJĄ OBIEKTYWNĄ RZECZYWISTOŚĆ TO NAZWA

1) niemożliwe

2) równie możliwe

3) niezawodny

4) losowy

19. ZGODNIE Z REGUŁĄ TRZECH SIGM, Z NORMALNYM ROZKŁADEM ZNAKU W RAMACH
BĘDZIE UMIESZCZONY

1) Opcja 68,3%.

Podczas statystycznego testowania hipotez, podczas pomiaru liniowej zależności między zmiennymi losowymi.

Odchylenie standardowe:

Odchylenie standardowe(oszacowanie odchylenia standardowego zmiennej losowej Podłoga, ściany wokół nas i sufit, x względem jego matematycznego oczekiwania opartego na obiektywnym oszacowaniu jego wariancji):

gdzie - wariancja; - Podłoga, otaczające nas ściany i sufit, ja-ty element próbki; - wielkość próbki; - średnia arytmetyczna próbki:

Należy zauważyć, że oba szacunki są obciążone. W ogólnym przypadku niemożliwe jest skonstruowanie obiektywnego oszacowania. Jednak oszacowanie oparte na nieobciążonym oszacowaniu wariancji jest spójne.

reguła trzech sigma

reguła trzech sigma() - prawie wszystkie wartości zmiennej losowej o rozkładzie normalnym leżą w przedziale . Ściślej – z pewnością nie mniejszą niż 99,7%, wartość zmiennej losowej o rozkładzie normalnym mieści się w określonym przedziale (pod warunkiem, że jest to wartość prawdziwa, a nie uzyskana w wyniku przetwarzania próbek).

Jeśli prawdziwa wartość nie jest znana, powinieneś użyć nie, ale podłogi, ścian wokół nas i sufitu, s. W ten sposób zasada trzech sigma przekłada się na zasadę trzech Podłogi, ścian wokół nas i sufitu, s .

Interpretacja wartości odchylenia standardowego

Duża wartość odchylenia standardowego świadczy o dużej rozpiętości wartości w prezentowanym zbiorze z wartością średnią ze zbioru; odpowiednio mała wartość wskazuje, że wartości w zestawie są zgrupowane wokół wartości średniej.

Na przykład mamy trzy zestawy liczb: (0, 0, 14, 14), (0, 6, 8, 14) i (6, 6, 8, 8). Wszystkie trzy zestawy mają wartości średnie 7 i odchylenia standardowe odpowiednio 7, 5 i 1. Ostatni zestaw ma małe odchylenie standardowe, ponieważ wartości w zestawie są skupione wokół średniej; pierwszy zestaw ma największą wartość odchylenia standardowego – wartości w obrębie zestawu mocno odbiegają od wartości średniej.

W ogólnym sensie odchylenie standardowe można uznać za miarę niepewności. Na przykład w fizyce odchylenie standardowe służy do określenia błędu serii kolejnych pomiarów pewnej wielkości. Ta wartość jest bardzo ważna dla określenia prawdopodobieństwa badanego zjawiska w porównaniu z wartością przewidywaną przez teorię: jeśli średnia wartość pomiarów bardzo różni się od wartości przewidywanych przez teorię (duże odchylenie standardowe), to uzyskane wartości lub sposób ich uzyskania należy ponownie sprawdzić.

Praktyczne użycie

W praktyce odchylenie standardowe pozwala określić, jak bardzo wartości w zestawie mogą różnić się od wartości średniej.

Klimat

Załóżmy, że istnieją dwa miasta z tą samą średnią dzienną maksymalną temperaturą, ale jedno znajduje się na wybrzeżu, a drugie w głębi lądu. Wiadomo, że miasta przybrzeżne mają wiele różnych dziennych maksymalnych temperatur niższych niż miasta śródlądowe. W związku z tym odchylenie standardowe maksymalnych temperatur dobowych w mieście nadmorskim będzie mniejsze niż w drugim mieście, mimo że mają one taką samą średnią wartość tej wartości, co w praktyce oznacza, że ​​prawdopodobieństwo, że maksymalna temperatura powietrza w każdego dnia roku będą silniejsze odbiegać od wartości średniej, wyższej dla miasta położonego w głębi kontynentu.

Sport

Załóżmy, że istnieje kilka drużyn piłkarskich, które są uszeregowane według pewnego zestawu parametrów, na przykład liczby strzelonych i straconych bramek, szans na zdobycie bramki itp. Najprawdopodobniej najlepsza drużyna w tej grupie będzie miała najlepsze wartości w więcej parametrów. Im mniejsze odchylenie standardowe zespołu dla każdego z przedstawionych parametrów, tym bardziej przewidywalny jest wynik zespołu, takie zespoły są zrównoważone. Z drugiej strony drużyna z dużym odchyleniem standardowym ma trudności z przewidzeniem wyniku, co z kolei tłumaczy się brakiem równowagi, na przykład silną obroną, ale słabym atakiem.

Zastosowanie odchylenia standardowego parametrów zespołu pozwala w pewnym stopniu przewidzieć wynik meczu pomiędzy dwoma zespołami, oceniając mocne i słabe strony zespołów, a co za tym idzie obrane metody walki.

Analiza techniczna

Zobacz też

Literatura

* Borowikow, W. STATYSTYKA. Sztuka komputerowej analizy danych: dla profesjonalistów / V. Borowikow. - Sankt Petersburg. : Piotr, 2003. - 688 s. - ISBN 5-272-00078-1.



Podobne artykuły