Caracteristicile împrăștierii datelor. Caracteristicile de împrăștiere ale rezultatelor măsurătorilor Nu se aplică caracteristicilor de împrăștiere

Alături de cea mai probabilă valoare de risc, este importantă răspândirea valorilor de risc posibile în raport cu valoarea sa centrală. Luarea în considerare a răspândirii indicatorilor este necesară și la rezolvarea problemelor de monitorizare socială și igienă.

Cele mai comune caracteristici de împrăștiere variabilă aleatoare sunt varianța și abaterea standard.

Varianta variabilei aleatoare ξ se notează ca D(ξ) (se folosește și notația V(ξ) și σ 2(ξ)), caracterizează valoarea cea mai probabilă a abaterii pătrate a unei variabile aleatoare de la așteptarea ei matematică.

Pentru o variabilă aleatoare discretă care ia valori x i cu probabilităţi r i, varianța este definită ca suma ponderată a variațiilor nitraților x i din așteptarea matematică ξ cu coeficienți de ponderare egali cu probabilitățile corespunzătoare:

D(ξ) =

Pentru o variabilă aleatoare continuă ξ, varianța acesteia este determinată de formula:

D(ξ) =

Dispersia are următoarele proprietăți practic importante:

1. Varianta oricărei variabile aleatoare este nenegativă:

D(ξ) ≥ 0

2. Varianta valoare constantă este egal cu 0:

D(C) = 0

Unde C este o constantă.

3. Varianta unei variabile aleatoare ξ este egală cu diferența dintre așteptarea matematică a pătratului acestei variabile aleatoare și pătratul așteptării matematice ξ:

D(ξ) = M [ξ – M (ξ)] 2 = M(ξ 2) – ( .

4. Adăugarea unei constante la o variabilă aleatoare nu modifică varianța; înmulțirea unei variabile aleatoare cu o constantă a duce la înmulțirea varianței cu a 2 :

D(aξ + b) = a 2 D(ξ),

Unde OŞi b- constante.

5. Varianța sumei variabilelor aleatoare independente este egală cu suma varianțelor acestora:

unde ξ și η sunt variabile aleatoare independente.

Abaterea standard a unei variabile aleatoare ξ (este folosit și termenul „abatere standard”) este numărul σ (ξ) egal rădăcină pătrată din varianța ξ:

Abaterea standard măsoară abaterea unei variabile aleatoare de la așteptările ei matematice în aceleași cantități în care este măsurată variabila aleatoare în sine (spre deosebire de varianța, a cărei dimensiune este egală cu pătratul dimensiunii variabilei aleatoare originale) . Pentru distributie normala abaterea standard este egală cu parametrul σ. Astfel, așteptarea matematică și abaterea standard reprezintă un set complet de caracteristici ale distribuției normale și determină în mod unic tipul densității distribuției. Pentru alte distribuții decât cele normale, această pereche de indicatori nu este o caracteristică la fel de eficientă a distribuției.


Coeficientul de variație este, de asemenea, utilizat ca o caracteristică a împrăștierii unei variabile aleatoare. Coeficientul de variație al unei variabile aleatoare ξ având o așteptare matematică diferită de zero este numărul V(ξ) egal cu raportul dintre abaterea standard ξ și așteptările sale matematice:

Coeficientul de variație măsoară dispersia unei variabile aleatoare ca o fracțiune din așteptările ei matematice și este adesea exprimat ca procent din aceasta din urmă. Această caracteristică nu trebuie utilizată dacă așteptarea matematică este aproape de 0 sau semnificativ mai mică decât abaterea standard (în acest caz, erorile mici în determinarea așteptării matematice conduc la o eroare mare în coeficientul de variație), precum și dacă tipul de distribuție a densității diferă semnificativ de gaussian.

Coeficient de asimetrie ( Ca) determină gradul 3 de abatere a unei variabile aleatoare de la așteptarea matematică și se determină prin formula:

În practică, acest indicator este utilizat ca evaluare a simetriei distribuției. Pentru orice distribuție simetrică, aceasta este egală cu 0. Dacă densitatea distribuției este asimetrică (ceea ce poate fi adesea cazul la evaluarea riscului de deces și a riscurilor asociate cu poluarea apei și a aerului), atunci un coeficient de asimetrie pozitiv corespunde cazului în care umărul stâng al curbei de densitate este mai abrupt decât cel drept și negativ - în cazul în care umărul drept este mai abrupt decât cel stâng (Figura 4.17).

Pentru distribuțiile anormale, abaterea standard nu este o măsură bună a dispersiei unei variabile aleatoare. Pentru a caracteriza dispersia în acest caz, puteți utiliza indicatori precum quartile, quantile și percentile.

Prima cuartilă a unei variabile aleatoare ξ având o funcție de distribuție F(x) este numărul Î 1 care este o soluție a ecuației

F(Q 1) = 1/4

adică un număr pentru care probabilitatea ca ξ să ia valori mai mici decât Î 1, este egal cu 1/4, probabilitatea ca acesta să ia valori mai mari Î 1 egal cu 3/4.

A doua quartila ( Î 2) a unei variabile aleatoare se numește mediana ei, iar a treia ( Q 3) - soluția ecuației

F(Q 3) = 3/4

Quartilele împart axa x în 4 intervale: [-∞, Î 1], [Q1, Q2], [Q2, Q3] Și [ Q 3, + ∞] în fiecare dintre care variabila aleatoare se încadrează cu probabilitate egală, iar figura mărginită de axa absciselor și graficul densității distribuției se încadrează în 4 regiuni cu aceeași zonă. Iar intervalul dintre primul și al treilea quartile conține 50% din distribuția variabilei aleatoare. Pentru distribuțiile simetrice, primul și al treilea quartile sunt la fel de îndepărtate de mediană.

Ordine cuantilă r variabila aleatoare ξ cu funcție de distribuție F(x) este numărul X, care este o soluție a ecuației

Astfel, quartilele sunt cuantile de ordinul 0,25, 0,5 și 0,75. Dacă ordinea cuantilei p este exprimată în procente, atunci valorile corespunzătoare X se numesc percentile sau r- puncte procentuale de distribuție.

În fig. Figura 4.18 prezintă, împreună cu cuantile, cele 2,5 și 97,5 puncte procentuale ale distribuției. Între aceste puncte se concentrează 95% din distribuția variabilei aleatoare, deci intervalul dintre ele se numește intervalul de încredere de 95% al ​​mediei (în special, la evaluarea riscurilor - intervalul de încredere de 95% al ​​riscului).

Sarcina 2. Care dintre următoarele informații despre variabila aleatoare ξ ne permite să respingem ipoteza că aceasta este distribuită conform unei legi normale:

a) ξ - variabilă aleatoare discretă;

b) așteptarea matematică ξ este negativă;

c) distribuția lui ξ este unimodală;

d) așteptarea matematică a lui ξ nu este egală cu mediana sa;

e) coeficientul de asimetrie ξ este negativ;

f) abaterea standard a lui ξ este mai mare decât așteptările sale matematice;

g) ξ caracterizează distribuția duratei bolilor respiratorii acute în zona de studiu;

h) ξ caracterizează distribuția speranței de viață în zona de studiu;

i) mediana ξ nu coincide cu centrul intervalului dintre primul și al treilea quartile.

Răspuns: Ipoteza despre distribuția normală a unei variabile aleatoare este incompatibilă cu afirmațiile a), d), e), h), i).

Orez. 4.17. Dependență între semne Fig.4.18. Quartile și percentile:

coeficientul de asimetrie și ilustrarea formei folosind funcția

funcții de densitate de distribuție

Caracteristicile de poziție descriu centrul distribuției. În același timp, semnificațiile opțiunii pot fi grupate în jurul acesteia atât într-o bandă largă, cât și îngustă. Prin urmare, pentru a descrie distribuția, este necesar să se caracterizeze intervalul de modificări ale valorilor caracteristicii. Caracteristicile de împrăștiere sunt folosite pentru a descrie intervalul de variație al unei caracteristici. Cele mai utilizate sunt intervalul de variație, dispersia, abaterea standard și coeficientul de variație.

Gama de variație este definită ca diferența dintre valoarea maximă și minimă a unei caracteristici din populația studiată:

R=x max - x min.

Avantajul evident al indicatorului luat în considerare este simplitatea calculului. Cu toate acestea, deoarece domeniul de variație depinde de valorile doar ale valorilor extreme ale caracteristicii, domeniul de aplicare a acesteia este limitat la distribuții destul de omogene. În alte cazuri, conținutul de informații al acestui indicator este foarte mic, deoarece există multe distribuții care sunt foarte diferite ca formă, dar au același interval. În studiile practice, intervalul de variație este uneori utilizat cu dimensiuni mici (nu mai mult de 10) eșantion. De exemplu, din gama de variații este ușor de evaluat cât de diferite sunt cele mai bune și cele mai proaste rezultate la un grup de sportivi.

În acest exemplu:

R=16,36 – 13,04=3,32 (m).

A doua caracteristică a împrăștierii este dispersie. Dispersia este pătratul mediu al abaterii unei variabile aleatoare de la media ei. Dispersia este o caracteristică a împrăștierii, răspândirea valorilor unei cantități în jurul valorii sale medii. Cuvântul „dispersie” în sine înseamnă „împrăștiere”.

Atunci când se efectuează studii prin eșantion, este necesar să se stabilească o estimare a varianței. Varianța calculată din datele eșantionului se numește varianță eșantionului și se notează S 2 .

La prima vedere, cea mai naturală estimare a varianței este varianța statistică, calculată pe baza definiției folosind formula:

În această formulă - suma abaterilor pătrate ale valorilor atributelor x i din media aritmetică . Pentru a obține deviația pătrată medie, această sumă este împărțită la dimensiunea eșantionului n.

Cu toate acestea, o astfel de estimare nu este imparțială. Se poate demonstra că suma abaterilor pătrate ale valorilor atributelor pentru o medie aritmetică eșantion este mai mică decât suma abaterilor pătrate de la orice altă valoare, inclusiv de la media adevărată (așteptările matematice). Prin urmare, rezultatul obținut din formula de mai sus va conține o eroare sistematică, iar valoarea estimată a varianței va fi subestimată. Pentru a elimina părtinirea, este suficient să introduceți un factor de corecție. Rezultatul este următoarea relație pentru varianța estimată:

Pentru valori mari n Desigur, ambele estimări - părtinitoare și nepărtinitoare - vor diferi foarte puțin și introducerea unui factor de corecție devine lipsită de sens. De regulă, formula pentru estimarea varianței ar trebui să fie rafinată când n<30.

În cazul datelor grupate, ultima formulă poate fi redusă la următoarea formă pentru a simplifica calculele:

Unde k- numărul de intervale de grupare;

n i- frecvența intervalului cu număr i;

x i- valoarea mediană a intervalului cu număr i.

De exemplu, să calculăm varianța pentru datele grupate ale exemplului pe care îl analizăm (a se vedea tabelul 4.):

S 2 =/ 28=0,5473 (m2).

Varianta unei variabile aleatoare are dimensiunea pătratului dimensiunii variabilei aleatoare, ceea ce face dificilă interpretarea și nu o face foarte clară. Pentru o descriere mai vizuală a împrăștierii, este mai convenabil să folosiți o caracteristică a cărei dimensiune coincide cu dimensiunea caracteristicii studiate. În acest scop, este introdus conceptul abaterea standard(sau abaterea standard).

Abaterea standard se numește rădăcina pătrată pozitivă a varianței:

În exemplul nostru, abaterea standard este egală cu

Abaterea standard are aceleasi unitati de masura ca si rezultatele masurarii caracteristicii studiate si, astfel, caracterizeaza gradul de abatere a caracteristicii fata de media aritmetica. Cu alte cuvinte, arată cum se află partea principală a opțiunii în raport cu media aritmetică.

Abaterea standard și varianța sunt cele mai utilizate măsuri de variație. Acest lucru se datorează faptului că sunt incluse într-o parte semnificativă a teoremelor teoriei probabilităților, care servește drept fundament al statisticii matematice. În plus, varianța poate fi descompusă în elementele sale componente, ceea ce face posibilă evaluarea influenței diferiților factori asupra variației trăsăturii studiate.

Pe lângă indicatorii absoluti de variație, care sunt dispersia și abaterea standard, în statistică sunt introduși și cei relativi. Cel mai des este folosit coeficientul de variație. Coeficientul de variație egal cu raportul dintre abaterea standard și media aritmetică, exprimat ca procent:

Din definiție reiese clar că, în sensul său, coeficientul de variație este o măsură relativă a dispersiei unei caracteristici.

Pentru exemplul în cauză:

Coeficientul de variație este utilizat pe scară largă în cercetarea statistică. Fiind o valoare relativă, vă permite să comparați variabilitatea ambelor caracteristici care au unități de măsură diferite, precum și aceeași caracteristică în mai multe populații diferite cu valori diferite ale mediei aritmetice.

Coeficientul de variație este utilizat pentru a caracteriza omogenitatea datelor experimentale obținute. În practica culturii fizice și sportului, răspândirea rezultatelor măsurătorilor în funcție de valoarea coeficientului de variație este considerată a fi mică (V<10%), средним (11-20%) и большим (V> 20%).

Restricțiile privind utilizarea coeficientului de variație sunt asociate cu natura sa relativă - definiția conține normalizarea la media aritmetică. În acest sens, la valori absolute mici ale mediei aritmetice, coeficientul de variație își poate pierde conținutul informațional. Cu cât media aritmetică este mai aproape de zero, cu atât acest indicator devine mai puțin informativ. În cazul limitativ, media aritmetică merge la zero (de exemplu, temperatura), iar coeficientul de variație merge la infinit, indiferent de răspândirea caracteristicii. Prin analogie cu cazul erorii, se poate formula următoarea regulă. Dacă valoarea mediei aritmetice din eșantion este mai mare de unu, atunci utilizarea coeficientului de variație este legală, în caz contrar, dispersia și abaterea standard ar trebui utilizate pentru a descrie răspândirea datelor experimentale;

În încheierea acestei părți, vom lua în considerare evaluarea variațiilor în valorile caracteristicilor de evaluare. După cum sa menționat deja, valorile caracteristicilor de distribuție calculate din datele experimentale nu coincid cu valorile lor adevărate pentru populația generală. Nu este posibil să se stabilească cu exactitate pe acesta din urmă, deoarece, de regulă, este imposibil să se studieze întreaga populație. Dacă folosim rezultatele diferitelor eșantioane din aceeași populație pentru a estima parametrii de distribuție, se dovedește că aceste estimări pentru diferite eșantioane diferă unele de altele. Valorile estimate fluctuează în jurul valorii lor adevărate.

Abaterile estimărilor parametrilor generali de la valorile adevărate ale acestor parametri se numesc erori statistice. Motivul apariției lor este dimensiunea limitată a eșantionului - nu toate obiectele din populația generală sunt incluse în acesta. Pentru a estima amploarea erorilor statistice, se utilizează abaterea standard a caracteristicilor eșantionului.

Ca exemplu, luați în considerare cea mai importantă caracteristică a poziției - media aritmetică. Se poate demonstra că abaterea standard a mediei aritmetice este determinată de relația:

Unde σ - abaterea standard pentru populatie.

Deoarece valoarea adevărată a abaterii standard nu este cunoscută, o cantitate numită eroarea standard a mediei aritmetice si egal:

Valoarea caracterizează eroarea care, în medie, este permisă la înlocuirea mediei generale cu estimarea eșantionului acesteia. Conform formulei, creșterea dimensiunii eșantionului în timpul unui studiu duce la o scădere a erorii standard proporțional cu rădăcina pătrată a dimensiunii eșantionului.

Pentru exemplul luat în considerare, eroarea standard a mediei aritmetice este egală cu . În cazul nostru, sa dovedit a fi de 5,4 ori mai mică decât abaterea standard.

Caracteristicile de poziție oferă o idee medie a valorilor caracteristice asumate de variabile aleatoare. Cu cât există mai multe informații în aceste caracteristici, cu atât abaterile de la ele pot fi observate mai mici într-un experiment real. Indicatorii care descriu posibile abateri ale valorilor unei variabile aleatoare față de „medie” se numesc caracteristici de împrăștiere. Acestea includ dispersia, abaterea standard, abaterea mediană, coeficientul de variație și altele. 2.1. Dispersia și proprietățile sale Cea mai importantă dintre ele este dispersia. Varianta variabilei aleatoare £ (denumirea #[£]) este așteptarea matematică a abaterii pătrate a variabilei aleatoare (de la media acesteia. Să notăm câteva proprietăți ale dispersiei. Folosind proprietățile așteptării matematice, obținem Rețineți că dacă variabilele aleatoare sunt independente, atunci din proprietatea 3 a așteptării matematice rezultă că proprietatea indicată arată astfel: 6. Dacă d^(x) este densitatea distribuției generalizate a variabilei aleatoare f, atunci £> [£] poate fi calculată din relația Caracteristici de împrăștiere Dispersia și proprietățile ei Inegalitatea lui Chebyshev în special, dacă £ este o mărime aleatoare continuă cu densitatea x), atunci dacă £ este o variabilă aleatoare discretă cu o serie de distribuții Exemplul t (varianța unei variabilă aleatoare Bernoulli). Fie ( o variabilă aleatoare Beonulli, . În conformitate cu relația (4), obținem (M = p) Exemplul 2 (varianța unei variabile aleatoare binomiale). Dacă £ este binom cu parametrii (n, p), atunci, ca notat mai sus, (reprezentabil sub forma în care sunt variabile aleatoare Bernoulli independente distribuite identic cu parametrul p. Prin urmare (proprietatea de dispersie 5) În același timp, se dovedește identitatea combinatorie Exemplul 3 (dispersia unei uniforme pe (u, variabilă aleatoare) ). Gol Avem Caracteristica de împrăștiere, strâns legată de dispersie, este deviația pătrată medie a unei variabile aleatoare." Deținând același conținut calitativ (conținând aceleași informații) ca și varianța, abaterea standard are avantajul de a fi măsurată în aceleași unități ca și variabila aleatoare în cauză Rețineți că Din proprietățile dispersiei rezultă în mod evident: dacă numai - sunt independente, observăm că dacă variabila aleatoare £ există, atunci este posibil să se construiască o variabilă aleatoare £ care are aceleași proprietăți ca £, dar are caracteristici numerice standard: M = 0 și D = 1. Este suficient să punem Tranziția de la (la £ - m se numește centrarea variabilei aleatoare și tranziția este normalizare. Astfel, relația (6) descrie procedura de normalizare și centrare a unei variabile aleatoare. Evident, centrarea nu modifică dispersia, în timp ce normalizarea, care este în natura unei transformări la scară, modifică așteptarea matematică cu un factor de 0. 2.2. Inegalitatea lui Chebyshev Din definiția varianței (1) este clar că se intenționează să descrie calitativ dispersia valorilor unei variabile aleatoare în raport cu așteptarea matematică. Sensul probabilistic precis al acestei descrieri este dat de inegalitatea lui Cebyshev, pe care o vom lua în considerare aici. Teorema. Fie ca o variabilă aleatoare £ să aibă o așteptare matematică A/(£| = m și o varianță /?(£) = a2. Atunci orice e > 0 Să considerăm variabila aleatoare auxiliară r/, dată de relația Rețineți că și prin urmare Conform teoremei privind așteptarea matematică a unei funcții a unei variabile aleatoare, obținem de unde sau cum se termină demonstrația. Rețineți că inegalitatea (7) este adesea folosită într-o formă echivalentă obținută din (7) prin aplicarea relației evidente inegalității lui Chebyshev. arată că cu cât varianța este mai mică, cu atât valorile variabilei aleatoare £ „puternic” se abate de la media m. Pentru o dispersie fixă, probabilitatea abaterilor cu o valoare mai mare decât e. este mai mic, cu cât este mai mare Inegalitatea (7) este universală cantitativ neinformativ - pentru valori rezonabile ale e, estimările de probabilitate sunt extrem de neclare. Pentru o variabilă aleatorie normală cu parametrii (0, 1) avem Caracteristicile împrăștierii Dispersie și proprietățile sale inegalitatea lui Chebyshev, în timp ce inegalitatea lui Chebyshev dă ceea ce este adevărat, dar trivial. Pentru aceeași variabilă aleatoare la e = 3, valoarea exactă a probabilității și relația (8) conduce la o estimare care este deja semnificativ mai bună decât cea anterioară. În ciuda naturii destul de grosiere a estimărilor (7)-(8), fără ipoteze suplimentare despre natura distribuției variabilei aleatoare, inegalitatea lui Cebyshev, așa cum arată următorul exemplu, nu poate fi îmbunătățită - este exactă1*. Exemplu. Fie ( o variabilă aleatoare discretă care ia valori în funcție de probabilități. Este ușor de observat că. Să stabilim e = I și să găsim valoarea probabilității. Avem Inegalitatea (7) în această situație dă o estimare care coincide cu valoarea exactă a probabilității estimate 2.3 Alte caracteristici de împrăștiere Din alte caracteristici de împrăștiere utilizate adesea în aplicații, notăm coeficientul de variație și deviația mediană (deviația medie aritmetică). Fie variabila aleatoare £ să aibă A/[£) = m și = o2. Coeficientul de variație al variabilei aleatoare £ este mărimea Din (9) este ușor de observat că descrie dispersia variabilei aleatoare £ în fracții față de medie. Ca indicator absolut al dispersiei, coeficientul de variație nu este foarte convenabil, dar pentru variabile aleatoare centrate în comun (adică, având aceleași așteptări matematice), vă permite să comparați eficient intervalele de variație. Fie ca o variabilă aleatorie £ să aibă o abatere mediană Abaterea mediană (/[£] are, din punct de vedere calitativ, același sens ca abaterea standard - cu cât deviația mediană este mai mare, cu atât este mai mare împrăștierea; cu cât deviația mediană este mai mică, cu atât este mai mică împrăștierea. În sensul că există o variabilă aleatoare pentru care în inegalitățile (7)-(8) la unele e se realizează semnul de egalitate Pentru clase specifice de distribuții se poate stabili legătura dintre acești indicatori, dar în cazul general nu există relații între U și a care să fie convenabile pentru utilizare în practică. Exemplul 1. Fie ( o variabilă aleatoare distribuită normal. Atunci, în acest caz, Exemplul 2. Fie ( = А[-о, о| o variabilă aleatoare distribuită uniform. Atunci U = a/2 Caracteristicile dispersiei și proprietățile sale Inegalitatea lui Chebyshev Rețineți că, în acest caz, proprietatea U nu este aleatorie - este valabilă pentru orice variabilă aleatoare (desigur, având dispersie). unde face

Caracteristici de împrăștiere

Măsuri de dispersie a probelor.

Minimul și maximul eșantionului sunt, respectiv, cel mai mic și cea mai mare valoare variabila studiată. Se numește diferența dintre maxim și minim domeniul de aplicare mostre. Toate datele eșantionului sunt situate între minim și maxim. Acești indicatori par să contureze limitele eșantionului.

R№1= 15,6-10=5,6

R nr. 2 = 0,85-0,6 = 0,25

Varianta eșantionului(engleză) varianţă) Și abaterea standard mostre (engleză) abaterea standard) sunt o măsură a variabilității unei variabile și caracterizează gradul de împrăștiere a datelor în jurul centrului. În acest caz, abaterea standard este un indicator mai convenabil datorită faptului că are aceeași dimensiune cu datele efective studiate. Prin urmare, indicatorul abaterii standard este utilizat împreună cu media aritmetică a eșantionului pentru scurtă descriere rezultatele analizei datelor.

Este mai convenabil să se calculeze varianța eșantionului folosind formula:

Abaterea standard se calculează folosind formula:

Coeficientul de variație este o măsură relativă a dispersiei unei trăsături.

Coeficientul de variație este folosit și ca indicator al omogenității observațiilor din eșantion. Se crede că, dacă coeficientul de variație nu depășește 10%, atunci eșantionul poate fi considerat omogen, adică obținut dintr-o populație generală.

Deoarece coeficientul de variație este în ambele probe, acestea sunt omogene.

Eșantionul poate fi prezentat analitic sub forma unei funcții de distribuție, precum și sub forma unui tabel de frecvență format din două linii. În linia de sus se află elementele de selecție (opțiuni), dispuse în ordine crescătoare; Frecvențele opțiunii sunt scrise în linia de jos.

Frecvența variantei este un număr egal cu numărul de repetări ale unei anumite variante din eșantion.

Eșantionul nr. 1 „Mame”

Tipul curbei de distribuție

Asimetrie sau coeficientul de asimetrie (un termen creat pentru prima dată de Pearson, 1895) este o măsură a asimilității unei distribuții. Dacă asimetria este clar diferită de 0, distribuția este asimetrică, densitatea distribuției normale este simetrică față de medie.

Indicator asimetrie(engleză) asimetrie) este folosit pentru a caracteriza gradul de simetrie a distribuției datelor în jurul centrului. Asimetria poate lua atât valori negative, cât și pozitive. O valoare pozitivă pentru acest parametru indică faptul că datele sunt deplasate la stânga centrului, iar o valoare negativă indică faptul că datele sunt deplasate la dreapta. Astfel, semnul indicelui de asimetrie indică direcția părtinirii datelor, în timp ce mărimea indică gradul acestei părtiniri. Asimetrie egal cu zero indică faptul că datele sunt concentrate simetric în jurul centrului.

Deoarece asimetria este pozitivă, prin urmare, vârful curbei se deplasează la stânga centrului.

Coeficientul de kurtoză(engleză) curtoză) este o caracteristică a cât de aproape este grupată cea mai mare parte a datelor în jurul centrului.

Cu o curtoză pozitivă, curba se ascuți, cu o kurtoză negativă, se netezește.

Curba este aplatizată;

Curba se accentuează.

LA caracteristici statistice de bază serii de măsurători (serii variaţionale) includ caracteristicile poziției (caracteristici medii, sau tendinta centrala a esantionului); caracteristici de împrăștiere (variatii sau fluctuatii) Și X caracteristicile formei distribuţiile.

LA caracteristicile poziției include medie aritmetică (valoare medie), modăŞi median.

LA caracteristici de împrăștiere (variatii sau fluctuatii) includ: gama de variatie, dispersie, pătrat mediu (standard) abatere, eroare medie aritmetică (eroare de medie), coeficient de variație etc.

La caracteristicile formei include coeficientul de asimetrie, măsurarea asimetriei și curtoza.

Caracteristicile poziției

Medie valoare aritmetică – una dintre principalele caracteristici ale probei.

Ea, ca și alte caracteristici numerice ale eșantionului, poate fi calculată atât din datele primare brute, cât și din rezultatele grupării acestor date.

Precizia calculului pe datele brute este mai mare, dar procesul de calcul se dovedește a fi laborios cu o dimensiune mare a eșantionului.

Pentru datele negrupate, media aritmetică este determinată de formula:

Unde n- dimensiunea eșantionului, X 1 , X 2 , ... X n - rezultatele măsurătorilor.

Pentru date grupate:

Unde n- dimensiunea eșantionului, k– numărul de intervale de grupare, n i– frecvențe de interval, x i– valorile mediane ale intervalelor.

Modă

Definiția 1. Modă - valoarea care apare cel mai frecvent în datele eșantionului. Desemnat luși este determinată de formula:

unde este limita inferioară a intervalului modal, este lățimea intervalului de grupare, este frecvența intervalului modal, este frecvența intervalului care precede modalul, este frecvența intervalului care urmează modalului.

Definiția 2. Moda Mo variabilă aleatoare discretă valoarea sa cea mai probabilă se numește.

Geometric, modul poate fi interpretat ca abscisa punctului maxim al curbei de distribuție. Sunt bimodal Şi multimodal distribuţiile. Există distribuții care au un minim, dar nu maxim. Astfel de distribuții sunt numite anti-modal .

Definiţie. Modal interval Se numește intervalul de grupare cu cea mai mare frecvență.

Median

Definiţie. Median - rezultatul măsurării care se află la mijlocul seriei clasate, cu alte cuvinte, mediana este valoarea atributului X, atunci când o jumătate din valorile datelor experimentale este mai mică decât aceasta, iar a doua jumătate este mai mare, este desemnat Meh.

Când dimensiunea eșantionului n- număr par, adică există un număr par de rezultate de măsurare, apoi pentru a determina mediana, se calculează valoarea medie a doi indicatori de eșantion situati la mijlocul seriei clasate.

Pentru datele grupate pe intervale, mediana este determinată de formula:

,

unde este limita inferioară a intervalului median; lățimea intervalului de grupare, 0,5 n– jumătate din volumul probei, – frecvența intervalului median, – frecvența acumulată a intervalului care precede mediana.

Definiţie. Intervalul median este intervalul în care frecvența acumulată pentru prima dată se dovedește a fi mai mare de jumătate din volumul eșantionului ( n/ 2) sau frecvența acumulată va fi mai mare de 0,5.

Valorile numerice ale mediei, modului și medianei diferă atunci când distribuția empirică are o formă asimetrică.

Caracteristicile de dispersie ale rezultatelor măsurătorilor

Pentru analiza matematică și statistică a rezultatelor eșantionului, cunoașterea doar a caracteristicilor poziției nu este suficientă. Aceeași valoare medie poate caracteriza eșantioane complet diferite.

Prin urmare, pe lângă ele, statisticile iau în considerare și caracteristici de împrăștiere (variatii, sau fluctuatii ) rezultate.

Gama de variație

Definiţie. În domeniul de aplicare variația este diferența dintre rezultatele eșantionului cel mai mare și cel mai mic, notat cu R si este determinata

R=X max - X min.

Valoarea informațională a acestui indicator este mică, deși cu dimensiuni reduse ale eșantionului este ușor de evaluat diferența dintre cele mai bune și cele mai proaste rezultate ale sportivilor.

Dispersia

Definiţie. Varianta se numește pătratul mediu al abaterii valorilor caracteristice de la media aritmetică.

Pentru datele negrupate, varianța este determinată de formulă

s 2 = , (1)

Unde Xi– valoarea atributului, este media aritmetică.

Pentru datele grupate în intervale, varianța este determinată de formulă

,

Unde x i– valoarea medie i interval de grupare, n i– frecvențe de interval.

Pentru a simplifica calculele și pentru a evita erorile de calcul la rotunjirea rezultatelor (în special la creșterea dimensiunii eșantionului), se folosesc și alte formule pentru a determina varianța. Dacă media aritmetică a fost deja calculată, atunci se utilizează următoarea formulă pentru datele negrupate:

pentru date grupate:

.

Aceste formule se obțin din cele anterioare prin relevarea pătratului diferenței sub semnul sumei.