Formule de statistică matematică cu explicații. Rezolvarea problemelor de statistică matematică. Principalele ramuri ale statisticii matematice sunt

„Unii oameni cred că au întotdeauna dreptate. Astfel de oameni nu puteau fi nici oameni de știință buni și nici nu au vreun interes pentru statistică... Cazul a fost adus cu picioarele pe pământ, unde a devenit parte din lumea științei.” (Diamand S.)

„Șansa este doar măsura ignoranței noastre. Fenomenele întâmplătoare, dacă le definim, vor fi acelea ale căror legi nu le cunoaștem.” (A. Poincaré „Știință și ipoteză”)

„Mulțumesc Domnului. Nu este cazul
Mereu la egalitate cu imuabilul...
Șansa conduce adesea evenimentul,
Generează atât bucurie, cât și durere.
Și viața ne pune o sarcină înaintea noastră:
Cum să înțelegi rolul întâmplării"
(din cartea „Matematica studiază aleatorietatea” de B.A. Kordemsky)

Lumea în sine este naturală - așa considerăm și studiem adesea legile fizicii, chimiei etc., și totuși nimic nu se întâmplă fără intervenția întâmplării, apărute sub influența unor efecte secundare nepermanente. legături cauzale, schimbând cursul unui fenomen sau experiență atunci când acesta se repetă. Un „efect aleatoriu” este creat cu regularitatea inerentă a „predeterminarii ascunse”, adică. șansa are nevoie de un rezultat natural.

Matematicienii consideră evenimente aleatorii doar în dilema „a fi sau a nu fi” - dacă se va întâmpla sau nu.

Definiţie. Capitol matematica aplicata, în care sunt studiate caracteristicile cantitative ale evenimentelor sau fenomenelor aleatoare în masă, se numește statistici matematice.

Definiţie. Se numește combinația de elemente de teoria probabilității și statistică matematică stocastice.

Definiţie. Stochastică- aceasta este ramura matematicii care a luat naștere și se dezvoltă în strânsă legătură cu activitățile practice ale omului. Astăzi, elementele de stocastică sunt incluse în matematică pentru toată lumea, devenind un aspect nou, important al educației matematice și generale.

Definiţie. Statistică matematică– știința metodelor matematice de sistematizare, prelucrare și utilizare a datelor statistice pentru concluzii științifice și practice.

Să vorbim despre asta mai detaliat.

Viziunea general acceptată acum este că statistica matematică este știința metodelor generale de procesare a rezultatelor experimentale. În rezolvarea acestor probleme, ce trebuie să aibă un experiment pentru ca judecățile făcute pe baza lui să fie corecte? Statistica matematică devine, în parte, știința designului experimental.

Sensul cuvântului „statistică” a suferit modificări semnificative în ultimele două secole, scriu celebrii oameni de știință moderni Hodges și Lehman, „cuvântul „statistică” are aceeași rădăcină ca și cuvântul „stat” (stat) și inițial a însemnat arta. și știința managementului: primii profesori de statistică din universități Germania secolului al XVIII-lea s-ar numi astăzi oameni de științe sociale. Deoarece deciziile guvernamentale se bazează într-o oarecare măsură pe date despre populație, industrie etc. statisticienii, firesc, au început să fie interesați de astfel de date și, treptat, cuvântul „statistică” a început să însemne colectarea de date despre populație, despre stat, apoi colectarea și prelucrarea datelor în general. Nu are rost să extragem date decât dacă ceva util vine din ele, iar statisticienii se implică în mod natural în interpretarea datelor.

Statisticianul modern studiază metode prin care se pot face inferențe despre o populație din datele obținute de obicei dintr-un eșantion al „populației”.

Definiţie. Statistician– persoană care se ocupă de știința metodelor matematice de sistematizare, prelucrare și utilizare a datelor statistice pentru concluzii științifice și practice.

Statistica matematică a apărut în secolul al XVII-lea și s-a dezvoltat în paralel cu teoria probabilității. Dezvoltarea ulterioară a statisticii matematice (a doua jumătate a secolului al XIX-lea și începutul secolului al XX-lea) se datorează, în primul rând, lui P.L. Cebyshev, A.A. Markov, A.M. Lyapunov, K. Gauss, A. Quetelet, F. Galton, K. Pearson și alții În al 20-lea, cea mai semnificativă contribuție la statistica matematică a fost făcută de A.N. Kolmogorov, V.I. Romanovsky, E.E. Slutsky, N.V. Smirnov, B.V. Gnedenko, precum și studentul englez, R. Fisher, E. Purson și oamenii de știință americani (Y. Neumann, A. Wald).

Probleme de statistică matematică și semnificația erorii în lumea științei

Stabilirea tiparelor la care sunt supuse fenomenele aleatoare de masă se bazează pe studiul datelor statistice din rezultate observaționale folosind metodele teoriei probabilităților.

Prima sarcină a statisticii matematice este de a indica modalități de colectare și grupare a informațiilor statistice obținute ca urmare a observațiilor sau ca urmare a experimentelor special concepute.

A doua sarcină a statisticii matematice este de a dezvolta metode de analiză a datelor statistice în funcție de obiectivele studiului.

Statistica matematică modernă dezvoltă modalități de a determina numărul de teste necesare înainte de începerea studiului (planificarea experimentului) și în timpul studiului (analiza secvențială). Poate fi definită ca știința luării deciziilor în condiții de incertitudine.

Pe scurt, putem spune că sarcina statisticii matematice este de a crea metode de colectare și prelucrare a datelor statistice.

Când se studiază un fenomen aleatoriu de masă, se presupune că toate testele sunt efectuate în aceleași condiții, adică un grup de factori principali care pot fi luați în considerare (măsurabile) și care au un impact semnificativ asupra rezultatului testului păstrează aceleași valori pe cât posibil.

Factorii aleatori distorsionează rezultatul care s-ar fi obținut dacă doar factorii principali ar fi fost prezenți, făcându-l aleatoriu. Abaterea rezultatului fiecărei încercări de la cel adevărat se numește eroare de observare, care este o variabilă aleatorie. Este necesar să se facă distincția între erorile sistematice și aleatorii.

Un experiment științific este la fel de de neconceput fără eroare ca un ocean fără sare. Orice flux de fapte care se adaugă la cunoștințele noastre aduce un fel de eroare. Potrivit unei zicale binecunoscute în viață, majoritatea oamenilor nu pot fi siguri de nimic, în afară de moarte și taxe, iar omul de știință adaugă: „Și erorile experienței”.

Un statistician este un „ogăr” care vânează erori. Instrument statistic pentru detectarea erorilor.

Cuvântul „eroare” nu înseamnă o simplă „calcul greșit”. Consecințele unei erori de calcul sunt o sursă mică și relativ neinteresantă de eroare experimentală.

Într-adevăr, instrumentele noastre se sparg; ochii și urechile noastre ne pot înșela; măsurătorile noastre nu sunt niciodată complet precise, uneori chiar și calculele noastre aritmetice sunt eronate. O eroare experimentală este ceva mai semnificativ decât o bandă de măsură inexactă sau o iluzie optică. Și din moment ce cea mai importantă sarcină a statisticilor este de a ajuta oamenii de știință să analizeze eroarea unui experiment, trebuie să încercăm să înțelegem ce este cu adevărat o eroare.

Indiferent de problema la care lucrează un om de știință, cu siguranță se va dovedi a fi mai complexă decât și-ar dori. Să presupunem că măsoară precipitațiile radioactive la diferite latitudini. Rezultatele vor depinde de altitudinea unde sunt colectate probele, de cantitatea de precipitații locale și de altitudinea ciclonilor pe o zonă mai largă.

Eroarea experimentală este o parte integrantă a oricărui experiment cu adevărat științific.

Același rezultat poate fi eroare și informații în funcție de problemă și punct de vedere. Dacă un biolog dorește să investigheze modul în care schimbările în nutriție afectează creșterea, atunci prezența unei constituții înrudite este o sursă de eroare; dacă studiază relația dintre ereditate și creștere, sursa erorii va fi diferențele de nutriție. Dacă un fizician dorește să studieze relația dintre conductibilitatea electrică și temperatură, diferențele de densitate a materialului conductor sunt o sursă de eroare; dacă studiază relația dintre această densitate și conductibilitatea electrică, schimbările de temperatură vor fi o sursă de eroare.

Această utilizare a cuvântului eroare poate părea dubioasă și ar putea fi de preferat să spunem că efectele obținute sunt confundate de influențe „neintenționate” sau „indezirabile”. Proiectăm un experiment pentru a studia influențele cunoscute, dar factorii aleatori pe care nu îi putem prezice sau analiza deformează rezultatele prin adăugarea propriilor efecte.

Diferența dintre efectele planificate și efectele datorate unor cauze aleatoare este ca diferența dintre mișcările unei nave pe mare, care navighează de-a lungul unui anumit curs și o navă care derivă fără țintă sub dorința vântului și a curenților în schimbare. Mișcarea celui de-al doilea vas poate fi numită mișcare aleatorie. Este posibil ca această navă să ajungă într-un anumit port, dar este mai probabil să nu ajungă într-un loc anume.

Statisticienii folosesc cuvântul „aleatoriu” pentru a desemna un fenomen al cărui rezultat în momentul următor este complet imposibil de prezis.

Eroarea cauzată de efectele prevăzute în experiment este uneori mai sistematică decât întâmplătoare.

Eroarea sistematică este mai înșelătoare decât eroarea aleatorie. Interferența provenită de la un alt post de radio poate crea un acompaniament muzical sistematic pe care uneori îl puteți prezice dacă cunoașteți melodia. Dar acest „acompaniament” poate fi motivul pentru care putem face o judecată incorectă asupra cuvintelor sau muzicii programului pe care încercăm să-l auzim.

Cu toate acestea, descoperirea unei erori sistematice ne duce adesea pe urmele unei noi descoperiri. Cunoașterea modului în care apar erorile aleatorii ne ajută să detectăm erorile sistematice și, prin urmare, să le eliminăm.

Aceeași natură a raționamentului este comună în treburile noastre de zi cu zi. Cât de des observăm: „Acesta nu este un accident!” Ori de câte ori putem spune asta, suntem pe calea descoperirii.

De exemplu, A.L. Cijevski, analizând procese istorice: mortalitate crescută, epidemii, izbucniri de războaie, mari mișcări ale popoarelor, schimbări climatice bruște etc. a descoperit relația dintre aceste procese nelegate și perioadele de activitate solară, care au cicluri: 11 ani, 33 de ani.

Definiţie. Sub eroare sistematică este înțeles ca o eroare care se repetă și aceeași pentru toate testele. De obicei, este asociat cu desfășurarea necorespunzătoare a experimentului.

Definiţie. Sub greșeli aleatorii se referă la erori care apar sub influența unor factori aleatori și variază aleatoriu de la experiment la experiment.

De obicei, distribuția erorilor aleatoare este simetrică față de zero, din care rezultă o concluzie importantă: în absența erorilor sistematice, adevăratul rezultat al testului este așteptarea matematică a unei variabile aleatoare, a cărei valoare specifică este fixată în fiecare test.

Obiectele de studiu în statistica matematică pot fi caracteristici calitative sau cantitative ale fenomenului sau procesului studiat.

În cazul unei caracteristici calitative, se numără numărul de apariții ale acestei caracteristici în seria de experimente luată în considerare; acest număr reprezintă variabila aleatoare (discretă) studiată. Exemple de atribute de calitate includ defecte ale unei piese finite, date demografice etc. Dacă caracteristica este cantitativă, atunci în experiment se fac măsurători directe sau indirecte prin comparație cu un standard - o unitate de măsură - folosind diverse instrumente de măsură. De exemplu, dacă există un lot de piese, atunci standardul piesei poate servi ca semn calitativ, iar dimensiunea controlată a piesei poate servi ca semn cantitativ.

Definiții de bază

O parte semnificativă a statisticilor matematice este asociată cu necesitatea de a descrie o colecție mare de obiecte.

Definiţie. Se numește întregul set de obiecte de studiat populatia generala.

Populația generală poate fi întreaga populație a țării, producția lunară a unei plante, populația de pești care trăiesc într-un anumit rezervor etc.

Dar populația nu este doar un set. Dacă setul de obiecte care ne interesează este prea numeros, sau obiectele sunt greu accesibile, sau există alte motive care nu ne permit să studiem toate obiectele, apelăm la studierea unei părți a obiectelor.

Definiţie. Se numește acea parte a obiectelor care a fost supusă inspecției, cercetării etc populația eșantionului sau doar prelevarea de probe.

Definiţie. Numărul de elemente din populație și eșantion se numește lor volume.

Cum să ne asigurăm că eșantionul reprezintă cel mai bine întregul, de ex. ar fi reprezentativ?

Dacă întregul, adică dacă populația ne este puțin sau complet necunoscută, nu putem oferi nimic mai bun decât o selecție pur aleatorie. O mai mare conștientizare îți permite să acționezi mai bine, dar totuși, la un moment dat, se instalează ignoranța și, ca urmare, alegerea întâmplătoare.

Dar cum să faci o alegere pur aleatorie? De regulă, selecția are loc în funcție de caracteristici ușor de observat, de dragul cărora se efectuează cercetări.

Încălcarea principiilor selecției aleatorii a dus la erori grave. Un sondaj realizat de revista americană Literary Review cu privire la rezultatul alegerilor prezidențiale din 1936 a devenit faimos pentru eșecul acestuia. Candidații la aceste alegeri au fost F.D. Roosevelt și A.M. Landon.

Cine a câștigat?

Editorii au folosit cărțile telefonice ca populație generală. După ce a selectat aleatoriu 4 milioane de adrese, ea a trimis cărți poștale întrebând despre atitudinile față de candidații la președinție din întreaga țară. După ce a cheltuit o sumă importantă pentru corespondență și procesarea cărților poștale, revista a anunțat că Landon va câștiga viitoarele alegeri prezidențiale cu o zdrobire. Rezultatul alegerilor a fost opusul acestei prognoze.

Aici s-au făcut două greșeli deodată. În primul rând, cărțile telefonice nu oferă un eșantion reprezentativ al populației SUA - în mare parte șefi de gospodării bogați. În al doilea rând, nu toți oamenii au trimis răspunsuri, ci în mare parte din partea reprezentanților lumii de afaceri, care l-au susținut pe Landon.

În același timp, sociologii J. Gallan și E. Warner au prezis corect victoria lui F.D. Roosevelt, bazat doar pe patru mii de chestionare. Motivul acestui succes nu a fost doar eșantionarea corectă. Au ținut cont de faptul că societatea este împărțită în grupuri sociale mai omogene în raport cu candidații la președinție. Prin urmare, proba din strat poate fi relativ mică, cu același rezultat de precizie. În cele din urmă, Roosevelt, care a fost un susținător al reformelor pentru secțiunile mai puțin bogate ale populației, a câștigat.

Având rezultatele sondajului pe straturi, este posibil să se caracterizeze societatea în ansamblu.

Ce sunt mostrele?

Acestea sunt serii de numere.

Să ne oprim mai în detaliu asupra conceptelor de bază care caracterizează seria de mostre.

Din populația generală a fost extras un eșantion de mărime n > n 1, unde n 1 este de câte ori a fost observată apariția lui x 1, n 2 - x 2 etc.

Valorile observate ale lui x i se numesc variante, iar succesiunea de variante scrise în ordine crescătoare se numește serie de variații. Numerele de observații n i se numesc frecvențe și n i /n - frecvențe relative (sau frecvențe).

Definiţie. Sunt numite diferite valori ale unei variabile aleatorii opțiuni.

Definiţie. Seria de variații este o serie aranjată în ordine crescătoare (sau descrescătoare) de opțiuni cu frecvențele (frecvențele) corespunzătoare.

La studierea seriei de variații, împreună cu conceptele de frecvență, se folosește conceptul de frecvență acumulată. Frecvențele (frecvențele) acumulate pentru fiecare interval sunt găsite prin însumarea secvenţială a frecvenţelor tuturor intervalelor anterioare.

Definiţie. Acumularea de frecvențe sau frecvențe se numește cumul. Puteți cumula frecvențe și intervale.

Caracteristicile unei serii pot fi cantitative și calitative.

Caracteristici cantitative (variaționale).- Acestea sunt caracteristici care pot fi exprimate în numere. Ele sunt împărțite în discrete și continue.

Caracteristici calitative (atributive).– acestea sunt caracteristici care nu sunt exprimate în cifre.

Variabile continue sunt variabile care sunt exprimate ca numere reale.

Variabile discrete sunt variabile care pot fi exprimate doar ca numere întregi.

Probele sunt caracterizate tendinte centrale: medie, mod și mediană. Valoarea medie a unui eșantion este media aritmetică a tuturor valorilor sale. Modul de eșantionare este acele valori care apar cel mai des. Mediana eșantionului este numărul care „împarte” în jumătate din populația ordonată a tuturor valorilor din eșantion.

Seria de variații poate fi discretă sau continuă.

Sarcină

Probă dată: 1,3; 1,8; 1,2; 3,0; 2.1; 5; 2,4; 1,2; 3,2;1,2; 4; 2.4.

Aceasta este o serie de opțiuni. Aranjând aceste opțiuni în ordine crescătoare, obținem o serie de variații: 1.2; 1,2; 1,2; 1,3; 1,8; 2.1; 2,4; 2,4; 3,0; 3,2; 4; 5.

Valoarea medie a acestei serii este 2,4.

Mediana seriei este 2,25.

Modul seriei este –1,2.

Să definim aceste concepte.

Definiţie. Mediana seriei de variații Se numește valoarea variabilei aleatoare care se încadrează la mijlocul seriei de variații (Me).

Mediana unei serii ordonate de numere cu un număr impar de termeni este numărul scris în mijloc, iar mediana unei serii ordonate de numere cu un număr par de termeni este media aritmetică a celor două numere scrise în mijloc. Mediana unei serii arbitrare de numere este mediana seriei ordonate corespunzătoare.

Definiţie. Seria de variații de modă Ei apelează la opțiunea (valoarea variabilei aleatoare) căreia îi corespunde cea mai mare frecvență (Mo), adică. care apare mai des decât altele.

Definiţie. Valoarea medie aritmetică a seriei de variații este rezultatul împărțirii sumei valorilor unei variabile statistice la numărul acestor valori, adică la numărul de termeni.

Regula pentru găsirea mediei aritmetice a unui eșantion:

  1. înmulțiți fiecare opțiune cu frecvența ei (multiplicitatea);
  2. adunați toate produsele rezultate;
  3. împărțiți suma găsită la suma tuturor frecvențelor.

Definiţie. Interval de rând se numește diferența dintre R=x max -x min, adică. cel mai mare și valorile cele mai mici aceste opțiuni.

Să verificăm dacă am găsit corect valoarea medie a acestei serii, mediană și mod, pe baza definițiilor.

Am numărat numărul de termeni, sunt 12 dintre ei - un număr par de termeni, ceea ce înseamnă că trebuie să găsim media aritmetică a celor două numere scrise în mijloc, adică a 6-a și a 7-a opțiune. (2,1+2,4)\2=2,25 – mediană.

Modă. Moda este 1.2, pentru că doar acest număr apare de 3 ori, iar restul apar de mai puțin de 3 ori.

Găsim media aritmetică astfel:

(1,2*3+1,3+1,8+2,1+2,4*2+3,0+3,2 +4+5)\12=2,4

Să facem o masă

Astfel de tabele se numesc tabele de frecvență. În ele, numerele din a doua linie sunt frecvențe; ele arată cât de des apar anumite valori în eșantion.

Definiţie. Frecvența relativă valorile eșantionului este raportul dintre frecvența sa și numărul tuturor valorilor eșantionului.

Frecvențele relative sunt altfel numite frecvențe. Frecvențele și frecvențele se numesc scale. Să găsim intervalul seriei: R=5-1,2=3,8; Gama seriei este de 3,8.

Mâncare de gândit

Media aritmetică este o valoare convențională. In realitate nu exista. În realitate există o sumă totală. Prin urmare, media aritmetică nu este o caracteristică a unei singure observații; caracterizează seria în ansamblu.

Valoarea medie poate fi interpretat ca centrul de dispersie al valorilor caracteristicii observate, adică valoare în jurul căreia toate valorile observate fluctuează, iar suma algebrică a abaterilor de la medie este întotdeauna zero, adică suma abaterilor de la medie în sus sau în jos este egală.

Media aritmetică este o cantitate abstractă (generalizatoare). Chiar și atunci când se specifică o serie de numere naturale, valoarea medie poate fi exprimată ca o fracție. Exemplu: GPA munca de testare 3,81.

Valoarea medie se găseşte nu numai pentru cantităţi omogene. Randamentul mediu de cereale pe toată țara (porumb - 50-60 cenți la hectar și hrișcă - 5-6 cenți la hectar, secară, grâu etc.), consumul mediu de alimente, venitul național mediu pe cap de locuitor, oferta medie de locuințe, locuința medie ponderată costul, intensitatea medie a forței de muncă pentru construcția clădirii etc. - acestea sunt caracteristicile statului ca sistem economic unic național, acestea sunt așa-numitele medii de sistem.

În statistică, astfel de caracteristici precum mod și mediană. Se numesc medii structurale, deoarece valorile acestor caracteristici sunt determinate de structura generală a seriei de date.

Uneori, o serie poate avea două moduri, alteori o serie poate să nu aibă niciun mod.

Modă este cel mai acceptabil indicator la identificarea ambalajului unui anumit produs, care este preferat de cumpărători; prețuri pentru mărfuri de un anumit tip, comune pe piață; ca dimensiunea pantofilor, hainelor, care este cea mai mare cerere; un sport în care preferă să se angajeze majoritatea populației unei țări, oraș, sat, școală etc.

În construcție, există 8 opțiuni pentru plăci în lățime și sunt mai des utilizate 3 tipuri: 1 m, 1,2 m și 1,5 m în lungime, există 33 de opțiuni pentru plăci, dar cele mai des sunt plăcile cu o lungime de 4,8 m folosit; 5,7 m și 6,0 m, moda plăcii se găsește cel mai des printre aceste 3 dimensiuni. Același lucru se poate spune despre mărcile de ferestre.

Modul unei serii de date este găsit atunci când se dorește identificarea unui indicator tipic.

Modul poate fi exprimat în numere și cuvinte din punct de vedere statistic, modul este un extrem de frecvență.

Median vă permite să luați în considerare informații despre o serie de date care sunt date de media aritmetică și invers.

Introducere

2. Concepte de bază ale statisticii matematice

2.1 Concepte de bază ale metodei de eșantionare

2.2 Distribuția eșantionării

2.3 Funcția de distribuție empirică, histogramă

Concluzie

Referințe

Introducere

Statistica matematică este știința metodelor matematice de sistematizare și utilizare a datelor statistice pentru concluzii științifice și practice. În multe dintre secțiunile sale, statistica matematică se bazează pe teoria probabilității, care permite evaluarea fiabilității și acurateței concluziilor făcute pe baza unui material statistic limitat (de exemplu, pentru a estima dimensiunea necesară a eșantionului pentru a obține rezultate cu precizia cerută). într-un sondaj prin sondaj).

Teoria probabilității ia în considerare variabile aleatoare cu o distribuție dată sau experimente aleatoare ale căror proprietăți sunt pe deplin cunoscute. Subiectul teoriei probabilităților îl reprezintă proprietățile și relațiile acestor mărimi (distribuții).

Dar adesea un experiment este o cutie neagră care produce doar anumite rezultate din care este necesar să se tragă o concluzie despre proprietățile experimentului în sine. Observatorul are un set de rezultate numerice (sau pot fi făcute numerice) obținute prin repetarea aceluiași experiment aleatoriu în aceleași condiții.

În acest caz, de exemplu, apar următoarele întrebări: Dacă observăm o variabilă aleatorie, cum putem trage cea mai precisă concluzie despre distribuția ei pe baza unui set de valori ale acesteia în mai multe experimente?

Un exemplu de astfel de serie de experimente ar putea fi o anchetă sociologică, un set de indicatori economici sau, în cele din urmă, o succesiune de capete și cozi atunci când o monedă este aruncată de o mie de ori.

Toți factorii de mai sus determină relevanţăși semnificația temei de lucru pe scena modernă care vizează un studiu profund și cuprinzător al conceptelor de bază ale statisticii matematice.

În acest sens, scopul acestei lucrări este sistematizarea, acumularea și consolidarea cunoștințelor despre conceptele de statistică matematică.

1. Subiectul și metodele statisticii matematice

Statistica matematică este știința metodelor matematice de analiză a datelor obținute în timpul observațiilor în masă (măsurători, experimente). În funcție de natura matematică a rezultatelor observaționale specifice, statistica matematică este împărțită în statistici de numere, multidimensionale analiza statistica, analiza funcţiilor (proceselor) şi a seriilor temporale, statistica obiectelor de natură nenumerică. O parte semnificativă a statisticii matematice se bazează pe modele probabilistice. Evidențiați sarcini generale descrierea datelor, evaluarea și testarea ipotezelor. Ei iau în considerare, de asemenea, sarcini mai specifice legate de efectuarea de anchete prin sondaj, restaurarea dependențelor, construirea și utilizarea clasificărilor (tipologii) etc.

Pentru a descrie date, sunt construite tabele, diagrame și alte reprezentări vizuale, de exemplu, câmpuri de corelație. De obicei nu se folosesc modele probabilistice. Unele metode de descriere a datelor se bazează pe teorie avansată și pe capacitățile computerelor moderne. Acestea includ, în special, analiza clusterului, care vizează identificarea grupurilor de obiecte care sunt similare între ele și scalarea multidimensională, care vă permite să reprezentați vizual obiectele într-un plan, distorsionând distanțele dintre ele în cea mai mică măsură.

Metodele de evaluare și testare a ipotezelor se bazează pe modele probabilistice de generare a datelor. Aceste modele sunt împărțite în parametrice și neparametrice. În modelele parametrice, se presupune că obiectele studiate sunt descrise prin funcții de distribuție în funcție de un număr mic (1-4) de parametri numerici. În modelele neparametrice, se presupune că funcțiile de distribuție sunt continue arbitrare. În statistica matematică, parametrii și caracteristicile distribuției (așteptări matematice, mediană, varianță, cuantile etc.), funcții de densitate și distribuție, dependențe între variabile (pe baza coeficienților de corelație liniară și neparametrică, precum și estimări parametrice sau neparametrice ale funcțiilor care exprimă dependențe) sunt evaluate etc. Folosesc punct și interval (dând limite pentru valori adevărate) estimări.

În statistica matematică există o teorie generală a testării ipotezelor și număr mare metode dedicate testării ipotezelor specifice. Ei iau în considerare ipoteze despre valorile parametrilor și caracteristicilor, despre testarea omogenității (adică despre coincidența caracteristicilor sau funcțiilor de distribuție în două eșantioane), despre acordul funcției de distribuție empirică cu funcţie dată distribuție sau cu o familie parametrică de astfel de funcții, despre simetria distribuției etc.

De mare importanță este secțiunea de statistică matematică asociată cu realizarea anchetelor prin sondaj, cu proprietățile diferitelor scheme de eșantionare și construirea unor metode adecvate de evaluare și testare a ipotezelor.

Problemele de recuperare a dependenței au fost studiate activ de mai bine de 200 de ani, de la dezvoltarea metodei de către K. Gauss în 1794. cele mai mici pătrate. În prezent, cele mai relevante metode de căutare a unui subset informativ de variabile și metode neparametrice.

Dezvoltarea metodelor de aproximare a datelor și de reducere a dimensionalității descrierii a început cu mai bine de 100 de ani în urmă, când K. Pearson a creat metoda componentelor principale. Analiza factorială și numeroase generalizări neliniare au fost dezvoltate ulterior.

Diverse metode de construire (analiza cluster), analiza și utilizarea (analiza discriminantă) clasificărilor (tipologii) sunt numite și metode de recunoaștere a modelelor (cu și fără profesor), clasificare automată etc.

Metodele matematice din statistică se bazează fie pe utilizarea sumelor (pe baza Teoremei limitei centrale a teoriei probabilităților) fie a indicilor de diferență (distanțe, metrici), ca și în statistica obiectelor de natură nenumerică. De obicei, doar rezultatele asimptotice sunt strict fundamentate. În zilele noastre computerele joacă un rol important în statistica matematică. Sunt folosite atât pentru calcule, cât și pentru modelare prin simulare(în special, în metodele de multiplicare a probelor și în studiul adecvării rezultatelor asimptotice).

Concepte de bază ale statisticii matematice

2.1 Concepte de bază ale metodei de eșantionare

Fie o variabilă aleatoare observată într-un experiment aleatoriu. Se presupune că spațiul de probabilitate este dat (și nu ne va interesa).

Vom presupune că, odată efectuat acest experiment în aceleași condiții, am obținut numerele , , , - valorile acestei variabile aleatoare în prima, a doua etc. experimente. O variabilă aleatoare are o distribuție care ne este parțial sau complet necunoscută.

Să aruncăm o privire mai atentă asupra unui set numit eșantion.

Într-o serie de experimente care au fost deja efectuate, un eșantion este un set de numere. Dar dacă această serie de experimente se repetă din nou, atunci în locul acestui set vom obține un nou set de numere. În loc de număr, va apărea un alt număr - una dintre valorile variabilei aleatoare. Adică (și, și, etc.) este o valoare variabilă care poate lua aceleași valori ca o variabilă aleatoare și la fel de des (cu aceleași probabilități). Prin urmare, înainte de experiment - o variabilă aleatorie, distribuită identic cu , iar după experiment - numărul pe care îl observăm în acest prim experiment, i.e. una dintre valorile posibile ale unei variabile aleatoare.

Un eșantion de volum este un set de independenți și distribuite identic variabile aleatoare(„copii”), care, ca , au o distribuție.

Ce înseamnă „a face inferențe despre distribuție dintr-un eșantion”? Distribuția este caracterizată printr-o funcție de distribuție, densitate sau tabel, un set de caracteristici numerice - , , etc. Folosind un eșantion, trebuie să puteți construi aproximări pentru toate aceste caracteristici.

.2 Distribuția eșantionării

Să luăm în considerare implementarea eșantionării pe un singur rezultat elementar - un set de numere , , . Pe un spațiu de probabilitate adecvat, introducem o variabilă aleatorie care ia valori, , cu probabilități de (dacă unele dintre valori coincid, adunăm probabilitățile numărul corespunzător dată). Tabelul de distribuție a probabilității și funcția de distribuție a variabilelor aleatoare arată astfel:

Distribuția unei cantități se numește distribuție empirică sau eșantionare. Să calculăm așteptarea și varianța matematică a mărimii și să introducem notația pentru aceste mărimi:

Să calculăm momentul ordinii în același mod

În cazul general, notăm prin cantitate

Dacă, la construirea tuturor caracteristicilor pe care le-am introdus, considerăm eșantionul , , un set de variabile aleatoare, atunci aceste caracteristici în sine - , , , , - vor deveni variabile aleatoare. Aceste caracteristici ale distribuției de eșantionare sunt utilizate pentru a estima (aproxima) caracteristicile necunoscute corespunzătoare ale distribuției adevărate.

Motivul utilizării caracteristicilor de distribuție pentru a estima caracteristicile distribuției adevărate (sau ) este proximitatea acestor distribuții în general.

Luați în considerare, de exemplu, aruncarea unui zar obișnuit. Lasă - numarul de puncte scazute in timpul celei de-a-a aruncari, . Să presupunem că unul apare în eșantion o dată, două - o dată etc. Apoi variabila aleatoare va lua valorile 1 , , 6 cu probabilități , respectiv. Dar aceste proporții se apropie cu creștere după legea numerelor mari. Adică, distribuția valorii se apropie într-un anumit sens de distribuția adevărată a numărului de puncte care apar la aruncarea zarului corect.

Nu vom clarifica ce se înțelege prin apropierea eșantionului și distribuțiile adevărate. În paragrafele următoare, vom arunca o privire mai atentă asupra fiecăreia dintre caracteristicile introduse mai sus și vom examina proprietățile acesteia, inclusiv comportamentul pe măsură ce dimensiunea eșantionului crește.

.3 Funcția de distribuție empirică, histogramă

Deoarece o distribuție necunoscută poate fi descrisă, de exemplu, prin funcția sa de distribuție, vom construi o „estimare” pentru această funcție pe baza eșantionului.

Definiția 1.

Se numește o funcție de distribuție empirică construită dintr-un eșantion de volum functie aleatorie, pentru fiecare egal

Memento: Funcție aleatorie

numit indicator de eveniment. Pentru fiecare, este o variabilă aleatoare având o distribuție Bernoulli cu parametrul . De ce?

Cu alte cuvinte, pentru orice valoare , egală cu probabilitatea adevărată ca variabila aleatoare să fie mai mică decât , este estimată prin proporția elementelor eșantionului mai mică decât .

Dacă elementele eșantionului , , sunt ordonate în ordine crescătoare (la fiecare rezultat elementar), se va obține un nou set de variabile aleatoare, numită serie de variații:

Elementul , , se numește al-lea membru al seriei de variații sau statistica de ordin-al-lea.

Exemplul 1.

Eşantion:

Seria de variante:

Orez. 1. Exemplul 1

Funcția de distribuție empirică are salturi în punctele eșantionului, mărimea saltului într-un punct este egală cu , unde este numărul de elemente eșantion care coincid cu .

Puteți construi o funcție de distribuție empirică folosind o serie de variații:

O altă caracteristică de distribuție este tabelul (pentru distribuții discrete) sau densitate (pentru absolut continuu). Un analog empiric sau selectiv al unui tabel sau densitate este așa-numita histogramă.

O histogramă este construită folosind date grupate. Intervalul estimat de valori ale unei variabile aleatoare (sau interval de date din eșantion) este împărțit, indiferent de eșantion, într-un anumit număr de intervale (nu neapărat identice). Fie , , intervale pe linie, numite intervale de grupare. Să notăm pentru după numărul de elemente eșantion care se încadrează în intervalul:

(1)

La fiecare interval, se construiește un dreptunghi, a cărui zonă este proporțională cu . Suprafața totală a tuturor dreptunghiurilor trebuie să fie egală cu unu. Fie lungimea intervalului. Înălțimea dreptunghiului de mai sus este

Figura rezultată se numește histogramă.

Exemplul 2.

Există o serie de variații (vezi exemplul 1):

Iată, prin urmare, logaritmul zecimal, i.e. când eșantionul este dublat, numărul de intervale de grupare crește cu 1. Rețineți că cu cât mai multe intervale de grupare, cu atât mai bine. Dar, dacă luăm numărul de intervale, să zicem, de ordinul , atunci odată cu creșterea histograma nu se va apropia de densitate.

Următoarea afirmație este adevărată:

Dacă densitatea de distribuție a elementelor eșantionului este funcție continuă, atunci pentru astfel încât , există o convergență punctuală a probabilității histogramei la densitate.

Deci alegerea logaritmului este rezonabilă, dar nu singura posibilă.

Concluzie

Statistica matematică (sau teoretică) se bazează pe metodele și conceptele teoriei probabilităților, dar într-un fel rezolvă probleme inverse.

Dacă observăm manifestarea a două (sau mai multe) semne simultan, i.e. avem un set de valori ale mai multor variabile aleatoare - ce putem spune despre dependența lor? Ea este acolo sau nu? Și dacă există, atunci ce este această dependență?

Este adesea posibil să se facă unele presupuneri despre distribuția ascunsă în cutia neagră sau despre proprietățile acesteia. În acest caz, pe baza datelor experimentale, este necesar să se confirme sau să infirme aceste ipoteze („ipoteze”). Trebuie amintit că răspunsul „da” sau „nu” poate fi dat doar cu un anumit grad de certitudine, iar cu cât putem continua experimentul mai mult, cu atât concluziile pot fi mai precise. Cea mai favorabilă situație pentru cercetare este atunci când se poate afirma cu încredere despre unele proprietăți ale experimentului observat - de exemplu, prezența dependenta functionalaîntre valorile observate, despre normalitatea distribuției, despre simetria acesteia, despre prezența densității în distribuție sau despre natura sa discretă etc.

Deci, are sens să ne amintim despre statisticile (matematice) dacă

· există un experiment aleatoriu, ale cărui proprietăți sunt parțial sau complet necunoscute,

· suntem capabili să reproducem acest experiment în aceleași condiții de câteva ori (sau mai bine zis) de ori.

Referințe

1. Baumol U. Teoria economicăși cercetare operațională. – M.; Știință, 1999.

2. Bolşev L.N., Smirnov N.V. Tabele de statistici matematice. M.: Nauka, 1995.

3. Borovkov A.A. Statistică matematică. M.: Nauka, 1994.

4. Korn G., Korn T. Manual de matematică pentru oameni de știință și ingineri. - Sankt Petersburg: Editura Lan, 2003.

5. Korshunov D.A., Chernova N.I. Culegere de probleme și exerciții de statistică matematică. Novosibirsk: Editura Institutului de Matematică numită după. S.L. Sobolev SB RAS, 2001.

6. Peheletsky I.D. Matematică: un manual pentru elevi. - M.: Academia, 2003.

7. Suhodolsky V.G. Prelegeri despre matematică superioară pentru umaniști. - Editura Sankt Petersburg din Sankt Petersburg universitate de stat. 2003

8. Feller V. Introducere în teoria probabilității și aplicațiile acesteia. - M.: Mir, T.2, 1984.

9. Harman G., Analiza factorială modernă. - M.: Statistică, 1972.


Harman G., Analiza factorială modernă. - M.: Statistică, 1972.

Ed. a II-a, rev. - M.: 2009.- 472 p.

Fundamentele teoriei probabilităților și statisticii matematice sunt prezentate sub formă de exemple și probleme cu soluții. Cartea introduce cititorul și în metodele statistice aplicate. Pentru a înțelege materialul, este suficient să cunoașteți elementele de bază analiză matematică. Sunt incluse un număr mare de imagini, întrebări de test și exemple numerice. Pentru studenții care studiază statistica matematică, cercetătorii și practicienii (economiști, sociologi, biologi) care folosesc metode statistice.

Format: pdf

Dimensiune: 10,7 MB

Urmăriți, descărcați:drive.google

CUPRINS
Prefață 3
Pentru cititor 5
Partea I: Probabilitate și modelare statistică 7
Capitolul 1. Caracteristicile variabilelor aleatoare 7
§ 1. Funcții de distribuție și densitate 7
§ 2. Așteptări și variații 10
§ 3. Independenta variabilelor aleatoare 12
§ 4. Căutarea pacienților 13
Probleme 14
Soluții la probleme 15
Răspunsuri la întrebări 18
Capitolul 2. Senzori cu numere aleatorii 19
§ 1. Senzori fizici 19
§ 2. Tabelele numerelor aleatoare 20
§ 3. Senzori matematici 21
§ 4. Aleatorie și complexitate 22
§ 5. Experimentul „Eșecuri” 24
§6. Teoreme de existență și calculator 26
Probleme 26
Rezolvarea problemelor 27
Răspunsuri la întrebări 29
Capitolul 3. Metoda Monte Carlo 30
§ 1. Calculul integralelor 30
§ 2. „Regula celor trei sigma” 31
§ 3. Integrale multiple 32
§ 4. O bilă înscrisă într-un cub fc-dimensional 35
§ 5. Uniformitate Weyl 36
§ 6. Paradoxul primului număr 37
Probleme 38
Rezolvarea problemelor 39
Răspunsuri la întrebări 41
Capitolul 4. Senzori indicativi și normali 42
§ 1. Metoda functie inversa 42
§ 2. Distribuția valorilor extreme 43
§ 3. Senzor index fără logaritmi 45
§ 4. Senzor indicator rapid 46
§ 5. Numere aleatoare normale 50
§ 6. Cea mai bună alegere 52
Probleme 54
Rezolvarea problemelor 54
Răspunsuri la întrebări 57
Capitolul 5. Senzori discreti si continui 58
§ 1. Modelare cantități discrete 58
§ 2. Statistici ordinale și amestecuri 60
§ 3. Metoda lui Neumann (metoda eliminării) 64
§ 4. Exemplu din teoria jocurilor 66
Probleme 67
Soluții la probleme 68
Răspunsuri la întrebările 69
Partea a II-a. Estimarea parametrilor 71
Capitolul 6. Compararea evaluărilor 72
§ 1. Model statistic 72
§ 2. Nepărtinire și consecvență 73
§ 3. Funcții de risc 76
§ 4. Estimarea Minimax în schema Bernoulli 78
Probleme 79
Rezolvarea problemelor 80
Răspunsuri la întrebări 83
Capitolul 7. Normalitatea asimptotică 84
§ 1. Distributie Cauchy 84
§ 2. Mediana eșantionului 86
§ 3. Cuantile eșantion 87
§ 4. Eficiență relativă 89
§ 5. Legi stabile 91
Probleme 93
Rezolvarea problemelor 94
Răspunsuri la întrebările 98
Capitolul 8. Distribuții simetrice 99
§ 1. Clasificarea metodelor statistice 99
§ 2. Medie tăiată 100
§ 3. Mediana lui Walsh înseamnă 102
§ 4. Robustitate 103
Probleme 106
Rezolvarea problemelor 106
Răspunsuri la întrebările 109
Capitolul 9. Metode de obţinere a estimărilor software
§ 1. Lucrare de probabilitate 110
§ 2. Metoda momentelor 112
§ 3. Inegalitatea informațională 114
§ 4. Metoda maximei probabilități 116
§ 5. Metoda lui Newton și estimări într-o etapă 119
§ 6. Metoda de spațiere 122
Probleme 123
Rezolvarea problemelor 124
Răspunsuri la întrebările 127
Capitolul 10. Suficiența 129
§ 1. Statistici suficiente 129
§ 2. Criteriul de factorizare 130
§ 3. Familia exponenţială 132
§ 4. Îmbunătățirea estimărilor imparțiale 133
§ 5. Mingi în cutii 134
Probleme 140
Rezolvarea problemelor 141
Răspunsuri la întrebările 144
Capitolul 11. Intervale de încredere 145
§ 1. Factorul de încredere 145
§ 2. Intervale în modelul normal 146
§ 3. Metode de construire a intervalelor 151
Probleme 155
Rezolvarea problemelor 156
Răspunsuri la întrebările 158
Partea a III-a. Testarea ipotezelor 159
Capitolul 12. Criteriile de consimțământ 160
§ 1. Criteriul statistic 160
§ 2. Verificarea uniformității 161
§ 3. Testul exponenţialităţii 164
§ 4. Testarea normalității 167
§ 5. Entropia 170
Probleme 175
Rezolvarea problemelor 175
Răspunsuri la întrebările 178
Capitolul 13. Alternative 180
§ 1. Erori de primul şi al doilea fel 180
§ 2. Criteriul optim Neyman-Pearson 183
§ 3. Analiza secvenţială 187
§ 4. Ruperea jucătorului 190
§ 5. Oprirea optimă a unei plimbări 193
Probleme 195
Rezolvarea problemelor 195
Răspunsuri la întrebările 197
Partea a IV-a. Omogenitatea probelor 199
Capitolul 14. Două mostre independente 200
§ 1. Alternative la omogenitate 200
§ 2. Alegerea corectă a modelului 201
§ 3. Criteriul Smirnov 202
§ 4. Criteriul Rosenblatt 203
§ 5. Testul sumei rangului Wilcoxon 204
§ 6. Principiul reflecției 209
Probleme 214
Rezolvarea problemelor 215
Răspunsuri la întrebările 217
Capitolul 15. Observații repetate pereche 219
§ 1. Rafinamentul modelului 219
§ 2. Criteriul semnelor 220
§ 3. Wilcoxon a semnat testul de rang 222
§ 4. Observații dependente 227
§ 5. Criteriul seriei 229
Probleme 231
Rezolvarea problemelor 232
Răspunsuri la întrebările 236
Capitolul 16. Mostre independente multiple 237
§ 1. Modelul cu un singur factor 237
§ 2. Criteriul Kruskal-Wallis 237
§ 3. Criteriul Jonckheere 245
§ 4. Mersul in avion si in spatiu 248
Probleme 253
Rezolvarea problemelor 254
Răspunsuri la întrebările 257
Capitolul 17. Observații multiple 259
§ 1. Modelul cu doi factori 259
§ 2. Criteriul Friedman 260
§ 3. Criteriul paginii 263
§ 4. Biletul norocos și întoarcerea rătăcirii 265
Probleme 269
Rezolvarea problemelor 270
Răspunsuri la întrebările 271
Capitolul 18: Date grupate 273
§ 1. Conjectura simplă 273
§ 2. Ipoteza complexă 276
§ 3. Verificarea omogenităţii 280
Probleme 282
Rezolvarea problemelor 282
Răspunsuri la întrebările 286
Partea V. Analiza datelor multivariate 287
Capitolul 19. Clasificare 288
§ 1. Normalizare, distante si clase 289
§ 2. Metode euristice 291
§ 3. Proceduri ierarhice 294
§ 4. Algoritmi rapizi 297
§ 5. Funcționale de calitate a partiției 299
§ 6. Număr necunoscut de clase 307
§ 7. Compararea metodelor 309
§ 8. Prezentarea rezultatelor 311
§ 9. Căutare în profunzime 311
Probleme 313
Rezolvarea problemelor 313
Răspunsuri la întrebările 315
Capitolul 20. Corelația 317
§ 1. Geometria componentelor principale 317
§ 2. Elipsoid de împrăștiere 322
§ 3. Calculul componentelor principale 324
§ 4. Scalare liniară 326
§ 5. Scalare diferențe individuale 332
§ 6. Metode neliniare pentru reducerea dimensionalității 337
§ 7. Corelația rangului 343
§ 8. Corelații multiple și parțiale 347
§ 9. Tabelele de situație 350
Probleme 352
Rezolvarea problemelor 353
Răspunsuri la întrebările 356
Capitolul 21. Regresia 357
§ 1. Montarea unei linii 357
§ 2. Modelul de regresie liniară 360
§ 3. Proprietățile statistice ale estimărilor celor mai mici pătrate 363
§ 4. Conjectura generală liniară 368
§ 5. Cele mai mici pătrate ponderate 372
§ 6. Paradoxurile regresiei 376
Probleme 382
Rezolvarea problemelor 383
Răspunsuri la întrebările 386
Partea a VI-a. Generalizări și completări 387
Capitolul 22. Netezirea nucleului 388
§ 1. Estimarea densitatii 388
§ 2. Regresie neparametrică 392
Capitolul 23. Modele cu deplasări multivariate 399
§ 1. Strategia de construire a criteriilor 399
§ 2. Model cu un eșantion 399
§ 3. Modelul cu două mostre 406
Capitolul 24. Problemă la scară cu două eșantioane 411
§ 1. Medianele sunt cunoscute sau egale cu 411
§ 2. Medianele sunt necunoscute și inegale 414
Capitolul 25. Clasele 417
§ 1. L-estime 417
§ 2. M-estima 419
§ 3. D-estime 423
§ 4. Funcția de influență 426
Capitolul 26. Podul Brownian 428
§ 1. Mișcarea browniană 428
§ 2. Proces empiric 429
§ 3. Funcționale diferențiabile 430
Aplicație. Câteva informații din teoria probabilităților și algebra liniară 435
Secțiunea 1. Axiomatica teoriei probabilităților 435
Secțiunea 2. Așteptări și variații 435
Secțiunea 3. Formula de convoluție 437
Secțiunea 4. Inegalități de probabilitate 437
Secțiunea 5. Convergența variabilelor aleatoare și a vectorilor 438
Secțiunea 6. Teoreme limită 439
Secțiunea 7. Așteptări matematice condiționate 440
Secțiunea 8. Transformarea aleatorie a densității vectoriale. . 441
Secțiunea 9. Funcții caracteristice și multivariate distributie normala 442
Secțiunea 10. Elemente de calcul matriceal 444
Tabelele 449
Literatura 456
Denumiri și abrevieri 460
Index de subiect 462

În fața dumneavoastră, dragă cititor, este rezultatul gândurilor autorului asupra conținutului cursului inițial de statistică matematică. Această carte este, în primul rând, o mulțime de exemple și probleme distractive culese din diverse surse. Sarcinile sunt destinate stăpânirii active a conceptelor și dezvoltării abilităților cititorului în prelucrarea calificată a datelor statistice. Pentru a le rezolva, este suficient să cunoașteți elementele de analiză matematică și teoria probabilităților (informații scurte despre teoria probabilităților și algebră liniară sunt date în anexă).
Accentul este pus pe reprezentare vizuală materialul și explicația informală a acestuia. Teoremele, de regulă, sunt date fără dovezi (cu referire la sursele în care pot fi găsite). Scopul nostru este atât de a lumina cele mai importante idei practic de statistică matematică, cât și de a introduce cititorul în metodele aplicate.
Prima parte a cărții (capitolele 1-5) poate servi ca o introducere în teoria probabilității. O caracteristică specială a acestei părți este abordarea stăpânirii conceptelor de teoria probabilităților prin rezolvarea unui număr de probleme legate de domeniul modelării statistice (simulând aleatorietatea pe un computer). Materialul său este disponibil în principal elevilor de liceu și elevilor din primul an.
Partea a doua și a treia (capitolele 6-13) sunt dedicate, respectiv, estimării parametrilor modelelor statistice și testării ipotezelor. Ele pot fi utile în special pentru studenții care se pregătesc pentru examenul de statistică matematică.
Partea a patra și a cincea (capitolele 14-21) sunt destinate în primul rând persoanelor care doresc să aplice metode statistice pentru a analiza datele experimentale.
În cele din urmă, partea a șasea (capitolele 22-26) include o serie de subiecte mai specializate care rezumă și completează conținutul capitolelor anterioare.
Materialul adunat în carte a fost folosit în mod repetat la cursurile de statistică matematică de la Facultatea de Mecanică și Matematică a Universității de Stat din Moscova. M. V. Lomonosov.
Autorul își va considera opera utilă dacă, după ce a răsfoit cartea, cititorul nu își pierde interesul pentru ea, ci dorește să o citească
cu teoria si aplicatiile statisticii atat din aceasta cat si din alte manuale.
Când lucram la carte, modelul pentru autor a fost populara serie de cărți pentru școlari de Ya I. Perelman. Mi-am dorit, dacă se poate, să folosesc o formă plină de viață de prezentare și un stil caracteristic acestei serii.

Statistica matematică este o ramură a matematicii dedicată metodelor matematice de sistematizare, prelucrare și utilizare a datelor statistice în scopuri științifice și practice..

Datele statistice sunt informații despre numărul și natura obiectelor din orice colecție mai mult sau mai puțin extinsă care au anumite proprietăți.

O metodă de cercetare bazată pe luarea în considerare a datelor statistice din anumite seturi de obiecte se numește statistică.

Latura matematică formală a metodelor de cercetare statistică este indiferentă față de natura obiectelor studiate și constituie subiectul statisticii matematice.

Sarcina principală a statisticii matematice este de a obține concluzii despre fenomenele și procesele de masă pe baza observațiilor lor sau a experimentelor.

Statistica este o știință care ne permite să vedem tipare în haosul datelor aleatorii, să evidențiem conexiunile stabilite în ele și să ne determinăm acțiunile pentru a crește proporția deciziilor luate corect.

Multe relații cunoscute acum între diversele aspecte ale lumii din jurul nostru au fost obținute prin analiza datelor acumulate de umanitate. După detectarea statistică a dependențelor, o persoană găsește deja una sau alta explicație rațională pentru tiparele descoperite.

Pentru a schița definițiile inițiale ale statisticilor, să ne uităm la un exemplu.

Exemplu. Să presupunem că este necesar să se estimeze gradul de modificare a IQ-ului a 100 de studenți pe parcursul a 3 ani de studiu. Ca indicator, luați în considerare raportul dintre coeficientul actual și coeficientul măsurat anterior (cu trei ani în urmă), înmulțit cu 100%.

Să obținem o secvență de 100 de variabile aleatoare: 97,8; 97,0; 101,7; 132,5; 142; ...; 122. Să o notăm prin X.

Definiția 1. Secvența de variabile aleatoare X observată ca rezultat al unui studiu se numește semn în statistică.

Definiția 2.Diferite valori ale unei caracteristici se numesc variante.

Din valorile date, este dificil să se obțină unele informații despre dinamica modificărilor IQ-ului în timpul procesului de învățare. Să aranjam această succesiune în ordine crescătoare: 94; 97,0; 97,8; …142. Din secvența rezultată este deja posibilă extragerea unora informatii utile– de exemplu, este ușor să determinați valorile minime și maxime ale unei caracteristici. Dar nu este clar cum este distribuită caracteristica între întreaga populație de studenți chestionați. Să împărțim opțiunile în intervale. Conform formulei Sturges, numărul recomandat de intervale

m= 1+3,32l g(n)≈ 7,6, iar valoarea intervalului este .

Intervalele intervalelor obținute sunt date în coloana 1 a tabelului.


Să numărăm câte valori caracteristice se încadrează în fiecare interval și să le scriem în coloana 3.

Definiția 3.Un număr care arată câte opțiuni au fost incluse dat i-a intervalul se numește frecvență și se notează n i .

Definiția 4.Raportul dintre frecvență și numărul total de observații se numește frecvență relativă (wi) sau greutate.

Definiția 5.O serie de variații este o serie de opțiuni aranjate în ordine crescătoare sau descrescătoare cu ponderile lor corespunzătoare.

Pentru acest exemplu opțiunile sunt mijlocul intervalelor.

Definiția 6.Frecvența cumulativă( )se numește o variantă numerică cu o valoare caracteristică mai mică decât x (хОR).

Ministerul Educației și Științei al Federației Ruse

Statul Kostroma universitate tehnologică

I.V. Zemlyakova, O.B. Sadovskaya, A.V. Cherednikova

STATISTICĂ MATEMATICĂ

ca ajutor didactic pentru studenţii specialităţilor

220301, 230104, 230201 cu normă întreagă antrenament

Kostroma

EDITURA

UDC 519.22 (075)

Recenzători: departament metode matematiceîn economie
Universitatea de Stat Kostroma poartă numele. N / A. Nekrasova;

Ph.D. fizica si matematica Științe, conferențiar al Departamentului de analiză matematică

Universitatea de Stat Kostroma poartă numele. N / A. Nekrasova K.E. Shiryaev.

Z 51 Zemlyakova, I.V. Statistică matematică. Teorie și practică: manual de instruire/ I.V. Zemlyakova, O.B. Sadovskaya, A.V. Cherednikova. – Kostroma: Editura Kostroma. stat tehn. Universitatea, 2010. – 60 p.

ISBN 978-5-8285-0525-8

Manualul conține material teoretic, exemple, teste și un algoritm comentat pentru finalizarea sarcinilor bazate pe calcule standard în cea mai accesibilă formă.

Destinat studenților universitari care studiază cu normă întreagă la specialitățile 220301, 230104, 230201. Poate fi folosit atât în ​​timpul cursurilor, cât și în timpul orelor practice.

UDC 519.22 (075)

ISBN 978-5-8285-0525-8

 Universitatea Tehnologică de Stat Kostroma, 2010

§1. PROBLEME DE STATISTICĂ MATEMATICĂ 4

§2. POPULAȚIE GENERALĂ ȘI EȘANȚĂ. 4

REPREZENTATIVITATEA EȘANTIONULUI. METODE DE SELECȚIE 4

(MODURI DE PRELEVARE) 4

§3. DISTRIBUȚIA STATISTICĂ A EȘANTIONULUI. 6

REPREZENTAREA GRAFICĂ A DISTRIBUȚIILOR 6

§4. ESTIMĂRI STATISTICE ALE PARAMETRILOR DE DISTRIBUȚIE 18

§5. MEDIA GENERALĂ. MEDIE EȘANȚĂ. 20

EVALUAREA MEDIEI GENERALE PRIN MEDIA EȘANȚIONULUI 20

§6. DISPERSIE GENERALĂ. Varianta de eșantionare. 22

ESTIMAREA VARIANȚEI GENERALE PRIN VARIANȚA CORECTATĂ 22

§7. METODA MOMENTELOR ŞI METODA PROBABILITĂŢII MAXIME PENTRU GĂSIREA ESTIMĂRILOR PARAMETRILOR. METODA MOMENTULUI 25

§8. PROBABILITATE DE ÎNCREDERE. INTERVALUL DE ÎNCREDERE 27

§9. VERIFICAREA IPOTEZEI PRIVIND CONFORMITATEA DATELOR STATISTICE CU LEGEA DISTRIBUȚIEI TEORETICĂ 31

§ 10. CONCEPTUL DE CORELARE ȘI ANALIZĂ REGRESIVĂ 39

SARCINI INDIVIDUALE 44

RĂSPUNSURI ȘI INSTRUCȚIUNI 46

Aplicații 51

§1. PROBLEME DE STATISTICĂ MATEMATICĂ

Legile matematice ale teoriei probabilităților nu sunt abstracte, lipsite de conținut fizic, ele sunt o expresie matematică a tiparelor reale care există în fenomenele aleatoare de masă.

Fiecare studiu al fenomenelor aleatorii efectuat cu ajutorul metodelor teoriei probabilităților se bazează pe date experimentale.

Originile statisticii matematice au fost asociate cu colectarea datelor și reprezentare grafică rezultatele obținute (rezumate de fertilitate, căsătorii etc.). Acestea sunt statistici descriptive. A fost necesar să se reducă materialul extins la un număr mic de cantități. Dezvoltarea metodelor de colectare (înregistrare), descriere și analiză a datelor experimentale (statistice) obținute ca urmare a observării fenomenelor de masă, aleatorii este subiect de statistică matematică.

În acest caz este posibil să se evidențieze trei etape:

    colectarea datelor;

    prelucrarea datelor;

    concluzii statistice, previziuni și decizii.

Sarcini tipice statistici matematice:

    determinarea legii de distribuție a unei variabile aleatoare (sau a unui sistem de variabile aleatoare) din date statistice;

    testarea plauzibilității ipotezelor;

    găsirea parametrilor de distribuție necunoscuți.

Aşa, sarcină statistica matematică constă în crearea unor metode de culegere și prelucrare a datelor statistice pentru a obține concluzii științifice și practice.

§2. POPULAȚIE GENERALĂ ȘI EȘANȚĂ.

REPREZENTATIVITATEA EȘANTIONULUI. METODE DE SELECȚIE

(MODURI DE PRELEVARE)

Fenomenele aleatorii de masă pot fi prezentate sub formă de anumite culegeri statistice de obiecte omogene. Fiecare populație statistică are diferite semne.

Distinge calitateŞi cantitativ semne. Caracteristicile cantitative pot varia continuu sau discret.

Exemplul 1. Să luăm în considerare procesul de producție (fenomen aleatoriu în masă) de fabricare a unui lot de piese (populație statistică).

Natura standard a unei piese este un semn de calitate. Dimensiunea unei piese este o caracteristică cantitativă care se modifică continuu.

Să fie cerut să studieze populaţia statistică obiecte omogene în raport cu unele caracteristici. Un sondaj continuu, adică un studiu al fiecăruia dintre obiectele populației statistice, este rar folosit în practică. Dacă studiul unui obiect este asociat cu distrugerea acestuia sau necesită costuri materiale mari, atunci nu are rost să efectuați un sondaj complet. Dacă o populație conține un număr foarte mare de obiecte, atunci este aproape imposibil să se efectueze un studiu cuprinzător. În astfel de cazuri, un număr limitat de obiecte sunt selectate aleatoriu din întreaga populație și examinate.

Definiţie.Populația generală se numeste intreaga populatie de studiat.

Definiţie.Eșantion de populație sau prelevarea de probe este o colecție de obiecte selectate aleatoriu.

Definiţie.Volum populația (eșantion sau general) este numărul de obiecte din această populație. Volumul populației se notează cu N, și mostre prin n.

În practică este de obicei folosit eșantionarea nerepetitivă, în care obiectul selectat nu este returnat populației generale (altfel obținem un eșantion repetat).

Pentru ca datele eșantionului să fie utilizate pentru a judeca întreaga populație, eșantionul trebuie să fie reprezentant(reprezentant). Pentru a face acest lucru, fiecare obiect trebuie selectat la întâmplare, iar toate obiectele trebuie să aibă aceeași probabilitate de a fi incluse în eșantion. Sunt utilizate diverse metode de selecție (Fig. 1).

Metode de selecție

(metode de organizare a eșantionării)

Două etape

(populația generală este împărțită

pe grup)

O singură etapă

(populația generală nu este împărțită

pe grup)


Simplu aleatoriu

(obiectele sunt preluate aleatoriu

din tot setul)

Tipic

(obiectul este selectat din fiecare parte tipică)

Combinate

(din numărul total sunt selectate mai multe grupuri și dintre ele sunt selectate mai multe obiecte)


Reeșantionare aleatorie simplă

eșantionare aleatorie nerepetitivă

Mecanic

(din fiecare grupă

selectați câte un obiect odată)

Serial

(din numărul total de grupuri - serii, sunt selectate mai multe

și sunt investigate amănunțit)

Orez. 1. Metode de selecție


Exemplul 2. Fabrica are 150 de mașini care produc produse identice.

1. Produsele de la toate cele 150 de mașini sunt amestecate și mai multe produse sunt selectate aleatoriu - eșantionare aleatorie simplă.

2. Produsele de la fiecare mașină sunt aranjate separat.

      Mai multe produse sunt selectate din toate cele 150 de mașini, iar produsele de la mașini mai uzate și mai puțin uzate sunt analizate separat - tipic eşantion.

      Un produs de la fiecare dintre cele 150 de mașini - mecanic eşantion.

      Din 150 de mașini, mai multe sunt selectate (de exemplu, 15 mașini) și toate produsele de la aceste mașini sunt examinate - serial eşantion.

      Din 150 de mașini, sunt selectate mai multe, apoi sunt selectate mai multe produse din aceste mașini - combinate eşantion.

§3. DISTRIBUȚIA STATISTICĂ A EȘANTIONULUI.

REPREZENTAREA GRAFICĂ A DISTRIBUȚIILOR

Să fie necesar să se studieze o populație statistică cu privire la o caracteristică cantitativă X. Valori numerice vom nota semnul prin X i .

Din populație se extrage o dimensiune a eșantionului p.

    Caracteristica cantitativăX variabilă aleatoare discretă.

Valori observate X i numit opțiuni, iar succesiunea de opțiuni scrise în ordine crescătoare este serie de variații.

Lasă x 1 observat n 1 dată,

x 2 observat n 2 dată,

x k observat n k dată,

şi
. Numerele n i numit frecvente, și relația lor cu dimensiunea eșantionului, de ex.
, – frecvențe relative(sau frecvențe) și
.

Valoarea opțiunii și frecvențele corespunzătoare sau frecvențele relative pot fi scrise sub forma tabelelor 1 și 2.

Tabelul 1

Opţiune x i

x 1

x 2

x k

Frecvenţă n i

n 1

n 2

n k

Tabelul 1 este numit discretserii de distribuție statistică (DSD) a frecvențelor, sau tabelul de frecvențe.

Tabelul 2

Opţiune x i

x 1

x 2

x k

Frecvența relativă w i

w 1

w 2

w k

Tabelul 2 - frecvențe relative DSR, sau tabelul de frecvențe relative.

Definiţie.Modă cea mai comună opțiune este numită, i.e. opțiunea cu cea mai mare frecvență. Desemnat x Maud .

Definiţie.Median Aceasta este valoarea unei caracteristici care împarte întreaga populație statistică, prezentată sub forma unei serii de variații, în două părți egale. Desemnat
.

Dacă n ciudat, adică n = 2 m + 1 , apoi = x m +1.

Dacă n chiar, adică n = 2 m, Asta
.

Exemplul 3 . Pe baza rezultatelor observațiilor: 1, 7, 7, 2, 3, 2, 5, 5, 4, 6, 3, 4, 3, 5, 6, 6, 5, 5, 4, 4, construiți DSR de frecvenţe relative. Găsiți modul și mediana.

Soluţie . Dimensiunea eșantionului n= 20. Să creăm o serie clasată de elemente eșantion: 1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 7, 7. Selectați opțiunile și numărați frecvențele acestora (în paranteze): 1 (1), 2 (2), 3 (3),
4 (4), 5 (5), 6 (3), 7 (2). Construim tabelul:

x i

w i

Cea mai comună opțiune x i = 5. Prin urmare, x Maud = 5. Deoarece dimensiunea eșantionului nnumăr par, Asta

Dacă trasăm puncte pe plan și le conectăm cu segmente de linie dreaptă, obținem gama de frecvente.

Dacă trasăm puncte în avion, obținem poligon de frecvență relativă.

Exemplul 4 . Construiți un poligon de frecvență și un poligon de frecvență relativă folosind distribuția de eșantionare dată:

x i