Metoda celor mai mici pătrate este inclusă în grup. Metoda celor mai mici pătrate în Excel. Analiza de regresie. Există două clase de regresii neliniare

Dacă o anumită mărime fizică depinde de o altă mărime, atunci această dependență poate fi studiată prin măsurarea y la diferite valori ale lui x. În urma măsurătorilor, se obțin un număr de valori:

x 1, x 2, ..., x i, ..., x n;

y 1 , y 2 , ..., y i , ... , y n .

Pe baza datelor unui astfel de experiment, este posibil să se construiască un grafic al dependenței y = ƒ(x). Curba rezultată face posibilă aprecierea formei funcției ƒ(x). Cu toate acestea, coeficienții constanți care intră în această funcție rămân necunoscuți. Ele pot fi determinate folosind metoda celor mai mici pătrate. Punctele experimentale, de regulă, nu se află exact pe curbă. Metoda celor mai mici pătrate necesită ca suma pătratelor abaterilor punctelor experimentale de la curbă, i.e.

2 a fost cel mai mic. În practică, această metodă este cel mai des (și cel mai simplu) folosită în cazul dependență liniară

, adică Când y = kx sau

y = a + bx.

Dependența liniară este foarte răspândită în fizică. Și chiar și atunci când relația este neliniară, de obicei încearcă să construiască un grafic astfel încât să obțină o linie dreaptă. De exemplu, dacă se presupune că indicele de refracție al sticlei n este legat de lungimea de undă a luminii λ prin relația n = a + b/λ 2, atunci dependența lui n de λ -2 este reprezentată pe grafic. , adică Când Luați în considerare dependența

(o linie dreaptă care trece prin origine). Să compunem valoarea φ suma pătratelor abaterilor punctelor noastre de la dreapta


Valoarea lui φ este întotdeauna pozitivă și se dovedește a fi mai mică cu cât punctele noastre sunt mai aproape de linia dreaptă. Metoda celor mai mici pătrate afirmă că valoarea pentru k ar trebui aleasă astfel încât φ să aibă un minim
(19)

sau

, (20)
Calculul arată că eroarea pătratică medie în determinarea valorii lui k este egală cu

unde n este numărul de măsurători. Să ne gândim acum puțin mai mult carcasă tare , când punctele trebuie să satisfacă formula y = a + bx

(o linie dreaptă care nu trece prin origine). Sarcina este de a găsi, având în vedere un set de valori x i , y i cele mai bune valori

a și b. Să compunem din nou forma pătratică φ, egal cu suma

abaterile pătrate ale punctelor x i, y i de la dreapta

;

.

.

și găsiți valorile lui a și b pentru care φ are un minim

(21)

Rezolvarea comună a acestor ecuații dă

(23)

Erorile pătratice medii ale determinării lui a și b sunt egale

La prelucrarea rezultatelor măsurătorilor folosind această metodă, este convenabil să rezumați toate datele într-un tabel în care sunt calculate preliminar toate cantitățile incluse în formulele (19)(24). Formele acestor tabele sunt date în exemplele de mai jos.

Exemplul 1. A fost studiată ecuația de bază a dinamicii mișcare de rotațieε = M/J (linia care trece prin origine). La diferite valori ale momentului M, a fost măsurată accelerația unghiulară ε a unui anumit corp. Este necesar să se determine momentul de inerție al acestui corp. Rezultatele măsurării momentului de forță și accelerației unghiulare sunt enumerate în a doua și a treia coloană tabelul 5.

Tabelul 5
n M, N m ε, s -1 M 2 M ε ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

Folosind formula (19) determinăm:

.

Pentru a determina eroarea pătratică medie, folosim formula (20)

0.005775kg-1 · m -2 .

Conform formulei (18) avem

; .

S J = (2,996 0,005775)/0,3337 = 0,05185 kg m2.

După ce am stabilit fiabilitatea P = 0,95, folosind tabelul coeficienților Student pentru n = 5, găsim t = 2,78 și determinăm eroarea absolută ΔJ = 2,78 0,05185 = 0,1441 ≈ 0,2 kg m2.

Să scriem rezultatele sub forma:

J = (3,0 ± 0,2) kg m2;


Exemplul 2. Să calculăm coeficientul de temperatură al rezistenței metalului folosind metoda celor mai mici pătrate. Rezistența depinde liniar de temperatură

Rt = R0 (1 + a t°) = R0 + R0 a t°.

Termenul liber determină rezistența R 0 la o temperatură de 0 ° C, iar coeficientul de pantă este produsul dintre coeficientul de temperatură α și rezistența R 0 .

Rezultatele măsurătorilor și calculelor sunt prezentate în tabel ( vezi tabelul 6).

Tabelul 6
n t°, s r, Ohm t-¯t (t-¯t) 2 (t-¯t)r r - bt - a (r - bt - a) 2 .10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

Folosind formulele (21), (22) determinăm

R 0 = ¯ R- α R 0 ¯ t = 1,4005 - 0,002645 85,83333 = 1,1735 Ohm.

Să găsim o eroare în definiția lui α. Deoarece , atunci conform formulei (18) avem:

.

Folosind formulele (23), (24) avem

;

0.014126 Ohm.

După ce am stabilit fiabilitatea la P = 0,95, folosind tabelul coeficienților Student pentru n = 6, găsim t = 2,57 și determinăm eroarea absolută Δα = 2,57 0,000132 = 0,000338 grade -1.

α = (23 ± 4) 10 -4 grindină-1 la P = 0,95.


Exemplul 3. Este necesară determinarea razei de curbură a lentilei folosind inelele lui Newton. Au fost măsurate razele inelelor lui Newton r m și au fost determinate numerele acestor inele m. Razele inelelor lui Newton sunt legate de raza de curbură a lentilei R și de numărul inelului prin ecuație

r 2 m = mλR - 2d 0 R,

unde d 0 grosimea spațiului dintre lentilă și placa plan-paralelă (sau deformarea lentilei),

λ lungimea de undă a luminii incidente.

A = (600 ± 6) nm;
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a,

atunci ecuația va lua forma , când punctele trebuie să satisfacă formula.

.

Rezultatele măsurătorilor și calculelor sunt introduse tabelul 7.

Tabelul 7
n x = m y = r 2, 10 -2 mm 2 m -¯ m (m -¯m) 2 (m -¯ m)y y - bx - a, 10 -4 (y - bx - a) 2 , 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –

(vezi poza). Trebuie să găsiți ecuația unei linii

Cu cât numărul în valoare absolută este mai mic, cu atât linia dreaptă aleasă (2) este mai bună. Ca o caracteristică a preciziei selectării unei linii drepte (2), putem lua suma pătratelor

Condițiile minime pentru S vor fi

(6)
(7)

Ecuațiile (6) și (7) pot fi scrise după cum urmează:

(8)
(9)

Din ecuațiile (8) și (9) este ușor de găsit a și b din valorile experimentale ale lui xi și y i. Linia (2), definită prin ecuațiile (8) și (9), se numește dreptă obținută prin metoda celor mai mici pătrate (acest nume subliniază că suma pătratelor S are un minim). Ecuațiile (8) și (9), din care se determină linia dreaptă (2), se numesc ecuații normale.

Puteți indica un mod simplu și general de a compune ecuații normale. Folosind punctele experimentale (1) și ecuația (2), putem scrie un sistem de ecuații pentru a și b

y 1 =ax 1 +b,
y 2 = ax 2 + b,
...
(10)
y n = ax n + b,

Să înmulțim părțile din stânga și din dreapta fiecăreia dintre aceste ecuații cu coeficientul primei necunoscute a (adică cu x 1, x 2, ..., x n) și să adunăm ecuațiile rezultate, rezultând prima ecuație normală (8) .

Să înmulțim părțile din stânga și din dreapta fiecăreia dintre aceste ecuații cu coeficientul celei de-a doua necunoscute b, i.e. cu 1 și adăugați ecuațiile rezultate, rezultatul este a doua ecuație normală (9).

Această metodă de obținere a ecuațiilor normale este generală: este potrivită, de exemplu, pentru funcție

există o valoare constantă și trebuie determinată din datele experimentale (1).

Sistemul de ecuații pentru k se poate scrie:

Găsiți linia dreaptă (2) folosind metoda celor mai mici pătrate.

Soluţie. Găsim:

x i =21, y i =46,3, x i 2 =91, x i y i =179,1.

Scriem ecuațiile (8) și (9)

De aici găsim

Estimarea preciziei metodei celor mai mici pătrate

Să dăm o estimare a preciziei metodei pentru cazul liniar când ecuația (2) este valabilă.

Fie valorile experimentale x i exacte, iar valorile experimentale y i au erori aleatoare cu aceeași varianță pentru tot i.

Să introducem notația

(16)

Apoi soluțiile ecuațiilor (8) și (9) pot fi reprezentate sub forma

(17)
(18)
Unde
(19)
Din ecuația (17) găsim
(20)
În mod similar, din ecuația (18) obținem

(21)
deoarece
(22)
Din ecuațiile (21) și (22) găsim
(23)

Ecuațiile (20) și (23) oferă o estimare a preciziei coeficienților determinați din ecuațiile (8) și (9).

Rețineți că coeficienții a și b sunt corelați. Prin simple transformări găsim momentul lor de corelare.

De aici găsim

0,072 la x=1 și 6,

0,041 la x=3,5.

Literatură

Ţărm. Ya. B. Metode statistice de analiză și control al calității și fiabilității. M.: Gosenergoizdat, 1962, p. 552, p. 92-98.

Această carte este destinată unei game largi de ingineri (institute de cercetare, birouri de proiectare, site-uri de testare și fabrici) implicați în determinarea calității și fiabilității echipamentelor electronice și a altor produse industriale de masă (ingineria mecanică, fabricarea instrumentelor, artilerie etc.).

Cartea oferă o aplicare a metodelor de statistică matematică la prelucrarea și evaluarea rezultatelor testelor, care determină calitatea și fiabilitatea produselor testate. Pentru comoditatea cititorilor, sunt furnizate informațiile necesare din statisticile matematice, precum și număr mare auxiliar tabele de matematică, facilitând calculele necesare.

Prezentarea este ilustrată de un număr mare de exemple preluate din domeniul electronicii radio și al tehnologiei de artilerie.

Metoda celor mai mici pătrate (OLS) vă permite să estimați diferite cantități folosind rezultatele multor măsurători care conțin erori aleatorii.

Caracteristicile multinationale

Ideea principală această metodă constă în faptul că ca criteriu pentru acurateţea rezolvării unei probleme se consideră suma erorilor pătrate pe care se străduiesc să le minimizeze. Atunci când se utilizează această metodă, pot fi utilizate atât abordări numerice, cât și abordări analitice.

În special, ca implementare numerică, metoda celor mai mici pătrate presupune efectuarea cât mai multor măsurători ale necunoscutului variabilă aleatoare. Mai mult, cu cât mai multe calcule, cu atât soluția va fi mai precisă. Pe baza acestui set de calcule (date inițiale), se obține un alt set de soluții estimate, din care apoi se selectează cea mai bună. Dacă se parametriză setul de soluții, atunci metoda celor mai mici pătrate se va reduce la găsirea valorii optime a parametrilor.

Ca abordare analitică a implementării LSM pe un set de date inițiale (măsurători) și un set așteptat de soluții, se determină una anume (funcțională), care poate fi exprimată printr-o formulă obținută ca o anumită ipoteză care necesită confirmare. În acest caz, metoda celor mai mici pătrate se reduce la găsirea minimului acestei funcționale pe setul de erori pătrate ale datelor originale.

Vă rugăm să rețineți că nu sunt erorile în sine, ci pătratele erorilor. De ce? Faptul este că adesea abaterile măsurătorilor de la valoarea exactă sunt atât pozitive, cât și negative. La determinarea mediei, suma simplă poate duce la o concluzie incorectă cu privire la calitatea estimării, deoarece anularea valorilor pozitive și negative va reduce puterea de eșantionare a măsurătorilor multiple. Și, în consecință, acuratețea evaluării.

Pentru a preveni acest lucru, se însumează abaterile la pătrat. Mai mult, pentru a egaliza dimensiunea valorii măsurate și estimarea finală, se extrage suma erorilor pătrate.

Unele aplicații MNC

MNC este utilizat pe scară largă în diverse domenii. De exemplu, în teoria probabilității și statistici matematice metoda este utilizată pentru a determina o astfel de caracteristică a unei variabile aleatoare precum abaterea standard, care determină lățimea intervalului de valori ale variabilei aleatoare.

După ce am ales tipul funcției de regresie, i.e. tipul modelului considerat al dependenței lui Y de X (sau X de Y), de exemplu, un model liniar y x =a+bx, este necesar să se determine valorile specifice ale coeficienților modelului.

Pentru diferite valori ale lui a și b, este posibil să se construiască un număr infinit de dependențe de forma y x =a+bx, adică. plan de coordonate Există un număr infinit de linii drepte, dar avem nevoie de o dependență care să corespundă cel mai bine valorilor observate. Astfel, sarcina se rezumă la selectarea celor mai buni coeficienți.

Căutăm funcția liniară a+bx numai pe baza unui anumit număr de observații disponibile. Pentru a găsi funcția cu cea mai bună potrivire la valorile observate, folosim metoda celor mai mici pătrate.

Să notăm: Y i - valoarea calculată prin ecuația Y i =a+bx i. y i - valoarea măsurată, ε i =y i -Y i - diferența dintre valorile măsurate și cele calculate folosind ecuația, ε i =y i -a-bx i .

Metoda celor mai mici pătrate necesită ca ε i, diferența dintre yi măsurat și valorile Y i calculate din ecuație, să fie minimă. În consecință, găsim coeficienții a și b astfel încât suma abaterilor pătrate ale valorilor observate de la valorile de pe dreapta de regresie să fie cea mai mică:

Examinând această funcție a argumentelor a și pentru extremum folosind derivate, putem demonstra că funcția ia o valoare minimă dacă coeficienții a și b sunt soluții ale sistemului:

(2)

Dacă împărțim ambele părți ale ecuațiilor normale la n, obținem:

Având în vedere că (3)

Primim , de aici, înlocuind valoarea lui a în prima ecuație, obținem:

În acest caz, b se numește coeficient de regresie; a se numește termenul liber al ecuației de regresie și se calculează folosind formula:

Linia dreaptă rezultată este o estimare pentru dreapta de regresie teoretică. Avem:

Aşa, este o ecuație de regresie liniară.

Regresia poate fi directă (b>0) și inversă (b Exemplul 1. Rezultatele măsurării valorilor lui X și Y sunt date în tabel:

x i -2 0 1 2 4
y eu 0.5 1 1.5 2 3

Presupunând că există o relație liniară între X și Y y=a+bx, determinați coeficienții a și b folosind metoda celor mai mici pătrate.

Soluţie. Aici n=5
x i =-2+0+1+2+4=5;
x i 2 =4+0+1+4+16=25
x i y i =-2 0,5+0 1+1 1,5+2 2+4 3=16,5
y i =0,5+1+1,5+2+3=8

iar sistemul normal (2) are forma

Rezolvând acest sistem, obținem: b=0,425, a=1,175. Prin urmare y=1,175+0,425x.

Exemplul 2. Există un eșantion de 10 observații ale indicatorilor economici (X) și (Y).

x i 180 172 173 169 175 170 179 170 167 174
y eu 186 180 176 171 182 166 182 172 169 177

Trebuie să găsiți un eșantion de ecuație de regresie a lui Y pe X. Construiți o linie de regresie eșantion a lui Y pe X.

Soluţie. 1. Să sortăm datele în funcție de valorile x i și y i . Primim un tabel nou:

x i 167 169 170 170 172 173 174 175 179 180
y eu 169 171 166 172 180 176 177 182 182 186

Pentru simplificarea calculelor, vom intocmi un tabel de calcul in care vom introduce valorile numerice necesare.

x i y eu x i 2 x i y i
167 169 27889 28223
169 171 28561 28899
170 166 28900 28220
170 172 28900 29240
172 180 29584 30960
173 176 29929 30448
174 177 30276 30798
175 182 30625 31850
179 182 32041 32578
180 186 32400 33480
∑x i =1729 ∑y i =1761 ∑x i 2 299105 ∑x i y i =304696
x=172,9 y=176,1 x i 2 =29910,5 xy=30469,6

Conform formulei (4), calculăm coeficientul de regresie

și conform formulei (5)

Astfel, ecuația de regresie a probei este y=-59,34+1,3804x.
Să trasăm punctele (x i ; y i) pe planul de coordonate și să marchem dreapta de regresie.


Fig 4

Figura 4 arată cum sunt situate valorile observate în raport cu linia de regresie. Pentru a evalua numeric abaterile lui y i de la Y i, unde y i sunt observate și Y i sunt valori determinate prin regresie, să creăm un tabel:

x i y eu Y eu Y i -y i
167 169 168.055 -0.945
169 171 170.778 -0.222
170 166 172.140 6.140
170 172 172.140 0.140
172 180 174.863 -5.137
173 176 176.225 0.225
174 177 177.587 0.587
175 182 178.949 -3.051
179 182 184.395 2.395
180 186 185.757 -0.243

Valorile Yi sunt calculate conform ecuației de regresie.

Abaterea vizibilă a unor valori observate de la linia de regresie se explică prin numărul mic de observații. Când se studiază gradul de dependență liniară a lui Y față de X, se ia în considerare numărul de observații. Forța dependenței este determinată de valoarea coeficientului de corelație.

Metoda celor mai mici pătrate este una dintre cele mai comune și mai dezvoltate datorită ei simplitatea și eficiența metodelor de estimare a parametrilor liniar. În același timp, atunci când îl utilizați, trebuie să aveți grijă, deoarece modelele construite folosindu-l pot să nu satisfacă o serie de cerințe pentru calitatea parametrilor lor și, ca urmare, să nu reflecte „bine” modelele de dezvoltare a procesului. .

Să luăm în considerare mai detaliat procedura de estimare a parametrilor unui model econometric liniar folosind metoda celor mai mici pătrate. Acest model în vedere generală poate fi reprezentat prin ecuația (1.2):

y t = a 0 + a 1 x 1 t +...+ a n x nt + ε t.

Datele inițiale la estimarea parametrilor a 0 , a 1 ,..., a n sunt un vector de valori ale variabilei dependente y= (y 1 , y 2 , ... , y T)" și matricea valorilor variabilelor independente

în care prima coloană, formată din unele, corespunde coeficientului de model.

Metoda celor mai mici pătrate și-a primit numele pe baza principiului de bază conform căruia estimările parametrilor obținute pe baza ei trebuie să satisfacă: suma pătratelor erorii de model ar trebui să fie minimă.

Exemple de rezolvare a problemelor folosind metoda celor mai mici pătrate

Exemplul 2.1.Întreprinderea comercială are o rețea de 12 magazine, informații despre activitățile cărora sunt prezentate în tabel. 2.1.

Conducerea întreprinderii ar dori să știe de ce depinde suma anuală spațiu de vânzare cu amănuntul magazin

Tabelul 2.1

Numărul magazinului

Cifra de afaceri anuală, milioane de ruble.

Suprafata comerciala, mii m2

Soluția celor mai mici pătrate. Să notăm cifra de afaceri anuală a celui de-al-lea magazin, milioane de ruble; — suprafața comercială a celui de-al-lea magazin, mii m2.

Fig.2.1. Scatterplot pentru Exemplul 2.1

Pentru a defini forma dependenta functionalaîntre variabile și construiți o diagramă de dispersie (Fig. 2.1).

Pe baza diagramei de dispersie, putem concluziona că cifra de afaceri anuală este dependentă pozitiv de spațiul comercial (adică y va crește odată cu creșterea ). Cea mai potrivită formă de conexiune funcțională este liniar.

Informațiile pentru calcule suplimentare sunt prezentate în tabel. 2.2. Folosind metoda celor mai mici pătrate, estimăm parametrii unui model econometric liniar cu un singur factor

Tabelul 2.2

Astfel,

Prin urmare, cu o creștere a spațiului de vânzare cu amănuntul cu 1 mie m2, celelalte lucruri fiind egale, cifra de afaceri medie anuală crește cu 67,8871 milioane de ruble.

Exemplul 2.2. Conducerea companiei a observat că cifra de afaceri anuală depinde nu doar de aria de vânzare a magazinului (vezi exemplul 2.1), ci și de numărul mediu de vizitatori. Informațiile relevante sunt prezentate în tabel. 2.3.

Tabelul 2.3

Soluţie. Să notăm numărul mediu de vizitatori la cel de-al-lea magazin pe zi, mii de oameni.

Pentru a determina forma relației funcționale dintre variabile și vom construi o diagramă de dispersie (Fig. 2.2).

Pe baza graficului de dispersie, putem concluziona că cifra de afaceri anuală depinde pozitiv de numărul mediu de vizitatori pe zi (adică, y va crește odată cu creșterea ). Forma dependenței funcționale este liniară.

Orez. 2.2. Scatterplot pentru Exemplul 2.2

Tabelul 2.4

În general, este necesar să se determine parametrii unui model econometric cu doi factori

y t = a 0 + a 1 x 1 t + a 2 x 2 t + ε t

Informațiile necesare pentru calcule ulterioare sunt prezentate în tabel. 2.4.

Să estimăm parametrii unui model econometric liniar cu doi factori folosind metoda celor mai mici pătrate.

Astfel,

Estimarea coeficientului =61,6583 arată că, în egală măsură, cu o creștere a spațiului comercial cu 1 mie m 2, cifra de afaceri anuală va crește cu o medie de 61,6583 milioane ruble.