Conceptul de multicoliniaritate. Metode de detectare și eliminare a multicoliniarității

În practică, atunci când se evaluează cantitativ parametrii unui model econometric, se întâlnește adesea problema relației dintre variabilele explicative. Dacă relația este destul de strânsă, atunci estimarea parametrilor modelului poate avea o eroare mare. Această relație între variabilele explicative se numește multicoliniaritate. Problema multicoliniarității se pune doar în cazul regresiei multiple, deoarece în regresia perechi există o variabilă explicativă. Estimarea coeficientului de regresie se poate dovedi a fi nesemnificativă nu numai din cauza nesemnificației acestui factor, ci și din cauza dificultăților care apar la distingerea impactului a doi sau mai mulți factori asupra variabilei dependente. Acest lucru se întâmplă atunci când factorii se schimbă sincron. Relația variabilei dependente cu modificările din fiecare dintre ele poate fi determinată numai dacă doar unul dintre acești factori este inclus în variabilele explicative.

Natura multicolinearității este cel mai clar demonstrată atunci când există o relație liniară strictă între variabilele explicative. Aceasta este o multicoliniaritate strictă, când este imposibil să se separe contribuția fiecărei variabile în explicarea comportamentului indicatorului de performanță. Mai frecventă este multicolinearitatea laxă sau stocastică, când variabilele explicative sunt corelate între ele. În acest caz, problema apare doar atunci când relația dintre variabile afectează rezultatele estimării regresiei.

Principalele consecințe ale multicoliniarității sunt:

· acuratețea estimării parametrilor de regresie scade, ceea ce se manifestă în trei aspecte:

Erorile din unele estimări devin foarte mari;

Aceste erori sunt foarte corelate între ele;

Varianțele eșantionului cresc foarte mult;

· coeficienții unor variabile introduși în regresie se dovedesc a fi nesemnificativi, dar din considerente economice, aceste variabile ar trebui să aibă un impact sesizabil asupra variabilei explicate;

· estimările coeficienților devin foarte sensibile la observațiile eșantionului (o creștere mică a dimensiunii eșantionului duce la schimbări foarte mari ale estimărilor).

Motive pentru multicoliniaritate:

· modelul include caracteristici factoriale care caracterizează același aspect al fenomenului;

· ecuația de regresie conține ca caracteristici factoriale astfel de indicatori, a căror valoare totală este o valoare constantă;

· modelul utilizează caracteristici factoriale care sunt componente unele ale altora;

· funcţia de modelare include caracteristici factoriale care se dublează între ele ca semnificaţie.

Problema multicolinearității este comună în regresia în serie de timp, adică. când datele constau dintr-un număr de observații pe o perioadă de timp. Dacă două sau mai multe variabile explicative au o tendință de timp puternică, ele vor fi foarte corelate, iar acest lucru poate duce la multicoliniaritate.

Dacă printre coeficienții de corelație perechi ai variabilelor independente se numără cei a căror valoare este apropiată sau egală cu coeficientul de corelație multiplă, atunci aceasta indică posibilitatea existenței multicolinearității.

Dacă într-un model econometric se obține o valoare mică a unui parametru cu un coeficient mare de determinare și, în același timp, criteriul -diferă semnificativ de zero, atunci aceasta indică prezența multicoliniarității.

Metode de studiu a multicolinearității

· găsirea şi analizarea matricei de corelaţie

Relația stocastică dintre variabile este caracterizată de mărimea coeficientului de corelație dintre ele. Cu cât valoarea absolută a coeficientului de corelație este mai aproape de unitate, cu atât multicoliniaritatea este mai puternică. În general, dacă, la estimarea ecuației de regresie, mai mulți factori s-au dovedit a fi nesemnificativi, atunci trebuie să aflați dacă vreunul dintre ei este corelat unul cu celălalt. Pentru a face acest lucru, se formează o matrice de coeficienți de corelație de pereche, care este simetrică și se numește matrice de corelație. Arată ca:

unde sunt coeficienții de corelație perechi între variabilă la iar unul dintre factori este coeficienții de corelație de pereche între factori, care se calculează folosind formula

Analiza matricei de corelație ne permite să evaluăm, în primul rând, gradul de influență a factorilor individuali asupra indicatorului de performanță și, în al doilea rând, relația dintre factori.

Dacă coeficienții de corelație perechi între unii factori sunt aproape de unitate, aceasta indică o relație strânsă între ei, de exemplu. pentru prezența multicoliniarității. În acest caz, unul dintre factori trebuie exclus de la analiza ulterioară. Se pune întrebarea, care anume. Depinde de situație specifică. Cel mai adesea, factorul care rămâne pentru modelare este cel care, din punct de vedere economic, este mai semnificativ pentru procesul studiat. De asemenea, puteți lăsa un factor care are un impact mai mare asupra indicatorului de performanță (adică al cărui coeficient de corelație cu indicatorul de performanță este mai mare). Acest tip de analiză se efectuează pentru fiecare pereche de factori. Rezultatul analizei matricei de corelație este stabilirea unui grup de factori care sunt puțin dependenți unul de celălalt - ar trebui să fie incluși în model.

· calcularea determinantului matricei de corelaţie

Dacă există mai mult de doi factori în model, problema multicolinearității nu poate fi limitată la informațiile furnizate de matricea de corelație. O verificare mai amplă presupune calcularea determinantului matricei, . Dacă , atunci există multicoliniaritate completă. Dacă , atunci nu există multicoliniaritate. Cu cât este mai aproape de zero, cu atât se poate afirma cu mai multă încredere existența multicoliniarității între variabile.

· Metoda Ferrara-Glauber

Pentru a studia multicoliniaritatea generală și multicoliniaritatea între factorii individuali, se utilizează o matrice de corelație, calculată folosind formula (3.3.2).

Pentru a studia multicoliniaritatea generală se folosește criteriul. Se calculează valoarea

având - o distribuţie cu grade de libertate.

Pe baza acestei fiabilitati si a numarului de grade de libertate se gaseste o valoare de tabel (Anexa A). Dacă , atunci putem presupune că nu există multicoliniaritate între variabilele explicative.

Pentru a clarifica intrebarea intre ce factori exista multicoliniaritate se folosesc -statistica sau -statistica. În acest scop, se folosesc coeficienți de corelație parțială între variabilele explicative, care se calculează folosind formula

unde sunt elementele matrice inversă.

Criteriul folosit este valoarea

având o distribuţie Student cu grade de libertate.

Folosind tabelele Studentului (Anexa D), se găsește valoarea critică. Comparați valoarea critică cu valoarea calculată:

· dacă , atunci nu există coliniaritate între variabilele explicative.

· dacă , atunci există o coliniaritate semnificativă între variabilele explicative.

Metode de eliminare a multicolinearității

Dacă se identifică multicoliniaritatea, este necesar să se ia o serie de măsuri pentru reducerea acesteia și posibilă eliminare. Trebuie să știți că nu există recomandări infailibile și absolut corecte; acesta este un proces de căutare creativă. Totul depinde de gradul de multicoliniaritate, de setul de factori, de natura datelor.

Sunt legate diferite tehnici care pot fi utilizate pentru a atenua multicoliniaritatea baza de informatiiși sunt împărțite în două categorii. Prima include încercări de a crește gradul de fiabilitate al estimărilor de regresie - de a crește numărul de observații din eșantion, prin reducerea perioadei de timp pentru a crește dispersia variabilelor explicative și a reduce variația numărului aleator, pentru a clarifica setul de variabile explicative incluse în model. A doua categorie include utilizarea informatii externe, adică colectarea de date și evaluări suplimentare.

· metoda eliminarii variabilelor

Această metodă implică eliminarea variabilelor explicative foarte corelate din regresie și reestimarea acesteia. Selectarea variabilelor de exclus se face folosind coeficienți de corelație. Pentru a face acest lucru, se evaluează semnificația coeficienților de corelație perechi între variabilele explicative și. Dacă , atunci una dintre variabile poate fi exclusă. Dar care variabilă să fie eliminată din analiză este decisă pe baza considerentelor economice.

· metoda de transformare liniară a variabilelor

Această metodă de eliminare a multicolinearității implică trecerea la regresia formei reduse prin înlocuirea variabilelor care sunt coliniare cu o combinație liniară a acestora. Dacă există multicoliniaritate între doi factori, atunci înlocuiți factorul și apoi verificați prezența multicoliniarității între factorii și. În absența multicolinearității, factorul este considerat în locul factorului.

· metoda de regresie treptat

Procedura de aplicare a regresiei în trepte începe cu construirea unei regresii simple. O variabilă explicativă este inclusă în analiză secvenţial. La fiecare pas, se verifică semnificația coeficienților de regresie și se evaluează multicoliniaritatea variabilelor. Dacă estimarea coeficientului este nesemnificativă, atunci variabila este exclusă și se ia în considerare o altă variabilă explicativă. Dacă estimarea coeficientului de regresie este semnificativă și nu există multicoliniaritate, atunci următoarea variabilă este inclusă în analiză. Astfel, toate componentele regresiei sunt determinate treptat fără a încălca principiul absenței multicolinearității.

Acțiune corectivă multicoliniaritate:

· este necesară modificarea specificației modelului astfel încât coliniaritatea variabilelor să fie redusă la un nivel acceptabil;

· este necesar să se aplice metode de estimare care, în ciuda coliniarității semnificative, evită consecințele negative ale acesteia. Aceste metode de estimare includ: metode cu restricții de parametri (estimator mixt și estimator minim), metoda componentelor principale, MCO în două etape, metoda variabilelor instrumentale, metoda probabilității maxime.

După cum sa arătat deja, eliminarea multicolinearității poate fi realizată prin eliminarea uneia sau mai multor caracteristici factori legate liniar. Întrebarea care factor ar trebui eliminat este decisă pe baza unei analize economice, logice și calitative a fenomenului. Uneori este posibil să se reducă multicoliniaritatea prin agregarea sau transformarea caracteristicilor factorilor inițiali. În special, aceasta ar putea fi o combinație de indicatori intersectoriali cu serii de timp sau, de exemplu, puteți merge la primele diferențe și puteți găsi o ecuație de regresie pentru diferențe.

Deși nu există metode fiabile pentru detectarea coliniarității, există mai multe semne care o indică:

· un semn caracteristic de multicoliniaritate este o valoare mare a coeficientului de determinare atunci când parametrii ecuației sunt nesemnificativi (după t-statisticieni);

· într-un model cu două variabile, cel mai bun semn al multicolinearității este valoarea coeficientului de corelație;

· într-un model cu un număr mai mare (de doi) factori, coeficientul de corelație poate fi scăzut din cauza prezenței multicolinearității, trebuie luați în considerare coeficienții de corelație parțială;

· dacă coeficientul de determinare este mare și coeficienții parțiali sunt mici, atunci multicoliniaritatea este posibilă

Exemplul 3.6. Examinați datele pentru multicoliniaritate; dacă este detectată multicoliniaritatea variabilelor explicative, atunci excludeți din considerare o variabilă care se corelează cu alte variabile explicative.

Y 17,44 17,28 17,92 18,88 17,12 21,12 20,64 19,68 18,4
X 1 22,95 24,84 29,97 28,08 24,3 32,4 29,97 33,48 29,7 26,73
X 2 1,56 2,88 2,28 1,2 2,64 3,48 2,28 2,52 2,4
X 3 2,8 1,148 2,66 1,96 0,77 2,38 3,36 2,17 2,24 2,03

Soluţie. Pentru a studia multicolinearitatea generală, aplicăm metoda Farrar-Glauber.

Pentru a găsi matricea de corelație R Să construim tabelul auxiliar 3.13.

Tabelul 3.13

Calculul elementelor matricei de corelare

17,44 22,95 2,8 526,70 9,00 7,84 68,85 64,26 8,40 22,95 2,8 304,15
17,28 24,84 1,56 1,14 617,03 2,43 1,32 38,75 28,52 1,79 24,84 1,56 1,14 298,60
17,92 29,97 2,88 2,66 898,20 8,29 7,08 86,31 79,72 7,66 29,97 2,88 2,66 321,13
18,88 28,08 2,28 1,96 788,49 5,20 3,84 64,02 55,04 4,47 28,08 2,28 1,96 356,45
17,12 24,3 1,2 0,77 590,49 1,44 0,59 29,16 18,71 0,92 24,3 1,2 0,77 293,09
21,12 32,4 2,64 2,38 1049,76 6,97 5,66 85,54 77,11 6,28 32,4 2,64 2,38 446,05
29,97 3,48 3,36 898,20 12,11 11,29 104,3 100,7 11,69 29,97 3,48 3,36 400,00
20,64 33,48 2,28 2,17 1120,91 5,20 4,71 76,33 72,65 4,95 33,48 2,28 2,17 426,01
19,68 29,7 2,52 2,24 882,09 6,35 5,02 74,84 66,53 5,64 29,7 2,52 2,24 387,30
18,4 26,73 2,4 2,03 714,49 5,76 4,12 64,15 54,26 4,87 26,73 2,4 2,03 338,56
188,48 282,42 24,24 21,52 8086,36 62,76 51,47 692,26 617,5 56,68 282,42 24,24 21,5 3571,35
18,848 28,24 2,42 2,15 808,64 6,28 5,15 69,23 61,75 5,67 28,24 2,424 2,15 357,13

Penultimul rând din Tabelul 3.12 arată sumele pe coloană, iar ultimul rând arată valorile medii pe coloană.

Să găsim abaterile standard:

În mod similar avem , , .

Înlocuim valorile găsite ale abaterilor standard în formule (3.3.3) pentru a calcula coeficienții de corelație de pereche:

La fel, , , , .

Putem concluziona că există o anumită legătură între fiecare pereche de factori. Pentru această problemă, matricea de corelație (3.3.1) are forma:

Cometariu. Dacă comanda Data Analysis nu este disponibilă în meniul Tools, trebuie să rulați programul de instalare Microsoft Excelși instalați pachetul de analiză. După instalarea pachetului de analiză, trebuie să-l selectați și să-l activați folosind comanda Add-ons.

Să găsim determinantul matricei de corelație:

Valoarea determinantului matricei de corelație este aproape de zero, ceea ce indică prezența unei multicoliniarități semnificative.

. iar multicoliniaritatea există și una dintre variabile trebuie exclusă. Să excludem variabila din considerare, deoarece .
  • 5. Procedura de estimare a unui model econometric liniar dintr-o ecuație izolată în Excel. Semnificația informațiilor statistice de ieșire ale serviciului de regresie. (10) pagina 41
  • 6.Specificarea și estimarea metodei celor mai mici pătrate a modelelor econometrice neliniare în parametri. (30) p.24-25,
  • 7. Model clasic de regresie perechi. Specificația modelului. Teorema Gauss-Markov.
  • 8. Metoda celor mai mici pătrate: algoritmul metodei, condițiile de aplicare.
  • 9.Identificarea ecuațiilor individuale ale unui sistem de ecuații simultane: condiție de ordine. (treizeci)
  • Condiție necesară de identificare
  • 10. Estimarea parametrilor unui model de regresie pereche folosind metoda celor mai mici pătrate. (10)
  • 11. Variabile fictive: definiție, scop, tipuri.
  • 12. Autocorelarea tulburărilor aleatorii. Cauze. Consecințe.
  • 13.Algoritm de verificare a semnificației unui regresor într-un model de regresie pereche.
  • 14. Estimarea pe intervale a valorii așteptate a variabilei dependente într-un model de regresie pereche.
  • 15. Testul Chow pentru prezența modificărilor structurale în modelul de regresie. (20) p. 59,60
  • 16. Algoritm pentru verificarea adecvării unui model de regresie pereche. (20) p. 37, 79
  • 17. Coeficientul de determinare într-un model de regresie pereche.
  • 18. Estimarea parametrilor unui model de regresie multiplă folosind metoda celor mai mici pătrate.
  • 20. Heteroscedasticitatea unei tulburări aleatorii. Cauze. Consecințe. test gq (20)
  • 21.Variabila dummy panta: atribuire; specificarea unui model de regresie cu o variabilă dummy de pantă; valoarea parametrului pentru o variabilă inactivă. (20) p.65
  • 22..Algoritm pentru testul Durbin-Watson pentru prezența (absența) autocorelației tulburărilor aleatorii. (20) pagina 33
  • 23. Forme structurale și reduse de specificare a modelelor econometrice.
  • 24. Heteroscedasticitatea unei tulburări aleatorii. Cauze. Consecințe. Algoritmul de testare Goldfeld-Quandt pentru prezența sau absența heteroschedasticității tulburărilor aleatoare.
  • Algoritm pentru testul Goldfeld-Quandt pentru prezența (absența) heteroschedasticității tulburărilor aleatorii.
  • 25. Specificarea și estimarea modelelor econometrice MCO neliniare în parametri.
  • 26. Metode de ajustare a heteroschedasticității. Metoda celor mai mici pătrate ponderate
  • 27. Problema multicoliniarității în modelele de regresie multiplă.Semne de multicoliniaritate.
  • 28.Ce este logit, tobit, probit.
  • 29. Care este metoda maximă de probabilitate p. 62.
  • 30. Ce este un proces staționar?
  • 31.Proprietățile seriilor de timp.
  • 32.Modelele ar și var.
  • 33. Identificarea sistemului.
  • 34. Realizarea unui model cu un sistem de ecuaţii simultane.
  • 35.Ce este metoda Monte Carlo p. 53
  • 36. Evaluați calitatea modelului prin f, gq, dw (liniar).P. 33, 28-29
  • 37. Estimarea erorilor parametrilor modelului econometric folosind metoda Monte Carlo.
  • 38. Reflecția în modelul influenței factorilor necontabilizați. Cerințe preliminare ale teoremei Gauss-Markov.
  • 39.Modele serii de timp. Proprietăţi ale seriei de preţuri de acţiuni la bursă (20) p.93.
  • 40. Valoarea așteptată a unei variabile aleatoare, varianța acesteia și abaterea standard. (20) p.12-21
  • 41. Estimarea parametrilor unui model de regresie pereche folosind metoda celor mai mici pătrate folosind serviciul Căutare soluție.
  • 42. Testarea ipotezelor statistice, t-statistica lui Student, probabilitatea de încredere și intervalul de încredere, valorile critice ale statisticii lui Student. Ce sunt „cozile grase”?
  • 43.Problema multicolinearității în modelele de regresie multiplă. Semne de multicoliniaritate
  • 44. Coeficienți parțiali de determinare.
  • 46. ​​Semnificația economică a coeficienților ecuațiilor de regresie liniară și de putere.
  • 47. Estimarea coeficienților modelului Samuelson-Hicks
  • 48. Erori la includerea variabilelor nesemnificative în model sau excluderea celor semnificative.P.80
  • 49. Cercetarea modelului de regresie multiplă pp. 74-79.
  • 50. Multicoliniaritate: de ce este rău, cum să o detectăm și cum să o combatem.
  • 51. Semne de staționaritate ale unui proces stocastic. Ce este zgomotul alb? p.100
  • 52. Forme structurale și reduse de specificare a modelelor econometrice.
  • 53. Algoritm pentru verificarea semnificației unui regresor într-un model de regresie pereche. Prin statistici t, prin statistici f.
  • 54.Proprietăţi ale seriei de preţuri la bursă. Principiile lui Markowitz de construire a portofoliului p.93,102
  • 55.Model dinamic din ecuații liniare simultane (dați un exemplu) p.105.
  • 56. Metoda maximei probabilități: principii și fezabilitate de utilizare
  • 57. Etapele cercetării unui model de regresie multiplă pp. 74-79.
  • 50. Multicoliniaritate: de ce este rău, cum să o detectăm și cum să o combatem.

    Multicoliniaritatea este dependența reciprocă a variabilelor de influență. Problema este că, dacă este prezentă, devine dificilă sau imposibilă separarea influenței regresorilor asupra variabilei dependente, iar coeficienții pierd sensul economic al funcției marginale sau elasticității. Varianțele coeficienților sunt în creștere, iar coeficienții înșiși, estimați din diferite eșantioane sau prin metoda Monte Carlo, se corelează între ei. Acest lucru duce la faptul că în zona de setare a modelului, graficele Y și Ŷ coincid perfect, R2 și F sunt mari, iar în zona de prognoză, graficele pot coincide, ceea ce poate fi explicat prin suprimarea reciprocă a erorilor, sau diverge, adică modelul se dovedește a fi inadecvat.

    Cum se detectează multicoliniaritatea? Cea mai ușoară modalitate este de a folosi matricea de corelație. Dacă coeficienții de corelație ai regresorilor sunt mai mari de 0,7, atunci aceștia sunt interrelaționați. Determinantul matricei de corelație poate servi ca o caracteristică numerică a multicoliniarității. Dacă este aproape de 1, atunci regresorii sunt independenți; dacă k 0, atunci ele sunt puternic legate.

    Cum să faceți față multicoliniarității?

    1. Accepta, tine cont si nu faci nimic.

    2.Măriți dimensiunea eșantionului: varianțele coeficienților sunt invers proporționale cu numărul de măsurători.

    3. Îndepărtați din model regresorii care sunt slab corelați cu variabila dependentă sau ai căror coeficienți au t-statistici scăzute. După cum se poate observa din Tabelul 7.10, în acest caz, coeficienții pentru regresori semnificativi se schimbă și se pune întrebarea cu privire la semnificația lor economică. (Și sensul este acesta: dacă regresorii sunt corelați și îi poți controla, de exemplu, costurile mașinilor și muncitorilor, atunci va trebui să le schimbi proporțional). F-statistica, adică calitatea modelului, crește.

    4.Utilizați agregate de variabile corelate în ecuația de regresie: combinații liniare cu coeficienți invers proporționali cu abaterile standard ale variabilelor și nivelarea scărilor acestora. Astfel de unități de obicei nu au sens economic, dar pot crește caracterul adecvat al modelului.

    5. Analiza factorială sau metoda componentei principale. Folosit dacă există multe variabile, dar nu sunt combinații liniare cantitate mare factori independenţi care pot să nu aibă sens economic.

    51. Semne de staționaritate ale unui proces stocastic. Ce este zgomotul alb? p.100

    Seria temporală este implementarea finală c proces tohastic : generarea unui set de variabile aleatoare Y(t).

    Un proces stocastic poate fi staționar și non-staționar. Procesul este staționar , Dacă

      Așteptările matematice ale valorilor variabilei nu se schimbă.

      Așteptările matematice ale variațiilor variabilelor nu se modifică.

    3. Nu există fluctuații periodice.

    Recunoașterea staționarității:

    1. Grafic: creștere sau scădere sistematică, valuri și zone de volatilitate ridicată (dispersie) într-o serie lungă sunt imediat vizibile.

    2. Autocorelație (descrește pe măsură ce decalajul crește)

    3. Teste de tendință: testarea ipotezei că coeficientul este egal cu zero la t.

    4. Teste speciale incluse în pachetele software Stata, EViews etc., de exemplu, testul rădăcină unitară Dickey-Fuller.

    Un proces pur aleatoriu, staționar, fără autocorelare (Cor( u i / u k) = 0) se numește Zgomot alb.

    Un exemplu de proces non-staționar - mers la întâmplare

    Y(t) = Y(t-1) + a(t) Unde la)- Zgomot alb.

    Interesant, procesul Y(t) = 0,999*Y(t-1) + a(t) este staționar

    Posibilitatea fundamentală de a scăpa de non-staționaritate se numește integrabilitate. Sunt folosite diferite metode pentru a scăpa de non-staționaritate:

    1. Scăderea trendului, ceea ce am făcut în secțiunea anterioară;

    2. Folosind diferențele de 1, 2 etc. ordine de mărime, care se poate face numai după netezirea seriilor temporale (sau a spectrului de energie), altfel toate efectele vor fi suprimate prin fluctuații statistice: varianța diferenței este egală cu suma variațiilor.

    Pentru a studia serii de prețuri în bursă se folosesc modele care folosesc zgomotul alb și autoregresia, adică dependența reciprocă a nivelurilor seriei de timp.

    Modelul MA(q) (medie mobilă) – combinație liniară de elemente succesive de zgomot alb

    X(t) = a(t) – K(1)*a(t-1) – …. – K(q)*a(t-q)

    X(t) = b0 + b1*X(t-1) + …. + bp*X(t-p)

    Combinațiile lor sunt deosebit de populare

    ARMA(p,q) = AR(p) + MA(q)

    și ARIMA(p, i ,q): la fel, cu integrabilitate de ordinul i.

    "

    Rețineți că, în unele cazuri, multicolinearitatea nu este un „rău” atât de grav încât trebuie depuse eforturi semnificative pentru a o identifica și elimina. Practic, totul depinde de obiectivele studiului.
    Dacă sarcina principală a modelului este de a prezice valorile viitoare ale variabilei dependente, atunci cu un coeficient de determinare suficient de mare R2(gt; 0,9), prezența multicolinearității nu afectează de obicei calitățile predictive ale modelului (dacă in viitor se vor mentine aceleasi relatii intre variabilele corelate ca si pana acum ).
    Dacă este necesar să se determine măsura în care fiecare variabilă explicativă influențează variabila dependentă, atunci multicoliniaritatea, care duce la erori standard mai mari, este probabil să denatureze relațiile adevărate dintre variabile. În această situație, multicoliniaritatea este o problemă serioasă.
    Nu există o metodă unică de eliminare a multicolinearității care să fie potrivită în orice caz. Acest lucru se datorează faptului că cauzele și consecințele multicolinearității sunt ambigue și depind în mare măsură de rezultatele eșantionului.
    Excluderea variabilelor din model
    Cea mai simplă metodă de eliminare a multicolinearității este excluderea uneia sau a mai multor variabile corelate din model. Este necesară o anumită prudență atunci când utilizați această metodă. În această situație sunt posibile erori de specificare, așa că în modelele econometrice aplicate este indicat să nu se excludă variabilele explicative până când multicolinearitatea devine o problemă serioasă.
    Obținerea de mai multe date sau un eșantion nou
    Deoarece multicoliniaritatea depinde direct de eșantion, este posibil ca cu un eșantion diferit să nu existe multicoliniaritate sau să nu fie la fel de gravă. Uneori, pentru a reduce multicolinearitatea, este suficient să mărim dimensiunea eșantionului. De exemplu, dacă utilizați date anuale, puteți trece la datele trimestriale. Creșterea cantității de date reduce varianța coeficienților de regresie și, prin urmare, crește semnificația lor statistică. Cu toate acestea, obținerea unui eșantion nou sau extinderea unuia vechi nu este întotdeauna posibilă sau este asociată cu costuri serioase. În plus, această abordare poate crește autocorelația. Aceste probleme limitează utilizarea acestei metode.
    Modificarea specificațiilor modelului
    În unele cazuri, problema multicolinearității poate fi rezolvată prin modificarea specificației modelului: fie schimbarea formei modelului, fie adăugarea de variabile explicative care nu au fost luate în considerare în modelul original, dar afectează semnificativ variabila dependentă. Dacă aceasta metoda este justificată, atunci utilizarea sa reduce suma abaterilor pătrate, reducând astfel eroarea standard a regresiei. Aceasta are ca rezultat o reducere a erorilor standard ale coeficienților.
    Utilizarea informațiilor anticipate despre unii parametri
    Uneori, atunci când construiți un model de regresie multiplă, puteți utiliza informații preliminare, în special, valorile cunoscute ale unor coeficienți de regresie.
    Este probabil ca valorile coeficienților calculați pentru unele modele preliminare (de obicei mai simple) sau pentru un model similar bazat pe un eșantion obținut anterior să poată fi utilizate pentru cel în curs de dezvoltare. acest moment modele.
    Selectarea celor mai semnificative variabile explicative. Procedura de conectare secvenţială a elementelor
    Trecerea la mai puține variabile explicative poate reduce duplicarea informațiilor furnizate de trăsături extrem de interdependente. Este exact ceea ce întâlnim în cazul multicoliniarității variabilelor explicative.

    36. metode de identificare a multicoliarităţii. corelație parțială

    Cele mai mari dificultăți în utilizarea aparatului de regresie multiplă apar în prezența multicoliniarității variabilelor factor, când mai mult de doi factori sunt interconectați printr-o relație liniară.

    Multicoliniaritatea pentru regresia multiplă liniară este prezența lui dependență liniarăîntre variabilele factorilor incluse în model.

    Multicolinearitatea este o încălcare a uneia dintre principalele condiții care stau la baza construcției unui model de regresie multiplă liniară.

    Multicoliniaritatea sub formă de matrice este dependența dintre coloanele matricei variabilelor factor X:

    Dacă nu țineți cont de vectorul unitar, atunci dimensiunea acestei matrice este egală cu n*n. Dacă rangul matricei X este mai mic decât n, atunci modelul are multicoliniaritate completă sau strictă. Dar, în practică, multicoliniaritatea completă nu apare aproape niciodată.

    Se poate concluziona că unul dintre principalele motive pentru prezența multicoliniarității într-un model de regresie multiplă este o matrice slabă a variabilelor factor X.

    Cu cât multicoliniaritatea variabilelor factorilor este mai puternică, cu atât mai puțin fiabilă este estimarea distribuției cantității de variație explicată între factorii individuali folosind metoda celor mai mici pătrate.

    Includerea factorilor multicoliniari în model este nedorită din mai multe motive:

    1) ipoteza principală despre nesemnificația coeficienților de regresie multiplă poate fi confirmată, dar modelul de regresie în sine, testat cu ajutorul testului F, se dovedește a fi semnificativ, ceea ce indică o valoare supraestimată a coeficientului de corelație multiplă;

    2) estimările obținute ale coeficienților modelului de regresie multiplă pot fi umflate nerezonabil sau pot avea semne incorecte;

    3) adăugarea sau excluderea uneia sau a două observații din datele originale are a influență puternică privind estimările coeficienților modelului;

    4) factorii multicoliniari incluși în modelul de regresie multiplă îl pot face nepotrivit pentru utilizare ulterioară.

    Nu există metode specifice pentru detectarea multicoliniarității, dar este obișnuit să se utilizeze o serie de tehnici empirice. În cele mai multe cazuri, analiza regresiei multiple începe cu luarea în considerare a matricei de corelație a variabilelor factoriale R sau a matricei (XTX).

    Matricea de corelație a variabilelor factoriale este o matrice a coeficienților liniari de corelație perechi a variabilelor factor care este simetrică față de diagonala principală:

    unde rij este coeficientul liniar al corelației de pereche între variabilele factor i-lea și j-lea,

    Sunt unele pe diagonala matricei de corelație, deoarece coeficientul de corelație al variabilei factor cu ea însăși este egal cu unu.

    Când luăm în considerare această matrice pentru a identifica factorii multicoliniari, ne ghidăm după următoarele reguli:

    1) dacă matricea de corelație a variabilelor factor conține coeficienți de corelație perechi în valoare absolută mai mari de 0,8, atunci ei concluzionează că există multicoliniaritate în acest model de regresie multiplă;

    2) calculați valorile proprii ale matricei de corelație a variabilelor factor λmin și λmax. Dacă λmin‹10-5, atunci există multicoliniaritate în modelul de regresie. Dacă atitudinea

    apoi concluzionează și că există variabile factori multicoliniari;

    3) calculați determinantul matricei de corelație a variabilelor factori. Dacă valoarea sa este foarte mică, atunci există multicoliniaritate în modelul de regresie.

    37. modalităţi de rezolvare a problemei multicoliarităţii

    Dacă modelul de regresie estimat urmează să fie utilizat pentru a studia relațiile economice, atunci eliminarea factorilor multicoliniari este obligatorie deoarece prezența lor în model poate duce la semne incorecte ale coeficienților de regresie.

    Atunci când se construiește o prognoză pe baza unui model de regresie cu factori multicoliniari, este necesar să se evalueze situația în funcție de amploarea erorii de prognoză. Dacă valoarea sa este satisfăcătoare, atunci modelul poate fi utilizat în ciuda multicoliniarității. Dacă eroarea de prognoză este mare, atunci eliminarea factorilor multicoliniari din modelul de regresie este una dintre metodele de creștere a preciziei prognozei.

    Principalele modalități de a elimina multicoliniaritatea într-un model de regresie multiplă includ:

    1) una dintre cele mai simple moduri de a elimina multicolinearitatea este obținerea de date suplimentare. Cu toate acestea, în practică, în unele cazuri, implementarea acestei metode poate fi foarte dificilă;

    2) o metodă de transformare a variabilelor, de exemplu, în loc de valorile tuturor variabilelor care participă la model (inclusiv cea rezultată), puteți lua logaritmii acestora:

    lny=β0+β1lnx1+β2lnx2+ε.

    in orice caz aceasta metoda de asemenea, nu poate garanta eliminarea completă a multicoliniarității factorilor;

    Dacă metodele luate în considerare nu au ajutat la eliminarea multicoliniarității factorilor, atunci se trece la utilizarea metodelor părtinitoare pentru estimarea parametrilor necunoscuți ai unui model de regresie sau metode de excludere a variabilelor dintr-un model de regresie multiplă.

    Dacă nici una dintre variabilele factorilor incluse în modelul de regresie multiplă nu poate fi exclusă, atunci se utilizează una dintre principalele metode părtinitoare pentru estimarea coeficienților modelului de regresie - regresia ridge sau ridge.

    Când se folosește metoda regresiei crestei, la toate elementele diagonale ale matricei (XTX) se adaugă un număr mic τ: 10-6 ‹ τ ‹ 0,1. Estimarea parametrilor necunoscuți ai unui model de regresie multiplă se realizează folosind formula:

    unde ln este matricea de identitate.

    Rezultatul utilizării regresiei de creste este o reducere a erorilor standard ale coeficienților modelului de regresie multiplă datorită stabilizării acestora la un anumit număr.

    Analiza componentelor principale este una dintre principalele metode de eliminare a variabilelor dintr-un model de regresie multiplă.

    Această metodă este utilizată pentru a elimina sau reduce multicoliniaritatea variabilelor factorilor într-un model de regresie. Esența metodei este reducerea numărului de variabile factori la cei mai semnificativi factori de influență. Acest lucru se realizează prin transformarea liniară a tuturor variabilelor factor xi (i=0,...,n) în noi variabile numite componente principale, adică se face o tranziție de la matricea variabilelor factor X la matricea componentelor principale F. În acest caz, se propune cerința ca izolarea primei componente principale să corespundă maximului varianței totale a tuturor variabilelor factor xi (i=0,...,n), a doua componentă a corespuns maximului de varianța rămasă, după excluderea influenței primei componente principale etc.

    Metoda de includere pas cu pas a variabilelor constă în selectarea din întregul set posibil de variabile factori exacte a celor care au un impact semnificativ asupra variabilei rezultat.

    Metoda de includere pas cu pas se realizează conform următorului algoritm:

    1) dintre toate variabilele factori, modelul de regresie include acele variabile care corespund celui mai mare modul al coeficientului liniar de corelare perechi cu variabila rezultat;

    2) la adăugarea de noi variabile factori la modelul de regresie, semnificația acestora este verificată folosind testul F Fisher. În același timp, se emite ipoteza principală cu privire la includerea nejustificată a variabilei factor xk în modelul de regresie multiplă. Ipoteza opusă este o afirmație despre oportunitatea includerii variabilei factor xk în modelul de regresie multiplă. Valoarea critică a criteriului F este definită ca Fcrit(a;k1;k2), unde a este nivelul de semnificație, k1=1 și k2=n–l sunt numărul de grade de libertate, n este volumul populația eșantionului, l este numărul de parametri estimați din eșantion. Valoarea observată a criteriului F este calculată folosind formula:

    unde q este numărul de variabile factori incluse deja în modelul de regresie.

    La testarea ipotezei principale sunt posibile următoarele situații.

    Fob›Fcrit, atunci se respinge ipoteza principală despre includerea nejustificată a variabilei factor xk în modelul de regresie multiplă. Prin urmare, includerea acestei variabile în modelul de regresie multiplă este justificată.

    Dacă valoarea observată a criteriului F (calculată din datele eșantionului) este mai mică sau egală cu valoarea critică a criteriului F (determinată din tabelul de distribuție Fisher-Snedecor), adică Fobs.≤Fcrit, atunci ipoteza principală despre includerea nejustificată a variabilei factor xk în regresia modelului multiplu este acceptată. Prin urmare, această variabilă factor nu poate fi inclusă în model fără a-i compromite calitatea

    3) variabilele factor sunt verificate pentru semnificație până când există cel puțin o variabilă pentru care nu este îndeplinită condiția Fob›Fcrit.

    38. variabile fictive. Testul Chow

    Termenul „variabile fictive” este folosit spre deosebire de variabile „semnificative”, care indică nivelul unui indicator cantitativ care ia valori dintr-un interval continuu. De regulă, o variabilă dummy este o variabilă indicator care reflectă o caracteristică calitativă. Cele mai frecvent utilizate sunt variabilele binare dummy care iau două valori, 0 și 1, în funcție de o anumită condiție. De exemplu, într-un sondaj asupra unui grup de persoane, 0 ar putea însemna că persoana chestionată este un bărbat, iar 1 ar putea însemna o femeie. Variabilele fictive includ uneori un regresor constând doar din unități (adică o constantă, un termen de interceptare), precum și o tendință de timp.

    Variabilele fictive, fiind exogene, nu creează dificultăți la utilizarea MCO. Variabilele fictive sunt un instrument eficient pentru construirea modelelor de regresie și testarea ipotezelor.

    Să presupunem că a fost construit un model de regresie pe baza datelor colectate. Cercetătorul se confruntă cu sarcina de a stabili dacă merită să introducă variabile inactiv suplimentare în modelul rezultat sau dacă modelul de bază este optim. Aceasta sarcina este rezolvată folosind metoda sau testul lui Chow. Este utilizat în situațiile în care populația principală a eșantionului poate fi împărțită în părți sau subeșantioane. În acest caz, puteți testa ipoteza că subeșantioanele sunt mai eficiente decât modelul general de regresie.

    Vom presupune că modelul de regresie generală este un model de regresie neconstrâns. Să notăm acest model prin ONU. Vom lua în considerare cazuri speciale ale modelului de regresie fără restricții ca subeșantioane separate. Să notăm aceste subeșantioane parțiale ca relatii cu publicul.

    Să introducem următoarea notație:

    PR1 – primul subprobă;

    PR2 – al doilea subproba;

    ESS(PR1) – suma reziduurilor pătrate pentru primul subeșantion;

    ESS(PR2) – suma reziduurilor pătrate pentru al doilea subeșantion;

    ESS(UN) este suma reziduurilor pătrate pentru modelul general de regresie.

    – suma reziduurilor pătrate pentru observațiile primului subeșantion din modelul de regresie generală;

    – suma reziduurilor pătrate pentru observațiile celui de-al doilea subeșantion din modelul de regresie generală.

    Pentru anumite modele de regresie sunt valabile următoarele inegalități:

    Condiție (ESS(PR1)+ESS(PR2))= ESS(UN) se efectuează numai dacă coeficienții modelelor de regresie parțială și coeficienții modelului general de regresie fără restricții sunt aceiași, dar în practică o astfel de coincidență este foarte rară.

    Ipoteza principală este formulată ca o afirmație că calitatea modelului de regresie generală fără restricții calitate mai buna modele private de regresie sau subeșantioane.

    Ipoteza alternativă sau inversă afirmă că calitatea modelului general de regresie neconstrânsă calitate mai proasta modele private de regresie sau subeșantioane

    Aceste ipoteze sunt testate folosind testul Fisher-Snedecor F.

    Valoarea F-test observată este comparată cu valoarea critică F-test, care este determinată din tabelul de distribuție Fisher-Snedecor.

    A k1=m+1Și k2=n-2m-2.

    Valoarea observată a criteriului F este calculată folosind formula: unde ESS(UN)–ESS(PR1)–ESS(PR2)– valoare care caracterizează îmbunătățirea calității modelului de regresie după împărțirea acestuia în subeșantioane;

    m– numărul de variabile factori (inclusiv cele fictive);

    n– mărimea populației totale din eșantion.

    Dacă valoarea F-test observată (calculată din datele eșantionului) este mai mare decât valoarea critică F-test (determinată din tabelul de distribuție Fisher-Snedecor), i.e. Fob>Fcrit, atunci ipoteza principală este respinsă, iar calitatea modelelor de regresie particulare depășește calitatea modelului de regresie generală.

    Dacă valoarea F-test observată (calculată din datele eșantionului) este mai mică sau egală cu valoarea critică a testului F (determinată din tabelul de distribuție Fisher-Snedecor), i.e. Fob?Fcrit, atunci ipoteza principală este acceptată și nu are sens să împărțim regresia generală în subeșantioane.

    Dacă se testează semnificația regresiei de bază sau a regresiei restricționate, atunci ipoteza principală a formei este prezentată:

    Validitatea acestei ipoteze este testată folosind testul Fisher-Snedecor F.

    Valoarea critică a testului Fisher F este determinată din tabelul de distribuție Fisher-Snedecor în funcție de nivelul de semnificație Ași două grade de libertate k1=m+1Și k2=n–k–1.

    Valoarea observată a criteriului F este convertită în forma:

    La testarea ipotezelor sunt posibile următoarele situații.

    Dacă valoarea F-test observată (calculată din datele eșantionului) este mai mare decât valoarea critică F-test (determinată din tabelul de distribuție Fisher-Snedecor), i.e. Fob›Fcrit, atunci ipoteza principală este respinsă și variabile fictive suplimentare trebuie introduse în modelul de regresie deoarece calitatea modelului de regresie constrâns este mai mare decât calitatea modelului de referință sau a modelului de regresie constrânsă.

    Dacă valoarea F-test observată (calculată din datele eșantionului) este mai mică sau egală cu valoarea critică a testului F (determinată din tabelul de distribuție Fisher-Snedecor), i.e. Fob?Fcrit, atunci ipoteza principală este acceptată și modelul de regresie de bază este satisfăcător; nu are sens să se introducă variabile inactiv suplimentare în model.

    39. sistem de ecuații simultane (variabile endogene, exogene, întârziate). Exemple semnificative din punct de vedere economic de sisteme de ecuații simultane

    Până acum, am luat în considerare modele econometrice definite prin ecuații care exprimă variabila dependentă (explicată) în termeni de variabile explicative. Cu toate acestea, obiectele economice reale studiate prin metode econometrice conduc la o extindere a conceptului de model econometric descris printr-un sistem de ecuații de regresie și identități1.

    1 Spre deosebire de ecuațiile de regresie, identitățile nu conțin parametri de model care trebuie estimați și nu includ o componentă aleatorie.

    O caracteristică specială a acestor sisteme este că fiecare dintre ecuațiile sistemului, pe lângă „propriile” variabile explicative, poate include variabile explicate din alte ecuații. Astfel, nu avem o variabilă dependentă, ci un set de variabile dependente (explicate) legate de ecuațiile sistemului. Un astfel de sistem mai este numit și sistem de ecuații simultane, subliniind faptul că în sistem aceleași variabile sunt considerate simultan ca dependente în unele ecuații și independente în altele.

    Sistemele de ecuații simultane descriu cel mai complet un obiect economic care conține multe variabile endogene (formate în funcționarea obiectului) și exogene (stabilite din exterior) interconectate. În acest caz, variabilele întârziate (luate la momentul anterior) pot acționa ca endogene și exogene.

    Un exemplu clasic de astfel de sistem este modelul cererii Qd și al ofertei Qs (vezi § 9.1), când cererea pentru un produs este determinată de prețul său P și venitul consumatorului /, oferta unui produs este determinată de prețul său P. și se realizează un echilibru între cerere și ofertă:

    În acest sistem, variabila exogenă este venitul consumatorului /, iar variabila endogenă este cererea (oferta) de produs Qd = Q» = Q și prețul produsului (prețul de echilibru) R.

    Într-un alt model al cererii și ofertei, variabila care explică oferta Qf poate fi nu numai prețul bunurilor P la un moment dat în timp /, adică. Pb dar și prețul produsului la momentul anterior Ptb, adică. variabilă endogenă decalată:

    th"=P4+P5^+Pb^-1+Є2.

    Rezumând cele de mai sus, putem spune că modelul econometric ne permite să explicăm comportamentul variabilelor endogene în funcție de valorile variabilelor endogene exogene și întârziate (cu alte cuvinte, în funcție de variabile predeterminate, adică predeterminate).

    În încheierea analizei noastre asupra conceptului de model econometric, trebuie remarcate următoarele. Nu orice model economic și matematic care reprezintă o descriere matematică și statistică a obiectului economic studiat poate fi considerat econometric. Ea devine econometrică numai dacă reflectă acest obiect pe baza datelor empirice (statistice) care îl caracterizează.

    40. metoda indirectă a celor mai mici pătrate

    Dacă a i-a ecuație stocastică a formei structurale este identificată exact, atunci parametrii acestei ecuații (coeficienții ecuației și varianța erorii aleatoare) sunt restabiliți în mod unic din parametrii sistemului redus. Prin urmare, pentru a estima parametrii unei astfel de ecuații, este suficient să estimați coeficienții fiecăreia dintre ecuațiile formei reduse folosind metoda celor mai mici pătrate (separat pentru fiecare ecuație) și să obțineți o estimare a matricei de covarianță Q a erorilor în forma redusă, iar apoi se folosesc relațiile PG = B și E = GTQT, substituind în ele, în loc de P, o matrice de coeficienți estimați de forma redusă P și o matrice de covarianță estimată a erorilor în forma redusă £2. Această procedură se numește cele mai mici pătrate indirecte (ILS cele mai mici pătrate indirecte). Estimările rezultate ale coeficienților i-a ecuație stocastică a formei structurale moștenesc proprietatea de consistență a estimărilor formei reduse. Cu toate acestea, ei nu moștenesc astfel de proprietăți ale estimatorilor de formă redusă, cum ar fi imparțialitatea și eficiența, datorită faptului că sunt obținute ca urmare a unor transformări neliniare. În consecință, cu un număr mic de observații, chiar și aceste estimări naturale pot fi supuse unor părtiniri vizibile. În acest sens, când se ia în considerare diverse metode Estimarea coeficienților ecuațiilor structurale se preocupă în primul rând de asigurarea coerenței estimărilor rezultate.

    41. probleme de identificare a sistemelor de ecuaţii simultane

    Cu specificarea corectă a modelului, sarcina identificării unui sistem de ecuații se reduce la o estimare corectă și neechivocă a coeficienților săi. Evaluarea directă a coeficienților de ecuație este posibilă numai în sistemele de ecuații aparent neînrudite pentru care sunt îndeplinite condițiile preliminare de bază pentru construirea unui model de regresie, în special condiția ca variabilele factorilor să nu fie corelate cu reziduurile.

    În sistemele recursive, este întotdeauna posibil să se scape de problema corelării reziduurilor cu variabilele factorilor prin substituirea ca valori ale variabilelor factor nu actuale, ci valorilor modelului variabilelor endogene care acționează ca variabile factori. Procesul de identificare se realizează după cum urmează:

    1. Se identifică o ecuație care nu conține ca factori variabile endogene. Se găsește valoarea calculată a variabilei endogene a acestei ecuații.

    2. Luați în considerare următoarea ecuație, în care variabila endogenă găsită în pasul anterior este inclusă ca factor. Valorile modelului (estimate) ale acestei variabile endogene oferă capacitatea de a identifica această ecuație etc.

    În sistemul de ecuații în formă redusă nu se pune problema corelării variabilelor factoriale cu abaterile, întrucât în ​​fiecare ecuație sunt folosite ca variabile factoriale doar variabile predefinite. Astfel, dacă sunt îndeplinite alte condiții preliminare, sistemul recursiv este întotdeauna identificabil.

    Când se consideră un sistem de ecuații simultane, apare o problemă de identificare.

    Identificarea în acest caz înseamnă determinarea posibilității recalculării fără ambiguitate a coeficienților sistemului sub formă redusă în coeficienți structurali.

    Modelul structural (7.3) conține în întregime parametrii care trebuie determinati. Forma dată a modelului conține parametrii în întregime. Prin urmare, pentru a determina parametri necunoscuți ai modelului structural, se pot elabora ecuații. Astfel de sisteme sunt incerte și parametrii modelului structural în cazul general nu pot fi determinați fără ambiguitate.

    Pentru a obține singurul Soluție posibilă este necesar să presupunem că unii dintre coeficienții structurali ai modelului, datorită relației lor slabe cu variabila endogenă din partea stângă a sistemului, sunt egali cu zero. Acest lucru va reduce numărul de coeficienți structurali ai modelului. Reducerea numărului de coeficienți structurali ai modelului este posibilă și în alte moduri: de exemplu, prin echivalarea unor coeficienți între ei, adică prin presupunerea că impactul lor asupra variabilei endogene care se formează este același etc.

    Din punct de vedere al identificării, modelele structurale pot fi împărțite în trei tipuri:

    · identificabile;

    · neidentificabil;

    · supraidentificat.

    Model identificabile, dacă toți coeficienții săi structurali sunt determinați în mod unic, într-un mod unic, de coeficienții formei reduse a modelului, adică dacă numărul de parametri ai modelului structural este egal cu numărul de parametri ai formei reduse a modelului model.

    Model neidentificabile, dacă numărul de coeficienți ai modelului redus este mai mic decât numărul de coeficienți structurali și, ca urmare, coeficienții structurali nu pot fi estimați prin coeficienții formei reduse a modelului.

    Model supraidentificabile, dacă numărul de coeficienți ai modelului redus este mai mare decât numărul de coeficienți structurali. În acest caz, pe baza coeficienților de formă redusă, se pot obține două sau mai multe valori ale unui coeficient structural. Un model supraidentificabil, spre deosebire de un model neidentificabil, este practic rezolvabil, dar necesită metode speciale pentru găsirea parametrilor.

    Pentru a determina tipul de model structural, fiecare dintre ecuațiile sale trebuie verificată pentru identificabilitate.

    Un model este considerat identificabil dacă fiecare ecuație a sistemului este identificabilă. Dacă cel puțin una dintre ecuațiile sistemului este neidentificabilă, atunci întregul model este considerat neidentificabil. Pe lângă cele identificabile, un model supraidentificat conține cel puțin o ecuație supraidentificată.

    42. metoda celor mai mici pătrate în trei etape

    Cea mai eficientă procedură de estimare a sistemelor de ecuații de regresie combină metoda estimării simultane și metoda variabilelor instrumentale. Metoda corespunzătoare se numește cele mai mici pătrate în trei etape. Constă în faptul că în primul pas se aplică la modelul original (9.2) metoda celor mai mici pătrate generalizate pentru a elimina corelarea termenilor aleatori. Metoda celor mai mici pătrate în două etape este apoi aplicată ecuațiilor rezultate.

    Evident, dacă termenii aleatori (9.2) nu se corelează, metoda în trei etape se reduce la una în două etape, în timp ce, în același timp, dacă matricea B este identitate, metoda în trei etape este o procedură de estimare simultană. de ecuații ca aparent neînrudite.

    Să aplicăm metoda în trei pași modelului luat în considerare (9.24):

    ai=19,31; Pi=l,77; a2=19,98; p2=0,05; y=1,4. (6,98) (0,03) (4,82) (0,08) (0,016)

    Deoarece coeficientul p2 este nesemnificativ, ecuația pentru dependența lui Y de X are forma:

    y = 16,98 + 1,4x

    Rețineți că practic coincide cu ecuația (9.23).

    După cum se știe, purificarea unei ecuații din corelarea termenilor aleatori este un proces iterativ. În consecință, atunci când utilizați metoda în trei pași program de calculator solicită numărul de iterații sau precizia necesară. Să remarcăm o proprietate importantă a metodei în trei etape, care asigură cea mai mare eficiență a acesteia.

    Pentru un număr suficient de mare de iterații, estimările celor mai mici pătrate în trei etape coincid cu estimările de probabilitate maximă.

    Se știe că estimatorii de probabilitate maximă sunt cei mai buni pe eșantioane mari.

    43. concept de serie temporală economică. Forma generală modele de serie de timp multiplicative și aditive.

    44. modelarea tendințelor seriilor temporale, a fluctuațiilor sezoniere și ciclice.

    Există mai multe abordări pentru analiza structurii seriilor temporale care conțin fluctuații sezoniere sau ciclice.

    1 ABORDAREA. Calculul valorilor componentelor sezoniere folosind metoda mediei mobile și construirea unui model de serie temporală aditivă sau multiplicativă.

    Vedere generală a modelului aditiv: (T - componentă tendință, S - sezonier, E - aleatoriu).

    Vedere generală a modelului multiplicativ:

    Selectarea unui model pe baza unei analize a structurii fluctuațiilor sezoniere (dacă amplitudinea fluctuațiilor este aproximativ constantă - aditivă, dacă crește/descrește - multiplicativă).

    Construirea modelelor se reduce la calcule valorile T,S,E pentru fiecare nivel de rând.

    Construirea modelului:

    1. alinierea seriei originale folosind metoda mediei mobile;

    2.calculul valorilor componentelor S;

    3. Eliminarea componentei sezoniere de la nivelurile inițiale ale seriei și obținerea de date aliniate ( T+E) în adaos sau ( T*E) în modelul multiplicativ.

    4. Nivelare analitică ( T+E) sau ( T*E) și calculul valorii T folosind nivelul de tendință obținut.

    5.Calculul valorilor obținute din model ( T+S) sau ( T*S).

    6.Calculul erorilor absolute și/sau relative.

    Dacă valorile de eroare obținute nu conțin autocorelare, ele pot fi utilizate pentru a înlocui nivelurile originale ale seriei și, ulterior, pentru a utiliza seria temporală a erorilor E pentru a analiza relația dintre seria originală și alte serii temporale.

    2 ABORDAREA. Construirea unui model de regresie incluzând factorul timp și variabilele fictive. Numărul de variabile fictive într-un astfel de model ar trebui să fie cu o mai mică decât numărul de momente (perioade) de timp dintr-un ciclu de oscilație. De exemplu, atunci când modelează datele trimestriale, modelul trebuie să includă patru variabile independente — un factor de timp și trei variabile inactiv. Fiecare variabilă inactivă reflectă componenta sezonieră (ciclică) a seriei de timp pentru orice perioadă. Este egal cu unu (1) pentru o anumită perioadă și cu zero (0) pentru toate celelalte. Dezavantajul unui model cu variabile fictive este prezența unui număr mare de variabile.

    45. funcţia de autocorelare. Utilizarea sa pentru a identifica prezența sau absența componentelor tendințe și ciclice

    Autocorelarea nivelurilor seriilor temporale.

    Dacă există tendințe și fluctuații ciclice într-o serie de timp, fiecare nivel ulterior al seriei depinde de cele anterioare. Se numește dependența de corelație între nivelurile succesive ale unei serii de timp autocorelarea nivelurilor de serie.

    Cantitativ, autocorelarea nivelurilor seriei este măsurată folosind un coeficient de corelație liniară între nivelurile seriei de timp inițiale și nivelurile acestei serii, deplasate cu mai mulți pași în timp.

    Să fie, de exemplu, o serie de timp . Să determinăm coeficientul de corelație dintre seria și .

    Una dintre formulele de lucru pentru calcularea coeficientului de corelare este:

    Și seria temporală, adică. la lag 2. Se determină prin formula:

    (4)

    Rețineți că pe măsură ce decalajul crește, numărul de perechi de valori din care se calculează coeficientul de corelație scade. De obicei, decalajul nu este permis să fie mai mare de un sfert din numărul de observații.

    Să notăm două proprietăți importante ale coeficienților de autocorelare.

    În primul rând, coeficienții de autocorelare sunt calculați prin analogie cu coeficientul de corelație liniară, adică. ele caracterizează doar apropierea legăturii liniare dintre cele două niveluri ale seriei temporale luate în considerare. Prin urmare, coeficientul de autocorelare poate judeca doar prezența unei tendințe liniare (sau aproape de liniară). Pentru seriile temporale care au o tendință neliniară puternică (de exemplu, exponențială), coeficientul de autocorelare de nivel se poate apropia de zero.

    0

    Ministerul Educației și Științei al Federației Ruse

    Instituția de învățământ bugetară de stat federală

    educatie inalta

    UNIVERSITATEA TEHNICĂ DE STAT TVER

    Departamentul Contabilitate si Finante

    PROIECT DE CURS
    la disciplina „Econometrie”

    „Exploarea multicolinearității în modelele econometrice: excluderea variabilelor din model”

    Șef de lucru:

    Ph.D. acestea. Științe, conferențiar

    Konovalova

    Executor testamentar:

    elev al grupei EK-1315 EPO

    Tver, 2015

    Introducere……………………………………………………………………………………………………..3

    1. Partea analitică…………………………………………………………………4

    1.1. Semne generalizate de multicoliniaritate în modelele econometrice………………………………………………………………………………………………………….4

    1.2. Metode de bază pentru eliminarea multicolinearității în modelele econometrice…………..…………………………………………..7

    2. Partea de proiectare………………………………………………………………………………..11

    2.1. Informații și suport metodologic pentru cercetarea econometrică…………………………………………………………………………………………….11

    2.2. Un exemplu de studiu econometric…………………………….17

    Concluzie……………………………………………………………………………………….30

    Lista surselor utilizate…………………………………………………………….31

    Introducere

    Relevanța temei lucrării „Studiul multicolinearității în modelele econometrice: excluderea variabilei(lor) din model” se datorează faptului că în epoca noastră această problemă des întâlnită în modelele econometrice aplicate.

    Subiectul studiului este problema multicolinearității. Obiectul studiului îl constituie modelele econometrice.

    Scopul principal al lucrării este de a dezvolta soluții de proiectare pentru informații și suport metodologic pentru cercetarea econometrică.

    Pentru atingerea scopului, au fost stabilite și rezolvate următoarele obiective principale de cercetare:

    1. Generalizarea semnelor de multicoliniaritate în modelele econometrice.
    2. Identificarea principalelor modalități de eliminare a multicolinearității.

    3. Dezvoltarea informaţiei şi a suportului metodologic pentru cercetarea econometrică.

    1. Partea analitica

    1.1. Semne generalizate de multicoliniaritate în modelele econometrice

    Multicolinearitate - în econometrie (analiza de regresie) - prezența unei relații liniare între variabilele (factorii) explicative ale modelului de regresie. În același timp, ei disting coliniaritate deplină, ceea ce înseamnă prezența unei relații liniare funcționale (identice) și parțial sau pur și simplu multicoliniaritate— prezența unei puternice corelații între factori.

    Coliniaritatea completă duce la incertitudine parametrii într-un model de regresie liniară, indiferent de metodele de estimare. Luați în considerare acest lucru folosind următorul model liniar ca exemplu:

    Fie ca factorii acestui model să fie relaționați identic astfel: . Apoi luați în considerare modelul liniar original, în care adăugăm la primul coeficient arbitrar număr A, și scădeți același număr din ceilalți doi coeficienți. Atunci avem (fără eroare aleatorie):

    Astfel, în ciuda modificării relativ arbitrare a coeficienților modelului, se obține același model. Un astfel de model este fundamental neidentificabil. Incertitudinea există deja în modelul în sine. Dacă luăm în considerare spațiul tridimensional al coeficienților, atunci în acest spațiu vectorul coeficienților adevărați în acest caz nu este unic, ci reprezintă o linie dreaptă întreagă. Orice punct de pe această dreaptă este un adevărat vector de coeficienți.

    Dacă coliniaritatea completă duce la incertitudinea valorilor parametrilor, atunci multicoliniaritatea parțială duce la instabilitatea acestora evaluări. Instabilitatea este exprimată printr-o creștere a incertitudinii statistice — dispersia estimărilor. Aceasta înseamnă că rezultatele estimărilor specifice pot varia foarte mult între diferitele eșantioane, chiar dacă eșantioanele sunt omogene.

    După cum se știe, matricea de covarianță a estimărilor parametrilor regresiei multiple folosind metoda celor mai mici pătrate este egală cu: Astfel, cu cât matricea de covarianță este „mai mică” (determinantul ei), cu atât matricea de covarianță a estimărilor parametrilor este „mai mare” și, în special, cu atât elementele diagonale ale acestei matrice sunt mai mari, adică dispersia estimărilor parametrilor. Pentru o mai mare claritate, să ne uităm la exemplul unui model cu doi factori:

    Apoi, varianța estimării parametrului, de exemplu, cu primul factor este egală cu:

    unde este coeficientul de corelație al eșantionului între factori.

    Aici se vede clar că cu cât valoarea absolută a corelației dintre factori este mai mare, cu atât este mai mare dispersia estimărilor parametrilor. La (coliniaritate deplină), varianța tinde spre infinit, ceea ce corespunde celor spuse mai devreme.

    Astfel, estimările parametrilor se dovedesc a fi inexacte, ceea ce înseamnă că va fi dificil de interpretat influența anumitor factori asupra variabilei explicate. În același timp, multicolinearitatea nu afectează calitatea modelului în ansamblu - poate fi recunoscută ca fiind semnificativă statistic, chiar și atunci când Toate coeficienții sunt nesemnificativi (acesta este unul dintre semnele multicoliniarității).

    În modelele liniare, coeficienții de corelație între parametri pot fi pozitivi și negativi. În primul caz, o creștere a unui parametru este însoțită de o creștere a altui parametru. În al doilea caz, când un parametru crește, altul scade.

    Pe baza acesteia, este posibilă stabilirea multicoliniarității acceptabile și inacceptabile. Multicoliniaritatea inadmisibilă va apărea atunci când există o corelație pozitivă semnificativă între factorii 1 și 2 și influența fiecărui factor asupra relației de corelare cu funcția y este unidirecțională, adică o creștere a ambilor factori 1 și 2 duce la o creștere sau scădere a funcția y. Cu alte cuvinte, ambii factori afectează funcția y în același mod, iar o corelație pozitivă semnificativă între ei poate permite excluderea unuia dintre ei.

    Multicoliniaritatea acceptabilă este de așa natură încât factorii afectează diferit funcția y. Există două cazuri posibile aici:

    a) cu o corelație pozitivă semnificativă între factori, influența fiecărui factor asupra relației de corelare cu funcția y este multidirecțională, i.e. o creștere a unui factor duce la o creștere a funcției, iar o creștere a altui factor duce la o scădere a funcției y.

    b) cu o corelație negativă semnificativă între factori, o creștere a unui factor este însoțită de o scădere a altui factor și aceasta face ca factorii să fie diferiți, prin urmare orice semn al influenței factorilor asupra funcției y este posibil.

    În practică, sunt identificate unele dintre cele mai caracteristice semne de multicolinearitate: 1. O mică modificare a datelor sursă (de exemplu, adăugarea de noi observații) duce la o schimbare semnificativă a estimărilor coeficienților modelului. 2. Estimările au erori standard mari, semnificație scăzută, în timp ce modelul în ansamblu este semnificativ (valoarea mare a coeficientului de determinare R2 și statistica F corespunzătoare). 3. Estimările coeficienților au semne incorecte din punct de vedere teoretic sau sunt nerezonabil valori mari.

    Semnele indirecte de multicolinearitate sunt erori standard ridicate ale estimărilor parametrilor modelului, statisticile t mici (adică nesemnificația coeficienților), semnele incorecte ale estimărilor, în ciuda faptului că modelul în ansamblu este considerat semnificativ statistic ( mare importanță F-statistici). Multicolinearitatea poate fi indicată și printr-o schimbare puternică a estimărilor parametrilor datorită adăugării (sau eliminării) datelor eșantionului (dacă sunt îndeplinite cerințele pentru o omogenitate suficientă a eșantionului).

    Pentru a detecta multicoliniaritatea factorilor, puteți analiza direct matricea de corelație a factorilor. Prezența unor valori absolute mari (peste 0,7-0,8) ale coeficienților de corelație de pereche indică posibile probleme cu calitatea aprecierilor primite.

    Cu toate acestea, analiza coeficienților de corelație pe perechi este insuficientă. Este necesar să se analizeze coeficienții de determinare a regresiilor factorilor asupra altor factori (). Se recomandă calcularea indicatorului. Valorile prea mari ale acestuia din urmă indică prezența multicoliniarității.

    Astfel, principalele criterii de detectare a multicolinearității sunt următoarele: R 2 ridicat pentru toți coeficienții nesemnificativi, coeficienți mari de corelație perechi, valori mari ale coeficientului VIF.

    1.2. Metode de bază pentru eliminarea multicolinearității în modelele econometrice

    Înainte de a indica principalele metode de eliminare a multicolinearității, observăm că în unele cazuri multicoliniaritatea nu reprezintă o problemă serioasă, necesitând eforturi semnificative pentru identificarea și eliminarea acesteia. Practic, totul depinde de obiectivele studiului.

    Dacă sarcina principală a modelului este de a prezice valorile viitoare ale regresorului, atunci cu un coeficient de determinare suficient de mare R2 (> 0,9), prezența multicolinearității nu afectează de obicei calitățile predictive ale modelului. Deși această afirmație va fi justificată doar dacă în viitor se vor menține aceleași relații între regresorii corelați ca și până acum. Dacă scopul studiului este de a determina gradul de influență al fiecăruia dintre regresori asupra regresorului, atunci prezența multicolinearității, care duce la o creștere a erorilor standard, va distorsiona cel mai probabil adevăratele relații dintre regresori. În această situație, multicoliniaritatea este o problemă serioasă.

    Rețineți că nu există o metodă unică pentru eliminarea multicolinearității care să fie potrivită în orice caz. Acest lucru se datorează faptului că cauzele și consecințele multicolinearității sunt ambigue și depind în mare măsură de rezultatele eșantionului.

    În practică, există metode principale pentru eliminarea multicoliniarității:

    1. Eliminarea regresorilor din model Cea mai simplă metodă de eliminare a multicolinearității este excluderea unuia sau a mai multor regresori corelați din model. Cu toate acestea, este necesară o anumită precauție atunci când utilizați această metodă. În această situație, sunt posibile erori de specificație. De exemplu, atunci când se studiază cererea pentru un anumit bun, prețul acestui bun și prețurile înlocuitorilor acestui bun, care se corelează adesea între ele, pot fi folosite ca variabile explicative. Prin excluderea prețurilor înlocuitorilor din model, este posibil să introducem o eroare de specificație. Ca rezultat, se pot obține estimări părtinitoare și se pot trage concluzii nefondate. Astfel, în modelele econometrice aplicate, este recomandabil să nu se excludă covariabile până când coliniaritatea devine o problemă serioasă.
    2. Obținerea de date suplimentare sau a unui eșantion nou, deoarece multicoliniaritatea depinde direct de eșantion, este posibil ca cu un eșantion diferit să nu existe deloc multicoliniaritate sau să nu fie la fel de gravă. Uneori, pentru a reduce multicolinearitatea, este suficient să mărim dimensiunea eșantionului. De exemplu, dacă utilizați date anuale, puteți trece la datele trimestriale. Creșterea cantității de date reduce varianța coeficienților de regresie și, prin urmare, crește semnificația lor statistică. Cu toate acestea, obținerea unui eșantion nou sau extinderea unuia vechi nu este întotdeauna posibilă sau este asociată cu costuri serioase. În plus, această abordare poate crește autocorelația. Aceste probleme limitează utilizarea acestei metode.

    III. Modificarea specificației modelului În unele cazuri, problema multicolinearității poate fi rezolvată prin modificarea specificației modelului: fie se modifică forma modelului, fie se adaugă noi regresori care nu au fost luați în considerare în modelul original, dar afectează semnificativ variabilă dependentă. Dacă această metodă este justificată, atunci utilizarea ei reduce suma abaterilor pătrate, reducând astfel eroarea standard a regresiei. Aceasta are ca rezultat o reducere a erorilor standard ale coeficienților.

    1. Transformarea variabilelor în unele cazuri poate fi minimizată sau chiar eliminată problema multicolinearității doar prin transformarea variabilelor. Datele originale din fiecare observație sunt împărțite la valorile unuia dintre regresorii dependenți din această observație. Aplicarea metodei componentelor principale la factorii modelului permite transformarea factorilor inițiali și obținerea unui set de factori ortogonali (necorelați). În acest caz, prezența multicolinearității ne va permite să ne limităm la un număr mic de componente principale. Cu toate acestea, poate exista o problemă cu interpretarea semnificativă a componentelor principale.

    Dacă după toate indicațiile există multicoliniaritate, atunci în rândul econometrienilor există opinii diferite în acest sens. Când se confruntă cu problema multicoliniarității, poate exista o dorință naturală de a renunța la variabile independente „extra” care ar putea cauza aceasta. Cu toate acestea, trebuie amintit că pot apărea noi dificultăți. În primul rând, nu este întotdeauna clar care variabile sunt de prisos în acest sens.

    Multicolinearitatea înseamnă doar o relație liniară aproximativă între factori, dar aceasta nu evidențiază întotdeauna variabilele „extra”. În al doilea rând, în multe situații, eliminarea oricăror variabile independente poate afecta în mod semnificativ sensul semnificativ al modelului. În cele din urmă, eliminând așa-numitele variabile esențiale, i.e. variabilele independente care influențează efectiv variabila dependentă studiată duce la părtinire a coeficienților modelului. În practică, de obicei, atunci când este detectată multicoliniaritate, factorul care este cel mai puțin semnificativ pentru analiză este eliminat, iar apoi calculele sunt repetate.

    Astfel, în practică, există principalele metode de eliminare a multicoliniarității: schimbarea sau creșterea eșantionului, excluderea uneia dintre variabile, transformarea variabilelor multicoliniare (utilizați forme neliniare, utilizați agregate (combinații liniare de mai multe variabile), folosiți primele diferențe în locul Cu toate acestea, dacă multicolinearitatea nu este eliminată, o puteți ignora, ținând cont de oportunitatea excluderii.

    1. Parte de proiect

    2.1. Informații și suport metodologic pentru cercetarea econometrică

    Suportul informațional pentru cercetarea econometrică include următoarele informații:

    Informații de intrare:

    • date statistice privind indicatorul socio-economic, definit ca variabilă dependentă (factori de rezultat);
    • date statistice privind indicatorii socio-economici, definiți ca variabile explicative (factori de atribut);

    Informatii intermediare:

    • model de ecuație de regresie, ecuație de regresie estimată, indicatori de calitate și concluzie despre calitatea ecuației de regresie, concluzie despre prezența (absența) unei probleme de multicoliniaritate, recomandări de utilizare a modelului;

    Rezultate:

    • ecuație de regresie estimată, concluzie despre calitatea ecuației de regresie, concluzie despre prezența (absența) unei probleme de multicoliniaritate, recomandări de utilizare a modelului.

    Metodologia cercetării econometrice este următoarea: caietul de sarcini; parametrizare, verificare, cercetare suplimentară, prognoză.

    1. Specificarea unui model de ecuație de regresie include o analiză grafică a dependenței de corelație a variabilei dependente de fiecare variabilă explicativă. Pe baza rezultatelor analizei grafice, se face o concluzie despre modelul de ecuație de regresie de tipuri liniare sau neliniare. Pentru a efectua analize grafice, cel mai adesea se recomandă utilizarea instrumentului Scatter Plot MsExcel. În urma acestei etape se determină modelul de ecuație de regresie, iar în cazul unui tip neliniar se determină și metode de liniarizare a acestuia.

    2. Parametrizarea ecuației de regresie include evaluarea parametrilor de regresie și interpretarea lor socio-economică. Pentru parametrizare, utilizați instrumentul „Regresie” ca parte a suplimentelor MsExcel „Analiza datelor”. Pe baza rezultatelor analizei de regresie automată (coloana „Coeficienți”), se determină parametrii de regresie, iar interpretarea lor este dată și conform regulii standard:

    Bj este valoarea cu care, în medie, valoarea variabilei Y se modifică atunci când variabila independentă Xj crește cu unu, toate celelalte lucruri fiind egale.

    Termenul de interceptare al unei ecuații de regresie este egal cu valoarea prezisă a variabilei dependente Y atunci când toate variabilele independente sunt egale cu zero.

    3.Verificarea ecuației de regresie se realizează pe baza rezultatelor analizei de regresie automată (etapa 2) în funcție de următorii indicatori: „R-pătrat”, „Semnificație F”, „Valoare P” (pentru fiecare parametru de regresie) , precum și în funcție de graficele de potrivire și reziduale .

    Se determină semnificația coeficienților și se evaluează calitatea modelului. În acest scop, sunt luate în considerare „Semnificația F”, „Valoarea P” și „Pătratul R”. Dacă „valoarea P” este mai mică decât ecuația de semnificație statică, atunci aceasta indică semnificația coeficientului. Dacă „R-pătrat” este mai mare de 0,6, atunci aceasta înseamnă că modelul de regresie descrie bine comportamentul variabilei dependente Y asupra variabilelor factor.

    Dacă „semnificația F” este mai mică decât ecuația de semnificație statică, atunci coeficientul de determinare (R-pătrat) este considerat semnificativ statistic condiționat.

    Graficul rezidual vă permite să evaluați variația erorilor. Dacă nu există diferențe speciale între erorile corespunzătoare diferitelor valori ale lui Xi, atunci variațiile erorilor pentru diferite valori ale lui Xi sunt aproximativ aceleași și putem presupune că nu există probleme. Programul de selecție vă permite să formați judecăți despre valorile de bază, prezise și factoriale.

    În cele din urmă, se formează o judecată cu privire la calitatea ecuației de regresie.

    1. Cercetare suplimentară.

    4.1 Detectarea primului semn de multicoliniaritate. Pe baza rezultatelor analizei de regresie obținute la paragrafele 2-3, se verifică o situație în care coeficientul de determinare are o valoare mare (R 2 >0,7) și este semnificativ static (semnificație F).<0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0.05).Dacă se detectează o astfel de situație, se face o concluzie despre ipoteza multicoliniarității.

    4.2 Detectarea celui de-al doilea semn de multicoliniaritate. Pe baza calculelor coeficienților de corelație între variabilele factorilor, se determină o relație semnificativă între factorii individuali. Pentru calcule în MS Excel, este recomandabil să utilizați instrumentul „Analiză / Corelare a datelor”. Pe baza valorilor coeficientului de corelație se trag concluzii: cu cât mai aproape (r) de punctele extreme (±1), cu atât este mai mare gradul de relație liniară; dacă coeficientul de corelație este mai mic de 0,5, atunci relația este considerat slab. Prezența multicoliniarității este presupusă în cazul următor dacă există un coeficient de corelație semnificativ între cel puțin două variabile (adică mai mult de 0,7 în valoare absolută).

    4.3 Detectarea celui de-al treilea semn de multicoliniaritate. Pe baza evaluării regresiilor auxiliare între variabilele factori, și între variabilele unde există un coeficient de corelație semnificativ (clauza 4.2), se face o concluzie despre prezența multicolinearității dacă aceasta este semnificativă și semnificativă în cel puțin o regresie auxiliară. Metoda regresiilor suplimentare ale coeficientului de determinare este următoarea: 1) se construiesc ecuații de regresie care leagă fiecare dintre regresori cu toți cei rămași; 2) se calculează coeficienţii de determinare R2 pentru fiecare ecuaţie de regresie; 3) dacă ecuația și coeficientul de determinare sunt considerate semnificative statistic, atunci acest regresor duce la multicoliniaritate.

    4.4.Generalizarea judecăţilor.

    Pe baza clauzelor 4.1-4.3, se formează o judecată cu privire la prezența/absența multicoliniarității și a regresorilor care conduc la multicoliniaritate.

    În continuare, se formează direcții de utilizare a modelului (în cazul în care problema multicoliniarității este ignorată sau absentă) sau recomandări pentru eliminarea multicoliniarității (în practică, excluzând o variabilă).

    Când excludeți o variabilă, este recomandabil să folosiți următoarea regulă:

    Coeficientul de determinare este determinat pentru ecuația de regresie construită inițial din n observații (R 2 1);

    Prin excluderea (k) ultimelor variabile din considerare, se formează o ecuație pentru factorii rămași pe baza n observații inițiale și se determină coeficientul de determinare (R 2 2) pentru aceasta;

    Se calculează statisticile F: unde (R 1 2 -R 2 2) este pierderea de calitate a ecuației ca urmare a eliminării variabilelor, (K) este numărul de grade suplimentare de libertate care au apărut, (1- R 1 2)/(n-m-l) este varianța neexplicată a ecuațiilor originale;

    Valoarea critică F a ,k ,n- m -1 este determinată din tabelele punctelor critice ale distribuției Fisher la un nivel de semnificație dat a și grade de libertate v 1 =k, v 2 =n-m-l;

    Se formează judecăți cu privire la oportunitatea excluderii conform regulii: excluderea (simultană) a k variabilelor din ecuație este considerată inadecvată atunci când F > F a, k, n- m - 1, în caz contrar o astfel de excludere este permisă.

    La eliminarea variabilei, modelul rezultat este analizat conform paragrafelor 3-4; și este comparat cu modelul original, ca urmare, este selectat cel „cel mai bun”. În practică, deoarece multicoliniaritatea nu afectează performanța predictivă a modelului, această problemă poate fi ignorată.

    5. Prognoza se realizează folosind modelul original/„cel mai bun” selectat la paragraful 4.4, conform schemei de prognoză retrospectivă, în care se utilizează pentru prognoză ultima 1/3 din observații.

    5.1. Prognoza punctului. Valorile reale ale variabilelor factor în perioada de prognoză sunt considerate prezise, ​​valorile prognozate ale variabilei rezultate sunt determinate așa cum a fost prezis de modelul original/„cel mai bun” pe baza variabilelor factoriale din perioada de prognoză. Folosind instrumentul Microsoft Excel „Graph”, se construiește un grafic al valorilor reale și prezise ale variabilei rezultante pe baza observațiilor și se trage o concluzie despre apropierea valorilor reale de cele prezise.

    5.2. Prognoza pe intervale implică calcularea erorilor standard de predicție (folosind variabile fictive Salkever) și a limitelor superioare și inferioare ale valorilor prognozate.

    Folosind instrumentul Microsoft Excel „Analiză/Regresie a datelor”, se construiește o regresie pentru setul total de date al eșantionului și perioada de prognoză, dar cu adăugarea variabilelor fictive D 1, D 2, ..., D p. În acest caz, D i = 1 numai pentru momentul observației (n + i), pentru toate celelalte momente D i =0. Atunci coeficientul variabilei fictive D i este egal cu eroarea de predicție la timp (n + i), iar eroarea standard a coeficientului este egală cu eroarea standard de predicție (S i). Astfel, se efectuează o analiză de regresie automată a modelului, unde valorile agregate (eșantion și prognoză) ale variabilelor factoriale și valorile variabilelor fictive Salkever sunt folosite ca valori X, iar agregatul (eșantion și prognoză). ) valorile variabilei rezultante sunt folosite ca valori Y.

    Erorile standard rezultate ale coeficienților pentru variabilele fictive Salkever sunt egale cu erorile standard de predicție. Apoi limitele prognozei intervalului sunt calculate folosind următoarele formule: Ymin n + i =Yamp n + i -S i *t cr, Ymax n + i =Yamp n + i +S i *t cr, unde t cr este valoarea critică a distribuției Student, determinată de formula „=STURASCOVER(0,05; n-m-1)”, m este numărul de factori explicativi din model (Y * t), Yamp n + i sunt valorile prezise a variabilei rezultante (clauza 5.1).

    Folosind instrumentul Microsoft Excel „Graph”, un grafic este construit folosind valorile reale și prezise ale variabilei rezultate, limitele superioare și inferioare ale prognozei bazate pe observații. Se face o concluzie despre potrivirea valorilor reale ale variabilei rezultate în limitele intervalului de prognoză.

    5.3. Stabilitatea modelului este evaluată folosind testul NOW după cum urmează:

    a) folosind instrumentul Microsoft Excel „Analiză/Regresie a datelor”, se construiește o regresie, în care valorile totale (eșantion și prognoză) ale variabilelor factor sunt luate ca valori X, iar valorile totale (eșantion și prognoză) ale variabilei rezultante sunt luate ca valori Y. Această regresie determină suma reziduurilor pătrate S;

    b) prin regresia paragrafului 5.2 cu variabile fictive Salkever se determină suma reziduurilor pătrate Sd;

    c) valoarea statisticii F se calculează și se estimează folosind formula:

    unde p este numărul de pași de prognoză. Dacă valoarea obţinută este mai mare decât valoarea critică Fcr, determinată de formula „=FASTER(0,05; p; n-m-1)”, atunci se respinge ipoteza despre stabilitatea modelului în perioada de prognoză, în caz contrar se acceptă. .

    5.4.Generalizarea judecăților despre calitățile predictive ale modelului pe baza clauzelor 5.1-5.3, ca urmare, se formează o concluzie despre calitatea predictivă a modelului și recomandări de utilizare a modelului pentru prognoză.

    Astfel, informațiile și suportul metodologic elaborat corespund obiectivelor principale ale studiului econometric al problemei multicolinearității în modelele de regresie multiplă.

    2.2. Un exemplu de studiu econometric

    Studiul este realizat pe baza datelor care reflectă indicatorii macroeconomici reali ai Federației Ruse pentru perioada 2003-2011. (Tabelul 1), conform metodei de la paragraful 2.1.

    tabelul 1

    Cheltuielile casei. ferme (miliard de ruble)[Y]

    Populație (milioane de oameni)

    Masa de bani (miliard de ruble)

    Rată de șomaj (%)

    1.Specificație Modelul ecuației de regresie include o analiză grafică a dependenței de corelație a variabilei dependente Y (Cheltuieli ale gospodăriei pe variabila explicativă X 1 (Populație) (Fig. 1), dependența de corelație a variabilei dependente Y (Cheltuieli ale gospodăriei pe variabila explicativă). X 2 (Ofertă monetară) (Fig. 2), dependența de corelație a variabilei dependente Y (Cheltuielile gospodăriei de variabila explicativă X 3 (Nivel șomaj) (Fig. 3).

    Graficul de corelație dintre Y și X1 prezentat în Figura 1 reflectă o dependență liniară inversă semnificativă (R2 =0,71) a lui Y față de X1.

    Graficul de corelație dintre Y și X2 prezentat în Figura 2 reflectă o dependență liniară directă semnificativă (R2 =0,98) a lui Y față de X2.

    Graficul de corelație dintre Y și X 3 prezentat în Figura 3 reflectă o dependență liniară inversă nesemnificativă (R 2 = 0,15) a lui Y față de X 3 .

    Poza 1

    Figura 2

    Figura 3

    Ca rezultat, putem specifica un model de regresie multiplă liniară Y=b 0 +b 1 X 1 +b 2 X 2 + b 3 X 3 .

    2.Parametrizare Ecuațiile de regresie sunt efectuate folosind instrumentul „Regresie” ca parte a suplimentului „Analiza datelor” MsExcel (Fig. 4).

    Figura 4

    Ecuația de regresie estimată este:

    233983.8- 1605.6X 1 + 1.0X 2 + 396.22X 3.

    În acest caz, coeficienții de regresie sunt interpretați astfel: cu o creștere a populației cu 1 milion de persoane, cheltuieli cu locuința. fermele scad cu 1605,6 miliarde de ruble; cu o creștere a masei monetare cu 1 miliard de ruble. cheltuielile casei. fermele vor crește cu 1,0 miliarde de ruble; Când rata șomajului crește cu 1%, cheltuielile casei. fermele vor crește cu 396,2 miliarde de ruble. La valori zero ale variabilelor factoriale, cheltuielile casei. fermele se vor ridica la 233983,8 miliarde de ruble, care ar putea să nu aibă o interpretare economică.

    3.Verificare Ecuația de regresie este realizată pe baza rezultatelor analizei de regresie automată (etapa 2).

    Deci, „R-pătrat” este 0,998, adică ecuația de regresie descrie comportamentul variabilei dependente cu 99%, ceea ce indică un nivel ridicat de descriere a ecuației. „Semnificația lui F” este 2,14774253442155E-07, ceea ce indică faptul că „R-pătratul” este semnificativ. „Valoarea P” pentru b 0 este 0,002, ceea ce indică faptul că acest parametru este semnificativ. „Valoarea P” pentru b 1 este 0,002, ceea ce indică faptul că coeficientul este semnificativ. „Valoarea P” pentru b 2 este 8,29103190343224E-07, ceea ce indică faptul că acest coeficient este semnificativ. „Valoarea P” pentru b 3 este 0,084, ceea ce indică faptul că acest coeficient nu este semnificativ.

    Pe baza graficelor reziduale, reziduurile e sunt variabile aleatorii.

    Pe baza graficelor de selecție, se face o concluzie despre apropierea valorilor reale și prezise conform modelului.

    Astfel, modelul are o calitate bună, în timp ce b 3 nu este semnificativ, deci putem presupune prezența multicoliniarității.

    4.Cercetare suplimentară.

    4.1. Detectarea primului semn de multicoliniaritate. Conform analizei de regresie (Figura 5), ​​putem spune că există primul semn de multicolinearitate, deoarece este relevat un R2 ridicat și semnificativ, rezultă că ecuația are un coeficient de determinare ridicat, precum și unul dintre coeficienți. nu este semnificativă. Aceasta sugerează prezența multicoliniarității.

    4.2 Detectarea celui de-al doilea semn de multicoliniaritate.

    Pe baza calculelor coeficienților de corelație între variabilele factorilor, se determină o relație semnificativă între factorii individuali. (Masa 2). Prezența multicolinearității este presupusă în cazul următor dacă există un coeficient de corelație semnificativ între cel puțin două variabile (adică mai mult de 0,5 în valoare absolută).

    masa 2

    [ X2]

    [ X3]

    [ X2]

    [ X3]

    În cazul nostru, există un coeficient de corelație între X 1 și X 2 (-0,788), ceea ce indică o dependență puternică între variabilele X 1, X 2 și există și un coeficient de corelație între X 1 și X 3 (0,54) , ceea ce indică o dependență puternică între variabilele X 1, X 3.

    Ca rezultat, multicoliniaritatea poate fi presupusă.

    4.3 Detectarea celui de-al treilea semn de multicoliniaritate.

    Întrucât în ​​paragraful 4.2 a fost găsită o dependență puternică între variabilele X 1 și X 2, regresia auxiliară dintre aceste variabile este analizată în continuare (Fig. 5).

    Figura 5

    Deoarece „semnificația lui F” este 0,01, ceea ce indică faptul că „R-pătratul” și regresia auxiliară sunt semnificative, se poate presupune că regresorul X 2 duce la multicoliniaritate.

    Întrucât în ​​paragraful 4.2 a fost găsit un nivel de dependență mai mare decât mediu între variabilele X 1 și X 3, regresia auxiliară dintre aceste variabile este analizată în continuare (Fig. 6).

    Figura 6

    Deoarece „semnificația lui F” este 0,13, ceea ce indică faptul că „R-pătratul” și regresia auxiliară nu sunt semnificative, se poate presupune că regresorul X 3 nu duce la multicoliniaritate.

    Astfel, conform celui de-al treilea criteriu, se poate presupune prezența multicolinearității.

    4.4.Generalizarea judecăţilor.

    Conform analizei paragrafelor 4.1-4.3, au fost găsite toate cele trei semne de multicolinearitate, deci se poate presupune cu mare probabilitate. Mai mult, în ciuda ipotezei din paragraful 4.3 privind regresorul care duce la multicoliniaritate, putem recomanda excluderea X 3 din modelul original, deoarece X 3 are cel mai mic coeficient de corelație cu Y și coeficientul pentru acest regresor este nesemnificativ în ecuația originală. Rezultatele analizei de regresie după excluderea X 3 sunt prezentate în Fig. 7.

    Figura 7

    În acest caz, vom calcula F - statistici pentru a verifica fezabilitatea excluderii:

    F fapt = 4,62,

    și F tabel = F 0,05;1;5 = 6,61, deoarece F fapt< F табл, то исключение допустимо для переменной X 3 .

    Evaluarea calității unui model de regresie multiplă liniară Y=b 0 +b 1 X 1 +b 2 X 2 . „R-pătrat” este 0,996, adică ecuația de regresie descrie comportamentul variabilei dependente cu 99%, ceea ce indică un nivel ridicat de descriere a ecuației. „Semnificația lui F” este 3,02415218982089E-08, ceea ce indică faptul că „R-pătratul” este semnificativ. „Valoarea P” pentru b 0 este 0,004, ceea ce indică faptul că acest parametru este semnificativ. „Valoarea P” pentru b 1 este 0,005, ceea ce indică faptul că acest coeficient este semnificativ. „Valoarea P” pentru b 2 este 3,87838361673427E-07, ceea ce indică faptul că acest coeficient este semnificativ. Ecuația de regresie estimată este:

    201511,7 -1359,6Х 1 + 1,01Х 2

    În acest caz, coeficienții de regresie sunt interpretați astfel: cu o scădere a populației cu 1 milion de persoane, cheltuielile casei. fermele scad cu 1359,6 miliarde de ruble; Când nivelul ofertei monetare crește, cheltuielile casei. fermele vor crește cu 1,0) (miliard de ruble). La valori zero ale variabilelor factoriale, cheltuielile casei. fermele se vor ridica la 201511,7 miliarde de ruble, ceea ce poate avea o interpretare economică.

    Astfel, modelul = 201511.7 -1359.6X 1 + 1.01X 2 are o calitate bună și este recomandat pentru prognoză ca fiind „mai bun” în comparație cu modelul original.

    5.Prognoza.

    5.1 Prognoza punctului. Valorile reale ale variabilelor factorilor în perioada de prognoză sunt considerate prezise, ​​valorile prognozate ale variabilei rezultate sunt determinate așa cum este prezis de modelul „cel mai bun” (= 201511.7 -1359.6X 1 + 1.01X 2) pe baza variabilele factorilor din perioada de prognoză. Folosind instrumentul Microsoft Excel „Graph”, se construiește un grafic al valorilor reale și prezise ale variabilei rezultante pe baza observațiilor și se trage o concluzie despre apropierea valorilor reale de cele prezise.

    Valorile prezise ale variabilelor factorilor sunt prezentate în Tabelul 3.

    Tabelul 3

    Valorile de prognoză ale variabilei rezultate sunt determinate ca cele prezise de modelul „cel mai bun” (= 201511.7 -1359.6X 1 + 1.01X 2) pe baza variabilelor factorilor din perioada de prognoză. Valorile estimate sunt prezentate în Tabelul 4; valorile reale sunt adăugate pentru comparație.

    Tabelul 4

    [Y] empiric

    Figura 8 prezintă valorile reale și prognozate ale variabilei rezultate, precum și limitele inferioare și superioare ale prognozei.

    Figura 8

    Conform Fig. 8, prognoza menține o tendință de creștere, iar toate valorile prognozate sunt apropiate de cele reale.

    5.2. Prognoza intervalului.

    Folosind instrumentul Microsoft Excel „Analiză/Regresie a datelor”, se construiește o regresie pentru setul total de date al eșantionului și perioada de prognoză, dar cu adăugarea variabilelor fictive D 1, D 2, ..., D p. În acest caz, D i = 1 numai pentru momentul observației (n + i), pentru toate celelalte momente D i =0. Datele sunt prezentate în Tabelul 5, rezultatul regresiei este în Fig. 9.

    Tabelul 5

    [] bufnițe

    Figura 9

    Atunci eroarea standard a coeficientului pentru variabila dummy este egală cu eroarea standard de predicție (S i): pentru 2012 va fi 738,5; pentru 2013 va fi 897,1; pentru 2014 va fi 1139,4.

    Limitele prognozei intervalului sunt calculate în Tabelul 6.

    Tabelul 6

    [Y] empiric

    [] bufnițe

    [S]pr

    Conform tabelului. 6, folosind instrumentul Microsoft Excel „Graph”, un grafic este construit folosind valorile reale și prezise ale variabilei rezultante, limitele superioare și inferioare ale prognozei pe baza observațiilor (Fig. 10).

    Figura 10

    Conform graficului, valorile prognozei se încadrează în limitele prognozei intervalului, ceea ce indică calitate bună prognoza.

    5.3. Evaluarea stabilității modelului folosind testul NOW se realizează după cum urmează:

    a) folosind instrumentul Microsoft Excel „Analiză/Regresie” se construiește o regresie (Fig. 11), unde valorile agregate (eșantion și prognoză) ale variabilelor factorilor sunt luate ca valori X, iar agregatul (eșantion și prognoză) valorile sunt luate ca variabilă rezultat al valorilor Y. Această regresie determină suma reziduurilor pătrate S=2058232,333.

    Figura 11

    b) prin regresia paragrafului 3.2 cu variabile fictive Salkever (Fig. 9) se determină suma reziduurilor pătrate Sd = 1270272,697.

    c) se calculează și se estimează valoarea statisticii F:

    în acest caz, F cr = F 0,05;3;5 = 5,40, atunci valoarea rezultată este mai mică decât valoarea critică a lui F cr și se acceptă ipoteza privind stabilitatea modelului în perioada de prognoză.

    5.4.Generalizarea judecăților despre calitățile predictive ale modelului pe baza clauzelor 5.1-5.3, ca urmare, se formează o concluzie despre calitatea predictivă ridicată a modelului (= 201511.7 -1359.6X 1 + 1.01X 2) și se dau recomandări privind utilizarea modelului pentru prognoză.

    Metoda de la paragraful 2.1 a fost testată cu succes, ne permite să identificăm principalele semne de multicolinearitate și poate fi recomandată pentru studii similare.

    Concluzie

    Multicolinearitate - în econometrie (analiza de regresie) - prezența unei relații liniare între variabilele (factorii) explicative ale modelului de regresie. În acest caz, se face distincția între coliniaritatea completă, ceea ce înseamnă prezența unei relații liniare funcționale (identice) și coliniaritatea parțială sau pur și simplu, ceea ce înseamnă prezența unei corelații puternice între factori.

    Principalele consecințe ale multicolinearității: variații mari ale estimărilor, o scădere a statisticilor t a coeficienților, estimările coeficienților folosind MCO devin instabile, este dificil să se determine contribuția variabilelor, iar semnul coeficientului este incorect.

    Principalele criterii de detectare a multicolinearității sunt următoarele: R 2 ridicat cu coeficienți nesemnificativi; Coeficienți mari de corelație perechi; valori mari ale coeficientului VIF.

    Metode de bază pentru eliminarea multicolinearității: excluderea variabilelor din model; obținerea de date suplimentare sau un eșantion nou; modificarea specificațiilor modelului; utilizarea informaţiilor preliminare despre unii parametri.

    Informațiile și suportul metodologic elaborat corespund obiectivelor principale ale studiului econometric al problemei multicolinearității în modelele de regresie multiplă și pot fi recomandate pentru studii similare.

    Lista surselor utilizate

    1. Astahov, S.N. Econometrie [Text]: Complex educațional și metodologic. Kazan, 2008. - 107 p.
    2. Bardasov, S. A. ECONOMETRIE [Text]: tutorial. Ed. a II-a, revizuită. si suplimentare Tyumen: Editura Universității de Stat Tyumen, 2010. 264 p.
    3. Borodkina, L.I. Curs de prelegeri [Resursa electronica]. Mod de acces - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
    4. Voskoboynikov, Yu.E. ECONOMETRICĂ în EXCEL Partea 1 [Text]: manual, Novosibirsk 2005, 156 p.
    5. Eliseeva, I.I. Atelier de econometrie: manual. indemnizatie pentru economie universități / Eliseeva, I.I., Kurysheva, S.V., Gordeenko, N.M. , [si etc.] ; editat de I.I. Eliseeva - M.: Finanțe și Statistică, 2001. - 191 p. - (14126-1).
    6. Multicolinearitate [Resursă electronică]. Mod de acces - https://ru.wikipedia.org/wiki/Multicolinearity.
    7. Novikov, A.I. Econometrie [Text]: manual. beneficii de exemplu „Finanțe și credit”, „Economie” - M.: Dashkov i K, 2013. - 223 p. - (93895-1).
    8. Problema multicolinearității [Resursa electronică]. Mod de acces - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf.
    9. Chernyak, V. Econometrie aplicată. Prelegerea nr. 9 [Resursa electronica]. Mod de acces http://www.slideshare.net/vtcherniak/lect-09.
    10. ru - site enciclopedic [Resursă electronică]. Mod de acces - http://kodcupon.ru/ra17syplinoe97/Multicolinearity.

    Descarca: Nu aveți acces pentru a descărca fișiere de pe serverul nostru.

    Să presupunem că luăm în considerare o ecuație de regresie și datele pentru estimarea acesteia conțin observații pentru obiecte de diferite calități: pentru bărbați și femei, pentru albi și negri. Întrebarea care ne poate interesa aici este următoarea: este adevărat că modelul luat în considerare coincide pentru două mostre referitoare la obiecte de calitate diferită? La această întrebare se poate răspunde folosind testul Chow.

    Să luăm în considerare modelele:

    , i=1,…,N (1);

    , i=N+1,…,N+M (2).

    În prima probă N observatii, in a doua - M observatii. Exemplu: Y– salarii, variabile explicative – vârsta, vechimea în muncă, nivelul de studii. Din datele disponibile rezultă că modelul dependenței salariilor de variabilele explicative din partea dreaptă este același pentru bărbați și femei?

    Pentru a testa această ipoteză, puteți folosi schema generala testarea ipotezelor prin compararea regresiei constrânse și regresiei neconstrânse. Regresia neconstrânsă aici este uniunea regresiilor (1) și (2), adică. ESS UR = ESS 1 + ESS 2, numărul de grade de libertate – N + M - 2k. Regresia cu restricții (adică regresia sub ipoteza că ipoteza nulă este satisfăcută) va fi o regresie pentru întregul set disponibil de observații:

    , i = 1,…, N+M (3).

    Evaluând (3), obținem ESS R. Pentru a testa ipoteza nulă folosim următoarele statistici:

    Care, dacă ipoteza nulă este adevărată, are o distribuție Fisher cu numărul de grade de libertate al numărătorului kși numitorul N+ M- 2k.

    Dacă ipoteza nulă este adevărată, putem combina eșantioanele disponibile într-una singură și putem estima modelul pentru N+M observatii. Dacă respingem ipoteza nulă, atunci nu putem îmbina cele două eșantioane într-una singură și va trebui să estimăm cele două modele separat.


    Studiul modelului liniar general, pe care l-am luat în considerare mai devreme, este foarte semnificativ, după cum am văzut, bazat pe aparatul statistic. Cu toate acestea, ca și în cazul tuturor aplicațiilor de mat. statistici, puterea unei metode depinde de ipotezele care stau la baza acesteia și necesare pentru aplicarea ei. Pentru o vreme vom lua în considerare situațiile în care una sau mai multe dintre ipotezele care stau la baza modelului liniar sunt încălcate. Vom lua în considerare metode alternative de evaluare în aceste cazuri. Vom vedea că rolul unor ipoteze este mai semnificativ în comparație cu rolul altora. Trebuie să ne uităm la ce consecințe pot duce încălcările anumitor condiții (ipoteze), să putem verifica dacă acestea sunt îndeplinite sau nu și să știm ce metode statistice pot și ar trebui folosite atunci când metoda clasică a celor mai mici pătrate nu este potrivită.

    1. Relația dintre variabile este liniară și se exprimă prin ecuația - erori de specificare a modelului (neincluderea variabilelor explicative semnificative în ecuație, includerea variabilelor inutile în ecuație, alegerea incorectă a formei de dependență între variabile);


    2. X 1 ,…,Xk– variabile deterministe – regresori stocastici, liniar independente – multicolinearitate completă;

    4. - heteroscedasticitate;

    5. când i ¹ k– autocorelarea erorilor

    Înainte de a începe conversația, să luăm în considerare următoarele concepte: coeficient de corelație de pereche și coeficient de corelație parțială.

    Să presupunem că studiem efectul unei variabile asupra altei variabile ( YȘi X). Pentru a înțelege modul în care aceste variabile sunt legate între ele, calculăm coeficientul de corelație pe perechi folosind următoarea formulă:

    Dacă obținem o valoare a coeficientului de corelație apropiată de 1, ajungem la concluzia că variabilele sunt destul de strâns legate între ele.

    Cu toate acestea, dacă coeficientul de corelație dintre două variabile de studiu este aproape de 1, este posibil ca acestea să nu fie de fapt dependente. Exemplul bolnavilor mintal și al radiourilor este un exemplu al așa-numitei „corelații false”. Valoarea mare a coeficientului de corelație se poate datora și existenței unei a treia variabile, care are o influență puternică asupra primelor două variabile, motiv pentru care se realizează corelarea ridicată a acestora. Prin urmare, se pune sarcina de a calcula corelația „pură” între variabile XȘi Y, adică o corelație în care influența (liniară) a altor variabile este exclusă. În acest scop, este introdus conceptul de coeficient de corelație parțială.

    Deci, dorim să determinăm coeficientul de corelație parțială între variabile XȘi Y, excluzând influența liniară a variabilei Z. Pentru a-l determina, se utilizează următoarea procedură:

    1. Estimăm regresia,

    2. Primim restul,

    3. Estimăm regresia,

    4. Primim restul,

    5. - coeficient de corelație parțială eșantion, măsoară gradul de legătură dintre variabile XȘi Y, curățat de influența variabilei Z.

    Calcule directe:

    Proprietate:

    Procedura de construire a coeficientului de corelație parțială este generalizată în cazul în care dorim să scăpăm de influența a două sau mai multe variabile.


    1. Multicoliniaritate perfectă.

    Una dintre cerințele lui Gauss-Markov ne spune că variabilele explicative nu trebuie legate prin nicio relație exactă. Dacă o astfel de relație există între variabile, spunem că există multicoliniaritate perfectă în model. Exemplu. Luați în considerare un model cu un scor mediu la examen format din trei variabile explicative: eu- venitul parintilor, D- numărul mediu de ore petrecute la antrenament pe zi, W- numărul mediu de ore petrecute la antrenament pe săptămână. Este evident că W=7D. Și acest raport va fi îndeplinit pentru fiecare elev care este inclus în eșantionul nostru. Cazul multicolinearității complete este ușor de urmărit, deoarece în acest caz este imposibil să se construiască estimări folosind metoda celor mai mici pătrate.

    2. Multicoliniaritate parțială sau pur și simplu multicoliniaritate.

    O situație mult mai des întâlnită este atunci când nu există o relație liniară exactă între variabilele explicative, dar există o corelație strânsă între ele - acest caz se numește multicoliniaritate reală sau parțială (pur și simplu multicoliniaritate) - existența unor relații statistice strânse între variabile. Trebuie spus că problema multicoliniarității este mai degrabă o chestiune de gradul de severitate al fenomenului decât de tipul acestuia. Estimarea oricărei regresii va avea de suferit într-o formă sau alta, cu excepția cazului în care toate variabilele independente se dovedesc a fi complet necorelate. Luarea în considerare a acestei probleme începe doar atunci când începe să afecteze serios rezultatele estimării regresiei (prezența relațiilor statistice între regresori nu dă neapărat estimări nesatisfăcătoare). Deci, multicoliniaritatea este o problemă atunci când o corelație strânsă între regresori duce la estimări de regresie nesigure.

    Consecințele multicoliniarității:

    Formal, din moment ce ( X"X) este nedegenerată, atunci putem construi estimări MCO ale coeficienților de regresie. Totuși, să ne amintim cum sunt exprimate variațiile teoretice ale estimărilor coeficienților de regresie: , unde a ii - i al-lea element diagonal al matricei. Deoarece matricea (X"X) este aproape de singular și det( X"X) » 0, atunci

    1) există numere foarte mari pe diagonala principală a matricei inverse, deoarece elementele matricei inverse sunt invers proporționale cu det( X"X). Prin urmare, varianța teoretică i-al-lea coeficient este destul de mare și estimarea varianței este, de asemenea, mare, prin urmare, t- statisticile sunt mici, ceea ce poate duce la nesemnificativitate statistică i-al-lea coeficient. Adică, variabila are un impact semnificativ asupra variabilei care este explicată și concluzionăm că este nesemnificativă.

    2) Deoarece estimări și depind de ( X"X) -1 , ale cărui elemente sunt invers proporționale cu det( X"X), atunci dacă adăugăm sau eliminăm una sau două observații, adăugând sau eliminând astfel unul sau două rânduri în matrice X"X, apoi valorile și se pot schimba semnificativ, până la schimbarea semnului - instabilitate a rezultatelor evaluării.

    3) Dificultate în interpretarea ecuației de regresie. Să presupunem că avem două variabile în ecuație care sunt legate între ele: X 1 și X 2. Coeficientul de regresie la X 1 este interpretat ca o măsură a schimbării Y datorita schimbarii X 1 toate celelalte lucruri fiind egale, i.e. valorile tuturor celorlalte variabile rămân aceleași. Cu toate acestea, din moment ce variabilele X 1 și X 2 sunt legate, apoi modificări ale variabilei X 1 va atrage modificări previzibile ale variabilei X 2 și valoare X 2 nu va rămâne același.

    Exemplu: , unde X 1 – suprafata totala, X 2 – zona de locuit. Spunem: „Dacă suprafața de locuit crește cu 1 mp, atunci, cu toate acestea, prețul apartamentului va crește cu $.” Cu toate acestea, în acest caz, suprafața de locuit va crește cu 1 mp. m. iar cresterea pretului va fi . Distingeți influența asupra unei variabile Y fiecare variabilă separat nu mai este posibilă. Ieșirea în această situație cu prețul unui apartament este să includeți în model nu suprafața totală, ci așa-numita suprafață „suplimentară” sau „suplimentară”.

    Semne de multicoliniaritate.

    Nu există criterii exacte pentru determinarea prezenței (absenței) multicoliniarității. Cu toate acestea, există recomandări euristice pentru identificarea acestuia:

    1) Analizați matricea coeficienților de corelație perechi între regresori și dacă valoarea coeficientului de corelație este apropiată de 1, atunci acesta este considerat un semn de multicoliniaritate.

    2) Analiza matricei de corelație este doar o judecată superficială cu privire la prezența (absența) multicolinearității. Un studiu mai atent al acestei probleme se realizează prin calcularea coeficienților de corelație parțială sau calcularea coeficienților de determinare a fiecăreia dintre variabilele explicative pentru toate celelalte variabile explicative din regresie.

    4) (XX) este o matrice definită pozitivă simetrică, prin urmare, toate valorile sale proprii sunt nenegative. Dacă determinantul matricei ( XX) este egal cu zero, atunci valoarea proprie minimă este, de asemenea, zero și continuitatea este păstrată. În consecință, din valoarea valorii proprii minime se poate aprecia dacă determinantul matricei este aproape de zero ( XX). Pe lângă această proprietate, valoarea proprie minimă este de asemenea importantă deoarece eroarea standard a coeficientului este invers proporțională.

    5) Prezența multicoliniarității poate fi judecată prin semne externe care sunt consecințe ale multicoliniarității:

    a) unele dintre estimări au semne incorecte din punct de vedere al teoriei economice sau valori nerezonabil de mari;

    b) o mică modificare a datelor economice inițiale duce la o modificare semnificativă a estimărilor coeficienților modelului;

    c) majoritar t-statisticile coeficienților nu diferă semnificativ de zero, în același timp, modelul în ansamblu este semnificativ, fapt dovedit de valoarea mare F-statistici.

    Cum să scapi de multicoliniaritate, cum să o elimini:

    1) Utilizarea analizei factoriale. Tranziția de la setul original de regresori, inclusiv cei dependenți statistic, la noi regresori Z 1 ,…,Zm folosind metoda componentelor principale - în locul variabilelor originale, în locul variabilelor originale, luăm în considerare unele dintre combinațiile lor liniare, a căror corelație este mică sau absentă deloc. Sarcina aici este de a oferi o interpretare semnificativă noilor variabile Z. Dacă eșuează, ne întoarcem la variabilele originale folosind transformări inverse. Estimările rezultate vor fi, totuși, părtinitoare, dar vor avea o dispersie mai mică.

    2) Dintre toate variabilele disponibile, selectați factorii care influențează cel mai semnificativ variabila explicată. Procedurile de selecție vor fi discutate mai jos.

    3) Trecerea la metode de evaluare părtinitoare.

    Când ne confruntăm cu problema multicolinearității, cercetătorul neexperimentat are inițial dorința de a exclude pur și simplu regresorii inutile care ar putea fi cauza. Cu toate acestea, nu este întotdeauna clar care variabile sunt de prisos în acest sens. În plus, așa cum se va arăta mai jos, eliminarea așa-numitelor variabile care influențează semnificativ duce la părtinire în estimările MCO.