Puuttuvan muuttujan harha

Puuttuvan muuttujan harha (engl. Omitted-variable bias) on tilastotieteessä tilastollisen mallin harha, joka aiheutuu olennaisten selittävien muuttujien puuttumisesta mallista. Tällöin estimoitu malli poikkeaa todellisesta mallista, ja lineaarisen mallin tapauksessa estimaattori on sekä harhainen että tarkentumaton.

Jos seuraavat ehdot täyttyvät, kärsii lineaarinen regressio puuttuvan muuttujan harhasta:

  • Puuttuvalla muuttujalla olisi mallissa selitysvoimaa.
  • Puuttuva muuttuja korreloi yhden tai useamman selittävän muuttujan kanssa.

Wooldridgen (2002) mukaan puuttuvan muuttujan harhaa voidaan käsitellä seuraavilla tavoilla:

  • Jos mahdollista, puuttuva muuttuja pitää tunnistaa ja lisätä regressiomalliin.
  • Jos harha ei ole suuri, sen voidaan antaa olla ja muistaa harhan olemassaolo tulosten tulkinnassa.
  • Vaikka puuttuvasta muuttujasta ei ole saatavilla aineistoa, voidaan se toisinaan korvata jollain riittävän hyvällä korvikemuuttujalla (proxy). Esimerkiksi luontaista lahjakkuutta on vaikea mitata, mutta se korvataan malleissa usein älykkyysosamäärällä.
  • Jos voidaan olettaa, että puuttuva muuttuja ei ole aikariippuva, on mahdollista hyödyntää paneeliaineistoa. Kun kiinnostuksen kohteena olevat selittävät muuttujat sisältävät vaihtelua ajassa, voidaan estimoida kiinteiden vaikutusten (fixed effect) malli, joka poistaa kiinteiden puuttuvien muuttujien harhan.
  • Voidaan hyödyntää instrumenttimuuttujaa, jolloin estimoidaan 2-vaiheisella regressioanalyysilla arvio kiinnostuksen kohteena olevasta muuttujasta x 1 {\displaystyle x_{1}} . Instrumenttimuuttujan pitää olla riittävän vahvasti korreloitunut x 1 {\displaystyle x_{1}} kanssa eikä se saa olla korreloitunut mallin virhetermin eikä siis myöskään puuttuvan muuttajan kanssa.

Esimerkki

Oletetaan, että todellinen malli on muotoa:

y = β 0 + β 1 x 1 + β 2 x 2 + ε , {\displaystyle y=\beta _{0}+\beta _{1}x_{1}+\beta _{2}x_{2}+\varepsilon ,}

ja että muuttujaa x 2 {\displaystyle x_{2}} ei havaita tai muusta syystä oteta malliin. Jos kiinnostuksen kohteena on muuttujan x 1 {\displaystyle x_{1}} vaikutus muuttujaan y {\displaystyle y} , saatetaan estimoida malli

y = β 0 + β 1 x 1 + ε . {\displaystyle y=\beta _{0}+\beta _{1}x_{1}+\varepsilon .}

Tällöin estimaattori on muotoa

β ^ 1 = β 1 + β 2 C o v ( x 1 , x 2 ) V a r ( x 1 ) , {\displaystyle {\hat {\beta }}_{1}=\beta _{1}+\beta _{2}{\frac {Cov(x_{1},x_{2})}{Var(x_{1})}},}

jossa jälkimmäinen termi on harhan suuruus. Harha poikkeaa nollasta, jos x 1 {\displaystyle x_{1}} ja x 2 {\displaystyle x_{2}} ovat korreloituneita. Harhan suunta riippuu korrelaatiosta sekä muuttujan x 2 {\displaystyle x_{2}} vaikutuksen suunnasta muuttujaan y {\displaystyle y} .

Kirjallisuutta

Stock, James H. - Watson, Mark W.: Introduction to Econometrics. Addison Wesley, 2003.
Wooldridge, Jeffrey M.: Introductory Econometrics: A Modern Approach. South-Western, 2002.

Katso myös

  • Lineaarinen regressioanalyysi
Tämä matematiikkaan liittyvä artikkeli on tynkä. Voit auttaa Wikipediaa laajentamalla artikkelia.