Logistinen regressio

Logistinen regressio (engl. logistic regression) on tilastollinen malli, joka on erityistyyppi tavanomaisesta regressiomallista. Logistisessa regressiomallissa selitettävä muuttuja on dikotominen eli kaksiluokkainen muuttuja. Selitettävä muuttuja saa arvon 0 tai 1 siten, että se muuttujan luokka, jota halutaan ennustaa, saa arvon 1. Logistinen regressiomalli on siis yleistetty lineaarinen malli, jonka linkkifunktio on g ( μ i ) = l n ( μ i 1 μ i ) {\displaystyle g(\mu _{i})=ln({\frac {\mu _{i}}{1-\mu _{i}}})} . Selittävät muuttujat voivat olla suhdeasteikollisia, järjestysasteikollisia tai luokiteltuja.

Logistisella regressioanalyysillä mallinnetaan vastemuuttujan ja selittävien muuttujien suhdetta. Toisin kuin tavanomaisessa regressiomallissa, vasteen odotusarvo on riski (eng. odds). Riski on todennäköisyys, että jokin tapahtuma tapahtuu suhteessa siihen, että se ei tapahdu;
P ( Y = 1 | x ) P ( Y = 0 | x ) {\displaystyle {\frac {P(Y=1|x)}{P(Y=0|x)}}} [1]

Malli

Oletetaan, että käytössä on p {\displaystyle \scriptstyle p} kappaletta selittäviä muuttujia. Merkitään vasteen odotusarvoa E ( Y | x ) = π ( x ) {\displaystyle {E(Y|x)=\pi (x)}} . Tehdään vasteen odotusarvolle logistinen muunnos

l o g i t ( π ( x ) ) = l n π ( x ) 1 π ( x ) {\displaystyle {logit(\pi (x))=ln{\frac {\pi (x)}{1-\pi (x)}}}} , missä


π ( x ) 1 π ( x ) = P ( Y = 1 | x ) P ( Y = 0 | x ) {\displaystyle {\frac {\pi (x)}{1-\pi (x)}}={\frac {P(Y=1|x)}{P(Y=0|x)}}} .


Silloin logistinen regressiomalli on l o g i t ( π ( x ) ) = β 0 + β 1 x 1 + . . . + β p x p {\displaystyle {logit(\pi (x))=\beta _{0}+\beta _{1}x_{1}+...+\beta _{p}x_{p}}} [2] , josta ratkaisemalla π ( x i ) {\displaystyle {\pi (x_{i})}} saadaan


l n π ( x ) 1 π ( x ) = β 0 + β 1 x 1 + . . . + β p x p {\displaystyle ln{\frac {\pi (x)}{1-\pi (x)}}=\beta _{0}+\beta _{1}x_{1}+...+\beta _{p}x_{p}}

π ( x ) 1 π ( x ) = e β 0 + β 1 x 1 + . . . + β p x p {\displaystyle \Leftrightarrow {\frac {\pi (x)}{1-\pi (x)}}=e^{\beta _{0}+\beta _{1}x_{1}+...+\beta _{p}x_{p}}}


π ( x ) = e β 0 + β 1 x 1 + . . . + β p x p 1 + e β 0 + β 1 x 1 + . . . + β p x p {\displaystyle \Leftrightarrow {\pi (x)}={\frac {e^{\beta _{0}+\beta _{1}x_{1}+...+\beta _{p}x_{p}}}{1+e^{\beta _{0}+\beta _{1}x_{1}+...+\beta _{p}x_{p}}}}} .


Mallin sovittaminen

Yleiselle lineaariselle mallille, jolle vastemuuttuja on jatkuva, mallin sovitus voidaan tehdä pienimmän neliösumman menetelmällä (PNS). Koska logistisella regressiomallilla on dikotominen vaste, menetelmällä estimoitavilla parametreillä β 0 ^ + β 1 ^ x 1 + . . . + β p ^ x p {\displaystyle {{\hat {\beta _{0}}}+{\hat {\beta _{1}}}x_{1}+...+{\hat {\beta _{p}}}x_{p}}} ei ole tiettyjä ominaisuuksia.Mallin sovitus tehdään Suurimman uskottavuuden menetelmällä (SU), joka on yleistys PNS-menetelmästä.[2] Sitä varten muodostetaan mallille uskottavuusfunktio: oletetaan, että käytössä on usean selittäjän malli. Oletetaan myös, että yksittäinen y i j {\displaystyle y_{ij}} noudattaa Bernoulli-jakaumaa B ( π ( x i ) ) {\displaystyle B(\pi (x_{i}))} ja että vasteet ovat riippumattomia. Silloin niiden summa j = 1 n i y i j {\displaystyle \sum _{j=1}^{n_{i}}y_{ij}} noudattaa jakaumaa B i n ( n i , π ( x i ) ) {\displaystyle Bin(n_{i},\pi ({\boldsymbol {x}}_{i}))} . Uskottavuusfunktio on

L ( β ) = i = 1 n ( n i y i ) π ( x i ) y i [ 1 π ( x i ) ] n i y i {\displaystyle \mathbf {L} ({\boldsymbol {\beta }})=\prod _{i=1}^{n}{\binom {n_{i}}{y_{i}}}\pi ({\boldsymbol {{x}_{i}}})^{y_{i}}[1-\pi ({\boldsymbol {{x}_{i}}})]^{n_{i}-y_{i}}}

Logaritminen uskottavuusfunktio on
L ( β ) = l n ( L ( β ) ) = e x p [ i = 1 n { y i l n [ π ( x i ) ] + ( n i y i ) l n [ 1 π ( x i ) ] l n ( n i y i ) } ] {\displaystyle L({\boldsymbol {\beta }})=ln(L({\boldsymbol {\beta }}))=exp\left[\sum _{i=1}^{n}{\big \{}y_{i}ln[\pi ({\boldsymbol {{x}_{i}}})]+(n_{i}-y_{i})ln[1-\pi ({\boldsymbol {{x}_{i}}})]-ln{\binom {n_{i}}{y_{i}}}{\big \}}\right]} .

Sijoitetaan kaavaan l n π ( x 1 ) 1 π ( x i ) = x i β {\displaystyle ln{\frac {\pi ({\boldsymbol {x}}_{1})}{1-\pi {\boldsymbol {(}}{x}_{i})}}={\boldsymbol {x}}_{i}'\beta } , derivoidaan l ( β ) β {\displaystyle {\frac {\partial {\mathit {l}}({\boldsymbol {\beta }})}{\partial {\boldsymbol {\beta }}}}} ja asetetaan derivaatta nollaksi. Saadaan

y i x i = n i e x i β 1 + e x i β x i {\displaystyle \sum y_{i}x_{i}=\sum {\frac {n_{i}e^{{\boldsymbol {x}}_{i}'\beta }}{1+e^{x_{i}'\beta }}}{\boldsymbol {x}}_{i}} josta ratkaistaan β ^ {\displaystyle {\boldsymbol {\hat {\beta }}}} numeerisesti.[3]

Devianssi

Devianssin avulla voidaan tutkia, kuinka hyviä valitun mallin ennusteet ovat. Devianssi määritellään

D = 2 l n s o v i t e t u n   m a l l i n   u s k o t t a v u u s s a t u r o i d u n   m a l l i n   u s k o t t a v u u s {\displaystyle D=-2ln{\frac {sovitetun\ mallin\ uskottavuus}{saturoidun\ mallin\ uskottavuus}}}

jossa saturoitu malli tarkoittaa mallia, joka sisältää yhtä monta parametria, kuin havaintoja on, ja sopii siten aineistoon täydellisesti (virhetemit ovat nollia). Devianssilla verrataan siis, kuinka hyvin sovitetun mallin arvot eroavat saturoidusta mallista (verrattavissa lineaarisen regressiomallin jäännösneliösummien vertailuun). Mitä pienempi devianssi on, sitä paremmin malli sopii aineistoon. Devianssin avulla voidaan laskea uskottavuusosamäärän testi, jolla selvitetään, ovatko mallin parametrit β 0 + β 1 x 1 + . . . + β p x p {\displaystyle \beta _{0}+\beta _{1}x_{1}+...+\beta _{p}x_{p}} merkitseviä, eli selittävätkö ne todella vasteen vaihtelua. [4]


Esimerkki

Halutaan tutkia, miten ikä vaikuttaa riskiin sairastua sepelvaltimotautiin. Aineisto sisältää muuttujat
I D {\displaystyle \scriptstyle ID} = koehenkilön tunniste (koehenkilölle i {\displaystyle \scriptstyle i} )
A G E {\displaystyle \scriptstyle AGE} = koehenkilön ikä
C H D {\displaystyle \scriptstyle CHD} = tieto siitä, onko henkilö sairastunut sepelvaltimotautiin vai ei. Jos henkilö on sairastunut, CHD=1 ja jos henkilö ei ole sairastunut, CHD=0.

Malli on

l o g i t ( P ( C H D i = 1 ) ) = β 0 + β 1 A G E i {\displaystyle logit(P(CHD_{i}=1))=\beta _{0}+\beta _{1}*AGE_{i}}


eli P ( C H D i = 1 ) = e β 0 + β 1 A G E i 1 + e β 0 + β 1 A G E i {\displaystyle P(CHD_{i}=1)={\frac {e^{\beta _{0}+\beta _{1}*AGE_{i}}}{1+e^{\beta _{0}+\beta _{1}*AGE_{i}}}}}


Aineisto
ID AGE CHD
1 20 0
2 23 0
3 24 0
4 25 0
5 25 1
6 26 0
7 26 0
8 28 0
9 28 0
10 29 0
... ... ...
99 65 1
100 69 1


Suurimman uskottavuuden estimoinnilla saadaan β 0 ^ = 5.309 {\displaystyle {\hat {\beta _{0}}}=-5.309} , joka on mallin vakiotermi ja β 1 ^ = 0.111 {\displaystyle {\hat {\beta _{1}}}=0.111} , joka on kulmakerroin muuttujalle A G E {\displaystyle AGE} .
[2]
Malli on siis P ( C H D i = 1 ) = e 5.309 + 0.111 A G E i 1 + e 5.309 + 0.111 A G E i {\displaystyle P(CHD_{i}=1)={\frac {e^{-5.309+0.111*AGE_{i}}}{1+e^{-5.309+0.111*AGE_{i}}}}} .

Tulkinta: Kun verrataan kahta henkilöä, joista toinen on vuoden verran vanhempi, kuin toinen, vanhemmalla henkilöllä on e 0.111 = 1.117395 {\displaystyle e^{0.111}=1.117395} -kertainen todennäköisyys sairastua sepelvaltimotautiin (suhteessa siihen, että ei sairastu), kuin nuoremmalla henkilöllä.


Lähteet

  1. Yan, X.: Linear Regression Analysis : Theory and Computing (2009).
  2. a b c Hosmer, D. W., Lemeshow, S. Sturdivant, R. X.: Wiley Series in Probability and Statistics : Applied Logistic Regression (3rd Edition) (2013).
  3. Nyblom, J.: Yleiset lineaariset mallit (2014). Luentomoniste. Lähde kuollut, vuoden 2015 versio täällä.
  4. Larose, D: Data minig and methods and models (2006).