Multinomiale logistische Regression

In der Statistik ist die multinomiale logistische Regression, auch multinomiales Logit-Modell[1], multinomiale Logit-Regression (MNL), polytome logistische Regression, polychotome logistische Regression, Softmax-Regression oder Maximum-Entropie-Klassifikator genannt, ein regressionsanalytisches Verfahren. Sie „dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür.“[2] Die Antwortvariable (auch abhängige Variable, AV) ist dabei eine nominalskalierte Variable (Unterform der kategorialen Variable, bei der die Kategorien nicht in eine sinnvolle Reihenfolge zu bringen sind). Im Falle einer ordinalskalierten AV (ebenfalls kategorial, aber in Reihenfolge mit gleichmäßigen Abständen zwischen den Kategorien zu bringen) spricht man von einer geordneten (bzw. ordinalen) logistischen Regression. Bei gegebener verhältnis- oder intervallskalierter AV kann dagegen eine (Multiple) Lineare Regression gerechnet werden.

Beschreibung des Verfahrens

Es handelt sich um eine spezielle Form der logistischen Regression, bei der die Antwortvariable Y i {\displaystyle Y_{i}} ein nominales Skalenniveau mit mehr als zwei Ausprägungen haben darf Y i { 1 , , c + 1 } {\displaystyle Y_{i}\in \{1,\ldots ,c+1\}} . Zusätzlich ist der Vektor der Regressoren x i = ( 1 , x i 1 , , x i k ) {\displaystyle \mathbf {x} _{i}^{\top }=(1,x_{i1},\ldots ,x_{ik})} gegeben. Dabei wird für jede der Ausprägungen der abhängigen Variablen (bis auf eine Referenzkategorie) ein eigenes Regressionsmodell ausgegeben. Die Eintrittswahrscheinlichkeit für jede Kategorie r {\displaystyle r} ist wie folgt spezifiziert:[3]:330

π i r = Pr ( Y i = r ) = exp ( x i β r ) 1 + s = 1 c exp ( x i β s ) , r = 1 , , c {\displaystyle \pi _{ir}=\Pr(Y_{i}=r)={\frac {\exp \left(\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}_{r}\right)}{1+\sum _{s=1}^{c}\exp \left(\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}_{s}\right)}}\quad ,\;r=1,\ldots ,c} ,

mit den linearen Prädiktoren x i β r {\displaystyle \mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}_{r}} und π i r = h r ( η i r , , η i c ) , r = 1 , , c {\displaystyle \pi _{ir}=h_{r}(\eta _{ir},\ldots ,\eta _{ic})\,,\;r=1,\ldots ,c} als der Antwortfunktion, d. h. der Umkehrfunktion der Kopplungsfunktion.[3]:344 Für die Referenzkategorie gilt somit:

π i , c + 1 = 1 π i 1 π i c = 1 1 + s = 1 c exp ( x i β s ) {\displaystyle \pi _{i,c+1}=1-\pi _{i1}-\ldots -\pi _{ic}={\frac {1}{1+\sum _{s=1}^{c}\exp \left(\mathbf {x} _{i}^{\top }{\boldsymbol {\beta }}_{s}\right)}}} .

Likelihood-Funktion

Die beobachteten Werte y i { 0 , 1 , K } {\displaystyle y_{i}\in \{0,1,\dots K\}} für i = 1 , , n {\displaystyle i=1,\dots ,n} der erklärten Variablen werden als Realisierungen stochastisch unabhängiger kategorial verteilter Zufallsvariablen Y 1 , , Y n {\displaystyle Y_{1},\dots ,Y_{n}} aufgefasst.

Die Likelihood-Funktion ist für dieses Modell definiert durch:

L = i = 1 n P ( Y i = y i ) = i = 1 n ( j = 1 K P ( Y i = j ) δ j , y i ) , {\displaystyle L=\prod _{i=1}^{n}P(Y_{i}=y_{i})=\prod _{i=1}^{n}\left(\prod _{j=1}^{K}P(Y_{i}=j)^{\delta _{j,y_{i}}}\right),}

wobei der Index i {\displaystyle i} die Beobachtungen 1 bis n bezeichnet und der Index j {\displaystyle j} die Klassen 1 bis K. δ j , y i = { 1  für  j = y i 0  sonst {\displaystyle \delta _{j,y_{i}}={\begin{cases}1{\text{ für }}j=y_{i}\\0{\text{ sonst}}\end{cases}}} ist das Kronecker-Delta.

Die mit minus 1 multiplizierte log Likelihood-Funktion ist daher die bekannte Kreuzentropie:

log L = i = 1 n j = 1 K δ j , y i log ( P ( Y i = j ) ) . {\displaystyle -\log L=-\sum _{i=1}^{n}\sum _{j=1}^{K}\delta _{j,y_{i}}\log(P(Y_{i}=j)).}

Beispiel

Das Beispiel behandelt die Wahlabsicht einer Person in Abhängigkeit personenspezifischer Faktoren. Aus Umfragedaten sei die Wahlabsicht einer Person nach verschiedenen Parteien bekannt (abhängige kategoriale Variable). Diese soll erklärt werden durch verschiedene Faktoren (deren Skalenniveau unerheblich ist), beispielsweise Alter, Geschlecht und Bildung.

Literatur

  • David W. Hosmer, Stanley Lemeshow: Applied logistic regression. 2. Auflage. Wiley, New York 2000, ISBN 0-471-35632-8, Abschnitt 8.1 The multinomial logistic regression, S. 260–287. 
  • Gerhard Tutz: Die Analyse kategorialer Daten – Anwendungsorientierte Einführung in Logit-Modellierung und kategoriale Regression. Oldenbourg, München / Wien 2000, ISBN 3-486-25405-7, Abschnitt 5.2 Das multinomiale Logit-Modell, S. 162–173. 
  • Gerhard Tutz: Regression for Categorical Data. Cambridge University Press, Cambridge 2012, ISBN 978-1-107-00965-3, Kap. 8.2 The Multinomial Logit-Model, S. 210–214. 
  • Multinomial and Ordinal Logistic Regression ME104: Linear Regression Analysis Kenneth Benoit (PDF; 466 kB)
  • Chapter 6 Multinomial Response Models

Einzelnachweise

  1. Gerhard Tutz: Die Analyse kategorialer Daten – Anwendungsorientierte Einführung in Logit-Modellierung und kategoriale Regression. Oldenbourg, München / Wien 2000, ISBN 3-486-25405-7, Abschnitt 5.2 Das multinomiale Logit-Modell, S. 162–173. 
  2. Archivierte Kopie (Memento vom 27. März 2014 im Internet Archive)
  3. a b Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2