Stichprobenkovarianz

Dieser Artikel behandelt die Kovarianz zweier Datenreihen oder einer zweidimensionalen Stichprobe und die Stichproben-Kovarianzmatrix einer mehrdimensionalen Stichprobe; zur Kovarianz von zwei Zufallsvariablen siehe Kovarianz (Stochastik); zur Kovarianzmatrix eines Zufallsvektors siehe Kovarianzmatrix.
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen (beispielsweise Einzelnachweisen) ausgestattet. Angaben ohne ausreichenden Beleg könnten demnächst entfernt werden. Bitte hilf Wikipedia, indem du die Angaben recherchierst und gute Belege einfügst.

Die Stichprobenkovarianz oder empirische Kovarianz (oft auch einfach Kovarianz (von lateinisch con- = „mit-“ und Varianz von variare = „(ver)ändern, verschieden sein“)) ist in der Statistik eine nichtstandardisierte Maßzahl für den (linearen) Zusammenhang zweier statistischer Variablen. Die korrigierte Stichprobenkovarianz ist eine erwartungstreue Schätzung der Kovarianz einer Grundgesamtheit mittels einer Stichprobe.

Ist die Kovarianz positiv, dann gehen kleine Werte der einen Variable überwiegend einher mit kleinen Werten der anderen Variable und gleichfalls für große Werte. Für eine negative Kovarianz ist das genau umgekehrt.

Definition

Ist ( x 1 , y 1 ) , . . . , ( x n , y n ) {\displaystyle (x_{1},y_{1}),...,(x_{n},y_{n})} eine Datenreihe (Stichprobe) zweier statistischer Variablen X {\displaystyle X} und Y {\displaystyle Y} , dann ist die Stichprobenkovarianz definiert als „durchschnittliches Abweichungsprodukt

s x y := 1 n S P x y = 1 n i = 1 n ( x i x ¯ ) ( y i y ¯ ) {\displaystyle s_{xy}:={\tfrac {1}{n}}SP_{xy}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}

mit den arithmetischen Mitteln x ¯ = 1 n i = 1 n x i {\displaystyle \textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}} und y ¯ = 1 n i = 1 n y i {\displaystyle \textstyle {\bar {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}} der Datenreihen ( x 1 , . . . , x n ) {\displaystyle (x_{1},...,x_{n})} und ( y 1 , . . . , y n ) {\displaystyle (y_{1},...,y_{n})} .

Die Stichprobenkovarianz misst die gemeinsame Streuung („Mitstreuung“) der Beobachtungsdaten einer Stichprobe. Dabei wird die mittlere Abweichung der Beobachtungsdaten von den Mittelwerten ( x ¯ , y ¯ ) {\displaystyle ({\bar {x}},{\bar {y}})} berechnet.

Korrigierte Stichprobenkovarianz

Um aus einer Stichprobe eine Schätzung der unbekannten Kovarianz σ x y {\displaystyle \sigma _{xy}} der Grundgesamtheit zu erhalten, wird die korrigierte Stichprobenkovarianz genutzt:

σ ^ x y = 1 n 1 i = 1 n ( x i x ¯ ) ( y i y ¯ ) {\displaystyle {\hat {\sigma }}_{xy}={\frac {1}{n-1}}\sum _{i=1}^{n}{(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}}

Bei einer einfachen Zufallsstichprobe haben die Stichprobenvariablen X i {\displaystyle X_{i}} und Y i {\displaystyle Y_{i}} die Kovarianz Cov ( X i , Y i ) = σ x y {\displaystyle \operatorname {Cov} (X_{i},Y_{i})=\sigma _{xy}} . Unter Annahme einer zweidimensionalen Normalverteilung der Stichprobenvariablen ( X i , Y i ) {\displaystyle (X_{i},Y_{i})} und mit Hilfe der Maximum-Likelihood-Methode ergibt sich die Schätzfunktion

S X Y = 1 n i = 1 n ( X i X ¯ ) ( Y i Y ¯ ) {\displaystyle S_{XY}={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})(Y_{i}-{\bar {Y}})} .

Es stellt sich jedoch heraus, dass der Erwartungswert E ( S X Y ) = n 1 n σ x y {\displaystyle \operatorname {E} (S_{XY})={\tfrac {n-1}{n}}\sigma _{xy}} ist, d. h. die Schätzfunktion S X Y {\displaystyle S_{XY}} ist nicht erwartungstreu (also verzerrt) für σ x y {\displaystyle \sigma _{xy}} .

Die korrigierte Stichprobenkovarianz ist jedoch unverzerrt. Im Rahmen der induktiven Statistik wird daher immer die korrigierte Stichprobenkovarianz verwendet.

Auswahl der Berechnungsformel

Der Kovarianz σ x y {\displaystyle \sigma _{xy}} kann, gemäß ihrer Definition, mit der Gleichung

σ x y = 1 n i = 1 n ( x i x ¯ ) ( y i y ¯ ) {\displaystyle \sigma _{xy}={\tfrac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)\left(y_{i}-{\bar {y}}\right)}

aus einer Datenreihe berechnet werden. Diese Formel wird verwendet, wenn die Werte x i {\displaystyle x_{i}} und y i {\displaystyle y_{i}} einen vollständigen Datensatz beschreiben und die wahren Mittelwerte x ¯ {\displaystyle {\bar {x}}} und y ¯ {\displaystyle {\bar {y}}} der beiden Zufallsvariablen bekannt oder ausreichend bekannt sind. Oft liegt jedoch nur eine Stichprobe mit einer reduzierten Anzahl von Messwerten vor, mit denen die Kovarianz nur geschätzt werden kann. Wenn dabei die Mittelwerte aus dem arithmetischen Mittel gebildet werden, liefert die obige Formel systematisch zu kleine Werte. Daher verwendet man insbesondere bei sehr wenigen Messwerten die Formel der korrigierten Stichprobenkovarianz

σ x y 1 n 1 i = 1 n ( x i x ¯ ) ( y i y ¯ ) {\displaystyle \sigma _{xy}\approx {\tfrac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)\left(y_{i}-{\bar {y}}\right)}

welche die Kovarianz zumindest erwartungstreu schätzt.

In manchen Fällen sind einzelne Messwerte der Stichprobe unterschiedlich über- oder unterrepräsentiert oder die Messwerte haben unterschiedliche Auftrittswahrscheinlichkeiten. In einem solchen Fall kann mit der erweiterten Formel

σ x y 1 W i w i ( x i x ¯ ) ( y i y ¯ ) {\displaystyle \sigma _{xy}\approx {\tfrac {1}{W}}\sum _{i}w_{i}\left(x_{i}-{\bar {x}}\right)\left(y_{i}-{\bar {y}}\right)}

jedem Messwert zum Ausgleich ein individuelles Gewicht w i {\displaystyle w_{i}} zugeordnet werden. Wenn die Gewichte zur Korrektur von relativen Häufigkeiten verwendet werden, dann ist die erwartungstreue Normierung

1 W = 1 1 + i w i {\displaystyle {\tfrac {1}{W}}={\frac {1}{-1+\sum _{i}w_{i}}}}

zu verwenden. Bei Gewichten, die eine Wahrscheinlichkeit angeben, mit der das Wertepaar in einer Stichprobe zu finden ist, muss dagegen mit

1 W = i w i ( i w i ) 2 i w i 2 {\displaystyle {\tfrac {1}{W}}={\frac {\sum _{i}w_{i}}{\left(\sum _{i}w_{i}\right)^{2}-\sum _{i}w_{i}^{2}}}}

normiert werden. Die Mittelwerte x ¯ {\displaystyle {\bar {x}}} und y ¯ {\displaystyle {\bar {y}}} werden dabei mit den jeweiligen Gewichten gebildet:

x ¯ = i w i x i i w i {\displaystyle {\bar {x}}={\frac {\sum _{i}w_{i}x_{i}}{\sum _{i}w_{i}}}} , y ¯ = i w i y i i w i {\displaystyle {\bar {y}}={\frac {\sum _{i}w_{i}y_{i}}{\sum _{i}w_{i}}}} .

Eigenschaften

Siehe auch: Kovarianz (Stochastik)#Eigenschaften und Rechenregeln

Beziehung zur Varianz

Die Kovarianz ist eine Erweiterung der Varianz, denn es gilt

  • s 2 = s x x {\displaystyle s'^{2}=s_{xx}} bzw.
  • s 2 = σ ^ x x {\displaystyle s^{2}={\hat {\sigma }}_{xx}} .

Dabei ist s 2 {\displaystyle s'^{2}} und s 2 {\displaystyle s^{2}} die empirischen Varianzen mit passendem Vorfaktor. Das heißt, die Varianz ist die Kovarianz einer Variable mit sich selbst.

Verschiebungssatz

Der Verschiebungssatz liefert eine alternative Darstellung der Kovarianz

  • s x y = 1 n ( i = 1 n ( x i y i ) n x ¯ y ¯ ) = ( 1 n i = 1 n x i y i ) x ¯ y ¯ {\displaystyle s_{xy}={\frac {1}{n}}\left(\sum _{i=1}^{n}{(x_{i}y_{i})-n{\bar {x}}{\bar {y}}}\right)=\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}y_{i}\right)-{\bar {x}}{\bar {y}}} .
  • σ ^ x y = 1 n 1 ( i = 1 n ( x i y i ) n x ¯ y ¯ ) {\displaystyle {\hat {\sigma }}_{xy}={\frac {1}{n-1}}\left(\sum _{i=1}^{n}{(x_{i}y_{i})-n{\bar {x}}{\bar {y}}}\right)} .

Diese Formeln ermöglichen in vielen Fällen eine einfachere Berechnung der Kovarianz. Bei numerischer Rechnung muss dabei allerdings auf unerwünschte Stellenauslöschung bei der Subtraktion großer Zahlen geachtet werden.

Symmetrie und Linearität

Die Kovarianz ist linear und symmetrisch, d. h. es gilt:

Symmetrie
Beim Vertauschen der Rollen von x i {\displaystyle x_{i}} und y i {\displaystyle y_{i}} ergibt sich der gleiche Wert für die Kovarianz:
  • s x y = s y x {\displaystyle s_{xy}=s_{yx}} bzw.
  • σ ^ x y = σ ^ y x {\displaystyle {\hat {\sigma }}_{xy}={\hat {\sigma }}_{yx}}
Linearität
Wird eine der Variablen einer linearen Transformation unterzogen, z. B. u i = a + b x i {\displaystyle u_{i}=a+b\cdot x_{i}} , so gilt
  • s u y = b s x y {\displaystyle s_{uy}=bs_{xy}} bzw.
  • σ ^ u y = b σ ^ y x {\displaystyle {\hat {\sigma }}_{uy}=b{\hat {\sigma }}_{yx}}
Wegen der Symmetrie ist die Kovarianz auch im zweiten Argument linear.

Die Linearität der Kovarianz hat zur Folge, dass die Kovarianz von der Maßeinheit der Variablen abhängt. So erhält man beispielsweise die zehnfache Kovarianz, wenn man anstatt X {\displaystyle X} die Variable 10 X {\displaystyle 10X} betrachtet. Da diese Eigenschaft die absoluten Werte der Kovarianz schwer interpretierbar macht, betrachtet man häufig stattdessen den maßstabsunabhängigen Korrelationskoeffizienten.

Beispiele

Beispiel 1

Die folgende Grafik zeigt für 21 verschiedene Datensätze jeweils das Streudiagramm zusammen mit der Kovarianz s x y {\displaystyle s_{xy}} und der Korrelation r x y {\displaystyle r_{xy}} des Datensatzes. Die erste Reihe zeigt sieben Datensätze mit unterschiedlich starkem linearen Zusammenhang, wobei die Korrelation r x y {\displaystyle r_{xy}} von +1 über 0 nach −1 geht. Da die Kovarianz ein nicht-standardisiertes Maß ist, geht sie von +2 auf Null bis auf −2. D.h., wenn es keinen linearen Zusammenhang gibt, dann ist die Kovarianz genauso Null wie die Korrelation. Das Vorzeichen der Kovarianz zeigt die Richtung des Zusammenhangs an; jedoch zeigt sie nicht die Stärke des Zusammenhangs.

Noch deutlicher wird es in der zweiten Zeile, wo alle sieben Datensätze einen perfekten linearen Zusammenhang haben. Doch die Kovarianz s x y {\displaystyle s_{xy}} nimmt ab auf Null und wird dann negativ. Die Korrelation r x y {\displaystyle r_{xy}} ist für diese Datensätze entweder +1 oder −1 (bzw. undefiniert). Die dritte Zeile zeigt schließlich, dass sowohl die Kovarianz als auch die Korrelation Null ist, obwohl ein deutlicher Zusammenhang zwischen beiden Variablen sichtbar ist. D.h. die Kovarianz misst nur den linearen Zusammenhang und nicht-lineare Zusammenhänge werden nicht erkannt.

Kovarianz '"`UNIQ--postMath-00000037-QINU`"' und Korrelation '"`UNIQ--postMath-00000038-QINU`"' für unterschiedliche Datensätze.
Kovarianz s x y {\displaystyle s_{xy}} und Korrelation r x y {\displaystyle r_{xy}} für unterschiedliche Datensätze.

Beispiel 2

In einer Schule soll überprüft werden, ob es einen Zusammenhang gibt zwischen der Anzahl der unterrichteten Stunden der Lehrer am Tag und der Anzahl der getrunkenen Tassen Kaffee. Es wurden zehn Datenpaare erhoben und ausgewertet (so nicht durchgeführt, nur der Anschauung halber!):

Nummer 1 2 3 4 5 6 7 8 9 10
Anzahl Stunden ( x i {\displaystyle x_{i}} ) 5 6 8 4 6 6 5 7 5 4
Anzahl Tassen ( y i {\displaystyle y_{i}} ) 2 1 4 1 2 0 2 3 3 1

Die Kovarianz wird nun folgendermaßen berechnet:
a.) Zunächst wird das arithmetische Mittel beider Variablen ermittelt:

x ¯ = 1 n i = 1 n x i = ( 5 + 6 + 8 + 4 + 6 + 6 + 5 + 7 + 5 + 4 ) 10 = 5 , 6 {\displaystyle \textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {(5+6+8+4+6+6+5+7+5+4)}{10}}=5{,}6} und y ¯ = 1 n i = 1 n y i = ( 2 + 1 + 4 + 1 + 2 + 0 + 2 + 3 + 3 + 1 ) 10 = 1 , 9 {\displaystyle \textstyle {\bar {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i}={\frac {(2+1+4+1+2+0+2+3+3+1)}{10}}=1{,}9}

b.) Die Kovarianz wird nun berechnet über: s x y := 1 n i = 1 n ( x i x ¯ ) ( y i y ¯ ) {\displaystyle s_{xy}:={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}

= ( 5 5 , 6 ) ( 2 1 , 9 ) + ( 6 5 , 6 ) ( 1 1 , 9 ) + ( 8 5 , 6 ) ( 4 1 , 9 ) + ( 4 5 , 6 ) ( 1 1 , 9 ) + ( 6 5 , 6 ) ( 2 1 , 9 ) + ( 6 5 , 6 ) ( 0 1 , 9 ) + ( 5 5 , 6 ) ( 2 1 , 9 ) + ( 7 5 , 6 ) ( 3 1 , 9 ) + ( 5 5 , 6 ) ( 3 1 , 9 ) + ( 4 5 , 6 ) ( 1 1 , 9 ) 10 {\displaystyle ={\tfrac {(5-5{,}6)(2-1{,}9)+(6-5{,}6)(1-1{,}9)+(8-5{,}6)(4-1{,}9)+(4-5{,}6)(1-1{,}9)+(6-5{,}6)(2-1{,}9)+(6-5{,}6)(0-1{,}9)+(5-5{,}6)(2-1{,}9)+(7-5{,}6)(3-1{,}9)+(5-5{,}6)(3-1{,}9)+(4-5{,}6)(1-1{,}9)}{10}}}
= 0 , 76 {\displaystyle =0{,}76}

Da die Kovarianz größer als null ist, ist für diese Stichprobe ein positiver Zusammenhang zwischen der Anzahl der Unterrichtsstunden und der Anzahl der Tassen Kaffee ersichtlich. Ob dies auf die Grundgesamtheit, hier das Lehrerkollegium, generalisierbar ist, hängt von der Qualität der Stichprobe ab.

Stichproben-Kovarianzmatrix

Gegeben ist eine Datenmatrix

x = ( x 1 T x n T ) = ( x 11 x 1 k x 21 x 2 k x n 1 x n k ) {\displaystyle \mathbf {x} ={\begin{pmatrix}\mathbf {x} _{1}^{\mathrm {T} }\\\vdots \\\mathbf {x} _{n}^{\mathrm {T} }\end{pmatrix}}={\begin{pmatrix}x_{11}&\dots &x_{1k}\\x_{21}&\dots &x_{2k}\\\vdots &\vdots &\vdots \\x_{n1}&\dots &x_{nk}\end{pmatrix}}}

mit n {\displaystyle n} Stichproben zu k {\displaystyle k} Variablen, das heißt: in Reihe i {\displaystyle i} ist die Stichprobe x i T = ( x i 1 , , x i k ) T {\displaystyle \mathbf {x} _{i}^{\mathrm {T} }=(x_{i1},\dots ,x_{ik})^{\mathrm {T} }} . Die Stichproben-Kovarianzmatrix wird in diesem Fall die Dimension k × k {\displaystyle k\times k} besitzen.

Eine Schätzung der Kovarianzmatrix in der Grundgesamtheit Σ ^ {\displaystyle {\widehat {\mathbf {\Sigma } }}} erhält man, indem man die Varianzen und Kovarianzen in der Grundgesamtheit Var ( X i ) = σ i 2 {\displaystyle \operatorname {Var} (X_{i})=\sigma _{i}^{2}} und Cov ( X i , X j ) = σ i j , i j {\displaystyle \operatorname {Cov} (X_{i},X_{j})=\sigma _{ij}\;,i\neq j} durch die empirischen Varianzen und empirischen Kovarianzen (ihre empirischen Gegenstücke) σ ^ j 2 = s j 2 {\displaystyle {\hat {\sigma }}_{j}^{2}=s_{j}^{2}} und σ ^ j k = s j k {\displaystyle {\hat {\sigma }}_{jk}=s_{jk}} ersetzt (sofern die x {\displaystyle x} -Variablen Zufallsvariablen darstellen schätzen die die Parameter in der Grundgesamtheit). Diese sind gegeben durch[1][2]

σ ^ j 2 = s j 2 := 1 n 1 i = 1 n ( x i j x ¯ j ) 2 {\displaystyle {\hat {\sigma }}_{j}^{2}=s_{j}^{2}:={\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(x_{ij}-{\overline {x}}_{j}\right)^{2}\;} und σ ^ j k = s j k := 1 n 1 i = 1 n ( x i j x ¯ j ) ( x i k x ¯ k ) {\displaystyle \;{\hat {\sigma }}_{jk}=s_{jk}:={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{ij}-{\overline {x}}_{j})(x_{ik}-{\overline {x}}_{k})} .

Dies führt zur Stichproben-Kovarianzmatrix S {\displaystyle \mathbf {S} } :

S = Σ ^ = Cov ( X ) ^ = 1 n 1 i = 1 n ( x i x i ¯ ) ( x i x i ¯ ) T = ( s 1 2 s 12 s 1 k s 21 s 2 2 s 2 k s k 1 s k 2 s k 2 ) {\displaystyle {\begin{aligned}\mathbf {S} ={\widehat {\mathbf {\Sigma } }}={\widehat {\operatorname {Cov} (\mathbf {X} )}}&={\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(\mathbf {x} _{i}-{\overline {\mathbf {x} _{i}}}\right)\left(\mathbf {x} _{i}-{\overline {\mathbf {x} _{i}}}\right)^{\mathrm {T} }={\begin{pmatrix}s_{1}^{2}&s_{12}&\cdots &s_{1k}\\\\s_{21}&s_{2}^{2}&\cdots &s_{2k}\\\\\vdots &\vdots &\ddots &\vdots \\\\s_{k1}&s_{k2}&\cdots &s_{k}^{2}\end{pmatrix}}\end{aligned}}} .

Zum Beispiel sind s 2 2 {\displaystyle s_{2}^{2}} und s 12 {\displaystyle s_{12}} gegeben durch

σ ^ 2 2 = s 2 2 := 1 n 1 i = 1 n ( x i 2 x ¯ 2 ) 2 {\displaystyle {\hat {\sigma }}_{2}^{2}=s_{2}^{2}:={\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(x_{i2}-{\overline {x}}_{2}\right)^{2}\;} und σ ^ 12 = s 12 := 1 n 1 i = 1 n ( x i 1 x ¯ 1 ) ( x i 2 x ¯ 2 ) {\displaystyle \;{\hat {\sigma }}_{12}=s_{12}:={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i1}-{\overline {x}}_{1})(x_{i2}-{\overline {x}}_{2})} ,

mit dem arithmetischen Mittel

x ¯ 2 := 1 n i = 1 n x i 2 {\displaystyle {\overline {x}}_{2}:={\frac {1}{n}}\sum _{i=1}^{n}{x_{i2}}} .

Beispiel

Bei 10 Datenpunkten seien jeweils die Werte x 1 {\displaystyle x_{1}} und x 2 {\displaystyle x_{2}} gemessen worden:

Messwerte
x 1 {\displaystyle x_{1}} x 2 {\displaystyle x_{2}}
1,0 1,41
2,0 1,56
2,0 2,19
4,0 2,79
5,0 3,04
6,0 2,23
9,0 3,74
9,0 3,84
9,0 2,80
13,0 4,18

Die Berechnung des geschätzten Mittelwertes ergibt: μ ^ 1 = 6 {\displaystyle {\hat {\mu }}_{1}=6} , μ ^ 2 = 2 , 78 {\displaystyle {\hat {\mu }}_{2}=2{,}78} , σ ^ 1 = 13 , 8 {\displaystyle {\hat {\sigma }}_{1}=13{,}8}  ; σ ^ 2 = 0 , 81 {\displaystyle {\hat {\sigma }}_{2}=0{,}81} , cov ^ 1 , 2 = 2,972 {\displaystyle {\hat {\text{cov}}}_{1,2}=2{,}972} .

Daher ist die Stichprobenkovarianzmatrix C = ( 13 , 8 2,972 2,972 0 , 81 ) {\displaystyle C={\begin{pmatrix}13{,}8&2{,}972\\2{,}972&0{,}81\end{pmatrix}}} .

In Bezug auf den Mittelpunkt ( μ ^ 1 , μ ^ 2 ) {\displaystyle ({\hat {\mu }}_{1},{\hat {\mu }}_{2})} der Punktwolke kann im Diagramm eine Konzentrationsellipse eingezeichnet werden. Die Punkte auf dem Rand der Ellipse sind also durch folgende Menge gegeben:

{ ( x 1 , x 2 ) C 1 ( x 1 x 2 ) = k 2 } {\displaystyle \lbrace (x_{1},x_{2})C^{-1}{\begin{pmatrix}x_{1}\\x_{2}\end{pmatrix}}=k^{2}\rbrace } .

Siehe auch

Einzelnachweise

  1. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 648.
  2. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008., S. 156.